クラスター解析とは?分析手法の種類と進め方、用いられるシーン

2022/2/3

クラスター解析とは

 クラスター(cluster)とは、類似した特徴を持つ集団を意味します。クラスター解析(クラスター分析)とは、異なる性質のものが混ざり合った状態の集団から、互いに似た性質のものを集め、クラスターを作るデータの分析手法(機械学習の手法)です。2つ以上の項目(変数)の間にある関係を統計的に分析する「多変量解析」という手法のうちのひとつでもあります。

クラスター解析の種類と方法

 クラスター解析は、大きく分けると階層型クラスタリングと非階層型クラスタリングの2種類の手法に分類されます。
 階層型クラスタリングは、最も類似度の高い組み合わせからクラスターを形成させていく方法で、途中過程が階層のように表され、最終的に樹形図として表示されます。樹形図生成に際しては、クラスター間の距離の測定が必要となります。その測定方法としては、ウォード法(重心と個体との偏差の二乗和を取る方法)、重心法(各クラスターの重心の組み合わせを用いる方法)、群平均法(各クラスターの個体間のすべての対の距離の平均を用いる方法)、最短距離法(各クラスターのそれぞれ最も近い距離の個体の組み合わせを用いる方法)やメディアン法(ある2つのクラスターの重心間の中央値と別のクラスターの重心を用いる方法)などがあり、扱うサンプルにより適切な方法を選択する必要があります。この手法ではクラスターの数を事前に決める必要がなく、結果として出力される樹形図から、分類の過程でできるクラスターがどのように結合されていくかを視覚的に確認できるので、クラスター数を後から決めることができるというメリットがあります。一方、計算量が膨大になる傾向があるため計算不能になるなどのデメリットがあります。
 非階層型クラスタリングは、階層的な構造を持たず、あらかじめクラスターの数を決め、指定の数のクラスターにサンプルを分割する方法です。類似性の高いサンプルを統計的に近い位置に集め、類似性の低いサンプルを遠ざける、ということを繰り返してグループ分けをしていく手法となります。代表的な手法として、k-means法(クラスターの平均:meansを用い、あらかじめ決められたクラスター数「k」個に分類する方法)が挙げられます。この手法は全サンプル間の距離を計算する階層的手法よりも計算量が少なくて済むため、ビッグデータを扱いやすいというメリットがあります。しなしながら、クラスターの数を事前に決める必要があり、試行錯誤が必要である点はデメリットとも言えます。

クラスター解析が用いられるシーン

 階層型クラスタリングは、マイクロアレイのような遺伝子発現解析におけるデータの分析などに用いられます。例えば、A、B、Cという物質にてそれぞれ処置した細胞の遺伝子の発現パターンの解析において、サンプル方向でのクラスタリングによって似ているサンプル(ここでは物質A、B、Cのうち似ている作用を示すものとも言えます)を見出したり、遺伝子方向でのクラスタリングによって発現パターンの似ている遺伝子を見出したりすることができます。また、例えばシグナル値の低い遺伝子を緑色、中間の遺伝子を黒色、高い遺伝子を赤色に色付けすること(色付けした図はヒートマップと呼ばれる)により、より視覚的に理解しやすい図を作ることもできます。
 非階層型クラスタリングは、多数のサンプル(個々のサンプルに多数の情報が含まれる)を扱うマーケティングリサーチなどに用いられます。例えば、潜在顧客にアンケートを実施し、その結果を元に予めいくつかのクラスターを設定した上で、似たパターンのデータを持った対象を同じクラスターに属するように自動でグルーピングを行うようアルゴリズムを組み、得られたデータ(個々のクラスターの特徴など)を活用してマーケティングに役立てることができます。

まとめ

 クラスター解析(クラスター分析)とは、異なる性質のものが混ざり合った状態の集団から、互いに似た性質のものを集め、クラスターを作るデータの分析手法であり、大きく分けると階層型クラスタリングと非階層型クラスタリングの2種類の手法があります。
 階層型クラスタリングは、最も類似度の高い組み合わせからクラスターを形成させていく方法で、途中過程が階層のように表され、最終的に樹形図として表示されます。マイクロアレイのような遺伝子発現解析におけるデータの分析などへ活用されています。
 非階層型クラスタリングは、階層的な構造を持たず、あらかじめクラスターの数を決め、指定の数のクラスターにサンプルを分割する方法で、多数のサンプル(個々のサンプルに多数の情報が含まれる)を扱うマーケティングリサーチなどに用いられます。