クラスター分析とは?分析方法と具体的なやり方をご紹介します!

クラスター分析

企業のマーケティングリサーチなどで用いられるクラスター分析は数多くのデータを類似するグループに分類する手法です。このため、企業のマーケティング分析などでもよく用いられています。クラスター分析を行うにあたっては、手法の選択や分析手順など、いくつか押さえておくべきポイントがあります。この記事ではクラスター分析の種類や使い分け、注意点などについて解説します。

新型コロナで有名になった「クラスター」ですが、クラスターの本来の意味は「グループ」や「集団」などを表す言葉です。そして、データを特性に応じていくつかのクラスターに分け、分析するのがクラスター分析です。分類基準が曖昧な対象を分類するときによく用いられます。

クラスター分析には「階層クラスター」と「非階層クラスター」があります。ここでは、それぞれの分析方法や使い方について解説します。

階層クラスターとは、デンドログラムと呼ばれる階層構造で類似のクラスターを表す方法です。デンドログラムを見ると、一目で類似のクラスターが分かるのが特徴です。
以下に階層クラスター分析の代表的な方法を掲載します。

分析方法 内容
ウォード法 クラスターの結びつきが最も小さな値値となるように平方和を算出する。精度が高い。
最短距離法
(最近隣法)
最も近いデータで距離を計算し、クラスターの距離とする。
最長距離法
(最遠隣法)
最も遠いデータで距離を計算し、クラスターの距離とする。
重心法 クラスター間の重心の距離でクラスターの類似度を測る。データ数を重みとして用いる。
群平均法 最短距離法と最長距離法を折衷した方法。2つのクラスターから1つずつデータを取り出して距離を求め、それらの距離の平均値をクラスターの距離とする。
メディアン法 重心法の変形。クラスター間の重心の距離を求める際、重みが等しいものとして計算する。

非階層クラスターとはクラスター数や初期値をあらかじめ決めておき、対象データを分類する手法です。代表的手法には以下の方法があります。

分析方法 内容
k-means法
(k平均法)
クラスターの数を初期値として最初に決め、データを一旦分ける。その後、それぞれのクラスターの重心の距離が最も大きくなるように繰り返して分ける。
超体積法 点集合を凸多面体とみなし、体積が最小になるように分割する。

クラスター分析するときの手順

クラスター分析で有益な結果を得るためには事前準備が大切です。ここでは事前準備に必要な5つの手順を紹介します。

最初に行うのは「分析する目的を確認する」ことです。なぜなら、目的が曖昧だと適切なクラスター分析手法や解析手法を選ぶことができず、期待した結果が得られないからです。

例えば、メールマガジンを配信するにあたり、対象となるターゲットを絞りこむためにクラスター分析を行うことになったとしましょう。このとき、「分析の対象は何か?」、「どのような分析結果を得たいのか?」、「分析結果をどのように活用したいのか?」など目的を明確にします。例えば、「顧客育成のためにターゲットとなる対象を明確にしたい」、「顧客の興味がありそうなテーマを配信したい」などです。

配信にあたり、年齢や性別などの一般的な顧客属性に加え、顧客の関心あるテーマの選定が重要です。このため、購買傾向などは重要な要素のため、分析の対象となります。

このように、分析の目的を明確にすることでクラスター分析の対象を明確にできます。

目的が明確になったら、次に必要なのは「目的を達成できる分析方法を選ぶ」ことです。なぜなら、2つの分析手法は全く性質が異なり、分析の目的や対象によって分析手法の選択が変わるからです。このため、目的や分析対象に応じて手法を採用しないと適切な分析結果を得ることができません。

階層クラスターは結果を可視化しやすいというメリットがある一方で、ビッグデータなどの多数のデータの分析には向いていません。一方、非階層クラスターはビッグデータなどの分析でも安定した結果を得ることができるが、あらかじめ初期設定を決めておく必要があります。このため、初期設定が重要となります。

データの数が比較的少なく、分類しやすい対象であれば階層クラスターを、ビッグデータの分析であれば非階層クラスターを選択することになります。

分析方法が決まったら、次に決めないといけないのは「類似度の算出方法」です。

クラスター分析は分析対象のデータを類似のものに分類し、集計する手法ですが、そもそも似ているかどうかをどのように判断するのでしょうか?類似かどうかを判断する基準となるのが「距離」です。つまり、距離が近ければ近いほど「似ている」と判断できます。

先に紹介した通り、階層クラスターでは下記の通り、それぞれ距離の算出の方法が異なります。

分析方法 内容
ウォード法 クラスターの結びつきが最も小さな値値となるように平方和を算出する。精度が高い。
最短距離法
(最近隣法)
最も近いデータで距離を計算し、クラスターの距離とする。
最長距離法
(最遠隣法)
最も遠いデータで距離を計算し、クラスターの距離とする。
重心法 クラスター間の重心の距離でクラスターの類似度を測る。データ数を重みとして用いる。
群平均法 最短距離法と最長距離法を折衷した方法。2つのクラスターから1つずつデータを取り出して距離を求め、それらの距離の平均値をクラスターの距離とする。
メディアン法 重心法の変形。クラスター間の重心の距離を求める際、重みが等しいものとして計算する。


一方、非階層クラスターの代表的手法には以下の方法があります。

分析方法 内容
k-means法
(k平均法)
クラスターの数を初期値として最初に決め、データを一旦分ける。その後、それぞれのクラスターの重心の距離が最も大きくなるように繰り返して分ける。
超体積法 点集合を凸多面体とみなし、体積が最小になるように分割する。


距離を算出するにあたって重要なのは「バランス」です。一般的に、「ウォード法」や「k平均法(k-means法)」はバランスを取りやすく、問題が生じにくい手法として知られています。

最後に必要なのは「クラスターの形成方法を決める」ことです。なぜなら、どの方法を選択するかによって、クラスターが形成される順番やバランスが異なるからです。分析結果の活用目的や得たい結果に応じてクラスターの形成方法を決定します。そして、これまで述べた4つの事項を決めたらクラスター分析を実施します。

しかしながら、クラスター分析の結果は「データを分類した結果」にすぎません。活用するためには、分析結果を適切に考察することが必要です。考察結果が適切でなければ、分析に費やした労力も徒労に終わってしまいます。

例えば、スイーツのマーケティング活動で購買傾向を分析したとしましょう。そして、「甘さ控えめ志向」、「適度な甘さ志向」、「ガッツリ甘いもの志向」というクラスターが形成されたとします。しかし、本来であれば「適度な甘さ志向」と解釈すべきところを「ガッツリ甘いもの志向」と解釈すると、その後のマーケティング活動の施策も異なるものとなります。

クラスター分析の結果を次のアクションに活かすためにも、分類した結果を適切に捉えることが大切です。 分析結果を有益なものとするためにも、結果を適切に捉え、活用していきましょう。

ここまでクラスター分析のやり方を述べてきましたが、実際にクラスター分析を行うにあたっては注意点があります。ここではクラスター分析の注意点について、2つ紹介します。

1つめの注意点は「クラスター分析を採用する目的と仮説は最低限チェックする」ことです。

目的が明確でなければ、対象とするデータの定義や類似性が不明のため、適切な結果を得ることができません。また、クラスター分析はあくまで「類似の対象物を箱に分類する」ことに過ぎません。つまり、クラスター分析で得られた結果の解釈は分析者自身の判断に委ねられています。このため、適切に判断しなければ、その後の活動も的外れなものとなってしまいます。

それを防ぐためにも、「形成されるクラスターはいくつになるのか?」「どのような傾向でクラスターに分類されるのか?」など、あらかじめ仮説を立てておくことが大切です。あらかじめ仮説を立てておくことで、分類した結果が妥当かどうかの検証が容易になります。また、仮に仮説と大きく異なったとしても、仮説と実際の結果の差異理由の判断も容易になります。

このため、あらかじめ仮説を立てておくようにしましょう。

2つめの注意点は「主観的な部分が入ってしまうことがある」ことです

先にも述べたように、クラスター分析で得られた結果の解釈や分析結果の活用は分析者自身の判断に委ねられています。このため、「このクラスターはこういう傾向があるに違いない」など、どうしてもクラスターの分析では分析者の主観的な判断が入ってしまいます。

また、ビッグデータの分析などで用いられる非階層クラスター分析では、あらかじめクラスター数や初期値などを決めておく必要があり、あらかじめ決めておいたクラスター数や初期値に結果が左右されてしまいます。このため、得られた結果を絶対視せず、客観的な視点で捉えることが大切です。

とはいえ、クラスター分析は市場調査や顧客リサーチなどにおいて、結果の傾向を確認するには有効なツールです。適切な手法や手順を行い、結果を有効に活用していきましょう。

活用方法としては、「商品のリピーターである可能性がある」「競合商品から離脱している可能性がある」「この商品はコンビニでよく購入される」などが挙げられます。

お問い合わせ

流通横断かつユーザ軸での貴社/競合ユーザ様の購買動向の違いが分かります。

詳細資料・サンプルレポートをご希望の方は、お気軽にお問い合わせください。