クラスター分析とは?
マーケティング知識をわかりやすく解説

クラスター分析とは?マーケティング知識をわかりやすく解説

インターネット社会の到来によって、誰もが手軽に情報を入手できる時代になりました。消費者の価値観が多様化していく中、従来のような市場全体を対象としたマス・マーケティングだけでなく、顧客一人ひとりのニーズに合わせた新しいマーケティング戦略が求められています。クラスター分析を用いることで、市場において似たもの同士の消費者や商品などを明らかにすることが可能です。この記事では、クラスター分析について徹底解説します。

クラスター分析とは、大きな集団の中から、類似性のある似たもの同士グループを作り、情報の関連性を見えやすくするマーケティング手法です。英語のクラスターという言葉には、「集団」や「かたまり」、あるいは「(花や実の)房」といった意味があります。多人数に対して行ったアンケートなどを集計し、顧客や商品をセグメントに分ける際の方法として効果的です。分類されたデータから、似ているか、似ていないかが判断され、データ間の距離を把握できます。さらに、自社のポジショニング戦略や、特定集団をターゲットにしたマーケティングを効率的に進められるでしょう。

クラスター分析には、大きく分けて階層クラスター分析と非階層クラスター分析の2種類があります。それぞれの特徴を見ていきましょう。

階層クラスター分析とは、最も似ているクラスター同士を逐次的にまとめていく手法です。1つひとつがまとめられる過程は、樹形図(デンドログラム)で表されます。一見すると階層構造のあるトーナメント表のようですが、どのクラスターが似ているのか、あるいは似ていないのかを視覚的に理解できます。

階層クラスター分析を行う際、分類の切り口にはさまざまなものがあります。自社ブランドや商品の選好度データを分析すれば、顧客の好みに応じた商品の分類が可能になるでしょう。その他にも、性別や年齢層、顧客の購買履歴など、調査の目的に応じて分析にかけるデータを選べます。

ただし分類するデータ量が多すぎると、分析結果の把握が難しくなります。そのため、適切なデータ量を用いて分類分けを行っていくことが求められます。階層クラスター分析の4つの手法例を見ていきましょう。

ウォード法では、クラスター間の距離を計算し、最も近い距離にある2つのクラスターを結合します。クラスター内の分散が最も小さくなるように、再び属性の近いクラスターと合併します。ウォード法は計算量が多くなりますが、分類感度が高く、データのばらつきが抑えられているので、デンドログラムが見やすいのが特徴です。

群平均法とは、2つのクラスターを構成するデータの距離を、すべての組み合わせで計算し、その平均を新たなクラスター間の距離とする手法です。群平均法では、すべての距離の平均値を用いるのが特徴です。ウォード法と比べて計算量が少なく、分析結果が判断しにくい鎖効果があまり起こらないというメリットがあります。

クラスター化した後のデータを比べるときには、複数のデータが1つのクラスター内に含まれているため、どのデータを距離測定の際に採用するかによって分析結果が変わってしまう欠点があります。しかし、群平均法を利用することで、クラスター内の外れ値に影響されにくくなるので覚えておきましょう。

最短距離法は、すべての組み合わせの中で、最も近いデータ同士の距離をクラスター間の距離とします。計算量は少ないですが、極端な数値を示している外れ値の影響を受けやすいのはデメリットです。クラスターの中で何が主流となっているのかを知りたいときに、最短距離法は役立ちます。

一方で最長距離法は、クラスター内のデータのうちで、最も遠い距離をクラスター間の距離とします。最長距離法を用いるメリットとしては、クラスター間の距離が一定になることが多く、分類感度が高くなることです。最短距離法と同様に計算量が少ないですが、やはり外れ値があると分析に支障が出ることが少なくありません。また、クラスターが大きくなると、どうしても他のクラスターと最長距離を持つことが多くなります。その結果、クラスターの適切な形成を阻害する拡散現象が起きてしまう可能性があるので注意しましょう。

重心法とは、クラスター間の距離を定義する際に、クラスターの重心から測る手法です。たとえば、ひとつのクラスターに3つのデータが含まれている場合、そのクラスターの重心は三角形の重心の位置になります。他のクラスターと距離を測るときには、この重心同士の距離を測ります。重心法は計算量が少なく、クラスター内の個体数が反映される特徴があります。

クラスター分析のもうひとつの種類として、非階層クラスター分析があります。非階層クラスター分析も、大きな集団の中で似たもの同士を分類する手法ですが、樹形図で過程を示すデンドログラムは用いずに、類似性の高いデータと異なるデータを分類します。そのためビッグデータのように大量のデータ分析にも活用できます。主な手法例であるk-means法を見ていきましょう。

k-means法とは、あらかじめクラスター数を決めてしまうのが特徴です。設置したクラスター数だけ中心点の位置をランダムに決め、距離が近いもの、つまり類似性の高いものを、クラスターにまとめられていきます。k-means法のメリットは、大量のデータでも活用できることと、すべてのデータ間の距離を測る必要がなくなるため、計算量が少ないことです。ただし、最初に中心点をランダムに決めるため、計算する度に結果が変化する傾向があります。より正確な分析結果を得るには、繰り返し分析を行い、結果を比較することが重要です。

クラスター分析の定義を確認した後は、具体的な分析の進め方を見ていきましょう。

まずはクラスター分析の種類を決める必要があります。似た属性のデータがクラスター化するのを視覚的に把握したい場合には、階層クラスター分析を選択しましょう。デンドログラムによって、直感的な理解が可能です。しかし、大量のデータを分析する場合には、非階層クラスター分析が最適です。データ容量に関係なく、似ているデータと似ていないデータを分類できます。

クラスター分析を行ううえで、データ同士の距離を算出する方法には、「ユークリッド距離」や「マハラノビス距離」、「マンハッタン距離」などがあります。それぞれどのような違いがあるのかを見ていきましょう。まず、ユークリッド距離は、2点間の直線距離を定規で測るような、最も一般的な距離のことです。

次に、マハラノビス距離は、距離だけではなく相関関係も考慮する考え方です。たとえば新しい点の属性を決める場合、新しい点とデータ群A・データ群Bの距離は等しいと前提します。新しい点はデータ群Aのみに含まれているとしたら、マハラノビス距離の考え方では、新しい点はデータ群Aとの類似値が高く、データ群Aに属すると判別できます。

最後に、マンハッタン距離は、点同士の差の総和を2点間の距離とする考え方です。つまり、碁盤の目のような道路を、車で移動する時の実際の走行距離です。ユークリッド距離がただ距離だけを問題にしているのに対して、マンハッタン距離ではひとつのデータでも距離が離れていれば、遠い距離と判断されます。こういった距離を使い分けることで、データの類似度を算出していくのがクラスター分析です。

ホームユーステスト(Home Use クラスターの類似度が確認された場合には、クラスターを合併させる必要があります。その際には、最も類似度の高いデータを合併させるウォード法や、あらかじめクラスター数を決めることで類似度の高いデータを合併させていくk-means法などを活用しましょう。ただし、こういった分析をすべて自分だけで行うのは無理があります。フリーソフトである「R」などの統計解析ソフトウエアを用いることで作業効率の向上を図りましょう。

クラスター分析をマーケティングで活用するための応用例を紹介!

クラスター分析は実際にどのような調査や分析に活用できるのでしょうか。クラスター分析の応用例を確認していきます。

クラスター分析を行う際には、事前に性別や年齢層、職業などの調査基準を設定する必要がありません。なぜなら、そういったデータも含めて、似ているものと似ていないものとを分類するための手法だからです。アンケートにおいて、類似性のあるデータをクラスター分析で把握しておくと、調査結果の判断基準がはっきりするため、経営戦略を練るうえで貴重な情報になります。

顧客が選んだ好きな商品の集計結果などは、階層クラスター分析を利用するのが適しています。たとえば回転すしチェーンで、顧客が好きなすしネタがクラスター化されている場合、そのグループ分けされたもの同士でセットメニューを作れます。しかし、アンケートのデータがあまりに多いと、デンドログラムの下部があまりにふくれてしまうので、データ分析の解釈が難しくなるでしょう。ビーグデータなどを分析する際には、非階層クラスター分析を行いましょう。

クラスター分析はDMの配布にも活用できます。会員カードやポイントカードには、顧客の性別や年齢、住所などに加えて、店舗訪問回数や購買履歴などのさまざまな情報が蓄積されています。たとえば公式アプリに登録する際に、基本的な顧客情報を記入してもらう場合もあるでしょう。そのようなデータをクラスター分析することで、保守タイプや高級品志向タイプなどの顧客の関心で分類したり、さらには20代のOLといった年齢層や性別、職業で分類できます。クラスターごとの顧客ニーズに合った情報をDMに載せることで、DMの開封率や反応率を向上できるでしょう。

関連記事:アンケート調査の調査方法や内容、主な例などを紹介!
関連記事:「定量調査」と「定性調査」はどう違う?有益な情報を得る方法

クラスター分析にはいくつか注意しなければならないことがあります。事前に確認しておきましょう。

クラスター分析の結果は100%正しいとは限りません。あらかじめクラスターの数を決めるk-means法などは、設定した数によって分析結果が大きく変化することもめずらしくありません。そのため分析者の意向や判断が、分析結果に影響を与える可能性があります。また、分析の手法の違いによっても結果が変わってしまうこともあるため、クラスター分析の結果を絶対視するのは避けた方が無難です。

クラスター分析の結果は100%正しいとは限りません。あらかじめクラスターの数を決めるk-means法などは、設定した数によって分析結果が大きく変化することもめずらしくありません。そのため分析者の意向や判断が、分析結果に影響を与える可能性があります。また、分析の手法の違いによっても結果が変わってしまうこともあるため、クラスター分析の結果を絶対視するのは避けた方が無難です。

関連記事:商圏分析とは?エリア内の競合に勝つための手法を覚えよう
関連記事:デシル分析って何?マーケティングの効果測定を簡単に行う方法

クラスター分析に役立つデータのひとつに、レシートデータが挙げられます。レシートには、顧客の思考や市場の実態を把握できる有益な情報が満載です。具体的にはレシート1枚で、日付・時間・商品名及び金額(値引・単価・個数)・合計金額・電話番号、さらには購入した店舗のチェーン名・店舗名などの情報からユーザーのリアルな購買行動を把握できます。

「IDレシートBIツール」なら、消費者の購買や併買のデータを、店舗・カテゴリーを横断的に確認できます。膨大なデータを自社で集計・分析するには時間がかかるという場合に利用すると、効果測定の手間が大幅に短縮できるでしょう。また、同ツールでは、独自で構築した膨大なレシートデータから、コンビニエンスストア・スーパー・ドラッグストアなどの店舗別の売れ行きを可視化しています。POSデータでは見えづらかった自社商品の「買う人」と「買われた」をしっかりと把握できるため、自社と競合商品の実売価格・売上が確認でき、顧客の理解だけではなく、商談時の資料としても利用可能です。

このように、レシートデータを活用してクラスター分析を実施すれば、顧客目線を意識したマーケティング戦略を実現できるでしょう。

「IDレシートBIツール」の詳しい情報はこちらをご覧ください。

クラスター分析とは、データの中から属性が似ているものを明らかにする分析手法です。あらかじめ分析の基準を入力する必要がないため、その基準をこれから決めるためにデータをざっくり分類したいという場合にも役立ちます。分類の過程を視覚的に見たい方は階層クラスター分析、ビッグデータのように大量のデータを処理する場合には非階層クラスター分析が便利です。用途によって使い分けながら、クラスター分析を活用しましょう。

お問い合わせ

流通横断かつユーザ軸での貴社/競合ユーザ様の購買動向の違いが分かります。

詳細資料・サンプルレポートをご希望の方は、お気軽にお問い合わせください。