{ "cells": [ { "cell_type": "markdown", "source": [ "## **Spotifyから取得したナイジェリア音楽の分析**\n", "\n", "クラスタリングは、[教師なし学習](https://wikipedia.org/wiki/Unsupervised_learning)の一種で、データセットがラベル付けされていない、または入力が事前定義された出力と一致していないと仮定します。この手法では、さまざまなアルゴリズムを使用してラベルのないデータを分類し、データ内で見つけたパターンに基づいてグループ化を行います。\n", "\n", "[**事前クイズ**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **はじめに**\n", "\n", "[クラスタリング](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124)は、データ探索に非常に役立ちます。ナイジェリアのオーディエンスが音楽を消費する方法におけるトレンドやパターンを発見できるか見てみましょう。\n", "\n", "> ✅ クラスタリングの用途について少し考えてみてください。日常生活では、洗濯物の山を家族ごとに仕分けるときにクラスタリングが行われます 🧦👕👖🩲。データサイエンスでは、ユーザーの好みを分析したり、ラベルのないデータセットの特性を特定したりするときにクラスタリングが行われます。クラスタリングは、いわば混沌を整理する手助けをしてくれるのです。例えば、靴下の引き出しのように。\n", "\n", "プロの現場では、クラスタリングは市場セグメンテーションや、どの年齢層がどの商品を購入するかを特定するのに使われます。また、クレジットカード取引のデータセットから不正を検出する異常検出にも利用されます。あるいは、医療スキャンのバッチから腫瘍を特定するのにも使えるでしょう。\n", "\n", "✅ 銀行業務、eコマース、ビジネスの場で、クラスタリングに出会った経験について考えてみてください。\n", "\n", "> 🎓 興味深いことに、クラスタリング分析は1930年代に人類学や心理学の分野で始まりました。それがどのように使われていたか想像できますか?\n", "\n", "また、検索結果をグループ化するためにも使用できます。例えば、ショッピングリンク、画像、レビューなどです。クラスタリングは、大規模なデータセットを縮小し、より詳細な分析を行いたい場合に役立ちます。この技術を使用することで、他のモデルを構築する前にデータについて学ぶことができます。\n", "\n", "✅ データがクラスタに整理されたら、クラスタIDを割り当てます。この技術は、データセットのプライバシーを保護する際に役立ちます。クラスタ内の他の要素ではなく、クラスタIDでデータポイントを参照することができます。他の要素ではなくクラスタIDを使用してデータを識別する理由を考えてみてください。\n", "\n", "### クラスタリングの始め方\n", "\n", "> 🎓 クラスタを作成する方法は、データポイントをどのようにグループ化するかに大きく関係しています。いくつかの用語を解説しましょう:\n", ">\n", "> 🎓 ['推論的' vs. '帰納的'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> 推論的推論は、特定のテストケースに対応する観測されたトレーニングケースから導き出されます。一方、帰納的推論は、一般的なルールをトレーニングケースから導き出し、それをテストケースに適用します。\n", ">\n", "> 例:部分的にラベル付けされたデータセットがあるとします。一部は「レコード」、一部は「CD」、一部は空白です。空白部分にラベルを付けるのがあなたの仕事です。帰納的アプローチを選ぶ場合、「レコード」と「CD」を探すモデルをトレーニングし、そのラベルを未ラベルのデータに適用します。このアプローチでは、実際には「カセット」であるものを分類するのが難しくなります。一方、推論的アプローチは、未知のデータをより効果的に処理します。似たアイテムをグループ化し、そのグループにラベルを付けるからです。この場合、クラスタは「丸い音楽アイテム」や「四角い音楽アイテム」を反映するかもしれません。\n", ">\n", "> 🎓 ['平面' vs. '非平面'の幾何学](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> 数学用語に由来するこの概念は、クラスタ内の点間の距離を「平面的」([ユークリッド](https://wikipedia.org/wiki/Euclidean_geometry))または「非平面的」(非ユークリッド)な方法で測定することを指します。\n", ">\n", "> この文脈での「平面」とはユークリッド幾何学(「平面幾何学」として教えられる部分)を指し、「非平面」とは非ユークリッド幾何学を指します。機械学習と幾何学がどう関係するのかと思うかもしれませんが、どちらも数学に根ざした分野であり、クラスタ内の点間の距離を測定する共通の方法が必要です。データが平面上に存在しないように見える場合、特別なアルゴリズムを使用する必要があるかもしれません。\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"