{ "cells": [ { "cell_type": "markdown", "source": [ "## **從 Spotify 擷取的尼日利亞音樂分析**\n", "\n", "聚類是一種[無監督學習](https://wikipedia.org/wiki/Unsupervised_learning)方法,假設數據集是未標記的,或者其輸入未與預定義的輸出匹配。它使用各種算法來整理未標記的數據,並根據數據中辨識出的模式提供分組。\n", "\n", "[**課前測驗**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **簡介**\n", "\n", "[聚類](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124)在數據探索中非常有用。讓我們看看它是否能幫助發現尼日利亞觀眾消費音樂的趨勢和模式。\n", "\n", "> ✅ 花一分鐘思考一下聚類的用途。在日常生活中,聚類就像當你有一堆洗好的衣服需要分類到家人各自的衣物中 🧦👕👖🩲。在數據科學中,聚類發生在分析用戶偏好或確定任何未標記數據集的特徵時。聚類在某種程度上幫助我們理解混亂,就像整理襪子抽屜一樣。\n", "\n", "在專業環境中,聚類可以用於確定市場細分,例如確定哪些年齡段購買哪些商品。另一個用途是異常檢測,比如從信用卡交易數據集中檢測欺詐行為。或者,你可以用聚類來識別一批醫學掃描中的腫瘤。\n", "\n", "✅ 花一分鐘思考一下你可能在銀行、電子商務或商業環境中遇到過的聚類。\n", "\n", "> 🎓 有趣的是,聚類分析起源於1930年代的人類學和心理學領域。你能想像它可能是如何被使用的嗎?\n", "\n", "另外,你可以用它來分組搜索結果,例如按購物鏈接、圖片或評論分組。當你有一個大型數據集需要縮減並進行更細緻的分析時,聚類技術非常有用,因此它可以在構建其他模型之前幫助了解數據。\n", "\n", "✅ 一旦你的數據被組織成聚類,你可以為其分配一個聚類 ID。這種技術在保護數據集隱私時非常有用;你可以用聚類 ID 而不是更具識別性的數據來引用數據點。你能想到其他使用聚類 ID 而不是聚類中其他元素來識別它的原因嗎?\n", "\n", "### 開始學習聚類\n", "\n", "> 🎓 我們如何創建聚類與我們如何將數據點分組密切相關。讓我們來解釋一些術語:\n", ">\n", "> 🎓 ['Transductive' vs. 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> 推導式推理是基於觀察到的訓練案例映射到特定測試案例。歸納式推理是基於訓練案例映射到一般規則,然後才應用於測試案例。\n", ">\n", "> 舉例:假設你有一個部分標記的數據集。一些是“唱片”,一些是“CD”,還有一些是空白的。你的任務是為空白部分提供標籤。如果你選擇歸納方法,你會訓練一個模型尋找“唱片”和“CD”,並將這些標籤應用於未標記的數據。這種方法在分類實際上是“磁帶”的物品時可能會遇到困難。而推導方法則更有效地處理這些未知數據,因為它努力將相似的物品分組,然後為整個組分配標籤。在這種情況下,聚類可能反映“圓形音樂物品”和“方形音樂物品”。\n", ">\n", "> 🎓 ['Non-flat' vs. 'flat' geometry](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> 源自數學術語,非平面與平面幾何指的是通過“平面”([歐幾里得](https://wikipedia.org/wiki/Euclidean_geometry))或“非平面”(非歐幾里得)幾何方法測量點之間的距離。\n", ">\n", "> 在這裡,“平面”指的是歐幾里得幾何(部分被教為“平面”幾何),而“非平面”指的是非歐幾里得幾何。幾何與機器學習有什麼關係?作為兩個根植於數學的領域,必須有一種通用的方法來測量聚類中點之間的距離,這可以根據數據的性質以“平面”或“非平面”的方式完成。[歐幾里得距離](https://wikipedia.org/wiki/Euclidean_distance)是通過兩點之間線段的長度來測量的。[非歐幾里得距離](https://wikipedia.org/wiki/Non-Euclidean_geometry)則沿曲線測量。如果你的數據在可視化時似乎不在平面上,你可能需要使用專門的算法來處理它。\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"