{ "cells": [ { "cell_type": "markdown", "source": [ "## **從 Spotify 擷取的尼日利亞音樂分析**\n", "\n", "聚類是一種[無監督學習](https://wikipedia.org/wiki/Unsupervised_learning),假設數據集是未標記的,或者其輸入未與預定義的輸出匹配。它使用各種算法來整理未標記的數據,並根據數據中識別出的模式進行分組。\n", "\n", "[**課前測驗**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **簡介**\n", "\n", "[聚類](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) 對於數據探索非常有用。我們來看看它是否能幫助發現尼日利亞觀眾消費音樂方式中的趨勢和模式。\n", "\n", "> ✅ 花一分鐘思考聚類的用途。在現實生活中,聚類就像當你有一堆洗好的衣服需要分類到家人各自的衣櫃時 🧦👕👖🩲。在數據科學中,聚類發生在試圖分析用戶偏好或確定任何未標記數據集的特徵時。聚類在某種程度上幫助我們從混亂中找到秩序,就像整理一個襪子抽屜一樣。\n", "\n", "在專業環境中,聚類可以用於確定市場細分,例如確定哪些年齡段購買哪些商品。另一個用途是異常檢測,例如從信用卡交易數據集中檢測欺詐行為。或者,你可以使用聚類來確定一批醫學掃描中的腫瘤。\n", "\n", "✅ 想一想你可能在銀行、電子商務或商業環境中遇到過的聚類應用。\n", "\n", "> 🎓 有趣的是,聚類分析起源於 1930 年代的人類學和心理學領域。你能想像它當時是如何被使用的嗎?\n", "\n", "或者,你可以用它來對搜索結果進行分組,例如按購物鏈接、圖片或評論進行分類。當你有一個大型數據集需要縮小範圍並進行更細緻的分析時,聚類技術非常有用,因此可以在構建其他模型之前用來了解數據。\n", "\n", "✅ 一旦你的數據被組織成聚類,你可以為其分配一個聚類 ID。這種技術在保護數據集隱私時非常有用;你可以用聚類 ID 來引用數據點,而不是使用更具識別性的數據。你能想到其他使用聚類 ID 而不是聚類中其他元素來識別數據的原因嗎?\n", "\n", "### 開始學習聚類\n", "\n", "> 🎓 我們如何創建聚類與我們如何將數據點分組有很大關係。我們來解釋一些術語:\n", ">\n", "> 🎓 ['Transductive' vs. 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Transductive 推理是從觀察到的訓練案例中得出的,這些案例映射到特定的測試案例。Inductive 推理則是從訓練案例中得出一般規則,然後將這些規則應用於測試案例。\n", ">\n", "> 舉例:假設你有一個部分標記的數據集。一些是“唱片”,一些是“CD”,還有一些是空白的。你的任務是為空白部分提供標籤。如果你選擇一種 Inductive 方法,你會訓練一個模型來尋找“唱片”和“CD”,並將這些標籤應用於未標記的數據。這種方法可能無法很好地分類實際上是“磁帶”的東西。而 Transductive 方法則更有效地處理這些未知數據,因為它努力將相似的項目分組,然後為整個組分配一個標籤。在這種情況下,聚類可能反映“圓形音樂物品”和“方形音樂物品”。\n", ">\n", "> 🎓 ['Non-flat' vs. 'flat' geometry](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> 來自數學術語,“非平面”與“平面”幾何指的是通過“平面”([歐幾里得](https://wikipedia.org/wiki/Euclidean_geometry))或“非平面”(非歐幾里得)幾何方法測量點之間的距離。\n", ">\n", "> 在這裡,“平面”指的是歐幾里得幾何(部分內容在學校被教作“平面幾何”),而“非平面”指的是非歐幾里得幾何。幾何與機器學習有什麼關係?作為兩個都根植於數學的領域,必須有一種通用的方法來測量聚類中點之間的距離,這可以根據數據的性質以“平面”或“非平面”的方式完成。[歐幾里得距離](https://wikipedia.org/wiki/Euclidean_distance) 是通過兩點之間的線段長度來測量的。[非歐幾里得距離](https://wikipedia.org/wiki/Non-Euclidean_geometry) 則沿曲線測量。如果你的數據在可視化後似乎不在一個平面上,你可能需要使用專門的算法來處理它。\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"