{ "cells": [ { "cell_type": "markdown", "source": [ "## **Phân tích âm nhạc Nigeria được thu thập từ Spotify**\n", "\n", "Clustering (phân cụm) là một loại [Học không giám sát](https://wikipedia.org/wiki/Unsupervised_learning) giả định rằng một tập dữ liệu không được gắn nhãn hoặc các đầu vào của nó không được ghép với các đầu ra được xác định trước. Nó sử dụng các thuật toán khác nhau để sắp xếp dữ liệu không gắn nhãn và cung cấp các nhóm dựa trên các mẫu mà nó nhận ra trong dữ liệu.\n", "\n", "[**Câu hỏi kiểm tra trước bài giảng**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Giới thiệu**\n", "\n", "[Phân cụm](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) rất hữu ích trong việc khám phá dữ liệu. Hãy xem liệu nó có thể giúp khám phá các xu hướng và mẫu trong cách khán giả Nigeria tiêu thụ âm nhạc hay không.\n", "\n", "> ✅ Dành một phút để suy nghĩ về các ứng dụng của phân cụm. Trong đời sống thực, phân cụm xảy ra bất cứ khi nào bạn có một đống quần áo cần phân loại theo từng thành viên trong gia đình 🧦👕👖🩲. Trong khoa học dữ liệu, phân cụm xảy ra khi cố gắng phân tích sở thích của người dùng hoặc xác định các đặc điểm của bất kỳ tập dữ liệu không gắn nhãn nào. Phân cụm, theo một cách nào đó, giúp làm sáng tỏ sự hỗn loạn, giống như ngăn kéo đựng tất.\n", "\n", "Trong môi trường chuyên nghiệp, phân cụm có thể được sử dụng để xác định các phân khúc thị trường, ví dụ như xác định nhóm tuổi nào mua những mặt hàng nào. Một ứng dụng khác có thể là phát hiện bất thường, chẳng hạn để phát hiện gian lận từ một tập dữ liệu giao dịch thẻ tín dụng. Hoặc bạn có thể sử dụng phân cụm để xác định khối u trong một loạt các bản quét y tế.\n", "\n", "✅ Dành một phút để suy nghĩ về cách bạn có thể đã gặp phân cụm 'trong thực tế', trong ngân hàng, thương mại điện tử hoặc môi trường kinh doanh.\n", "\n", "> 🎓 Thật thú vị, phân tích cụm bắt nguồn từ các lĩnh vực Nhân học và Tâm lý học vào những năm 1930. Bạn có thể tưởng tượng nó đã được sử dụng như thế nào không?\n", "\n", "Ngoài ra, bạn có thể sử dụng nó để nhóm các kết quả tìm kiếm - ví dụ như theo liên kết mua sắm, hình ảnh hoặc đánh giá. Phân cụm rất hữu ích khi bạn có một tập dữ liệu lớn mà bạn muốn giảm bớt và thực hiện phân tích chi tiết hơn, vì vậy kỹ thuật này có thể được sử dụng để tìm hiểu về dữ liệu trước khi xây dựng các mô hình khác.\n", "\n", "✅ Khi dữ liệu của bạn được tổ chức thành các cụm, bạn gán cho nó một Id cụm, và kỹ thuật này có thể hữu ích khi bảo vệ quyền riêng tư của tập dữ liệu; bạn có thể thay thế việc tham chiếu đến một điểm dữ liệu bằng Id cụm của nó, thay vì bằng dữ liệu nhận dạng tiết lộ nhiều hơn. Bạn có thể nghĩ đến những lý do khác tại sao bạn lại tham chiếu đến Id cụm thay vì các yếu tố khác của cụm để xác định nó không?\n", "\n", "### Bắt đầu với phân cụm\n", "\n", "> 🎓 Cách chúng ta tạo cụm phụ thuộc rất nhiều vào cách chúng ta nhóm các điểm dữ liệu thành các nhóm. Hãy cùng tìm hiểu một số thuật ngữ:\n", ">\n", "> 🎓 ['Transductive' vs. 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Suy diễn truyền dẫn (transductive inference) được rút ra từ các trường hợp huấn luyện quan sát được ánh xạ đến các trường hợp kiểm tra cụ thể. Suy diễn quy nạp (inductive inference) được rút ra từ các trường hợp huấn luyện ánh xạ đến các quy tắc chung, sau đó mới được áp dụng cho các trường hợp kiểm tra.\n", ">\n", "> Một ví dụ: Hãy tưởng tượng bạn có một tập dữ liệu chỉ được gắn nhãn một phần. Một số là 'đĩa nhạc', một số là 'cd', và một số để trống. Nhiệm vụ của bạn là cung cấp nhãn cho các mục trống. Nếu bạn chọn cách tiếp cận quy nạp, bạn sẽ huấn luyện một mô hình tìm kiếm 'đĩa nhạc' và 'cd', và áp dụng các nhãn đó cho dữ liệu chưa được gắn nhãn. Cách tiếp cận này sẽ gặp khó khăn trong việc phân loại những thứ thực sự là 'băng cassette'. Một cách tiếp cận truyền dẫn, mặt khác, xử lý dữ liệu chưa biết này hiệu quả hơn vì nó hoạt động để nhóm các mục tương tự lại với nhau và sau đó áp dụng một nhãn cho một nhóm. Trong trường hợp này, các cụm có thể phản ánh 'những thứ âm nhạc hình tròn' và 'những thứ âm nhạc hình vuông'.\n", ">\n", "> 🎓 ['Non-flat' vs. 'flat' geometry](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Được lấy từ thuật ngữ toán học, hình học không phẳng (non-flat) và phẳng (flat) đề cập đến cách đo khoảng cách giữa các điểm bằng các phương pháp hình học 'phẳng' ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) hoặc 'không phẳng' (phi Euclid).\n", ">\n", "> 'Phẳng' trong ngữ cảnh này đề cập đến hình học Euclid (một phần được dạy như hình học 'mặt phẳng'), và không phẳng đề cập đến hình học phi Euclid. Hình học có liên quan gì đến học máy? Vâng, vì cả hai lĩnh vực đều bắt nguồn từ toán học, nên phải có một cách chung để đo khoảng cách giữa các điểm trong các cụm, và điều đó có thể được thực hiện theo cách 'phẳng' hoặc 'không phẳng', tùy thuộc vào bản chất của dữ liệu. [Khoảng cách Euclid](https://wikipedia.org/wiki/Euclidean_distance) được đo bằng độ dài của một đoạn thẳng giữa hai điểm. [Khoảng cách phi Euclid](https://wikipedia.org/wiki/Non-Euclidean_geometry) được đo dọc theo một đường cong. Nếu dữ liệu của bạn, khi được hình dung, dường như không tồn tại trên một mặt phẳng, bạn có thể cần sử dụng một thuật toán chuyên biệt để xử lý nó.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"