{ "cells": [ { "cell_type": "markdown", "source": [ "## **스포티파이에서 수집된 나이지리아 음악 - 분석**\n", "\n", "클러스터링은 데이터셋이 라벨이 없거나 입력값이 미리 정의된 출력값과 일치하지 않는다고 가정하는 [비지도 학습](https://wikipedia.org/wiki/Unsupervised_learning)의 한 유형입니다. 클러스터링은 다양한 알고리즘을 사용하여 라벨이 없는 데이터를 분류하고 데이터에서 발견된 패턴에 따라 그룹을 제공합니다.\n", "\n", "[**강의 전 퀴즈**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **소개**\n", "\n", "[클러스터링](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124)은 데이터 탐색에 매우 유용합니다. 나이지리아 청중들이 음악을 소비하는 방식에서 트렌드와 패턴을 발견하는 데 클러스터링이 도움이 되는지 살펴봅시다.\n", "\n", "> ✅ 클러스터링의 용도에 대해 잠시 생각해 보세요. 현실에서 클러스터링은 빨래 더미를 가족 구성원의 옷으로 분류해야 할 때 발생합니다 🧦👕👖🩲. 데이터 과학에서는 사용자의 선호도를 분석하거나 라벨이 없는 데이터셋의 특성을 결정하려고 할 때 클러스터링이 발생합니다. 클러스터링은 일종의 혼란 속에서 질서를 찾는 데 도움을 줍니다. 마치 양말 서랍을 정리하는 것처럼요.\n", "\n", "전문적인 환경에서는 클러스터링을 사용하여 시장 세분화를 결정하거나, 예를 들어 어떤 연령대가 어떤 아이템을 구매하는지 파악할 수 있습니다. 또 다른 용도로는 신용카드 거래 데이터셋에서 사기를 탐지하는 이상치 감지가 있을 수 있습니다. 또는 의료 스캔 데이터에서 종양을 식별하는 데 사용할 수도 있습니다.\n", "\n", "✅ 은행, 전자상거래, 또는 비즈니스 환경에서 클러스터링을 '자연스럽게' 접한 경험이 있는지 생각해 보세요.\n", "\n", "> 🎓 흥미롭게도, 클러스터 분석은 1930년대 인류학과 심리학 분야에서 시작되었습니다. 당시에는 어떻게 사용되었을지 상상해 보세요.\n", "\n", "또한 검색 결과를 그룹화하는 데 사용할 수도 있습니다. 예를 들어 쇼핑 링크, 이미지, 리뷰 등을 그룹화하는 방식입니다. 클러스터링은 대규모 데이터셋을 줄이고 더 세부적인 분석을 수행하려는 경우에 유용하며, 다른 모델을 구축하기 전에 데이터를 학습하는 데 사용할 수 있습니다.\n", "\n", "✅ 데이터가 클러스터로 정리되면 클러스터 ID를 할당할 수 있습니다. 이 기술은 데이터셋의 프라이버시를 보호하는 데 유용할 수 있습니다. 더 구체적이고 식별 가능한 데이터를 사용하는 대신 클러스터 ID로 데이터 포인트를 참조할 수 있기 때문입니다. 클러스터 ID를 다른 요소 대신 사용하는 이유를 더 생각해 볼 수 있을까요?\n", "\n", "### 클러스터링 시작하기\n", "\n", "> 🎓 클러스터를 생성하는 방식은 데이터 포인트를 그룹으로 묶는 방식과 밀접한 관련이 있습니다. 몇 가지 용어를 살펴봅시다:\n", ">\n", "> 🎓 ['전이적' vs. '귀납적'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> 전이적 추론은 특정 테스트 사례와 일치하는 관찰된 학습 사례에서 도출됩니다. 귀납적 추론은 일반적인 규칙으로 매핑되는 학습 사례에서 도출된 후 테스트 사례에 적용됩니다.\n", ">\n", "> 예: 데이터셋이 부분적으로만 라벨이 지정되어 있다고 가정해 봅시다. 일부는 '레코드', 일부는 'CD', 일부는 공백입니다. 공백에 라벨을 제공하는 것이 여러분의 작업입니다. 귀납적 접근 방식을 선택하면 '레코드'와 'CD'를 찾는 모델을 학습시키고 해당 라벨을 라벨이 없는 데이터에 적용합니다. 이 접근 방식은 실제로 '카세트'인 항목을 분류하는 데 어려움을 겪을 수 있습니다. 반면, 전이적 접근 방식은 유사한 항목을 그룹화한 다음 그룹에 라벨을 적용하는 방식으로 이와 같은 미지의 데이터를 더 효과적으로 처리합니다. 이 경우 클러스터는 '둥근 음악 물건'과 '네모난 음악 물건'을 반영할 수 있습니다.\n", ">\n", "> 🎓 ['평면' vs. '비평면' 기하학](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> 수학 용어에서 파생된 평면 vs. 비평면 기하학은 점들 간의 거리를 '평면'([유클리드](https://wikipedia.org/wiki/Euclidean_geometry)) 또는 '비평면'(비유클리드) 기하학적 방법으로 측정하는 것을 의미합니다.\n", ">\n", "> 여기서 '평면'은 유클리드 기하학(일부는 '평면' 기하학으로 가르침)을 의미하며, '비평면'은 비유클리드 기하학을 의미합니다. 기하학이 기계 학습과 무슨 관련이 있을까요? 두 분야 모두 수학에 뿌리를 두고 있기 때문에 클러스터 내 점들 간의 거리를 측정하는 공통된 방법이 필요하며, 데이터의 특성에 따라 '평면' 또는 '비평면' 방식으로 측정할 수 있습니다. [유클리드 거리](https://wikipedia.org/wiki/Euclidean_distance)는 두 점 사이의 선분 길이로 측정됩니다. [비유클리드 거리](https://wikipedia.org/wiki/Non-Euclidean_geometry)는 곡선을 따라 측정됩니다. 데이터가 시각화되었을 때 평면에 존재하지 않는 것처럼 보인다면, 이를 처리하기 위해 특수 알고리즘이 필요할 수 있습니다.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"