{ "cells": [ { "cell_type": "markdown", "source": [ "## **Spotify'den Toplanan Nijerya Müziği - Bir Analiz**\n", "\n", "Kümeleme, bir tür [Denetimsiz Öğrenme](https://wikipedia.org/wiki/Unsupervised_learning) yöntemidir ve bir veri setinin etiketlenmemiş olduğunu veya girdilerinin önceden tanımlanmış çıktılarla eşleşmediğini varsayar. Bu yöntem, çeşitli algoritmalar kullanarak etiketlenmemiş verileri analiz eder ve verideki desenlere göre gruplamalar sağlar.\n", "\n", "[**Ders öncesi test**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Giriş**\n", "\n", "[Kümeleme](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124), veri keşfi için oldukça faydalıdır. Nijeryalı dinleyicilerin müzik tüketim alışkanlıklarında trendleri ve desenleri keşfetmeye yardımcı olup olamayacağını görelim.\n", "\n", "> ✅ Kümelemenin kullanım alanlarını düşünmek için bir dakika ayırın. Gerçek hayatta, kümeleme çamaşır yığınınızı aile üyelerinizin kıyafetlerine göre ayırmanız gerektiğinde gerçekleşir 🧦👕👖🩲. Veri biliminde ise, kümeleme bir kullanıcının tercihlerini analiz ederken veya etiketlenmemiş bir veri setinin özelliklerini belirlerken gerçekleşir. Kümeleme, bir anlamda, kaosu anlamlandırmaya yardımcı olur, tıpkı bir çorap çekmecesi gibi.\n", "\n", "Profesyonel bir ortamda, kümeleme pazar segmentasyonu belirlemek, örneğin hangi yaş gruplarının hangi ürünleri satın aldığını anlamak için kullanılabilir. Bir diğer kullanım alanı ise anomali tespiti olabilir; örneğin, kredi kartı işlemleri veri setinden dolandırıcılığı tespit etmek. Ya da tıbbi taramalardaki tümörleri belirlemek için kümeleme kullanılabilir.\n", "\n", "✅ Bankacılık, e-ticaret veya iş dünyasında 'doğada' kümelemeyle karşılaştığınız durumları düşünmek için bir dakika ayırın.\n", "\n", "> 🎓 İlginç bir şekilde, kümeleme analizi 1930'larda Antropoloji ve Psikoloji alanlarında ortaya çıkmıştır. Sizce o zamanlar nasıl kullanılmış olabilir?\n", "\n", "Alternatif olarak, arama sonuçlarını gruplamak için kullanılabilir - örneğin alışveriş bağlantıları, görseller veya incelemeler. Kümeleme, büyük bir veri setini küçültmek ve daha ayrıntılı analiz yapmak istediğinizde faydalıdır, bu nedenle diğer modeller oluşturulmadan önce veri hakkında bilgi edinmek için kullanılabilir.\n", "\n", "✅ Verileriniz kümeler halinde organize edildikten sonra, her birine bir küme kimliği atarsınız. Bu teknik, bir veri setinin gizliliğini korumak için faydalı olabilir; bir veri noktasına daha açıklayıcı ve tanımlayıcı veriler yerine küme kimliğiyle atıfta bulunabilirsiniz. Küme kimliğiyle diğer küme öğelerine atıfta bulunmak yerine başka nedenler düşünebilir misiniz?\n", "\n", "### Kümelemeye Başlangıç\n", "\n", "> 🎓 Kümeleri nasıl oluşturduğumuz, veri noktalarını gruplara nasıl topladığımızla yakından ilgilidir. Bazı terimleri açalım:\n", ">\n", "> 🎓 ['Transdüktif' vs. 'indüktif'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Transdüktif çıkarım, belirli test durumlarına eşlenen gözlemlenen eğitim durumlarından türetilir. İndüktif çıkarım ise genel kurallara eşlenen eğitim durumlarından türetilir ve bu kurallar yalnızca test durumlarına uygulanır.\n", ">\n", "> Bir örnek: Elinizde yalnızca kısmen etiketlenmiş bir veri seti olduğunu hayal edin. Bazı şeyler 'plak', bazıları 'cd' ve bazıları boş. Göreviniz, boş olanlara etiket vermektir. İndüktif bir yaklaşım seçerseniz, 'plak' ve 'cd' arayan bir model eğitirsiniz ve bu etiketleri etiketlenmemiş verinize uygularsınız. Bu yaklaşım, aslında 'kaset' olan şeyleri sınıflandırmakta zorlanır. Transdüktif bir yaklaşım ise bu bilinmeyen veriyi daha etkili bir şekilde ele alır, benzer öğeleri gruplandırır ve ardından bir gruba etiket uygular. Bu durumda, kümeler 'yuvarlak müzik şeyleri' ve 'kare müzik şeyleri' gibi görünebilir.\n", ">\n", "> 🎓 ['Düz' vs. 'düz olmayan' geometriler](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Matematiksel terminolojiden türetilen düz ve düz olmayan geometriler, noktalar arasındaki mesafelerin 'düz' ([Öklid](https://wikipedia.org/wiki/Euclidean_geometry)) veya 'düz olmayan' (Öklid dışı) geometrik yöntemlerle ölçülmesini ifade eder.\n", ">\n", "> Bu bağlamda 'düz', Öklid geometrisini (bazı bölümleri 'düzlem' geometrisi olarak öğretilir) ifade ederken, 'düz olmayan' Öklid dışı geometriyi ifade eder. Geometri, makine öğrenimiyle nasıl ilişkilidir? Matematiğe dayalı iki alan olarak, kümelerdeki noktalar arasındaki mesafeleri ölçmek için ortak bir yol bulunmalıdır ve bu, verinin doğasına bağlı olarak 'düz' veya 'düz olmayan' şekilde yapılabilir. [Öklid mesafeleri](https://wikipedia.org/wiki/Euclidean_distance), iki nokta arasındaki doğru parçasının uzunluğu olarak ölçülür. [Öklid dışı mesafeler](https://wikipedia.org/wiki/Non-Euclidean_geometry) ise bir eğri boyunca ölçülür. Verileriniz görselleştirildiğinde bir düzlemde bulunmuyorsa, bunu ele almak için özel bir algoritma kullanmanız gerekebilir.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"