From 35cbae28fd23d47c1c5f07f0ee8b0e2cf4ea037a Mon Sep 17 00:00:00 2001 From: "localizeflow[bot]" Date: Tue, 26 May 2026 22:32:48 +0000 Subject: [PATCH] chore(i18n): sync translations with latest source changes (chunk 1/1, 9 changes) --- translations/it/.co-op-translator.json | 8 +- .../it/1-Introduction/1-intro-to-ML/README.md | 99 ++++---- .../it/5-Clustering/1-Visualize/README.md | 205 ++++++++--------- translations/pl/.co-op-translator.json | 8 +- .../pl/1-Introduction/1-intro-to-ML/README.md | 119 +++++----- .../pl/5-Clustering/1-Visualize/README.md | 188 ++++++++-------- translations/tr/.co-op-translator.json | 8 +- .../tr/1-Introduction/1-intro-to-ML/README.md | 125 ++++++----- .../tr/5-Clustering/1-Visualize/README.md | 212 +++++++++--------- 9 files changed, 499 insertions(+), 473 deletions(-) diff --git a/translations/it/.co-op-translator.json b/translations/it/.co-op-translator.json index 3fb9b40e0..358812f35 100644 --- a/translations/it/.co-op-translator.json +++ b/translations/it/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-06T07:34:02+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:30:06+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "it" }, @@ -240,8 +240,8 @@ "language_code": "it" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-06T07:29:55+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:29:48+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "it" }, diff --git a/translations/it/1-Introduction/1-intro-to-ML/README.md b/translations/it/1-Introduction/1-intro-to-ML/README.md index a4ab2feea..35b0dd50c 100644 --- a/translations/it/1-Introduction/1-intro-to-ML/README.md +++ b/translations/it/1-Introduction/1-intro-to-ML/README.md @@ -6,9 +6,9 @@ [![ML per principianti - Introduzione al Machine Learning per principianti](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML per principianti - Introduzione al Machine Learning per principianti") -> 🎥 Clicca sull'immagine sopra per un breve video che illustra questa lezione. +> 🎥 Clicca sull'immagine sopra per un breve video che descrive questa lezione. -Benvenuto in questo corso sul machine learning classico per principianti! Che tu sia completamente nuovo a questo argomento o un esperto di ML che desidera ripassare un'area, siamo felici di averti con noi! Vogliamo creare un punto di partenza amichevole per il tuo studio di ML e saremmo felici di valutare, rispondere e incorporare il tuo [feedback](https://github.com/microsoft/ML-For-Beginners/discussions). +Benvenuto a questo corso sul machine learning classico per principianti! Che tu sia completamente nuovo in questo argomento, o un praticante esperto di ML che vuole ripassare un settore, siamo felici di averti con noi! Vogliamo creare un punto di partenza amichevole per il tuo studio del ML e saremmo felici di valutare, rispondere e incorporare i tuoi [commenti](https://github.com/microsoft/ML-For-Beginners/discussions). [![Introduzione al ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introduzione al ML") @@ -17,69 +17,69 @@ Benvenuto in questo corso sul machine learning classico per principianti! Che tu --- ## Iniziare con il machine learning -Prima di iniziare con questo curriculum, è necessario configurare il tuo computer e prepararlo per eseguire notebook localmente. +Prima di iniziare con questo curriculum, devi avere il tuo computer configurato e pronto per eseguire notebook localmente. -- **Configura il tuo computer con questi video**. Usa i seguenti link per imparare [come installare Python](https://youtu.be/CXZYvNRIAKM) sul tuo sistema e [configurare un editor di testo](https://youtu.be/EU8eayHWoZg) per lo sviluppo. -- **Impara Python**. È anche consigliato avere una conoscenza di base di [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), un linguaggio di programmazione utile per i data scientist che utilizziamo in questo corso. -- **Impara Node.js e JavaScript**. Utilizziamo anche JavaScript alcune volte in questo corso per costruire app web, quindi sarà necessario avere [node](https://nodejs.org) e [npm](https://www.npmjs.com/) installati, oltre a [Visual Studio Code](https://code.visualstudio.com/) disponibile sia per lo sviluppo in Python che in JavaScript. -- **Crea un account GitHub**. Dato che ci hai trovato qui su [GitHub](https://github.com), potresti già avere un account, ma se non lo hai, creane uno e poi fai un fork di questo curriculum per usarlo da solo. (Sentiti libero di darci una stella, 😊) -- **Esplora Scikit-learn**. Familiarizza con [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), un insieme di librerie ML che utilizziamo in queste lezioni. +- **Configura la tua macchina con questi video**. Usa i seguenti link per imparare [come installare Python](https://youtu.be/CXZYvNRIAKM) nel tuo sistema e [impostare un editor di testo](https://youtu.be/EU8eayHWoZg) per lo sviluppo. +- **Impara Python**. È anche consigliato avere una conoscenza base di [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), un linguaggio di programmazione utile per i data scientist che usiamo in questo corso. +- **Impara Node.js e JavaScript**. Usiamo anche JavaScript alcune volte in questo corso nello sviluppo di app web, quindi dovrai avere installati [node](https://nodejs.org) e [npm](https://www.npmjs.com/) e avere a disposizione [Visual Studio Code](https://code.visualstudio.com/) sia per lo sviluppo in Python che in JavaScript. +- **Crea un account GitHub**. Poiché ci hai trovato qui su [GitHub](https://github.com), potresti già avere un account, ma se no, creane uno e poi fai un fork di questo curriculum per usarlo da te. (Sentiti libero di lasciarci una stella, anche 😊) +- **Esplora Scikit-learn**. Familiarizza con [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), un insieme di librerie ML che usiamo come riferimento in queste lezioni. --- ## Cos'è il machine learning? -Il termine 'machine learning' è uno dei più popolari e frequentemente utilizzati oggi. È molto probabile che tu abbia sentito questo termine almeno una volta se hai una certa familiarità con la tecnologia, indipendentemente dal settore in cui lavori. Tuttavia, la meccanica del machine learning è un mistero per la maggior parte delle persone. Per un principiante del machine learning, l'argomento può talvolta sembrare opprimente. Pertanto, è importante capire cosa sia realmente il machine learning e impararlo passo dopo passo, attraverso esempi pratici. +Il termine 'machine learning' è uno dei termini più popolari e frequentemente usati oggi. C'è una seria possibilità che tu abbia sentito questo termine almeno una volta se hai qualche familiarità con la tecnologia, indipendentemente dal dominio in cui lavori. Le meccaniche del machine learning, tuttavia, sono un mistero per la maggior parte delle persone. Per un principiante di machine learning, l'argomento può a volte sembrare schiacciante. Perciò, è importante capire cosa sia realmente il machine learning e impararlo passo dopo passo, attraverso esempi pratici. --- -## La curva dell'hype +## La curva dell'entusiasmo -![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![curva hype ml](../../../../translated_images/it/hype.07183d711a17aafe.webp) -> Google Trends mostra la recente 'curva dell'hype' del termine 'machine learning' +> Google Trends mostra la recente 'curva dell'entusiasmo' del termine 'machine learning' --- ## Un universo misterioso -Viviamo in un universo pieno di misteri affascinanti. Grandi scienziati come Stephen Hawking, Albert Einstein e molti altri hanno dedicato la loro vita alla ricerca di informazioni significative che svelano i misteri del mondo che ci circonda. Questa è la condizione umana dell'apprendimento: un bambino umano impara cose nuove e scopre la struttura del suo mondo anno dopo anno mentre cresce fino all'età adulta. +Viviamo in un universo pieno di affascinanti misteri. Grandi scienziati come Stephen Hawking, Albert Einstein e molti altri hanno dedicato la loro vita alla ricerca di informazioni significative che svelino i misteri del mondo intorno a noi. Questa è la condizione umana dell'apprendimento: un bambino umano impara cose nuove e scopre la struttura del suo mondo anno dopo anno mentre cresce fino all'età adulta. --- -## Il cervello di un bambino +## Il cervello del bambino -Il cervello e i sensi di un bambino percepiscono i fatti del loro ambiente e gradualmente apprendono i modelli nascosti della vita che aiutano il bambino a creare regole logiche per identificare i modelli appresi. Il processo di apprendimento del cervello umano rende gli esseri umani la creatura vivente più sofisticata di questo mondo. Apprendere continuamente scoprendo modelli nascosti e poi innovando su quei modelli ci consente di migliorarci continuamente nel corso della nostra vita. Questa capacità di apprendimento e capacità di evoluzione è legata a un concetto chiamato [plasticità cerebrale](https://www.simplypsychology.org/brain-plasticity.html). Superficialmente, possiamo tracciare alcune somiglianze motivazionali tra il processo di apprendimento del cervello umano e i concetti di machine learning. +Il cervello e i sensi di un bambino percepiscono i fatti del loro ambiente e gradualmente imparano i modelli nascosti della vita che aiutano il bambino a creare regole logiche per identificare i modelli appresi. Il processo di apprendimento del cervello umano rende gli esseri umani la creatura vivente più sofisticata di questo mondo. Imparare continuamente scoprendo modelli nascosti e poi innovando su quei modelli ci rende migliori e migliori durante tutta la nostra vita. Questa capacità di apprendimento e la capacità di evoluzione sono legate a un concetto chiamato [plasticità cerebrale](https://www.simplypsychology.org/brain-plasticity.html). In superficie, possiamo tracciare alcune similitudini motivazionali tra il processo di apprendimento del cervello umano e i concetti di machine learning. --- ## Il cervello umano -Il [cervello umano](https://www.livescience.com/29365-human-brain.html) percepisce cose dal mondo reale, elabora le informazioni percepite, prende decisioni razionali e compie determinate azioni in base alle circostanze. Questo è ciò che chiamiamo comportarsi in modo intelligente. Quando programmiamo una replica del processo comportamentale intelligente in una macchina, si chiama intelligenza artificiale (AI). +Il [cervello umano](https://www.livescience.com/29365-human-brain.html) percepisce cose dal mondo reale, elabora le informazioni percepite, prende decisioni razionali e compie determinate azioni basate sulle circostanze. Questo è ciò che chiamiamo comportamento intelligente. Quando programmiamo una versione simile del processo comportamentale intelligente in una macchina, si chiama intelligenza artificiale (AI). --- -## Alcuni termini +## Alcuna terminologia -Sebbene i termini possano essere confusi, il machine learning (ML) è un importante sottoinsieme dell'intelligenza artificiale. **ML si occupa di utilizzare algoritmi specializzati per scoprire informazioni significative e trovare modelli nascosti dai dati percepiti per corroborare il processo decisionale razionale**. +Sebbene i termini possano essere confusi, il machine learning (ML) è un sottoinsieme importante dell'intelligenza artificiale. **Il ML si occupa di utilizzare algoritmi specializzati per scoprire informazioni significative e trovare modelli nascosti dai dati percepiti per corroborare il processo decisionale razionale**. --- ## AI, ML, Deep Learning -![AI, ML, deep learning, data science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/it/ai-ml-ds.537ea441b124ebf6.webp) -> Un diagramma che mostra le relazioni tra AI, ML, deep learning e data science. Infografica di [Jen Looper](https://twitter.com/jenlooper) ispirata a [questa grafica](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> Un diagramma che mostra le relazioni tra AI, ML, deep learning e data science. Infografica di [Jen Looper](https://twitter.com/jenlooper) ispirata da [questa grafica](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- ## Concetti da trattare -In questo curriculum, tratteremo solo i concetti fondamentali del machine learning che un principiante deve conoscere. Tratteremo ciò che chiamiamo 'machine learning classico' utilizzando principalmente Scikit-learn, una libreria eccellente che molti studenti usano per imparare le basi. Per comprendere concetti più ampi di intelligenza artificiale o deep learning, è indispensabile una solida conoscenza fondamentale del machine learning, e quindi vorremmo offrirla qui. +In questo curriculum, copriremo solo i concetti fondamentali del machine learning che un principiante deve conoscere. Tratteremo ciò che chiamiamo 'machine learning classico' principalmente usando Scikit-learn, un'ottima libreria usata da molti studenti per apprendere le basi. Per comprendere concetti più ampi di intelligenza artificiale o deep learning, una solida conoscenza fondamentale del machine learning è indispensabile, e quindi vogliamo offrirla qui. --- ## In questo corso imparerai: -- concetti fondamentali del machine learning +- i concetti fondamentali del machine learning - la storia del ML - ML e equità -- tecniche di regressione ML -- tecniche di classificazione ML -- tecniche di clustering ML -- tecniche di elaborazione del linguaggio naturale ML -- tecniche di previsione delle serie temporali ML +- tecniche ML di regressione +- tecniche ML di classificazione +- tecniche ML di clustering +- tecniche ML di elaborazione del linguaggio naturale +- tecniche ML di previsione di serie temporali - apprendimento per rinforzo - applicazioni reali del ML @@ -90,54 +90,59 @@ In questo curriculum, tratteremo solo i concetti fondamentali del machine learni - reti neurali - AI -Per rendere l'esperienza di apprendimento migliore, eviteremo le complessità delle reti neurali, del 'deep learning' - costruzione di modelli a più livelli utilizzando reti neurali - e dell'AI, che discuteremo in un curriculum diverso. Offriremo anche un prossimo curriculum di data science per concentrarci su quell'aspetto di questo campo più ampio. +Per offrire una migliore esperienza di apprendimento, eviteremo le complessità delle reti neurali, del 'deep learning' - costruzione di modelli a molti strati usando reti neurali - e dell'AI, che tratteremo in un curriculum differente. Offriremo anche un prossimo curriculum di data science per focalizzarci su quell'aspetto di questo campo più ampio. --- ## Perché studiare il machine learning? -Il machine learning, da una prospettiva di sistemi, è definito come la creazione di sistemi automatizzati che possono apprendere modelli nascosti dai dati per aiutare a prendere decisioni intelligenti. +Il machine learning, da una prospettiva sistemica, è definito come la creazione di sistemi automatizzati che possono apprendere modelli nascosti dai dati per aiutare a prendere decisioni intelligenti. -Questa motivazione è vagamente ispirata a come il cervello umano apprende certe cose basandosi sui dati che percepisce dal mondo esterno. +Questa motivazione è liberamente ispirata a come il cervello umano impara certe cose basandosi sui dati percepiti dal mondo esterno. -✅ Pensa per un momento perché un'azienda potrebbe voler utilizzare strategie di machine learning rispetto alla creazione di un motore basato su regole codificate. +✅ Pensa per un attimo al motivo per cui un'azienda vorrebbe usare strategie di machine learning piuttosto che creare un motore basato su regole hard-coded. + +--- +## Perché la qualità dei dati è importante + +Dati di alta qualità migliorano le prestazioni del modello. Dati scadenti o rumorosi possono portare a previsioni inaccurate, anche usando algoritmi avanzati di machine learning. --- ## Applicazioni del machine learning -Le applicazioni del machine learning sono ormai ovunque e sono tanto ubiquitarie quanto i dati che scorrono nelle nostre società, generati dai nostri smartphone, dispositivi connessi e altri sistemi. Considerando l'immenso potenziale degli algoritmi di machine learning all'avanguardia, i ricercatori hanno esplorato la loro capacità di risolvere problemi reali multidimensionali e multidisciplinari con grandi risultati positivi. +Le applicazioni del machine learning sono ora praticamente ovunque, e sono ubiquitarie come i dati che fluiscono nelle nostre società, generati dai nostri smartphone, dispositivi connessi e altri sistemi. Considerando l'immenso potenziale degli algoritmi di machine learning all'avanguardia, i ricercatori hanno esplorato la loro capacità di risolvere problemi reali multidimensionali e multidisciplinari con ottimi risultati positivi. --- ## Esempi di ML applicato -**Puoi utilizzare il machine learning in molti modi**: +**Puoi usare il machine learning in molti modi**: -- Per prevedere la probabilità di una malattia dalla storia medica o dai referti di un paziente. -- Per sfruttare i dati meteorologici per prevedere eventi atmosferici. -- Per comprendere il sentimento di un testo. -- Per rilevare notizie false e fermare la diffusione di propaganda. +- Per prevedere la probabilità di malattia dalla storia medica o dai referti di un paziente. +- Per sfruttare i dati meteo per prevedere eventi meteorologici. +- Per capire il sentimento di un testo. +- Per rilevare fake news e fermare la diffusione della propaganda. -Finanza, economia, scienze della terra, esplorazione spaziale, ingegneria biomedica, scienze cognitive e persino campi nelle discipline umanistiche hanno adattato il machine learning per risolvere i problemi ardui e pesanti di elaborazione dei dati del loro settore. +Finanza, economia, scienze della terra, esplorazione spaziale, ingegneria biomedica, scienze cognitive e persino campi delle scienze umane hanno adattato il machine learning per risolvere i complessi problemi di elaborazione dati dei loro domini. --- ## Conclusione -Il machine learning automatizza il processo di scoperta dei modelli trovando intuizioni significative dai dati reali o generati. Si è dimostrato altamente prezioso in applicazioni aziendali, sanitarie e finanziarie, tra le altre. +Il machine learning automatizza il processo di scoperta dei modelli trovando intuizioni significative dai dati reali o generati. Si è dimostrato altamente prezioso in ambito aziendale, sanitario e finanziario, tra gli altri. -Nel prossimo futuro, comprendere le basi del machine learning sarà indispensabile per persone di qualsiasi settore, data la sua adozione diffusa. +Nel prossimo futuro, comprendere le basi del machine learning sarà indispensabile per persone di qualsiasi settore a causa della sua diffusione. --- # 🚀 Sfida -Disegna, su carta o utilizzando un'app online come [Excalidraw](https://excalidraw.com/), la tua comprensione delle differenze tra AI, ML, deep learning e data science. Aggiungi alcune idee sui problemi che ciascuna di queste tecniche è adatta a risolvere. +Disegna, su carta o usando un'app online come [Excalidraw](https://excalidraw.com/), la tua comprensione delle differenze tra AI, ML, deep learning e data science. Aggiungi alcune idee su problemi che ciascuna di queste tecniche è adatta a risolvere. # [Quiz post-lezione](https://ff-quizzes.netlify.app/en/ml/) --- -# Revisione e studio autonomo +# Revisione & Autoapprendimento -Per saperne di più su come lavorare con gli algoritmi ML nel cloud, segui questo [Percorso di apprendimento](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +Per imparare di più su come lavorare con algoritmi ML nel cloud, segui questo [Percorso di apprendimento](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Segui un [Percorso di apprendimento](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) sui fondamenti del ML. +Segui un [Percorso di apprendimento](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) sulle basi del ML. --- # Compito @@ -146,5 +151,7 @@ Segui un [Percorso di apprendimento](https://docs.microsoft.com/learn/modules/in --- -**Disclaimer**: -Questo documento è stato tradotto utilizzando il servizio di traduzione automatica [Co-op Translator](https://github.com/Azure/co-op-translator). Sebbene ci impegniamo per garantire l'accuratezza, si prega di notare che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa dovrebbe essere considerato la fonte autorevole. Per informazioni critiche, si raccomanda una traduzione professionale effettuata da un traduttore umano. Non siamo responsabili per eventuali incomprensioni o interpretazioni errate derivanti dall'uso di questa traduzione. \ No newline at end of file + +**Disclaimer**: +Questo documento è stato tradotto utilizzando il servizio di traduzione AI [Co-op Translator](https://github.com/Azure/co-op-translator). Sebbene ci impegniamo per garantire la precisione, si prega di notare che le traduzioni automatizzate possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa deve essere considerato la fonte autorevole. Per informazioni critiche, si raccomanda una traduzione professionale effettuata da un essere umano. Non siamo responsabili per eventuali malintesi o interpretazioni errate derivanti dall’uso di questa traduzione. + \ No newline at end of file diff --git a/translations/it/5-Clustering/1-Visualize/README.md b/translations/it/5-Clustering/1-Visualize/README.md index 040836dc8..0c30ba44b 100644 --- a/translations/it/5-Clustering/1-Visualize/README.md +++ b/translations/it/5-Clustering/1-Visualize/README.md @@ -1,106 +1,105 @@ # Introduzione al clustering -Il clustering è un tipo di [Apprendimento Non Supervisionato](https://wikipedia.org/wiki/Apprendimento_non_supervisionato) che presuppone che un dataset sia non etichettato o che i suoi input non siano associati a output predefiniti. Utilizza vari algoritmi per analizzare dati non etichettati e fornire raggruppamenti basati sui pattern rilevati nei dati. +Il clustering è un tipo di [Apprendimento Non Supervisionato](https://wikipedia.org/wiki/Unsupervised_learning) che presuppone che un dataset non sia etichettato o che i suoi input non siano associati a output predefiniti. Utilizza vari algoritmi per ordinare dati non etichettati e fornire raggruppamenti secondo i modelli che discernono nei dati. -[![No One Like You di PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You di PSquare") +[![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Clicca sull'immagine sopra per un video. Mentre studi il machine learning con il clustering, goditi alcune tracce di Dance Hall nigeriana - questa è una canzone molto apprezzata del 2014 di PSquare. +> 🎥 Clicca sull'immagine sopra per un video. Mentre studi il machine learning con il clustering, goditi qualche traccia di Nigerian Dance Hall - questa è una canzone molto apprezzata del 2014 di PSquare. ## [Quiz pre-lezione](https://ff-quizzes.netlify.app/en/ml/) ### Introduzione -[Il clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) è molto utile per l'esplorazione dei dati. Vediamo se può aiutare a scoprire tendenze e pattern nel modo in cui il pubblico nigeriano consuma musica. +[Il clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) è molto utile per l'esplorazione dei dati. Vediamo se può aiutare a scoprire tendenze e modelli nel modo in cui il pubblico nigeriano consuma musica. -✅ Prenditi un minuto per pensare agli utilizzi del clustering. Nella vita reale, il clustering avviene ogni volta che hai un mucchio di bucato e devi separare i vestiti dei membri della tua famiglia 🧦👕👖🩲. In data science, il clustering avviene quando si cerca di analizzare le preferenze di un utente o determinare le caratteristiche di un dataset non etichettato. Il clustering, in un certo senso, aiuta a dare un senso al caos, come un cassetto di calzini. +✅ Prenditi un minuto per pensare agli usi del clustering. Nella vita reale, il clustering avviene ogni volta che hai un mucchio di panni da lavare e devi separare i vestiti dei membri della famiglia 🧦👕👖🩲. Nella scienza dei dati, il clustering avviene quando si cerca di analizzare le preferenze di un utente o determinare le caratteristiche di un qualsiasi dataset non etichettato. Il clustering, in un certo senso, aiuta a dare senso al caos, come un cassetto di calzini. -[![Introduzione al ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduzione al Clustering") +[![Introduzione al ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") -> 🎥 Clicca sull'immagine sopra per un video: John Guttag del MIT introduce il clustering. +> 🎥 Clicca sull'immagine sopra per un video: John Guttag del MIT introduce il clustering -In un contesto professionale, il clustering può essere utilizzato per determinare cose come la segmentazione del mercato, ad esempio per capire quali fasce d'età acquistano determinati articoli. Un altro utilizzo potrebbe essere il rilevamento di anomalie, magari per individuare frodi in un dataset di transazioni con carta di credito. Oppure potresti usare il clustering per identificare tumori in un lotto di scansioni mediche. +In un contesto professionale, il clustering può essere usato per determinare cose come la segmentazione di mercato, stabilendo quali fasce d'età comprano quali articoli, per esempio. Un altro uso potrebbe essere il rilevamento di anomalie, forse per individuare frodi da un dataset di transazioni con carta di credito. Oppure potresti usare il clustering per determinare tumori in un lotto di scansioni mediche. -✅ Pensa un momento a come potresti aver incontrato il clustering 'nel mondo reale', in un contesto bancario, di e-commerce o aziendale. +✅ Pensa un attimo a come potresti aver incontrato il clustering 'in natura', in un contesto bancario, di e-commerce o aziendale. -> 🎓 Interessante: l'analisi dei cluster ha avuto origine nei campi dell'Antropologia e della Psicologia negli anni '30. Riesci a immaginare come potrebbe essere stata utilizzata? +> 🎓 Interessante, l'analisi dei cluster ha origine nei campi dell'Antropologia e della Psicologia negli anni '30. Riesci a immaginare come potrebbe essere stata utilizzata? -In alternativa, potresti usarlo per raggruppare i risultati di ricerca - ad esempio per link di shopping, immagini o recensioni. Il clustering è utile quando hai un grande dataset che vuoi ridurre e su cui vuoi eseguire un'analisi più granulare, quindi la tecnica può essere utilizzata per conoscere i dati prima di costruire altri modelli. +In alternativa, potresti usarlo per raggruppare risultati di ricerca - per link di acquisti, immagini o recensioni, per esempio. Il clustering è utile quando si ha un grande dataset che si vuole ridurre e su cui si vuole effettuare un'analisi più granulare, quindi la tecnica può essere usata per conoscere i dati prima che vengano costruiti altri modelli. -✅ Una volta che i tuoi dati sono organizzati in cluster, assegni loro un Id di cluster, e questa tecnica può essere utile per preservare la privacy di un dataset; puoi invece fare riferimento a un punto dati tramite il suo Id di cluster, piuttosto che con dati identificabili più rivelatori. Riesci a pensare ad altri motivi per cui potresti preferire riferirti a un Id di cluster piuttosto che ad altri elementi del cluster per identificarlo? +✅ Una volta che i dati sono organizzati in cluster, gli assegni un Id di cluster, e questa tecnica può essere utile per preservare la privacy di un dataset; puoi invece riferirti a un punto dato tramite il suo id di cluster, anziché tramite dati identificativi più rivelatori. Riesci a pensare ad altri motivi per cui useresti un Id di cluster piuttosto che altri elementi del cluster per identificarlo? -Approfondisci la tua comprensione delle tecniche di clustering in questo [modulo di apprendimento](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott). +Approfondisci la tua comprensione delle tecniche di clustering in questo [modulo Learn](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +## Iniziare con il clustering -## Introduzione al clustering +[Scikit-learn offre una vasta gamma](https://scikit-learn.org/stable/modules/clustering.html) di metodi per eseguire il clustering. Il tipo che scegli dipenderà dal tuo caso d'uso. Secondo la documentazione, ogni metodo ha vari benefici. Ecco una tabella semplificata dei metodi supportati da Scikit-learn e i loro casi d'uso appropriati: -[Scikit-learn offre una vasta gamma](https://scikit-learn.org/stable/modules/clustering.html) di metodi per eseguire il clustering. Il tipo che scegli dipenderà dal tuo caso d'uso. Secondo la documentazione, ogni metodo ha vari vantaggi. Ecco una tabella semplificata dei metodi supportati da Scikit-learn e i loro casi d'uso appropriati: +| Nome del metodo | Caso d'uso | +| :------------------------ | :--------------------------------------------------------------------- | +| K-Means | uso generale, induttivo | +| Affinity propagation | molti cluster disomogenei, induttivo | +| Mean-shift | molti cluster disomogenei, induttivo | +| Spectral clustering | pochi cluster omogenei, transduttivo | +| Ward hierarchical clustering | molti cluster vincolati, transduttivo | +| Agglomerative clustering | molti, vincolati, distanze non Euclidee, transduttivo | +| DBSCAN | geometria non piatta, cluster disomogenei, transduttivo | +| OPTICS | geometria non piatta, cluster disomogenei con densità variabile, transduttivo | +| Gaussian mixtures | geometria piatta, induttivo | +| BIRCH | dataset grande con outlier, induttivo | -| Nome del metodo | Caso d'uso | -| :--------------------------- | :--------------------------------------------------------------------- | -| K-Means | uso generale, induttivo | -| Affinity propagation | molti cluster, cluster disomogenei, induttivo | -| Mean-shift | molti cluster, cluster disomogenei, induttivo | -| Spectral clustering | pochi cluster, cluster omogenei, transduttivo | -| Ward hierarchical clustering | molti cluster, cluster vincolati, transduttivo | -| Agglomerative clustering | molti cluster vincolati, distanze non euclidee, transduttivo | -| DBSCAN | geometria non piatta, cluster disomogenei, transduttivo | -| OPTICS | geometria non piatta, cluster disomogenei con densità variabile, transduttivo | -| Gaussian mixtures | geometria piatta, induttivo | -| BIRCH | dataset di grandi dimensioni con outlier, induttivo | - -> 🎓 Come creiamo i cluster dipende molto da come raggruppiamo i punti dati in gruppi. Esploriamo un po' di vocabolario: +> 🎓 Come creiamo i cluster ha molto a che fare con il modo in cui raggruppiamo i punti dati. Spieghiamo un po' di vocabolario: > > 🎓 ['Transduttivo' vs. 'induttivo'](https://wikipedia.org/wiki/Transduction_(machine_learning)) -> -> L'inferenza transduttiva è derivata da casi di addestramento osservati che si mappano a casi di test specifici. L'inferenza induttiva è derivata da casi di addestramento che si mappano a regole generali che vengono poi applicate ai casi di test. -> -> Un esempio: Immagina di avere un dataset solo parzialmente etichettato. Alcune cose sono 'dischi', altre 'cd', e alcune sono vuote. Il tuo compito è fornire etichette per i dati vuoti. Se scegli un approccio induttivo, addestreresti un modello cercando 'dischi' e 'cd', e applicheresti quelle etichette ai dati non etichettati. Questo approccio avrà difficoltà a classificare cose che in realtà sono 'cassette'. Un approccio transduttivo, invece, gestisce questi dati sconosciuti più efficacemente poiché lavora per raggruppare elementi simili e poi applica un'etichetta a un gruppo. In questo caso, i cluster potrebbero riflettere 'cose musicali rotonde' e 'cose musicali quadrate'. -> +> +> L'inferenza transduttiva deriva da casi di addestramento osservati che mappano a casi di test specifici. L'inferenza induttiva deriva da casi di addestramento che mappano a regole generali che sono poi applicate ai casi di test. +> +> Un esempio: immagina di avere un dataset solo parzialmente etichettato. Alcune cose sono 'dischi', alcune 'cd', e alcune sono vuote. Il tuo compito è fornire etichette per le parti vuote. Se scegli un approccio induttivo, addestreresti un modello cercando 'dischi' e 'cd', e applicheresti quelle etichette ai dati non etichettati. Questo approccio avrà difficoltà a classificare cose che sono in realtà 'audiocassette'. Un approccio transduttivo, invece, gestisce meglio questi dati sconosciuti perché lavora per raggruppare elementi simili insieme e poi applica un'etichetta a un gruppo. In questo caso, i cluster potrebbero riflettere 'cose musicali rotonde' e 'cose musicali quadrate'. +> > 🎓 ['Geometria non piatta' vs. 'piatta'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) -> -> Derivata dalla terminologia matematica, la geometria non piatta vs. piatta si riferisce alla misura delle distanze tra punti utilizzando metodi geometrici 'piatti' ([Euclidei](https://wikipedia.org/wiki/Geometria_euclidea)) o 'non piatti' (non Euclidei). > ->'Piatta' in questo contesto si riferisce alla geometria euclidea (parte della quale viene insegnata come geometria 'piana'), e 'non piatta' si riferisce alla geometria non euclidea. Cosa c'entra la geometria con il machine learning? Bene, essendo due campi radicati nella matematica, deve esserci un modo comune per misurare le distanze tra punti nei cluster, e ciò può essere fatto in modo 'piatto' o 'non piatto', a seconda della natura dei dati. [Le distanze euclidee](https://wikipedia.org/wiki/Distanza_euclidea) sono misurate come la lunghezza di un segmento di linea tra due punti. [Le distanze non euclidee](https://wikipedia.org/wiki/Geometria_non_euclidea) sono misurate lungo una curva. Se i tuoi dati, visualizzati, sembrano non esistere su un piano, potresti dover utilizzare un algoritmo specializzato per gestirli. +> Derivata dalla terminologia matematica, la geometria non piatta vs. piatta si riferisce alla misura delle distanze tra punti tramite metodi geometrici 'piatti' ([Euclidei](https://wikipedia.org/wiki/Euclidean_geometry)) o 'non piatti' (non Euclidei). +> +> 'Piatta' in questo contesto si riferisce alla geometria Euclidea (parti delle quali sono insegnate come geometria del piano), e non piatta si riferisce alla geometria non Euclidea. Che relazione ha la geometria con il machine learning? Beh, come due campi radicati nella matematica, deve esserci un modo comune per misurare le distanze tra punti nei cluster, e questo può essere fatto in modo 'piatto' o 'non piatto', a seconda della natura dei dati. Le [distanze Euclidee](https://wikipedia.org/wiki/Euclidean_distance) sono misurate come la lunghezza di un segmento di linea tra due punti. Le [distanze non Euclidee](https://wikipedia.org/wiki/Non-Euclidean_geometry) sono misurate lungo una curva. Se i tuoi dati, visualizzati, sembrano non esistere su un piano, potresti dover usare un algoritmo specializzato per gestirli. +> +>![Infografica Geometria piatta vs Non piatta](../../../../translated_images/it/flat-nonflat.d1c8c6e2a96110c1.webp) +>Infografica di [Dasani Madipalli](https://twitter.com/dasani_decoded) > -![Infografica Geometria Piatta vs Non Piatta](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) -> Infografica di [Dasani Madipalli](https://twitter.com/dasani_decoded) -> > 🎓 ['Distanze'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) -> -> I cluster sono definiti dalla loro matrice di distanze, ad esempio le distanze tra punti. Questa distanza può essere misurata in diversi modi. I cluster euclidei sono definiti dalla media dei valori dei punti e contengono un 'centroide' o punto centrale. Le distanze sono quindi misurate dalla distanza da quel centroide. Le distanze non euclidee si riferiscono ai 'clustroidi', il punto più vicino agli altri punti. I clustroidi a loro volta possono essere definiti in vari modi. -> -> 🎓 ['Vincolati'](https://wikipedia.org/wiki/Constrained_clustering) -> -> [Il clustering vincolato](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) introduce l'apprendimento 'semi-supervisionato' in questo metodo non supervisionato. Le relazioni tra punti sono contrassegnate come 'non collegabili' o 'devono essere collegati', quindi alcune regole vengono imposte al dataset. > ->Un esempio: Se un algoritmo viene lasciato libero su un batch di dati non etichettati o semi-etichettati, i cluster che produce potrebbero essere di scarsa qualità. Nell'esempio sopra, i cluster potrebbero raggruppare 'cose musicali rotonde', 'cose musicali quadrate', 'cose triangolari' e 'biscotti'. Se vengono forniti alcuni vincoli, o regole da seguire ("l'oggetto deve essere fatto di plastica", "l'oggetto deve essere in grado di produrre musica") questo può aiutare a 'vincolare' l'algoritmo a fare scelte migliori. -> +> I cluster sono definiti dalla loro matrice di distanza, ad esempio le distanze tra i punti. Questa distanza può essere misurata in diversi modi. I cluster Euclidei sono definiti dalla media dei valori dei punti e contengono un 'centroide' o punto centrale. Le distanze sono quindi misurate rispetto a quel centroide. Le distanze non Euclidee si riferiscono ai 'clustroidi', il punto più vicino ad altri punti. I clustroidi a loro volta possono essere definiti in vari modi. +> +> 🎓 ['Vincolato'](https://wikipedia.org/wiki/Constrained_clustering) +> +> [Il clustering vincolato](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) introduce l'apprendimento 'semi-supervisionato' in questo metodo non supervisionato. Le relazioni tra i punti sono contrassegnate come 'non si può collegare' o 'deve collegare' così da imporre alcune regole al dataset. +> +>Un esempio: Se un algoritmo viene lasciato libero su un lotto di dati non etichettati o semi-etichettati, i cluster che produce potrebbero essere di scarsa qualità. Nell'esempio sopra, i cluster potrebbero raggruppare 'cose musicali rotonde', 'cose musicali quadrate', 'cose triangolari' e 'biscotti'. Se vengono dati alcuni vincoli, o regole da seguire ("l'oggetto deve essere fatto di plastica", "l'oggetto deve essere in grado di produrre musica"), questo può aiutare ad 'inquadrare' meglio l'algoritmo e farlo fare scelte migliori. +> > 🎓 'Densità' -> -> I dati che sono 'rumorosi' sono considerati 'densi'. Le distanze tra punti in ciascuno dei suoi cluster possono dimostrarsi, all'esame, più o meno dense, o 'affollate', e quindi questi dati devono essere analizzati con il metodo di clustering appropriato. [Questo articolo](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) dimostra la differenza tra l'utilizzo del clustering K-Means e degli algoritmi HDBSCAN per esplorare un dataset rumoroso con densità di cluster disomogenea. +> +> I dati che sono 'rumorosi' sono considerati 'densi'. Le distanze tra i punti in ciascuno dei suoi cluster possono rivelarsi, all'esame, più o meno dense, o 'affollate' e quindi questi dati devono essere analizzati con il metodo di clustering appropriato. [Questo articolo](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) dimostra la differenza tra l'uso del clustering K-Means vs. gli algoritmi HDBSCAN per esplorare un dataset rumoroso con densità di cluster irregolari. ## Algoritmi di clustering -Esistono oltre 100 algoritmi di clustering, e il loro utilizzo dipende dalla natura dei dati a disposizione. Discutiamo alcuni dei principali: +Esistono oltre 100 algoritmi di clustering e il loro uso dipende dalla natura dei dati a disposizione. Discutiamo alcuni dei principali: -- **Clustering gerarchico**. Se un oggetto viene classificato in base alla sua vicinanza a un oggetto vicino, piuttosto che a uno più lontano, i cluster vengono formati in base alla distanza dei loro membri da e verso altri oggetti. Il clustering agglomerativo di Scikit-learn è gerarchico. +- **Clustering gerarchico**. Se un oggetto è classificato dalla sua prossimità a un oggetto vicino, piuttosto che a uno più distante, i cluster si formano in base alla distanza dei loro membri da e verso altri oggetti. L'agglomerative clustering di Scikit-learn è gerarchico. - ![Infografica Clustering Gerarchico](../../../../5-Clustering/1-Visualize/images/hierarchical.png) + ![Infografica Clustering gerarchico](../../../../translated_images/it/hierarchical.bf59403aa43c8c47.webp) > Infografica di [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Clustering basato sul centroide**. Questo algoritmo popolare richiede la scelta di 'k', ovvero il numero di cluster da formare, dopodiché l'algoritmo determina il punto centrale di un cluster e raccoglie i dati attorno a quel punto. [Il clustering K-means](https://wikipedia.org/wiki/K-means_clustering) è una versione popolare del clustering basato sul centroide. Il centro è determinato dalla media più vicina, da cui il nome. La distanza quadrata dal cluster viene minimizzata. +- **Clustering basato su centroidi**. Questo popolare algoritmo richiede la scelta di 'k', ovvero il numero di cluster da formare, dopo di che l'algoritmo determina il punto centrale di un cluster e raggruppa i dati attorno a quel punto. [Il clustering K-means](https://wikipedia.org/wiki/K-means_clustering) è una versione popolare del clustering basato su centroidi. Il centro è determinato dalla media più vicina, da cui il nome. La distanza quadratica dal cluster viene minimizzata. - ![Infografica Clustering Centroide](../../../../5-Clustering/1-Visualize/images/centroid.png) + ![Infografica Clustering basato su centroidi](../../../../translated_images/it/centroid.097fde836cf6c918.webp) > Infografica di [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Clustering basato sulla distribuzione**. Basato sulla modellazione statistica, il clustering basato sulla distribuzione si concentra sulla determinazione della probabilità che un punto dati appartenga a un cluster, assegnandolo di conseguenza. I metodi di miscele gaussiane appartengono a questo tipo. +- **Clustering basato sulla distribuzione**. Basato sulla modellazione statistica, il clustering basato sulla distribuzione si concentra sul determinare la probabilità che un punto dati appartenga a un cluster, e assegnarlo di conseguenza. I metodi delle miscele gaussiane appartengono a questo tipo. -- **Clustering basato sulla densità**. I punti dati vengono assegnati ai cluster in base alla loro densità, o al loro raggruppamento reciproco. I punti dati lontani dal gruppo sono considerati outlier o rumore. DBSCAN, Mean-shift e OPTICS appartengono a questo tipo di clustering. +- **Clustering basato sulla densità**. I punti dati sono assegnati ai cluster in base alla loro densità, o al loro raggruppamento reciproco. I punti dati lontani dal gruppo sono considerati outlier o rumore. DBSCAN, Mean-shift e OPTICS appartengono a questo tipo di clustering. -- **Clustering basato sulla griglia**. Per dataset multidimensionali, viene creata una griglia e i dati vengono divisi tra le celle della griglia, creando così cluster. +- **Clustering basato su griglia**. Per dataset multidimensionali, viene creata una griglia e i dati sono divisi tra le celle della griglia, creando così cluster. ## Esercizio - raggruppa i tuoi dati -Il clustering come tecnica è notevolmente facilitato da una corretta visualizzazione, quindi iniziamo visualizzando i nostri dati musicali. Questo esercizio ci aiuterà a decidere quale dei metodi di clustering utilizzare in modo più efficace per la natura di questi dati. +Il clustering come tecnica è grandemente agevolato da una buona visualizzazione, quindi iniziamo visualizzando i nostri dati musicali. Questo esercizio ci aiuterà a decidere quale dei metodi di clustering dovremmo usare più efficacemente per la natura di questi dati. 1. Apri il file [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) in questa cartella. @@ -110,7 +109,7 @@ Il clustering come tecnica è notevolmente facilitato da una corretta visualizza !pip install seaborn ``` -1. Aggiungi i dati delle canzoni da [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Carica un dataframe con alcuni dati sulle canzoni. Preparati a esplorare questi dati importando le librerie e visualizzando i dati: +1. Aggiungi i dati delle canzoni da [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Carica un dataframe con alcuni dati sulle canzoni. Preparati a esplorare questi dati importando le librerie ed evidenziando i dati: ```python import matplotlib.pyplot as plt @@ -120,15 +119,15 @@ Il clustering come tecnica è notevolmente facilitato da una corretta visualizza df.head() ``` - Controlla le prime righe di dati: + Controlla le prime righe dei dati: - | | nome | album | artista | genere_principale_artista | data_di_uscita | durata | popolarità | ballabilità | acusticità | energia | strumentalità | vivacità | volume | parlato | tempo | firma_temporale | - | --- | ------------------------ | ---------------------------- | ------------------- | -------------------------- | -------------- | ------ | ---------- | ------------ | ------------ | ------ | -------------- | -------- | -------- | ----------- | ------- | -------------- | - | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | - | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | + | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | 1. Ottieni alcune informazioni sul dataframe, chiamando `info()`: @@ -136,7 +135,7 @@ Il clustering come tecnica è notevolmente facilitato da una corretta visualizza df.info() ``` - L'output appare così: + L'output sarà simile a questo: ```output @@ -164,13 +163,13 @@ Il clustering come tecnica è notevolmente facilitato da una corretta visualizza memory usage: 66.4+ KB ``` -1. Controlla nuovamente la presenza di valori nulli, chiamando `isnull()` e verificando che la somma sia 0: +1. Verifica la presenza di valori nulli, chiamando `isnull()` e controllando che la somma sia 0: ```python df.isnull().sum() ``` - Tutto sembra a posto: + Tutto apposto: ```output name 0 @@ -209,11 +208,11 @@ Il clustering come tecnica è notevolmente facilitato da una corretta visualizza | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Se stiamo lavorando con il clustering, un metodo non supervisionato che non richiede dati etichettati, perché stiamo mostrando questi dati con etichette? Nella fase di esplorazione dei dati, sono utili, ma non sono necessari affinché gli algoritmi di clustering funzionino. Potresti anche rimuovere le intestazioni delle colonne e fare riferimento ai dati per numero di colonna. +> 🤔 Se stiamo lavorando con il clustering, un metodo non supervisionato che non richiede dati etichettati, perché mostriamo questi dati con etichette? Nella fase di esplorazione dei dati, sono utili, ma non sono necessari per il funzionamento degli algoritmi di clustering. Potreste anche rimuovere le intestazioni delle colonne e riferirvi ai dati per numero di colonna. -Osserva i valori generali dei dati. Nota che la popolarità può essere '0', il che indica canzoni che non hanno una classifica. Rimuoviamole a breve. +Guarda i valori generali dei dati. Nota che la popolarità può essere '0', il che indica canzoni che non hanno classifica. Rimuoviamole a breve. -1. Usa un barplot per scoprire i generi più popolari: +1. Usa un grafico a barre per trovare i generi più popolari: ```python import seaborn as sns @@ -225,13 +224,13 @@ Osserva i valori generali dei dati. Nota che la popolarità può essere '0', il plt.title('Top genres',color = 'blue') ``` - ![most popular](../../../../5-Clustering/1-Visualize/images/popular.png) + ![più popolari](../../../../translated_images/it/popular.9c48d84b3386705f.webp) -✅ Se vuoi vedere più valori principali, modifica il top `[:5]` con un valore maggiore o rimuovilo per vedere tutto. +✅ Se vuoi vedere più valori top, cambia il limite `[:5]` con un valore più grande, o rimuovilo per vedere tutti. -Nota, quando il genere principale è descritto come 'Missing', significa che Spotify non lo ha classificato, quindi rimuoviamolo. +Nota, quando il genere più popolare è descritto come 'Missing', significa che Spotify non l'ha classificato, quindi eliminiamolo. -1. Elimina i dati mancanti filtrandoli: +1. Elimina i dati mancanti filtrandoli fuori ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -244,9 +243,9 @@ Nota, quando il genere principale è descritto come 'Missing', significa che Spo Ora ricontrolla i generi: - ![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![più popolari](../../../../translated_images/it/all-genres.1d56ef06cefbfcd6.webp) -1. Di gran lunga, i tre generi principali dominano questo dataset. Concentriamoci su `afro dancehall`, `afropop` e `nigerian pop`, filtrando inoltre il dataset per rimuovere qualsiasi valore di popolarità pari a 0 (il che significa che non è stato classificato con una popolarità nel dataset e può essere considerato rumore per i nostri scopi): +1. Di gran lunga, i primi tre generi dominano questo dataset. Concentriamoci su `afro dancehall`, `afropop`, e `nigerian pop`, filtrando inoltre il dataset per rimuovere qualsiasi valore di popolarità pari a 0 (il che significa che non è stato classificato con una popolarità nel dataset e può essere considerato rumore ai nostri scopi): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +257,7 @@ Nota, quando il genere principale è descritto come 'Missing', significa che Spo plt.title('Top genres',color = 'blue') ``` -1. Fai un test rapido per vedere se i dati correlano in modo particolarmente forte: +1. Esegui un test rapido per vedere se i dati correlano in modo particolarmente forte: ```python corrmat = df.corr(numeric_only=True) @@ -266,21 +265,21 @@ Nota, quando il genere principale è descritto come 'Missing', significa che Spo sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlazioni](../../../../translated_images/it/correlation.a9356bb798f5eea5.webp) - L'unica correlazione forte è tra `energy` e `loudness`, il che non è troppo sorprendente, dato che la musica forte è di solito piuttosto energica. Altrimenti, le correlazioni sono relativamente deboli. Sarà interessante vedere cosa può fare un algoritmo di clustering con questi dati. + L'unica correlazione forte è tra `energy` e `loudness`, il che non sorprende, dato che la musica forte è solitamente abbastanza energica. Per il resto, le correlazioni sono relativamente deboli. Sarà interessante vedere cosa un algoritmo di clustering può fare con questi dati. - > 🎓 Nota che la correlazione non implica causalità! Abbiamo la prova della correlazione ma non la prova della causalità. Un [sito web divertente](https://tylervigen.com/spurious-correlations) ha alcune visualizzazioni che enfatizzano questo punto. + > 🎓 Nota che correlazione non implica causalità! Abbiamo la prova della correlazione ma nessuna prova della causalità. Un [sito divertente](https://tylervigen.com/spurious-correlations) presenta alcune visualizzazioni che enfatizzano questo punto. -C'è qualche convergenza in questo dataset intorno alla percezione della popolarità e della ballabilità di una canzone? Un FacetGrid mostra che ci sono cerchi concentrici che si allineano, indipendentemente dal genere. Potrebbe essere che i gusti nigeriani convergano a un certo livello di ballabilità per questo genere? +C'è qualche convergenza in questo dataset attorno alla popolarità percepita di una canzone e alla sua danceabilità? Un FacetGrid mostra che ci sono cerchi concentrici che si allineano, indipendentemente dal genere. Potrebbe essere che i gusti nigeriani convergano a un certo livello di danceabilità per questo genere? -✅ Prova diversi punti dati (energy, loudness, speechiness) e più o diversi generi musicali. Cosa puoi scoprire? Dai un'occhiata alla tabella `df.describe()` per vedere la distribuzione generale dei punti dati. +✅ Prova diversi punti dati (energy, loudness, speechiness) e più o diversi generi musicali. Cosa puoi scoprire? Dai un'occhiata alla tabella `df.describe()` per vedere la distribuzione generale dei dati. ### Esercizio - distribuzione dei dati -Questi tre generi sono significativamente diversi nella percezione della loro ballabilità, in base alla loro popolarità? +Questi tre generi sono significativamente diversi nella percezione della loro danceabilità, basata sulla loro popolarità? -1. Esamina la distribuzione dei dati dei nostri tre generi principali per popolarità e ballabilità lungo un dato asse x e y. +1. Esamina la distribuzione dei dati dei nostri tre generi principali per popolarità e danceabilità lungo un asse x ed y dati. ```python sns.set_theme(style="ticks") @@ -292,15 +291,15 @@ Questi tre generi sono significativamente diversi nella percezione della loro ba ) ``` - Puoi scoprire cerchi concentrici intorno a un punto generale di convergenza, mostrando la distribuzione dei punti. + Puoi scoprire cerchi concentrici attorno a un punto generale di convergenza, mostrando la distribuzione dei punti. - > 🎓 Nota che questo esempio utilizza un grafico KDE (Kernel Density Estimate) che rappresenta i dati utilizzando una curva di densità di probabilità continua. Questo ci permette di interpretare i dati quando si lavora con più distribuzioni. + > 🎓 Nota che questo esempio utilizza un grafico KDE (Kernel Density Estimate) che rappresenta i dati usando una curva continua di densità di probabilità. Questo ci permette di interpretare i dati quando si lavora con molteplici distribuzioni. - In generale, i tre generi si allineano vagamente in termini di popolarità e ballabilità. Determinare cluster in questi dati vagamente allineati sarà una sfida: + In generale, i tre generi si allineano grossolanamente in termini di popolarità e danceabilità. Determinare cluster in questi dati allineati in modo approssimativo sarà una sfida: - ![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribuzione](../../../../translated_images/it/distribution.9be11df42356ca95.webp) -1. Crea un grafico a dispersione: +1. Crea un grafico a dispersione (scatter plot): ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -308,25 +307,25 @@ Questi tre generi sono significativamente diversi nella percezione della loro ba .add_legend() ``` - Un grafico a dispersione degli stessi assi mostra un modello simile di convergenza + Un grafico a dispersione degli stessi assi mostra un pattern di convergenza simile - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/it/facetgrid.9b2e65ce707eba1f.webp) -In generale, per il clustering, puoi utilizzare grafici a dispersione per mostrare cluster di dati, quindi padroneggiare questo tipo di visualizzazione è molto utile. Nella prossima lezione, prenderemo questi dati filtrati e utilizzeremo il clustering k-means per scoprire gruppi in questi dati che sembrano sovrapporsi in modi interessanti. +In generale, per il clustering, puoi usare scatterplot per mostrare gruppi di dati, quindi padroneggiare questo tipo di visualizzazione è molto utile. Nella lezione successiva, prenderemo questi dati filtrati e useremo il clustering k-means per scoprire gruppi in questi dati che sembrano sovrapporsi in modi interessanti. --- ## 🚀Sfida -In preparazione per la prossima lezione, crea un grafico sui vari algoritmi di clustering che potresti scoprire e utilizzare in un ambiente di produzione. Quali tipi di problemi sta cercando di affrontare il clustering? +In preparazione alla prossima lezione, crea un grafico sugli algoritmi di clustering vari che potresti scoprire e usare in un ambiente di produzione. Quali tipi di problemi cerca di risolvere il clustering? ## [Quiz post-lezione](https://ff-quizzes.netlify.app/en/ml/) -## Revisione & Studio Autonomo +## Revisione e autoapprendimento -Prima di applicare algoritmi di clustering, come abbiamo imparato, è una buona idea comprendere la natura del tuo dataset. Leggi di più su questo argomento [qui](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Prima di applicare gli algoritmi di clustering, come abbiamo imparato, è una buona idea comprendere la natura del tuo dataset. Leggi di più su questo argomento [qui](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[Questo articolo utile](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) ti guida attraverso i diversi modi in cui vari algoritmi di clustering si comportano, dati diversi tipi di forme dei dati. +[Questo articolo utile](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) ti guida attraverso i diversi comportamenti degli algoritmi di clustering, dati diversi tipi di dati. ## Compito @@ -334,5 +333,7 @@ Prima di applicare algoritmi di clustering, come abbiamo imparato, è una buona --- -**Disclaimer**: -Questo documento è stato tradotto utilizzando il servizio di traduzione automatica [Co-op Translator](https://github.com/Azure/co-op-translator). Sebbene ci impegniamo per garantire l'accuratezza, si prega di tenere presente che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa dovrebbe essere considerato la fonte autorevole. Per informazioni critiche, si raccomanda una traduzione professionale effettuata da un traduttore umano. Non siamo responsabili per eventuali incomprensioni o interpretazioni errate derivanti dall'uso di questa traduzione. \ No newline at end of file + +**Disclaimer**: +Questo documento è stato tradotto utilizzando il servizio di traduzione AI [Co-op Translator](https://github.com/Azure/co-op-translator). Sebbene ci impegniamo per garantire la precisione, si prega di notare che le traduzioni automatizzate possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa deve essere considerato la fonte autorevole. Per informazioni critiche, si raccomanda una traduzione professionale effettuata da un essere umano. Non siamo responsabili per eventuali malintesi o interpretazioni errate derivanti dall’uso di questa traduzione. + \ No newline at end of file diff --git a/translations/pl/.co-op-translator.json b/translations/pl/.co-op-translator.json index d97107ce4..478e5fb52 100644 --- a/translations/pl/.co-op-translator.json +++ b/translations/pl/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-05T08:22:20+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:31:37+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "pl" }, @@ -240,8 +240,8 @@ "language_code": "pl" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-05T08:16:39+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:31:07+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "pl" }, diff --git a/translations/pl/1-Introduction/1-intro-to-ML/README.md b/translations/pl/1-Introduction/1-intro-to-ML/README.md index 368d3e090..4adf91d31 100644 --- a/translations/pl/1-Introduction/1-intro-to-ML/README.md +++ b/translations/pl/1-Introduction/1-intro-to-ML/README.md @@ -4,147 +4,154 @@ --- -[![ML dla początkujących - Wprowadzenie do uczenia maszynowego dla początkujących](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML dla początkujących - Wprowadzenie do uczenia maszynowego dla początkujących") +[![ML for beginners - Introduction to Machine Learning for Beginners](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML for beginners - Introduction to Machine Learning for Beginners") -> 🎥 Kliknij obrazek powyżej, aby obejrzeć krótki film związany z tą lekcją. +> 🎥 Kliknij powyższy obraz, aby obejrzeć krótki film omawiający tę lekcję. -Witamy na kursie klasycznego uczenia maszynowego dla początkujących! Niezależnie od tego, czy dopiero zaczynasz swoją przygodę z tym tematem, czy jesteś doświadczonym praktykiem ML, który chce odświeżyć wiedzę w danej dziedzinie, cieszymy się, że do nas dołączasz! Chcemy stworzyć przyjazne miejsce startowe dla Twojej nauki ML i chętnie ocenimy, odpowiemy na Twoje [opinie](https://github.com/microsoft/ML-For-Beginners/discussions) oraz uwzględnimy je w kursie. +Witamy na kursie klasycznego uczenia maszynowego dla początkujących! Niezależnie od tego, czy jesteś zupełnie nowy w tym temacie, czy doświadczonym praktykiem ML, który chce odświeżyć swoją wiedzę, cieszymy się, że do nas dołączasz! Chcemy stworzyć przyjazne miejsce startowe dla Twojej nauki ML i chętnie ocenimy, odpowiemy na, oraz włączymy Twoje [opinie](https://github.com/microsoft/ML-For-Beginners/discussions). -[![Wprowadzenie do ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Wprowadzenie do ML") +[![Introduction to ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introduction to ML") -> 🎥 Kliknij obrazek powyżej, aby obejrzeć film: John Guttag z MIT wprowadza do uczenia maszynowego +> 🎥 Kliknij powyższy obraz, aby obejrzeć film: John Guttag z MIT wprowadza w uczenie maszynowe --- -## Rozpoczęcie pracy z uczeniem maszynowym +## Zacznij swoją przygodę z uczeniem maszynowym -Przed rozpoczęciem pracy z tym kursem musisz przygotować swój komputer do lokalnego uruchamiania notebooków. +Przed rozpoczęciem pracy z tym materiałem, musisz mieć komputer skonfigurowany i gotowy do uruchamiania notatników lokalnie. -- **Skonfiguruj swój komputer za pomocą tych filmów**. Skorzystaj z poniższych linków, aby dowiedzieć się [jak zainstalować Python](https://youtu.be/CXZYvNRIAKM) na swoim systemie oraz [jak skonfigurować edytor tekstu](https://youtu.be/EU8eayHWoZg) do programowania. -- **Naucz się Pythona**. Zaleca się również podstawową znajomość [Pythona](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), języka programowania przydatnego dla naukowców zajmujących się danymi, którego używamy w tym kursie. -- **Poznaj Node.js i JavaScript**. Kilka razy w tym kursie używamy JavaScriptu do tworzenia aplikacji webowych, więc będziesz potrzebować [node](https://nodejs.org) i [npm](https://www.npmjs.com/) oraz [Visual Studio Code](https://code.visualstudio.com/) do programowania w Pythonie i JavaScript. -- **Załóż konto na GitHub**. Skoro znalazłeś nas tutaj na [GitHub](https://github.com), być może już masz konto, ale jeśli nie, załóż je, a następnie zrób fork tego kursu, aby korzystać z niego na własny użytek. (Możesz też dać nam gwiazdkę 😊) -- **Poznaj Scikit-learn**. Zapoznaj się z [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), zestawem bibliotek ML, które wykorzystujemy w tych lekcjach. +- **Skonfiguruj swój komputer korzystając z tych filmów**. Użyj poniższych linków, aby nauczyć się [jak zainstalować Pythona](https://youtu.be/CXZYvNRIAKM) na swoim systemie oraz [jak ustawić edytor tekstu](https://youtu.be/EU8eayHWoZg) do pracy. +- **Naucz się Pythona**. Zalecane jest również posiadanie podstawowej wiedzy o [Pythonie](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), języku programowania przydatnym dla data scientistów, którego używamy w tym kursie. +- **Naucz się Node.js i JavaScriptu**. W tym kursie korzystamy też kilkakrotnie z JavaScriptu przy budowie aplikacji webowych, dlatego potrzebujesz mieć zainstalowane [node](https://nodejs.org) oraz [npm](https://www.npmjs.com/), a także [Visual Studio Code](https://code.visualstudio.com/) do rozwoju zarówno w Pythonie, jak i JavaScriptcie. +- **Załóż konto na GitHubie**. Jeśli trafiłeś tutaj przez [GitHub](https://github.com), możesz mieć już konto, ale jeśli nie, załóż je, a następnie sforkuj ten materiał, aby korzystać z niego na własne potrzeby. (Możesz też zostawić nam gwiazdkę 😊) +- **Poznaj Scikit-learn**. Zapoznaj się z [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), zestawem bibliotek ML, na które często się powołujemy w tych lekcjach. --- ## Czym jest uczenie maszynowe? -Termin 'uczenie maszynowe' jest jednym z najpopularniejszych i najczęściej używanych terminów współczesności. Istnieje spore prawdopodobieństwo, że słyszałeś ten termin przynajmniej raz, jeśli masz jakąkolwiek styczność z technologią, niezależnie od dziedziny, w której pracujesz. Mechanizmy uczenia maszynowego są jednak tajemnicą dla większości ludzi. Dla początkującego w tej dziedzinie temat może czasami wydawać się przytłaczający. Dlatego ważne jest, aby zrozumieć, czym właściwie jest uczenie maszynowe i poznawać je krok po kroku, poprzez praktyczne przykłady. +Termin „uczenie maszynowe” jest jednym z najpopularniejszych i najczęściej używanych obecnie. Istnieje spore prawdopodobieństwo, że słyszałeś ten termin przynajmniej raz, jeśli masz jakiekolwiek pojęcie o technologii, bez względu na dziedzinę, w której pracujesz. Mechanika uczenia maszynowego jest jednak dla większości osób tajemnicą. Dla początkującego w ML temat może być nieco przytłaczający. Dlatego ważne jest, aby zrozumieć, czym naprawdę jest uczenie maszynowe, i uczyć się o nim krok po kroku, przez praktyczne przykłady. --- -## Krzywa popularności +## Krzywa hype'u -![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/pl/hype.07183d711a17aafe.webp) -> Google Trends pokazuje ostatnią 'krzywą popularności' terminu 'uczenie maszynowe' +> Google Trends pokazuje ostatnią „krzywą hype’u” terminu „uczenie maszynowe” --- ## Tajemniczy wszechświat -Żyjemy w wszechświecie pełnym fascynujących tajemnic. Wielcy naukowcy, tacy jak Stephen Hawking, Albert Einstein i wielu innych, poświęcili swoje życie na poszukiwanie znaczących informacji, które odkrywają tajemnice otaczającego nas świata. To jest ludzka kondycja uczenia się: dziecko uczy się nowych rzeczy i odkrywa strukturę swojego świata rok po roku, dorastając do dorosłości. +Żyjemy w wszechświecie pełnym fascynujących tajemnic. Wielcy naukowcy, tacy jak Stephen Hawking, Albert Einstein i wielu innych, poświęcili swoje życie poszukiwaniu znaczących informacji, które ujawniają tajemnice świata wokół nas. To kondycja ludzka uczenia się: dziecko poznaje nowe rzeczy i odkrywa strukturę swojego świata z roku na rok, dorastając do dorosłości. --- ## Mózg dziecka -Mózg dziecka i jego zmysły postrzegają fakty otoczenia i stopniowo uczą się ukrytych wzorców życia, które pomagają dziecku tworzyć logiczne zasady identyfikacji poznanych wzorców. Proces uczenia się ludzkiego mózgu sprawia, że ludzie są najbardziej zaawansowanymi istotami żyjącymi na świecie. Ciągłe uczenie się poprzez odkrywanie ukrytych wzorców, a następnie innowacje na ich podstawie, pozwala nam stawać się coraz lepszymi przez całe życie. Ta zdolność uczenia się i ewolucji jest związana z koncepcją zwaną [plastycznością mózgu](https://www.simplypsychology.org/brain-plasticity.html). Powierzchownie możemy dostrzec pewne motywacyjne podobieństwa między procesem uczenia się ludzkiego mózgu a koncepcjami uczenia maszynowego. +Mózg i zmysły dziecka postrzegają fakty otoczenia i stopniowo uczą się ukrytych wzorców życia, które pomagają dziecku stworzyć logiczne reguły identyfikujące nauczone wzorce. Proces uczenia się ludzkiego mózgu czyni ludzi najbardziej wyrafinowanym żywym stworzeniem na świecie. Ciągłe uczenie się przez odkrywanie ukrytych wzorców, a następnie innowacje na ich podstawie pozwala nam się stale ulepszać przez całe życie. Ta zdolność uczenia się i rozwijające się możliwości wiążą się z pojęciem zwanym [plastycznością mózgu](https://www.simplypsychology.org/brain-plasticity.html). Na powierzchni możemy dostrzec pewne motywacyjne podobieństwa między procesem uczenia się ludzkiego mózgu a koncepcjami uczenia maszynowego. --- ## Ludzki mózg -[Ludzki mózg](https://www.livescience.com/29365-human-brain.html) postrzega rzeczy ze świata rzeczywistego, przetwarza postrzegane informacje, podejmuje racjonalne decyzje i wykonuje określone działania w zależności od okoliczności. To właśnie nazywamy inteligentnym zachowaniem. Kiedy programujemy imitację procesu inteligentnego zachowania na maszynie, nazywa się to sztuczną inteligencją (AI). +[Ludzki mózg](https://www.livescience.com/29365-human-brain.html) postrzega rzeczy ze świata realnego, przetwarza odebrane informacje, podejmuje racjonalne decyzje i wykonuje określone działania w zależności od okoliczności. To nazywamy inteligentnym zachowaniem. Kiedy programujemy na maszynie naśladując ten inteligentny proces zachowań, nazywamy to sztuczną inteligencją (AI). --- ## Kilka terminów -Chociaż terminy mogą być mylone, uczenie maszynowe (ML) jest ważnym podzbiorem sztucznej inteligencji. **ML zajmuje się wykorzystaniem specjalistycznych algorytmów do odkrywania znaczących informacji i znajdowania ukrytych wzorców w postrzeganych danych, aby wspierać proces racjonalnego podejmowania decyzji**. +Chociaż terminy mogą się mylić, uczenie maszynowe (ML) jest ważnym podzbiorem sztucznej inteligencji. **ML zajmuje się stosowaniem wyspecjalizowanych algorytmów do odkrywania znaczących informacji oraz znajdowania ukrytych wzorców z odebranych danych, aby potwierdzić racjonalny proces podejmowania decyzji**. --- -## AI, ML, Deep Learning +## AI, ML, uczenie głębokie -![AI, ML, deep learning, data science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/pl/ai-ml-ds.537ea441b124ebf6.webp) -> Diagram pokazujący relacje między AI, ML, deep learning i data science. Infografika autorstwa [Jen Looper](https://twitter.com/jenlooper) inspirowana [tym grafikiem](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> Diagram pokazujący relacje między sztuczną inteligencją, uczeniem maszynowym, uczeniem głębokim i nauką o danych. Infografika autorstwa [Jen Looper](https://twitter.com/jenlooper) inspirowana [tym obrazem](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- ## Koncepcje do omówienia -W tym kursie omówimy tylko podstawowe koncepcje uczenia maszynowego, które początkujący musi znać. Skupimy się na tym, co nazywamy 'klasycznym uczeniem maszynowym', głównie korzystając z Scikit-learn, doskonałej biblioteki, którą wielu studentów wykorzystuje do nauki podstaw. Aby zrozumieć szersze koncepcje sztucznej inteligencji lub deep learning, niezbędna jest solidna wiedza podstawowa z zakresu uczenia maszynowego, którą chcemy tutaj zaoferować. +W tym programie omówimy tylko podstawowe koncepcje uczenia maszynowego, które początkujący musi znać. Skupimy się na tzw. „klasycznym uczeniu maszynowym”, głównie korzystając ze Scikit-learn, znakomitej biblioteki, z której wielu studentów korzysta, aby poznać podstawy. Aby zrozumieć szersze pojęcia sztucznej inteligencji lub uczenia głębokiego, solidna wiedza podstawowa z uczenia maszynowego jest niezbędna, dlatego chcemy ją tutaj zapewnić. --- -## W tym kursie nauczysz się: +## Na tym kursie nauczysz się: - podstawowych koncepcji uczenia maszynowego - historii ML -- ML i sprawiedliwości -- technik regresji w ML -- technik klasyfikacji w ML -- technik klastrowania w ML -- technik przetwarzania języka naturalnego w ML -- technik prognozowania szeregów czasowych w ML -- uczenia przez wzmacnianie -- zastosowań uczenia maszynowego w rzeczywistości +- ML a sprawiedliwości +- technik regresji ML +- technik klasyfikacji ML +- technik klastrowania ML +- technik przetwarzania języka naturalnego ML +- technik prognozowania szeregów czasowych ML +- uczenia ze wzmocnieniem +- zastosowań ML w praktyce --- ## Czego nie omówimy -- deep learning +- uczenia głębokiego - sieci neuronowych -- AI +- sztucznej inteligencji -Aby zapewnić lepsze doświadczenie edukacyjne, unikniemy złożoności sieci neuronowych, 'deep learning' - wielowarstwowego budowania modeli za pomocą sieci neuronowych - oraz AI, które omówimy w innym kursie. Oferujemy również nadchodzący kurs data science, który skupi się na tym aspekcie tej większej dziedziny. +Aby zapewnić lepsze doświadczenie edukacyjne, unikniemy złożoności sieci neuronowych, „uczenia głębokiego” – wielowarstwowego tworzenia modeli za pomocą sieci neuronowych – oraz AI, które omówimy w osobnym kursie. Wkrótce zaproponujemy również kurs nauki o danych, skupiający się na tym obszarze. --- -## Dlaczego warto studiować uczenie maszynowe? +## Dlaczego warto uczyć się uczenia maszynowego? -Uczenie maszynowe, z perspektywy systemowej, definiuje się jako tworzenie zautomatyzowanych systemów, które mogą uczyć się ukrytych wzorców z danych, aby wspierać podejmowanie inteligentnych decyzji. +Uczenie maszynowe, z perspektywy systemów, definiuje się jako tworzenie zautomatyzowanych systemów, które potrafią uczyć się ukrytych wzorców z danych, aby wspomagać podejmowanie inteligentnych decyzji. -Ta motywacja jest luźno inspirowana tym, jak ludzki mózg uczy się pewnych rzeczy na podstawie danych, które postrzega ze świata zewnętrznego. +Ta motywacja jest luźno inspirowana tym, jak ludzki mózg uczy się pewnych rzeczy na podstawie danych, które odbiera z otaczającego świata. -✅ Zastanów się przez chwilę, dlaczego firma chciałaby zastosować strategie uczenia maszynowego zamiast tworzenia silnika opartego na twardo zakodowanych regułach. +✅ Pomyśl przez chwilę, dlaczego firma chciałaby wykorzystać strategie uczenia maszynowego zamiast tworzyć silnik oparty na kodowanych na twardo regułach. + +--- +## Dlaczego jakość danych ma znaczenie + +Dane wysokiej jakości poprawiają wydajność modelu. Słabe lub zaszumione dane mogą prowadzić do niedokładnych predykcji, nawet przy stosowaniu zaawansowanych algorytmów uczenia maszynowego. --- ## Zastosowania uczenia maszynowego -Zastosowania uczenia maszynowego są teraz niemal wszędzie i są tak wszechobecne jak dane przepływające w naszych społeczeństwach, generowane przez nasze smartfony, urządzenia połączone i inne systemy. Biorąc pod uwagę ogromny potencjał najnowocześniejszych algorytmów uczenia maszynowego, naukowcy badają ich zdolność do rozwiązywania wielowymiarowych i wielodyscyplinarnych problemów życia codziennego z wielkimi pozytywnymi rezultatami. +Zastosowania uczenia maszynowego są dziś niemal wszędzie i są tak powszechne, jak dane które przepływają w naszych społeczeństwach, generowane przez smartfony, urządzenia połączone i inne systemy. Biorąc pod uwagę ogromny potencjał najnowocześniejszych algorytmów ML, badacze eksplorują ich zdolności do rozwiązywania wielowymiarowych i interdyscyplinarnych problemów rzeczywistych z bardzo pozytywnymi wynikami. --- -## Przykłady zastosowania ML +## Przykłady zastosowanego ML -**Uczenie maszynowe można wykorzystać na wiele sposobów**: +**Uczenie maszynowe można wykorzystywać na wiele sposobów**: -- Do przewidywania prawdopodobieństwa wystąpienia choroby na podstawie historii medycznej pacjenta lub raportów. -- Do wykorzystania danych pogodowych w celu przewidywania zjawisk atmosferycznych. -- Do analizy sentymentu tekstu. -- Do wykrywania fałszywych wiadomości, aby zatrzymać rozprzestrzenianie się propagandy. +- Aby przewidywać prawdopodobieństwo choroby na podstawie historii medycznej lub raportów pacjenta. +- Aby wykorzystać dane pogodowe do prognozowania zjawisk atmosferycznych. +- Aby zrozumieć sentyment tekstu. +- Aby wykrywać fałszywe wiadomości i powstrzymać rozprzestrzenianie się propagandy. -Finanse, ekonomia, nauki o Ziemi, eksploracja kosmosu, inżynieria biomedyczna, nauki kognitywne, a nawet dziedziny humanistyczne zaadaptowały uczenie maszynowe do rozwiązywania trudnych, wymagających przetwarzania danych problemów w swoich dziedzinach. +Finanse, ekonomia, nauki o ziemi, badania kosmiczne, inżynieria biomedyczna, nauki kognitywne, a nawet dziedziny humanistyczne dostosowały uczenie maszynowe do rozwiązywania trudnych, opartych na danych problemów swoich obszarów. --- ## Podsumowanie -Uczenie maszynowe automatyzuje proces odkrywania wzorców poprzez znajdowanie znaczących informacji z danych rzeczywistych lub generowanych. Udowodniło swoją wartość w biznesie, zdrowiu i aplikacjach finansowych, między innymi. +Uczenie maszynowe automatyzuje proces odkrywania wzorców przez znajdowanie znaczących informacji z danych rzeczywistych lub generowanych. Udowodniło swoją dużą wartość w biznesie, zdrowiu i finansach, między innymi. -W niedalekiej przyszłości zrozumienie podstaw uczenia maszynowego stanie się koniecznością dla ludzi z każdej dziedziny ze względu na jego szerokie zastosowanie. +W niedalekiej przyszłości znajomość podstaw uczenia maszynowego stanie się obowiązkowa dla ludzi z każdej dziedziny ze względu na jego powszechne zastosowanie. --- # 🚀 Wyzwanie -Naszkicuj, na papierze lub za pomocą aplikacji online, takiej jak [Excalidraw](https://excalidraw.com/), swoje rozumienie różnic między AI, ML, deep learning i data science. Dodaj kilka pomysłów na problemy, które każda z tych technik jest dobra w rozwiązywaniu. +Naszkicuj na papierze lub używając aplikacji online, takiej jak [Excalidraw](https://excalidraw.com/), swoje rozumienie różnic między AI, ML, uczeniem głębokim i nauką o danych. Dodaj kilka pomysłów na problemy, które każda z tych technik dobrze rozwiązuje. # [Quiz po wykładzie](https://ff-quizzes.netlify.app/en/ml/) --- # Przegląd i samodzielna nauka -Aby dowiedzieć się więcej o tym, jak pracować z algorytmami ML w chmurze, skorzystaj z tego [kursu](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +Aby dowiedzieć się więcej o tym, jak pracować z algorytmami ML w chmurze, skorzystaj z tego [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Weź udział w [kursie](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) dotyczącym podstaw ML. +Ukończ [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) o podstawach ML. --- # Zadanie -[Przygotuj się do pracy](assignment.md) +[Zacznij pracę](assignment.md) --- -**Zastrzeżenie**: -Ten dokument został przetłumaczony za pomocą usługi tłumaczeniowej AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż dokładamy wszelkich starań, aby tłumaczenie było precyzyjne, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za wiarygodne źródło. W przypadku informacji krytycznych zaleca się skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z korzystania z tego tłumaczenia. \ No newline at end of file + +**Zastrzeżenie**: +Niniejszy dokument został przetłumaczony za pomocą usługi tłumaczenia AI [Co-op Translator](https://github.com/Azure/co-op-translator). Choć dążymy do dokładności, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub niedokładności. Oryginalny dokument w jego języku źródłowym należy uznawać za autorytatywne źródło. W przypadku informacji krytycznych zalecane jest skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z użycia tego tłumaczenia. + \ No newline at end of file diff --git a/translations/pl/5-Clustering/1-Visualize/README.md b/translations/pl/5-Clustering/1-Visualize/README.md index ce730a3ee..0f53f037f 100644 --- a/translations/pl/5-Clustering/1-Visualize/README.md +++ b/translations/pl/5-Clustering/1-Visualize/README.md @@ -1,116 +1,116 @@ # Wprowadzenie do klasteryzacji -Klasteryzacja to rodzaj [uczenia nienadzorowanego](https://wikipedia.org/wiki/Uczenie_nienadzorowane), który zakłada, że zbiór danych jest nieoznaczony lub że jego dane wejściowe nie są powiązane z wcześniej zdefiniowanymi wynikami. Wykorzystuje różne algorytmy do analizy nieoznaczonych danych i tworzenia grup na podstawie wzorców wykrytych w danych. +Klasteryzacja to rodzaj [Uczenia bez nadzoru](https://wikipedia.org/wiki/Unsupervised_learning), który zakłada, że zbiór danych jest nieoznaczony lub że jego dane wejściowe nie są dopasowane do zdefiniowanych wcześniej wyników. Wykorzystuje różne algorytmy do sortowania danych nieoznaczonych i tworzenia grup zgodnie z wzorcami, które dostrzega w danych. [![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Kliknij obrazek powyżej, aby obejrzeć wideo. Podczas nauki o klasteryzacji w uczeniu maszynowym, posłuchaj nigeryjskich utworów Dance Hall - to wysoko oceniana piosenka z 2014 roku autorstwa PSquare. +> 🎥 Kliknij powyższy obraz, aby obejrzeć film. Podczas nauki uczenia maszynowego z klasteryzacją, ciesz się kilkoma utworami Nigerian Dance Hall - to wysoko oceniana piosenka z 2014 roku autorstwa PSquare. ## [Quiz przed wykładem](https://ff-quizzes.netlify.app/en/ml/) ### Wprowadzenie -[Klasteryzacja](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) jest bardzo przydatna w eksploracji danych. Zobaczmy, czy może pomóc w odkrywaniu trendów i wzorców w sposobie, w jaki nigeryjscy odbiorcy konsumują muzykę. +[Klasteryzacja](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) jest bardzo przydatna do eksploracji danych. Zobaczmy, czy może pomóc odkryć trendy i wzorce w sposobie, w jaki nigeryjska publiczność konsumuje muzykę. -✅ Zastanów się przez chwilę nad zastosowaniami klasteryzacji. W codziennym życiu klasteryzacja ma miejsce, gdy masz stos prania i musisz posortować ubrania członków rodziny 🧦👕👖🩲. W data science klasteryzacja występuje podczas analizy preferencji użytkownika lub określania cech dowolnego nieoznaczonego zbioru danych. Klasteryzacja w pewnym sensie pomaga uporządkować chaos, jak w przypadku szuflady na skarpetki. +✅ Poświęć chwilę, aby przemyśleć zastosowania klasteryzacji. W rzeczywistym życiu klasteryzacja zachodzi za każdym razem, gdy masz pranie i musisz posegregować ubrania członków rodziny 🧦👕👖🩲. W nauce o danych klasteryzacja zachodzi, gdy próbuje się analizować preferencje użytkownika lub określić cechy dowolnego nieoznaczonego zbioru danych. Klasteryzacja, w pewnym sensie, pomaga zrozumieć chaos, podobnie jak szuflada na skarpetki. -[![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") +[![Wprowadzenie do ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") -> 🎥 Kliknij obrazek powyżej, aby obejrzeć wideo: John Guttag z MIT wprowadza klasteryzację. +> 🎥 Kliknij powyższy obraz, aby obejrzeć film: John Guttag z MIT wprowadza w temat klasteryzacji -W środowisku zawodowym klasteryzacja może być używana do określania takich rzeczy jak segmentacja rynku, np. ustalanie, jakie grupy wiekowe kupują jakie produkty. Innym zastosowaniem może być wykrywanie anomalii, np. w celu wykrycia oszustw w zbiorze danych o transakcjach kartami kredytowymi. Możesz również użyć klasteryzacji do identyfikacji guzów w serii skanów medycznych. +W środowisku profesjonalnym klasteryzacja może być używana do określania rzeczy takich jak segmentacja rynku, określanie, które grupy wiekowe kupują jakie przedmioty, na przykład. Innym zastosowaniem może być wykrywanie anomalii, np. w celu wykrycia oszustw na podstawie zestawu danych transakcji kartą kredytową. Możesz też użyć klasteryzacji do wykrywania guzów w partii skanów medycznych. -✅ Zastanów się przez chwilę, jak mogłeś spotkać się z klasteryzacją „w terenie”, w bankowości, e-commerce lub biznesie. +✅ Przemyśl przez chwilę, jak mogłeś spotkać się z klasteryzacją „w praktyce”, w bankowości, handlu elektronicznym lub biznesie. -> 🎓 Co ciekawe, analiza klastrów wywodzi się z dziedzin antropologii i psychologii w latach 30. XX wieku. Wyobraź sobie, jak mogła być wtedy używana. +> 🎓 Co ciekawe, analiza skupień wywodzi się z dziedzin antropologii i psychologii z lat 30. XX wieku. Czy potrafisz sobie wyobrazić, jak mogła być używana? -Alternatywnie, możesz użyć jej do grupowania wyników wyszukiwania - na przykład według linków zakupowych, obrazów lub recenzji. Klasteryzacja jest przydatna, gdy masz duży zbiór danych, który chcesz zredukować i na którym chcesz przeprowadzić bardziej szczegółową analizę, więc technika ta może być używana do poznania danych przed skonstruowaniem innych modeli. +Alternatywnie, można ją wykorzystać do grupowania wyników wyszukiwania – na przykład według linków do sklepów, obrazów lub recenzji. Klasteryzacja jest przydatna, gdy masz duży zbiór danych, który chcesz zredukować i na którym chcesz przeprowadzić bardziej szczegółową analizę, więc technika ta może być używana do poznania danych przed budową innych modeli. -✅ Gdy dane są zorganizowane w klastry, przypisujesz im identyfikator klastra. Ta technika może być przydatna przy zachowaniu prywatności zbioru danych; zamiast odnosić się do punktu danych za pomocą bardziej ujawniających danych identyfikacyjnych, możesz odwoływać się do niego za pomocą identyfikatora klastra. Czy możesz wymyślić inne powody, dla których warto odwoływać się do identyfikatora klastra zamiast innych elementów klastra, aby go zidentyfikować? +✅ Gdy twoje dane są zorganizowane w klastry, przypisujesz im identyfikator klastra, a ta technika może być użyteczna przy zachowaniu prywatności zbioru danych; możesz zamiast tego odwoływać się do punktu danych za pomocą identyfikatora klastra, a nie bardziej ujawniających danych identyfikujących. Czy potrafisz wymyślić inne powody, dla których odwoływałbyś się do identyfikatora klastra zamiast innych elementów klastra, aby go zidentyfikować? -Pogłęb swoją wiedzę na temat technik klasteryzacji w tym [module nauki](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott). +Pogłębiaj swoją wiedzę o technikach klasteryzacji w tym [module Learn](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) ## Rozpoczęcie pracy z klasteryzacją -[Scikit-learn oferuje szeroki wachlarz](https://scikit-learn.org/stable/modules/clustering.html) metod do przeprowadzania klasteryzacji. Typ, który wybierzesz, będzie zależał od Twojego przypadku użycia. Według dokumentacji każda metoda ma różne zalety. Oto uproszczona tabela metod obsługiwanych przez Scikit-learn i ich odpowiednich zastosowań: - -| Nazwa metody | Zastosowanie | -| :--------------------------- | :-------------------------------------------------------------------- | -| K-Means | ogólne zastosowanie, indukcyjne | -| Affinity propagation | wiele, nierówne klastry, indukcyjne | -| Mean-shift | wiele, nierówne klastry, indukcyjne | -| Spectral clustering | kilka, równe klastry, transdukcyjne | -| Ward hierarchical clustering | wiele, ograniczone klastry, transdukcyjne | -| Agglomerative clustering | wiele, ograniczone, odległości nieeuklidesowe, transdukcyjne | -| DBSCAN | geometria niepłaska, nierówne klastry, transdukcyjne | -| OPTICS | geometria niepłaska, nierówne klastry o zmiennej gęstości, transdukcyjne | -| Gaussian mixtures | geometria płaska, indukcyjne | -| BIRCH | duży zbiór danych z wartościami odstającymi, indukcyjne | - -> 🎓 Sposób, w jaki tworzymy klastry, ma wiele wspólnego z tym, jak grupujemy punkty danych w grupy. Rozpakujmy trochę terminologię: +[Scikit-learn oferuje szeroki wachlarz](https://scikit-learn.org/stable/modules/clustering.html) metod do przeprowadzania klasteryzacji. Typ, który wybierzesz, zależy od przypadku użycia. Zgodnie z dokumentacją, każda metoda ma różne zalety. Oto uproszczona tabela metod obsługiwanych przez Scikit-learn i ich odpowiednie przypadki użycia: + +| Nazwa metody | Przypadek użycia | +| :--------------------------- | :--------------------------------------------------------------------- | +| K-Means | ogólnego przeznaczenia, indukcyjna | +| Affinity propagation | wiele, nierównych klastrów, indukcyjna | +| Mean-shift | wiele, nierównych klastrów, indukcyjna | +| Spektralna klasteryzacja | mało, równych klastrów, transdukcyjna | +| Ward hierarchiczna | wiele, ograniczonych klastrów, transdukcyjna | +| Agglomeracyjna | wiele, ograniczonych, odległości nieeuklidesowych, transdukcyjna | +| DBSCAN | geometria niepłaska, nierówne klastry, transdukcyjna | +| OPTICS | geometria niepłaska, nierówne klastry o zmiennej gęstości, transdukcyjna | +| Mieszanki Gaussowskie | geometria płaska, indukcyjna | +| BIRCH | duży zbiór danych z wartościami odstającymi, indukcyjna | + +> 🎓 To, jak tworzymy klastry, w dużej mierze zależy od tego, jak grupujemy punkty danych w zbiory. Rozwińmy trochę słownictwo: > -> 🎓 ['Transdukcyjne' vs. 'indukcyjne'](https://wikipedia.org/wiki/Transduction_(machine_learning)) +> 🎓 ['Transdukcyjne' a 'indukcyjne'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> Wnioskowanie transdukcyjne opiera się na zaobserwowanych przypadkach treningowych, które są mapowane na konkretne przypadki testowe. Wnioskowanie indukcyjne opiera się na przypadkach treningowych, które są mapowane na ogólne reguły, które dopiero potem są stosowane do przypadków testowych. +> Wnioskowanie transdukcyjne pochodzi z obserwowanych przypadków treningowych, które są mapowane na konkretne przypadki testowe. Wnioskowanie indukcyjne pochodzi z przypadków treningowych, które odzwierciedlają ogólne reguły, które następnie stosuje się do przypadków testowych. > -> Przykład: Wyobraź sobie, że masz zbiór danych, który jest tylko częściowo oznaczony. Niektóre rzeczy to „płyty”, inne „CD”, a niektóre są puste. Twoim zadaniem jest przypisanie etykiet do pustych danych. Jeśli wybierzesz podejście indukcyjne, wytrenujesz model szukający „płyt” i „CD” i zastosujesz te etykiety do nieoznaczonych danych. Podejście to będzie miało trudności z klasyfikacją rzeczy, które są faktycznie „kasetami”. Podejście transdukcyjne, z drugiej strony, radzi sobie z tymi nieznanymi danymi bardziej efektywnie, ponieważ działa na grupowaniu podobnych elementów razem, a następnie przypisuje etykietę do grupy. W tym przypadku klastry mogą odzwierciedlać „okrągłe muzyczne rzeczy” i „kwadratowe muzyczne rzeczy”. +> Przykład: Wyobraź sobie, że masz zbiór danych częściowo opisany etykietami. Niektóre rzeczy to "winyle" (records), inne "płyty CD" (cds), a niektóre są puste. Twoim zadaniem jest przypisać etykiety do pustych miejsc. Jeśli wybierzesz podejście indukcyjne, wytrenujesz model do rozpoznawania "winyli" i "płyt CD" i zastosujesz te etykiety do danych nieoznaczonych. To podejście będzie miało trudności z klasyfikacją rzeczy, które faktycznie są "kasetami". Podejście transdukcyjne natomiast skuteczniej radzi sobie z tymi nieznanymi danymi, ponieważ grupuje podobne przedmioty razem, a następnie przypisuje etykietę grupie. W tym przypadku klastry mogą odzwierciedlać "okrągłe rzeczy muzyczne" i "kwadratowe rzeczy muzyczne". > -> 🎓 ['Geometria niepłaska' vs. 'płaska'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> 🎓 ['Geometria niepłaska' a 'płaska'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> Wywodzące się z terminologii matematycznej, geometria niepłaska vs. płaska odnosi się do pomiaru odległości między punktami za pomocą metod geometrycznych „płaskich” ([euklidesowych](https://wikipedia.org/wiki/Geometria_euklidesowa)) lub „niepłaskich” (nieeuklidesowych). +> Pochodząc z terminologii matematycznej, geometria niepłaska i płaska odnosi się do mierzenia odległości między punktami za pomocą metod geometrycznych 'płaskich' ([Euklidesowych](https://wikipedia.org/wiki/Euclidean_geometry)) lub 'niepłaskich' (nieeuklidesowych). > ->'Płaska' w tym kontekście odnosi się do geometrii euklidesowej (części której są nauczane jako „geometria płaszczyzny”), a 'niepłaska' odnosi się do geometrii nieeuklidesowej. Co geometria ma wspólnego z uczeniem maszynowym? Cóż, jako dwie dziedziny zakorzenione w matematyce, musi istnieć wspólny sposób mierzenia odległości między punktami w klastrach, a to można zrobić w sposób „płaski” lub „niepłaski”, w zależności od charakteru danych. [Odległości euklidesowe](https://wikipedia.org/wiki/Odległość_euklidesowa) są mierzone jako długość odcinka między dwoma punktami. [Odległości nieeuklidesowe](https://wikipedia.org/wiki/Geometria_nieeuklidesowa) są mierzone wzdłuż krzywej. Jeśli Twoje dane, wizualizowane, wydają się nie istnieć na płaszczyźnie, możesz potrzebować specjalistycznego algorytmu do ich obsługi. +> 'Płaska' w tym kontekście odnosi się do geometrii euklidesowej (jej części nauczane jako geometria płaszczyzny), a niepłaska do geometrii nieeuklidesowej. Co geometria ma wspólnego z uczeniem maszynowym? Jako dwie dziedziny mocno osadzone w matematyce, muszą mieć wspólny sposób mierzenia odległości między punktami w klastrach, co może być wykonane na sposób 'płaski' lub 'niepłaski', w zależności od charakteru danych. [Odległości euklidesowe](https://wikipedia.org/wiki/Euclidean_distance) mierzy się jako długość odcinka między dwoma punktami. [Odległości nieeuklidesowe](https://wikipedia.org/wiki/Non-Euclidean_geometry) mierzy się wzdłuż krzywej. Jeśli twoje dane, zwizualizowane, wydają się nie istnieć na płaszczyźnie, możesz potrzebować specjalistycznego algorytmu do ich obsługi. > -![Flat vs Nonflat Geometry Infographic](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) +![Flat vs Nonflat Geometry Infographic](../../../../translated_images/pl/flat-nonflat.d1c8c6e2a96110c1.webp) > Infografika autorstwa [Dasani Madipalli](https://twitter.com/dasani_decoded) > > 🎓 ['Odległości'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> Klastry są definiowane przez ich macierz odległości, np. odległości między punktami. Odległość tę można mierzyć na kilka sposobów. Klastry euklidesowe są definiowane przez średnią wartości punktów i zawierają 'centroid', czyli punkt centralny. Odległości są więc mierzone względem tego centroidu. Odległości nieeuklidesowe odnoszą się do 'clustroidów', punktu najbliższego innym punktom. Clustroidy z kolei mogą być definiowane na różne sposoby. +> Klastry definiuje się za pomocą macierzy odległości, np. odległości między punktami. Odległość ta może być mierzona na różne sposoby. Klastry euklidesowe definiuje się na podstawie średniej wartości punktów i zawierają 'środek' lub centroid. Odległości mierzy się zatem odległością do tego centroidu. Odległości nieeuklidesowe odnoszą się do 'klustroidów', punktów najbliższych innym punktom. Klustroidy mogą być definiowane na różne sposoby. > > 🎓 ['Ograniczone'](https://wikipedia.org/wiki/Constrained_clustering) > -> [Ograniczona klasteryzacja](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) wprowadza 'uczenie półnadzorowane' do tej metody nienadzorowanej. Relacje między punktami są oznaczane jako 'nie można połączyć' lub 'muszą być połączone', więc na zbiór danych nakładane są pewne reguły. +> [Ograniczona klasteryzacja](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) wprowadza 'uczenie półnadzorowane' do metody bez nadzoru. Relacje między punktami są oznaczane jako 'nie mogą być połączone' lub 'muszą być połączone', dzięki czemu zestawowi danych narzucane są pewne reguły. > ->Przykład: Jeśli algorytm zostanie uwolniony na partii nieoznaczonych lub półoznaczonych danych, klastry, które produkuje, mogą być niskiej jakości. W powyższym przykładzie klastry mogą grupować „okrągłe muzyczne rzeczy”, „kwadratowe muzyczne rzeczy”, „trójkątne rzeczy” i „ciastka”. Jeśli zostaną wprowadzone pewne ograniczenia lub reguły do przestrzegania („przedmiot musi być wykonany z plastiku”, „przedmiot musi być w stanie produkować muzykę”), może to pomóc „ograniczyć” algorytm do podejmowania lepszych decyzji. +> Przykład: Jeśli algorytm zostanie puszczony luzem na partii danych nieoznaczonych lub półoznaczonych, klastry, które stworzy, mogą być niskiej jakości. W powyższym przykładzie klastry mogłyby grupować "okrągłe rzeczy muzyczne", "kwadratowe rzeczy muzyczne", "trójkątne rzeczy" i "ciastka". Jeśli nadamy pewne ograniczenia lub reguły do przestrzegania ("przedmiot musi być wykonany z plastiku", "przedmiot musi być zdolny do produkcji muzyki"), może to pomóc "ograniczyć" algorytm do lepszych wyborów. > > 🎓 'Gęstość' > -> Dane, które są „szumne”, są uważane za „gęste”. Odległości między punktami w każdym z jego klastrów mogą okazać się, po zbadaniu, bardziej lub mniej gęste, czyli „zatłoczone”, i dlatego te dane muszą być analizowane za pomocą odpowiedniej metody klasteryzacji. [Ten artykuł](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) pokazuje różnicę między użyciem klasteryzacji K-Means a algorytmami HDBSCAN do eksploracji szumnego zbioru danych o nierównej gęstości klastrów. +> Dane uważane za 'szum' są traktowane jako 'gęste'. Odległości między punktami w ich klastrach mogą okazać się, po analizie, bardziej lub mniej gęste, czyli 'zatłoczone', i dlatego takie dane muszą być analizowane odpowiednią metodą klasteryzacji. [Ten artykuł](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) pokazuje różnicę między stosowaniem klasteryzacji K-Means a algorytmów HDBSCAN do eksploracji zaszumionych danych o nierównej gęstości klastrów. ## Algorytmy klasteryzacji -Istnieje ponad 100 algorytmów klasteryzacji, a ich zastosowanie zależy od charakteru danych. Omówmy niektóre z najważniejszych: +Istnieje ponad 100 algorytmów klasteryzacji, a ich zastosowanie zależy od charakteru danych, które mamy do dyspozycji. Omówmy niektóre z najważniejszych: -- **Klasteryzacja hierarchiczna**. Jeśli obiekt jest klasyfikowany na podstawie swojej bliskości do pobliskiego obiektu, a nie do bardziej odległego, klastry są tworzone na podstawie odległości ich członków od innych obiektów. Klasteryzacja aglomeracyjna w Scikit-learn jest hierarchiczna. +- **Hierarchiczna klasteryzacja.** Jeśli obiekt jest klasyfikowany na podstawie bliskości do obiektu w pobliżu, a nie do dalszego, klastry tworzone są na podstawie odległości między ich członkami a innymi obiektami. Agglomeratywna klasteryzacja w Scikit-learn jest hierarchiczna. - ![Hierarchical clustering Infographic](../../../../5-Clustering/1-Visualize/images/hierarchical.png) + ![Hierarchical clustering Infographic](../../../../translated_images/pl/hierarchical.bf59403aa43c8c47.webp) > Infografika autorstwa [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Klasteryzacja centroidowa**. Ten popularny algorytm wymaga wyboru 'k', czyli liczby klastrów do utworzenia, po czym algorytm określa punkt centralny klastra i gromadzi dane wokół tego punktu. [Klasteryzacja K-means](https://wikipedia.org/wiki/K-means_clustering) jest popularną wersją klasteryzacji centroidowej. Centrum jest określane przez najbliższą średnią, stąd nazwa. Kwadratowa odległość od klastra jest minimalizowana. +- **Klasteryzacja centroidów.** Ten popularny algorytm wymaga wyboru 'k', czyli liczby klastrów do utworzenia, po czym algorytm ustala punkt centralny klastra i grupuje dane wokół tego punktu. [Klasteryzacja K-means](https://wikipedia.org/wiki/K-means_clustering) jest popularną wersją klasteryzacji centroidów. Centrum jest ustalane przez najbliższą średnią, stąd nazwa. Mierzy się minimalizację kwadratu odległości od klastra. - ![Centroid clustering Infographic](../../../../5-Clustering/1-Visualize/images/centroid.png) + ![Centroid clustering Infographic](../../../../translated_images/pl/centroid.097fde836cf6c918.webp) > Infografika autorstwa [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Klasteryzacja oparta na rozkładzie**. Opierając się na modelowaniu statystycznym, klasteryzacja oparta na rozkładzie koncentruje się na określeniu prawdopodobieństwa, że punkt danych należy do klastra, i przypisaniu go odpowiednio. Metody mieszanki Gaussa należą do tego typu. +- **Klasteryzacja oparta na rozkładzie.** Bazująca na modelowaniu statystycznym, klasteryzacja oparta na rozkładzie polega na określeniu prawdopodobieństwa przynależności punktu danych do klastra i odpowiednim jego przypisaniu. Metody mieszanki Gaussowskiej należą do tego typu. -- **Klasteryzacja oparta na gęstości**. Punkty danych są przypisywane do klastrów na podstawie ich gęstości, czyli ich grupowania wokół siebie. Punkty danych oddalone od grupy są uważane za wartości odstające lub szum. DBSCAN, Mean-shift i OPTICS należą do tego typu klasteryzacji. +- **Klasteryzacja oparta na gęstości.** Punkty danych są przypisywane do klastrów na podstawie ich gęstości, czyli tego, jak gęsto są ze sobą skupione. Punkty danych znacznie oddalone od grupy uznawane są za wartości odstające lub szum. Do tego typu klasteryzacji należą DBSCAN, Mean-shift i OPTICS. -- **Klasteryzacja oparta na siatce**. Dla wielowymiarowych zbiorów danych tworzona jest siatka, a dane są dzielone między komórki siatki, tworząc w ten sposób klastry. +- **Klasteryzacja oparta na siatce.** W przypadku wielowymiarowych zbiorów danych tworzona jest siatka, a dane dzielone są między komórki tej siatki, tworząc klastry. -## Ćwiczenie - klasteryzuj swoje dane +## Ćwiczenie - stwórz klastry swoich danych -Klasteryzacja jako technika jest bardzo wspomagana przez odpowiednią wizualizację, więc zacznijmy od wizualizacji naszych danych muzycznych. To ćwiczenie pomoże nam zdecydować, którą z metod klasteryzacji powinniśmy najskuteczniej zastosować do charakteru tych danych. +Technika klasteryzacji jest bardzo wspierana przez odpowiednią wizualizację, więc zacznijmy od wizualizacji naszych danych o muzyce. To ćwiczenie pomoże nam zdecydować, której z metod klasteryzacji powinniśmy najefektywniej użyć do charakteru tych danych. 1. Otwórz plik [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) w tym folderze. -1. Zaimportuj pakiet `Seaborn` dla dobrej wizualizacji danych. +1. Zaimportuj pakiet `Seaborn` do dobrej wizualizacji danych. ```python !pip install seaborn ``` -1. Dodaj dane o piosenkach z pliku [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Załaduj dataframe z danymi o piosenkach. Przygotuj się do eksploracji tych danych, importując biblioteki i wyświetlając dane: +1. Dołącz dane piosenek z [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Załaduj ramkę danych z informacjami o piosenkach. Przygotuj się do eksploracji tych danych, importując biblioteki i wyświetl je: ```python import matplotlib.pyplot as plt @@ -120,15 +120,15 @@ Klasteryzacja jako technika jest bardzo wspomagana przez odpowiednią wizualizac df.head() ``` - Sprawdź pierwsze kilka wierszy danych: + Sprawdź pierwsze kilka linii danych: - | | nazwa | album | artysta | główny gatunek artysty | data wydania | długość | popularność | taneczność | akustyczność | energia | instrumentalność | żywotność | głośność | mówność | tempo | podpis czasowy | - | --- | ------------------------ | ---------------------------- | ------------------- | ---------------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | - | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | - | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | + | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | 1. Uzyskaj informacje o dataframe, wywołując `info()`: @@ -136,7 +136,7 @@ Klasteryzacja jako technika jest bardzo wspomagana przez odpowiednią wizualizac df.info() ``` - Wynik wygląda następująco: + Wyjście wygląda następująco: ```output @@ -164,7 +164,7 @@ Klasteryzacja jako technika jest bardzo wspomagana przez odpowiednią wizualizac memory usage: 66.4+ KB ``` -1. Sprawdź ponownie, czy są wartości null, wywołując `isnull()` i upewniając się, że suma wynosi 0: +1. Podwójnie sprawdź wartości null, wywołując `isnull()` i weryfikując sumę równą 0: ```python df.isnull().sum() @@ -209,11 +209,11 @@ Klasteryzacja jako technika jest bardzo wspomagana przez odpowiednią wizualizac | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Jeśli pracujemy z klastrowaniem, metodą nienadzorowaną, która nie wymaga danych z etykietami, dlaczego pokazujemy te dane z etykietami? W fazie eksploracji danych są one przydatne, ale nie są konieczne do działania algorytmów klastrowania. Można równie dobrze usunąć nagłówki kolumn i odwoływać się do danych według numeru kolumny. +> 🤔 Jeśli pracujemy z klasteryzacją, metodą nie nadzorowaną, która nie wymaga danych oznaczonych, dlaczego pokazujemy te dane z etykietami? W fazie eksploracji danych są one przydatne, ale nie są konieczne do działania algorytmów klasteryzacji. Można równie dobrze usunąć nagłówki kolumn i odwoływać się do danych według numeru kolumny. -Spójrz na ogólne wartości danych. Zauważ, że popularność może wynosić '0', co oznacza utwory, które nie mają rankingu. Usuńmy je wkrótce. +Spójrz na ogólne wartości danych. Zauważ, że popularność może być '0', co oznacza utwory nie posiadające rankingów. Zaraz je usuniemy. -1. Użyj wykresu słupkowego, aby dowiedzieć się, które gatunki są najpopularniejsze: +1. Użyj wykresu słupkowego, aby dowiedzieć się, które gatunki są najbardziej popularne: ```python import seaborn as sns @@ -225,13 +225,13 @@ Spójrz na ogólne wartości danych. Zauważ, że popularność może wynosić ' plt.title('Top genres',color = 'blue') ``` - ![most popular](../../../../5-Clustering/1-Visualize/images/popular.png) + ![most popular](../../../../translated_images/pl/popular.9c48d84b3386705f.webp) -✅ Jeśli chcesz zobaczyć więcej wartości, zmień top `[:5]` na większą wartość lub usuń go, aby zobaczyć wszystko. +✅ Jeśli chcesz zobaczyć więcej wartości na górze, zmień `[:5]` na większą wartość lub usuń ją, aby zobaczyć wszystkie. -Zauważ, że gdy najpopularniejszy gatunek jest opisany jako 'Missing', oznacza to, że Spotify go nie sklasyfikował, więc usuńmy go. +Zwróć uwagę, że gdy najwyższy gatunek opisany jest jako 'Missing', oznacza to, że Spotify go nie sklasyfikowało, więc się go pozbądźmy. -1. Usuń brakujące dane, filtrując je: +1. Pozbądź się brakujących danych, filtrując je ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -242,11 +242,11 @@ Zauważ, że gdy najpopularniejszy gatunek jest opisany jako 'Missing', oznacza plt.title('Top genres',color = 'blue') ``` - Teraz sprawdź ponownie gatunki: + Teraz ponownie sprawdź gatunki: - ![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![most popular](../../../../translated_images/pl/all-genres.1d56ef06cefbfcd6.webp) -1. Trzy najpopularniejsze gatunki zdecydowanie dominują w tym zbiorze danych. Skoncentrujmy się na `afro dancehall`, `afropop` i `nigerian pop`, dodatkowo filtrując zbiór danych, aby usunąć wszystko z wartością popularności 0 (co oznacza, że nie zostało sklasyfikowane jako popularne w zbiorze danych i może być uznane za szum w naszych celach): +1. Zdecydowanie trzy główne gatunki dominują w tym zbiorze danych. Skoncentrujmy się na `afro dancehall`, `afropop` i `nigerian pop`, dodatkowo filtrując zbiór, aby usunąć wszystko z wartością popularności 0 (co oznacza, że ta pozycja nie była sklasyfikowana pod względem popularności i można ją uznać za szum dla naszych celów): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +258,7 @@ Zauważ, że gdy najpopularniejszy gatunek jest opisany jako 'Missing', oznacza plt.title('Top genres',color = 'blue') ``` -1. Przeprowadź szybki test, aby sprawdzić, czy dane korelują w szczególnie silny sposób: +1. Szybki test, czy dane korelują ze sobą w szczególnie silny sposób: ```python corrmat = df.corr(numeric_only=True) @@ -266,21 +266,21 @@ Zauważ, że gdy najpopularniejszy gatunek jest opisany jako 'Missing', oznacza sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlations](../../../../translated_images/pl/correlation.a9356bb798f5eea5.webp) - Jedyną silną korelacją jest związek między `energy` a `loudness`, co nie jest zaskakujące, biorąc pod uwagę, że głośna muzyka jest zwykle dość energetyczna. Poza tym korelacje są stosunkowo słabe. Ciekawe będzie zobaczenie, co algorytm klastrowania może zrobić z tymi danymi. + Jedyną silną korelacją jest ta między `energy` i `loudness`, co nie jest zaskakujące, bo głośna muzyka zwykle jest całkiem energetyczna. Poza tym korelacje są dość słabe. Ciekawe będzie zobaczyć, co algorytm klasteryzacji wyciągnie z tych danych. - > 🎓 Pamiętaj, że korelacja nie oznacza przyczynowości! Mamy dowód korelacji, ale brak dowodu przyczynowości. [Zabawna strona internetowa](https://tylervigen.com/spurious-correlations) zawiera wizualizacje, które podkreślają ten punkt. + > 🎓 Pamiętaj, że korelacja nie oznacza przyczynowości! Mamy dowód korelacji, ale nie dowód na związek przyczynowy. [Zabawna strona](https://tylervigen.com/spurious-correlations) zawiera wizualizacje, które to podkreślają. -Czy w tym zbiorze danych występuje zbieżność wokół postrzeganej popularności utworu i jego taneczności? FacetGrid pokazuje, że istnieją koncentryczne okręgi, które się pokrywają, niezależnie od gatunku. Czy może być tak, że gusta nigeryjskie koncentrują się na pewnym poziomie taneczności dla tego gatunku? +Czy istnieje jakieś zbieżność w tym zbiorze danych wokół postrzeganej popularności piosenki i jej „danceability”? FacetGrid pokazuje koncentryczne koła, które się układają niezależnie od gatunku. Czy możliwe, że gusta nigeryjskie zbiegają się na określonym poziomie „danceability” dla tego gatunku? -✅ Wypróbuj różne punkty danych (energy, loudness, speechiness) i więcej lub inne gatunki muzyczne. Co możesz odkryć? Spójrz na tabelę `df.describe()`, aby zobaczyć ogólny rozkład punktów danych. +✅ Wypróbuj różne punkty danych (energy, loudness, speechiness) i więcej lub inne gatunki muzyczne. Co możesz odkryć? Spójrz na tabelę `df.describe()`, aby zobaczyć ogólny rozrzut punktów danych. ### Ćwiczenie - rozkład danych -Czy te trzy gatunki różnią się znacząco w postrzeganiu ich taneczności, w zależności od ich popularności? +Czy te trzy gatunki różnią się znacząco pod względem postrzeganej „danceability” na podstawie ich popularności? -1. Zbadaj rozkład danych dla popularności i taneczności w naszych trzech najpopularniejszych gatunkach wzdłuż osi x i y. +1. Zbadaj rozkład danych naszych trzech najpopularniejszych gatunków pod względem popularności i „danceability” na zadanych osiach x i y. ```python sns.set_theme(style="ticks") @@ -292,15 +292,15 @@ Czy te trzy gatunki różnią się znacząco w postrzeganiu ich taneczności, w ) ``` - Możesz odkryć koncentryczne okręgi wokół ogólnego punktu zbieżności, pokazujące rozkład punktów. + Możesz odkryć koncentryczne koła wokół ogólnego punktu zbieżności, pokazujące rozkład punktów. - > 🎓 Zauważ, że ten przykład używa wykresu KDE (Kernel Density Estimate), który reprezentuje dane za pomocą ciągłej krzywej gęstości prawdopodobieństwa. Pozwala to interpretować dane podczas pracy z wieloma rozkładami. + > 🎓 Zwróć uwagę, że ten przykład używa wykresu KDE (Kernel Density Estimate), który przedstawia dane za pomocą ciągłej krzywej gęstości prawdopodobieństwa. Pozwala to interpretować dane przy pracy z wieloma rozkładami. - Ogólnie rzecz biorąc, trzy gatunki luźno się pokrywają pod względem ich popularności i taneczności. Określenie klastrów w tych luźno powiązanych danych będzie wyzwaniem: + Ogólnie trzy gatunki są luźno zgodne pod względem popularności i „danceability”. Wyznaczenie klastrów w tych luźno dopasowanych danych będzie wyzwaniem: - ![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribution](../../../../translated_images/pl/distribution.9be11df42356ca95.webp) -1. Utwórz wykres punktowy: +1. Utwórz wykres rozrzutu: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -308,31 +308,33 @@ Czy te trzy gatunki różnią się znacząco w postrzeganiu ich taneczności, w .add_legend() ``` - Wykres punktowy dla tych samych osi pokazuje podobny wzór zbieżności + Wykres rozrzutu tych samych osi pokazuje podobny wzór zbieżności - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/pl/facetgrid.9b2e65ce707eba1f.webp) -Ogólnie rzecz biorąc, w przypadku klastrowania można używać wykresów punktowych do pokazywania klastrów danych, więc opanowanie tego typu wizualizacji jest bardzo przydatne. W następnej lekcji weźmiemy te przefiltrowane dane i użyjemy klastrowania k-średnich, aby odkryć grupy w tych danych, które wydają się nakładać w interesujący sposób. +Ogólnie, do klasteryzacji można użyć wykresów rozrzutu do pokazania skupisk danych, więc opanowanie tej wizualizacji jest bardzo przydatne. W następnej lekcji weźmiemy ten przefiltrowany zestaw danych i użyjemy grupowania k-średnich, aby odkryć grupy w tych danych, które wydają się nakładać w interesujący sposób. --- ## 🚀Wyzwanie -W ramach przygotowania do następnej lekcji, stwórz wykres dotyczący różnych algorytmów klastrowania, które możesz odkryć i użyć w środowisku produkcyjnym. Jakie problemy próbuje rozwiązać klastrowanie? +W przygotowaniu do następnej lekcji przygotuj wykres różnych algorytmów klasteryzacji, które możesz odkryć i użyć w środowisku produkcyjnym. Jakie rodzaje problemów stara się rozwiązać klasteryzacja? ## [Quiz po wykładzie](https://ff-quizzes.netlify.app/en/ml/) ## Przegląd i samodzielna nauka -Zanim zastosujesz algorytmy klastrowania, jak się nauczyliśmy, warto zrozumieć naturę swojego zbioru danych. Przeczytaj więcej na ten temat [tutaj](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Przed zastosowaniem algorytmów klasteryzacji, jak się nauczyliśmy, dobrze jest zrozumieć charakter swojego zestawu danych. Przeczytaj więcej na ten temat [tutaj](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[Ten pomocny artykuł](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) przeprowadza Cię przez różne sposoby działania algorytmów klastrowania, biorąc pod uwagę różne kształty danych. +[Ten pomocny artykuł](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) przeprowadza cię przez różne zachowania algorytmów klasteryzacji w zależności od kształtów danych. ## Zadanie -[Zbadaj inne wizualizacje dla klastrowania](assignment.md) +[Zbadaj inne wizualizacje dla klasteryzacji](assignment.md) --- -**Zastrzeżenie**: -Ten dokument został przetłumaczony za pomocą usługi tłumaczeniowej AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż dokładamy wszelkich starań, aby tłumaczenie było precyzyjne, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za wiarygodne źródło. W przypadku informacji krytycznych zaleca się skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z korzystania z tego tłumaczenia. \ No newline at end of file + +**Zastrzeżenie**: +Niniejszy dokument został przetłumaczony za pomocą usługi tłumaczenia AI [Co-op Translator](https://github.com/Azure/co-op-translator). Choć dążymy do dokładności, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub niedokładności. Oryginalny dokument w jego języku źródłowym należy uznawać za autorytatywne źródło. W przypadku informacji krytycznych zalecane jest skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z użycia tego tłumaczenia. + \ No newline at end of file diff --git a/translations/tr/.co-op-translator.json b/translations/tr/.co-op-translator.json index 672a6873b..d23cb1fe4 100644 --- a/translations/tr/.co-op-translator.json +++ b/translations/tr/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-06T07:56:10+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:32:37+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "tr" }, @@ -240,8 +240,8 @@ "language_code": "tr" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-06T07:50:57+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:32:18+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "tr" }, diff --git a/translations/tr/1-Introduction/1-intro-to-ML/README.md b/translations/tr/1-Introduction/1-intro-to-ML/README.md index e6cc08f56..dbc2ddd07 100644 --- a/translations/tr/1-Introduction/1-intro-to-ML/README.md +++ b/translations/tr/1-Introduction/1-intro-to-ML/README.md @@ -1,150 +1,157 @@ -# Makine Öğrenimine Giriş +# Makine öğrenimine giriş -## [Ders Öncesi Test](https://ff-quizzes.netlify.app/en/ml/) +## [Ders öncesi quiz](https://ff-quizzes.netlify.app/en/ml/) --- -[![Yeni Başlayanlar için Makine Öğrenimine Giriş](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "Yeni Başlayanlar için Makine Öğrenimine Giriş") +[![Başlangıç seviyesindekiler için ML - Makine Öğrenimine Giriş](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "Başlangıç seviyesindekiler için ML - Makine Öğrenimine Giriş") -> 🎥 Yukarıdaki görsele tıklayarak bu dersi anlatan kısa bir videoyu izleyebilirsiniz. +> 🎥 Bu dersten geçen kısa video için yukarıdaki görsele tıklayın. -Yeni başlayanlar için klasik makine öğrenimi üzerine hazırlanan bu kursa hoş geldiniz! Bu konuya tamamen yabancı olsanız da, belirli bir alanda bilgilerinizi tazelemek isteyen deneyimli bir ML uygulayıcısı olsanız da, bizimle olduğunuz için mutluyuz! Makine öğrenimi çalışmalarınıza dostane bir başlangıç noktası oluşturmayı hedefliyoruz ve [geri bildirimlerinizi](https://github.com/microsoft/ML-For-Beginners/discussions) değerlendirmek, yanıtlamak ve dahil etmekten memnuniyet duyarız. +Başlangıç seviyesindekiler için klasik makine öğrenimi kursuna hoş geldiniz! Bu konuya tamamen yeniyseniz ya da alanınızı tazelemek isteyen deneyimli bir ML uygulayıcısıysanız, bize katıldığınız için mutluyuz! Makine öğrenimi çalışmanız için dostane bir başlangıç noktası oluşturmak istiyoruz ve [geribildirimlerinizi](https://github.com/microsoft/ML-For-Beginners/discussions) değerlendirmeye, cevaplamaya ve dahil etmeye memnun oluruz. [![Makine Öğrenimine Giriş](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Makine Öğrenimine Giriş") -> 🎥 Yukarıdaki görsele tıklayarak MIT'den John Guttag'ın makine öğrenimini tanıttığı videoyu izleyebilirsiniz. +> 🎥 Aşağıdaki görsele tıklayarak bir video izleyin: MIT'den John Guttag makine öğrenimini tanıtıyor --- -## Makine Öğrenimine Başlarken +## Makine öğrenimine başlamak -Bu müfredata başlamadan önce, bilgisayarınızı yerel olarak not defterlerini çalıştırmaya hazır hale getirmeniz gerekiyor. +Bu müfredata başlamadan önce, bilgisayarınızın yerel olarak not defterlerini çalıştırmaya hazır olması gerekir. -- **Bilgisayarınızı bu videolarla yapılandırın**. Sisteminizde [Python'u nasıl kuracağınızı](https://youtu.be/CXZYvNRIAKM) ve geliştirme için bir [metin düzenleyiciyi nasıl ayarlayacağınızı](https://youtu.be/EU8eayHWoZg) öğrenmek için aşağıdaki bağlantıları kullanın. -- **Python öğrenin**. Veri bilimciler için faydalı bir programlama dili olan [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) hakkında temel bir anlayışa sahip olmanız önerilir. Bu kursta Python kullanacağız. -- **Node.js ve JavaScript öğrenin**. Bu kursta web uygulamaları oluştururken birkaç kez JavaScript kullanacağız, bu nedenle [node](https://nodejs.org) ve [npm](https://www.npmjs.com/) kurulu olmalı ve hem Python hem de JavaScript geliştirme için [Visual Studio Code](https://code.visualstudio.com/) kullanılabilir olmalıdır. -- **GitHub hesabı oluşturun**. Bizi burada [GitHub](https://github.com) üzerinde bulduğunuza göre, muhtemelen bir hesabınız vardır, ancak yoksa bir hesap oluşturun ve ardından bu müfredatı kendi kullanımınız için çatallayın. (Bize bir yıldız vermekten çekinmeyin 😊) -- **Scikit-learn'ü keşfedin**. Bu derslerde referans verdiğimiz bir dizi ML kütüphanesi olan [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) ile tanışın. +- **Makinenizi bu videolarla yapılandırın**. Sisteminizde [Python nasıl kurulur](https://youtu.be/CXZYvNRIAKM) öğrenmek ve geliştirme için bir [metin editörü nasıl kurulur](https://youtu.be/EU8eayHWoZg) öğrenmek için aşağıdaki bağlantıları kullanın. +- **Python öğrenin**. Bu derste kullandığımız, veri bilimciler için yararlı bir programlama dili olan [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) hakkında temel bir anlayışa sahip olmak da önerilir. +- **Node.js ve JavaScript öğrenin**. Bu derste web uygulamaları oluştururken birkaç kez JavaScript de kullanıyoruz, bu nedenle [node](https://nodejs.org) ve [npm](https://www.npmjs.com/) yüklü olmalı ve hem Python hem de JavaScript geliştirme için [Visual Studio Code](https://code.visualstudio.com/) hazır olmalıdır. +- **Bir GitHub hesabı oluşturun**. Bizi burada [GitHub](https://github.com) üzerinde bulduğunuz için zaten bir hesabınız olabilir, ancak yoksa bir hesap oluşturun ve bu müfredatı kendi kullanımınız için fork edin. (Bize yıldız vermekten çekinmeyin 😊) +- **Scikit-learn'u keşfedin**. Bu derslerde referans verdiğimiz bir makine öğrenimi kütüphaneleri seti olan [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) ile tanışın. --- -## Makine Öğrenimi Nedir? +## Makine öğrenimi nedir? -'Makine öğrenimi' terimi, günümüzün en popüler ve sık kullanılan terimlerinden biridir. Teknolojiyle bir şekilde tanışıklığınız varsa, hangi alanda çalışıyor olursanız olun, bu terimi en az bir kez duymuş olma olasılığınız oldukça yüksektir. Ancak, makine öğreniminin mekanikleri çoğu insan için bir muammadır. Makine öğrenimine yeni başlayan biri için konu bazen bunaltıcı gelebilir. Bu nedenle, makine öğreniminin gerçekte ne olduğunu anlamak ve pratik örneklerle adım adım öğrenmek önemlidir. +'Makine öğrenimi' terimi, bugün en popüler ve en sık kullanılan terimlerden biridir. Teknolojiyle bir şekilde aşinalığınız varsa, hangi alanda çalışıyor olursanız olun, bu terimi en az bir kez duymuş olma olasılığınız oldukça yüksektir. Bununla birlikte, makine öğreniminin mekanikleri çoğu kişi için gizemlidir. Makine öğrenimine yeni başlayanlar için konu bazen bunaltıcı gelebilir. Bu nedenle, makine öğreniminin ne olduğunu tam anlamak ve onu pratik örneklerle adım adım öğrenmek önemlidir. --- -## Hype Eğrisi +## Hype eğrisi -![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/tr/hype.07183d711a17aafe.webp) -> Google Trends, 'makine öğrenimi' teriminin son zamanlardaki 'hype eğrisini' gösteriyor. +> Google Trends, 'makine öğrenimi' teriminin yakın zamandaki 'hype eğrisini' gösteriyor --- -## Gizemli Bir Evren +## Gizemli bir evren -Büyüleyici gizemlerle dolu bir evrende yaşıyoruz. Stephen Hawking, Albert Einstein ve daha birçok büyük bilim insanı, çevremizdeki dünyanın gizemlerini ortaya çıkaran anlamlı bilgileri aramaya hayatlarını adamışlardır. Bu, öğrenmenin insan doğasıdır: Bir insan çocuğu, büyüdükçe her yıl yeni şeyler öğrenir ve dünyasının yapısını keşfeder. +Büyüleyici gizemlerle dolu bir evrende yaşıyoruz. Stephen Hawking, Albert Einstein gibi büyük bilim insanları, etrafımızdaki dünyanın gizemlerini ortaya çıkaran anlamlı bilgiler aramak için hayatlarını adamışlardır. Bu öğrenme hali doğrudandır: bir çocuk yeni şeyler öğrenir ve yetişkinliğe doğru büyürken dünyasının yapısını yıl yıl keşfeder. --- -## Çocuğun Beyni +## Çocuğun beyni -Bir çocuğun beyni ve duyuları, çevresindeki gerçekleri algılar ve yaşamın gizli kalıplarını öğrenerek çocuğun öğrendiği kalıpları tanımlamak için mantıksal kurallar oluşturmasına yardımcı olur. İnsan beyninin öğrenme süreci, insanları bu dünyanın en sofistike canlıları yapar. Gizli kalıpları keşfederek sürekli öğrenmek ve ardından bu kalıplar üzerinde yenilik yapmak, yaşamımız boyunca kendimizi daha iyi hale getirmemizi sağlar. Bu öğrenme kapasitesi ve evrimleşme yeteneği, [beyin plastisitesi](https://www.simplypsychology.org/brain-plasticity.html) adı verilen bir kavramla ilişkilidir. Yüzeysel olarak, insan beyninin öğrenme süreci ile makine öğrenimi kavramları arasında bazı motive edici benzerlikler çizebiliriz. +Bir çocuğun beyni ve duyuları çevresindeki gerçekleri algılar ve yaşamın gizli kalıplarını öğrenir; bunlar, çocuğun öğrendiği kalıpları tanımlamak için mantıklı kurallar oluşturmasına yardımcı olur. İnsan beyninin öğrenme süreci, insanları bu dünyanın en sofistike canlıları yapar. Gizli kalıpları keşfederek ve sonra bu kalıplar üzerinde yenilik yaparak sürekli öğrenmek, kendimizi yaşam boyu daha iyi yapmamızı sağlar. Bu öğrenme kapasitesi ve gelişen yetenek, [beyin plastisitesi](https://www.simplypsychology.org/brain-plasticity.html) adı verilen bir kavramla ilişkilidir. Dıştan bakıldığında, insan beyninin öğrenme süreci ve makine öğrenimi kavramları arasında bazı motive edici benzerlikler çizilebilir. --- -## İnsan Beyni +## İnsan beyni -[İnsan beyni](https://www.livescience.com/29365-human-brain.html), gerçek dünyadan şeyleri algılar, algılanan bilgiyi işler, mantıklı kararlar alır ve koşullara bağlı olarak belirli eylemleri gerçekleştirir. Buna zeki davranış denir. Zeki davranış sürecinin bir benzerini bir makineye programladığımızda, buna yapay zeka (AI) denir. +[İnsan beyni](https://www.livescience.com/29365-human-brain.html), gerçek dünyadan şeyleri algılar, algılanan bilgiyi işler, rasyonel kararlar verir ve duruma göre belirli eylemler gerçekleştirir. Buna biz zeki davranmak diyoruz. Zeki davranış sürecinin bir benzerini bir makineye programladığımızda, buna yapay zeka (AI) denir. --- -## Bazı Terimler +## Bazı terimler -Terimler karıştırılabilir olsa da, makine öğrenimi (ML), yapay zekanın önemli bir alt kümesidir. **ML, algılanan verilerden anlamlı bilgiler ortaya çıkarmak ve gizli kalıpları bulmak için özel algoritmalar kullanarak mantıklı karar verme sürecini desteklemekle ilgilidir**. +Terimler karıştırılsa da, makine öğrenimi (ML) yapay zekanın önemli bir alt kümesidir. **ML, algılanan verilerden anlamlı bilgiler keşfetmek ve rasyonel karar verme sürecini desteklemek için gizli kalıpları bulmak üzere özel algoritmalar kullanmakla ilgilenir**. --- ## AI, ML, Derin Öğrenme -![AI, ML, deep learning, data science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, derin öğrenme, veri bilimi](../../../../translated_images/tr/ai-ml-ds.537ea441b124ebf6.webp) -> AI, ML, derin öğrenme ve veri bilimi arasındaki ilişkileri gösteren bir diyagram. [Jen Looper](https://twitter.com/jenlooper) tarafından hazırlanmış, [bu grafik](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) ilham alınarak oluşturulmuştur. +> AI, ML, derin öğrenme ve veri bilimi arasındaki ilişkileri gösteren bir diagram. [Jen Looper](https://twitter.com/jenlooper) tarafından oluşturulmuş, [bu grafik](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) temel alınmıştır. --- -## Kapsanacak Kavramlar +## Ele alınacak kavramlar -Bu müfredatta, bir başlangıç seviyesindeki kişinin bilmesi gereken yalnızca temel makine öğrenimi kavramlarını ele alacağız. 'Klasik makine öğrenimi' dediğimiz konuları, birçok öğrencinin temelleri öğrenmek için kullandığı mükemmel bir kütüphane olan Scikit-learn kullanarak ele alacağız. Yapay zeka veya derin öğrenmenin daha geniş kavramlarını anlamak için, makine öğreniminin güçlü bir temel bilgisine sahip olmak gereklidir ve bunu burada sunmak istiyoruz. +Bu müfredatta, bir başlangıç seviyesinin bilmesi gereken sadece makine öğreniminin temel kavramlarını ele alacağız. Birçok öğrencinin temel becerileri öğrenmek için kullandığı mükemmel bir kütüphane olan Scikit-learn kullanarak esas olarak 'klasik makine öğrenimi'ni işliyoruz. Yapay zekanın ya da derin öğrenmenin daha geniş kavramlarını anlamak için makine öğreniminde sağlam temel bilgi şarttır, bunu burada size sunmak istiyoruz. --- -## Bu Kursta Öğrenecekleriniz: +## Bu derste öğrenecekleriniz: - makine öğreniminin temel kavramları -- ML'nin tarihi +- ML tarihçesi - ML ve adalet - regresyon ML teknikleri - sınıflandırma ML teknikleri - kümeleme ML teknikleri - doğal dil işleme ML teknikleri -- zaman serisi tahmini ML teknikleri +- zaman serisi tahmin ML teknikleri - pekiştirmeli öğrenme - ML'nin gerçek dünya uygulamaları --- -## Kapsamayacaklarımız +## Ele alınmayacaklar - derin öğrenme - sinir ağları -- yapay zeka +- AI -Daha iyi bir öğrenme deneyimi sağlamak için, sinir ağlarının karmaşıklıklarından, 'derin öğrenme' - sinir ağlarını kullanarak çok katmanlı model oluşturma - ve yapay zekadan kaçınacağız. Bunları farklı bir müfredatta ele alacağız. Ayrıca, bu daha geniş alanın bir yönüne odaklanmak için yakında bir veri bilimi müfredatı sunacağız. +Daha iyi bir öğrenme deneyimi sağlamak için sinir ağlarının karmaşıklığından, 'derin öğrenme' - sinir ağları kullanılarak çok katmanlı model oluşturma - ve AI'dan kaçınacağız; bunları başka bir müfredatta ele alacağız. Ayrıca bu daha büyük alanın veri bilimi yönüne odaklanan ilerleyen bir data science müfredatı sunmayı planlıyoruz. --- -## Neden Makine Öğrenimi Çalışmalıyız? +## Neden makine öğrenimi çalışmalısınız? -Sistemler perspektifinden bakıldığında, makine öğrenimi, verilerden gizli kalıpları öğrenebilen ve akıllı kararlar almaya yardımcı olan otomatik sistemlerin oluşturulması olarak tanımlanır. +Sistem perspektifinden makine öğrenimi, zekice karar vermeye yardımcı olmak için verilerden gizli kalıpları öğrenebilen otomatik sistemlerin oluşturulması olarak tanımlanır. -Bu motivasyon, insan beyninin dış dünyadan algıladığı verilere dayanarak belirli şeyleri nasıl öğrendiğinden gevşek bir şekilde ilham almıştır. +Bu motivasyon, insan beyninin dış dünyadan algıladığı verilere dayanarak bazı şeyleri nasıl öğrendiğiyle gevşekçe ilham alınmıştır. -✅ Bir işletmenin neden sabit kodlanmış kurallara dayalı bir motor oluşturmak yerine makine öğrenimi stratejilerini kullanmayı tercih edebileceğini bir dakika düşünün. +✅ Bir işletmenin neden katı kurallarla çalışan bir motor yaratmak yerine makine öğrenimi stratejileri kullanmak isteyebileceğini bir dakika düşünün. --- -## Makine Öğreniminin Uygulamaları +## Veri kalitesi neden önemlidir? -Makine öğreniminin uygulamaları artık neredeyse her yerde ve toplumlarımızda dolaşan, akıllı telefonlarımız, bağlı cihazlarımız ve diğer sistemler tarafından üretilen veriler kadar yaygındır. Son teknoloji makine öğrenimi algoritmalarının muazzam potansiyelini göz önünde bulundurarak, araştırmacılar, çok boyutlu ve çok disiplinli gerçek yaşam problemlerini büyük olumlu sonuçlarla çözme yeteneklerini keşfetmektedir. +Yüksek kaliteli veri model performansını artırır. Kötü veya gürültülü veriler, gelişmiş makine öğrenimi algoritmaları kullanılsa bile yanlış tahminlere yol açabilir. --- -## Uygulamalı ML Örnekleri +## Makine öğrenimi uygulamaları + +Makine öğrenimi uygulamaları artık hemen her yerde ve akıllı telefonlarımız, bağlı cihazlarımız ve diğer sistemlerimiz tarafından üretilen veri kadar yaygın. En gelişmiş makine öğrenimi algoritmalarının muazzam potansiyelini göz önünde bulundurarak, araştırmacılar çok boyutlu ve çok disiplinli gerçek yaşam problemlerini büyük olumlu sonuçlarla çözme yeteneklerini keşfetmektedir. + +--- +## Uygulamalı ML örnekleri **Makine öğrenimini birçok şekilde kullanabilirsiniz**: -- Bir hastanın tıbbi geçmişinden veya raporlarından hastalık olasılığını tahmin etmek için. -- Hava durumu verilerini kullanarak hava olaylarını tahmin etmek için. -- Bir metnin duygusunu anlamak için. -- Propagandanın yayılmasını durdurmak için sahte haberleri tespit etmek için. +- Bir hastanın tıbbi geçmişi veya raporlarından hastalığın olasılığını tahmin etmek. +- Hava durumu verilerini kullanarak hava olaylarını tahmin etmek. +- Bir metnin duygu durumunu anlamak. +- Yanlış haberleri tespit ederek propaganda yayılmasını durdurmak. -Finans, ekonomi, yer bilimi, uzay keşfi, biyomedikal mühendislik, bilişsel bilim ve hatta beşeri bilimler gibi alanlar, kendi alanlarındaki zorlu, veri işleme ağırlıklı problemleri çözmek için makine öğrenimini benimsemiştir. +Finans, ekonomi, yer bilimleri, uzay keşfi, biyomedikal mühendislik, bilişsel bilimler ve hatta beşeri bilimler alanları, kendi alanlarındaki zorlu, veri işleme yoğun sorunları çözmek için makine öğrenimini uyarlamıştır. --- ## Sonuç -Makine öğrenimi, gerçek dünya veya üretilmiş verilerden anlamlı içgörüler bularak kalıp keşfetme sürecini otomatikleştirir. İş, sağlık ve finansal uygulamalar gibi birçok alanda son derece değerli olduğunu kanıtlamıştır. +Makine öğrenimi, gerçek dünya veya üretilmiş verilerden anlamlı içgörüler bularak kalıp keşfi sürecini otomatikleştirir. İş, sağlık ve finans gibi alanlarda kendini çok değerli kanıtlamıştır. -Yakın gelecekte, makine öğreniminin temellerini anlamak, yaygın benimsenmesi nedeniyle herhangi bir alandan insanlar için bir zorunluluk haline gelecektir. +Yakın gelecekte, yaygın kullanımı nedeniyle makine öğreniminin temellerini anlamak herhangi bir alandan insanlar için zorunlu hale gelecektir. --- -# 🚀 Zorluk +# 🚀 Meydan okuma -AI, ML, derin öğrenme ve veri bilimi arasındaki farkları kağıt üzerinde veya [Excalidraw](https://excalidraw.com/) gibi çevrimiçi bir uygulama kullanarak çizin. Bu tekniklerin her birinin çözmekte iyi olduğu problemlerle ilgili bazı fikirler ekleyin. +AI, ML, derin öğrenme ve veri bilimi arasındaki farkları kağıda veya [Excalidraw](https://excalidraw.com/) gibi çevrimiçi bir uygulama kullanarak tasvir edin. Bu tekniklerin her birinin hangi sorunları çözmekte iyi olduğuna dair bazı fikirler ekleyin. -# [Ders Sonrası Test](https://ff-quizzes.netlify.app/en/ml/) +# [Ders sonrası quiz](https://ff-quizzes.netlify.app/en/ml/) --- -# Gözden Geçirme ve Kendi Kendine Çalışma +# İnceleme & Kendi Kendine Çalışma -ML algoritmalarıyla bulutta nasıl çalışabileceğinizi öğrenmek için bu [Öğrenme Yolu](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) bağlantısını takip edin. +Bulutta ML algoritmaları ile nasıl çalışabileceğinizi öğrenmek için bu [Öğrenme Yolu](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott)'nu takip edin. -ML'nin temelleri hakkında bilgi edinmek için bir [Öğrenme Yolu](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) alın. +ML'nin temelleri hakkında bir [Öğrenme Yolu](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott)'na katılın. --- # Ödev -[Başlamak için buraya tıklayın](assignment.md) +[Başlayın ve çalıştırın](assignment.md) --- -**Feragatname**: -Bu belge, AI çeviri hizmeti [Co-op Translator](https://github.com/Azure/co-op-translator) kullanılarak çevrilmiştir. Doğruluğu sağlamak için çaba göstersek de, otomatik çeviriler hata veya yanlışlıklar içerebilir. Belgenin orijinal dili, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan herhangi bir yanlış anlama veya yanlış yorumlama durumunda sorumluluk kabul edilmez. \ No newline at end of file + +**Feragatname**: +Bu belge, AI çeviri hizmeti [Co-op Translator](https://github.com/Azure/co-op-translator) kullanılarak çevrilmiştir. Doğruluk için çaba sarf etsek de, otomatik çevirilerin hata veya yanlışlık içerebileceğini lütfen unutmayınız. Orijinal belge, kendi dilinde yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımı sonucu ortaya çıkabilecek yanlış anlamalardan veya yanlış yorumlamalardan sorumlu değiliz. + \ No newline at end of file diff --git a/translations/tr/5-Clustering/1-Visualize/README.md b/translations/tr/5-Clustering/1-Visualize/README.md index d811bcaec..5f423be48 100644 --- a/translations/tr/5-Clustering/1-Visualize/README.md +++ b/translations/tr/5-Clustering/1-Visualize/README.md @@ -1,116 +1,116 @@ -# Kümeleme Giriş +# Kümelemeye Giriş -Kümeleme, bir veri kümesinin etiketlenmediğini veya girdilerin önceden tanımlanmış çıktılarla eşleştirilmediğini varsayan bir tür [Denetimsiz Öğrenme](https://wikipedia.org/wiki/Unsupervised_learning) yöntemidir. Bu yöntem, etiketlenmemiş verileri çeşitli algoritmalarla analiz ederek, verideki desenlere göre gruplamalar sağlar. +Kümeleme, bir veri kümesinin etiketlenmediğini veya girdilerin önceden tanımlanmış çıktılarla eşleştirilmediğini varsayan bir [Denetimsiz Öğrenme](https://wikipedia.org/wiki/Unsupervised_learning) türüdür. Etiketlenmemiş verileri çeşitli algoritmalarla tarar ve veride algıladığı desenlere göre gruplamalar sağlar. -[![PSquare'dan No One Like You](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "PSquare'dan No One Like You") +[![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Yukarıdaki görsele tıklayarak bir video izleyebilirsiniz. Kümeleme ile makine öğrenimi çalışırken, 2014'te PSquare tarafından yayımlanan bu yüksek puanlı Nijerya Dance Hall şarkısının keyfini çıkarın. +> 🎥 Video için yukarıdaki görüntüye tıklayın. Kümeleme ile makine öğrenmesini incelerken, bazı Nijeryalı Dance Hall parçalarının tadını çıkarın - bu, PSquare tarafından 2014 yılında yüksek puan alan bir şarkıdır. -## [Ders Öncesi Test](https://ff-quizzes.netlify.app/en/ml/) +## [Ön ders sınavı](https://ff-quizzes.netlify.app/en/ml/) ### Giriş -[Kümeleme](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124), veri keşfi için oldukça faydalıdır. Nijeryalı dinleyicilerin müzik tüketim alışkanlıklarındaki eğilimleri ve desenleri keşfetmeye yardımcı olup olamayacağını görelim. +[Kümeleme](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) veri keşfi için çok faydalıdır. Nijeryalı dinleyicilerin müziği tüketme biçimindeki eğilimleri ve desenleri keşfetmeye yardımcı olup olmadığını görelim. -✅ Kümelemenin kullanım alanlarını düşünmek için bir dakikanızı ayırın. Gerçek hayatta, kümeleme çamaşır yığınını ayırıp aile üyelerinizin kıyafetlerini düzenlemeniz gerektiğinde gerçekleşir 🧦👕👖🩲. Veri biliminde ise, bir kullanıcının tercihlerini analiz etmeye veya etiketlenmemiş herhangi bir veri kümesinin özelliklerini belirlemeye çalışırken kümeleme yapılır. Kümeleme, bir anlamda, bir çorap çekmecesi gibi kaosu anlamlandırmaya yardımcı olur. +✅ Kümelemenin kullanım alanları hakkında bir dakika düşünün. Gerçek hayatta, bir çamaşır yığını ve aile üyelerinizin kıyafetlerini ayırmanız gerektiğinde kümeleme olur 🧦👕👖🩲. Veri bilimine gelince, kümeleme bir kullanıcının tercihlerini analiz etmeye veya herhangi bir etiketlenmemiş veri kümesinin özelliklerini belirlemeye çalışırken olur. Kümeleme, bir bakıma, kaosu anlamaya yardımcı olur; çorap çekmecesi gibi. -[![ML'ye Giriş](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Kümelemeye Giriş") +[![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") -> 🎥 Yukarıdaki görsele tıklayarak bir video izleyebilirsiniz: MIT'den John Guttag kümelemeyi tanıtıyor. +> 🎥 Video için yukarıdaki görüntüye tıklayın: MIT'den John Guttag kümelemeyi tanıtıyor -Profesyonel bir ortamda, kümeleme pazar segmentasyonu belirlemek, örneğin hangi yaş gruplarının hangi ürünleri satın aldığını anlamak için kullanılabilir. Bir başka kullanım alanı ise, kredi kartı işlemleri veri kümesinden dolandırıcılığı tespit etmek gibi anomali tespitidir. Ya da bir grup tıbbi taramada tümörleri belirlemek için kümeleme kullanılabilir. +Profesyonel bir ortamda, kümeleme piyasa segmentasyonu, hangi yaş gruplarının hangi ürünleri satın aldığını belirlemek gibi şeylerde kullanılabilir. Başka bir kullanım örneği olarak, dolandırıcılığı tespit etmek için kredi kartı işlemlerinin bulunduğu bir veri kümesinde anomali tespiti yapılabilir. Ya da bir grup tıbbi taramada tümörleri belirlemek için kümeleme kullanılabilir. -✅ Bankacılık, e-ticaret veya iş dünyasında 'doğada' kümelemeyle nasıl karşılaşmış olabileceğinizi bir dakika düşünün. +✅ Bankacılık, e-ticaret veya iş ortamında "doğada" kümelemeyle nasıl karşılaşmış olabileceğinizi bir dakika düşünün. -> 🎓 İlginç bir şekilde, kümeleme analizi 1930'larda Antropoloji ve Psikoloji alanlarında ortaya çıkmıştır. Sizce o zamanlar nasıl kullanılmış olabilir? +> 🎓 İlginçtir ki, küme analizleri 1930'larda Antropoloji ve Psikoloji alanlarında ortaya çıkmıştır. Nasıl kullanılmış olabileceğini hayal edebiliyor musunuz? -Alternatif olarak, arama sonuçlarını gruplamak için kullanılabilir - örneğin alışveriş bağlantıları, görseller veya incelemeler şeklinde. Kümeleme, büyük bir veri kümesini azaltmak ve daha ayrıntılı analiz yapmak istediğinizde faydalıdır, bu nedenle diğer modeller oluşturulmadan önce veri hakkında bilgi edinmek için kullanılabilir. +Alternatif olarak, örneğin alışveriş bağlantıları, resimler veya yorumlar gibi arama sonuçlarını gruplamak için kullanabilirsiniz. Kümeleme, büyük bir veri kümeniz olduğunda ve daha detaylı analiz yapmak istediğinizde faydalıdır, böylece diğer modeller oluşturulmadan önce veriler hakkında öğrenme yapılabilir. -✅ Verileriniz kümelere organize edildikten sonra, onlara bir küme kimliği atarsınız ve bu teknik, bir veri kümesinin gizliliğini korumak için faydalı olabilir; bir veri noktasına daha açıklayıcı tanımlayıcı veriler yerine küme kimliğiyle atıfta bulunabilirsiniz. Küme kimliğine diğer küme unsurlarından ziyade neden başvurabileceğinize dair başka nedenler düşünebilir misiniz? +✅ Verileriniz kümelere organize edildikten sonra, küme kimliği atarsınız ve bu teknik, bir veri kümesinin gizliliğini korumada faydalı olabilir; bir veri noktasına daha fazla açıklayıcı tanımlayıcı veri yerine küme kimliğiyle referans verebilirsiniz. Bir küme kimliğine, kümeyi tanımlamak için diğer unsurlardan daha çok neden başvurmak isteyebileceğinize dair başka nedenler düşünebiliyor musunuz? -Kümeleme teknikleri hakkındaki bilginizi bu [Öğrenme Modülü](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) ile derinleştirin. +Kümeleme tekniklerini bu [Öğrenme modülünde](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) derinlemesine inceleyin. -## Kümelemeye Başlangıç +## Kümelemeye Başlamak -[Scikit-learn geniş bir yöntem yelpazesi sunar](https://scikit-learn.org/stable/modules/clustering.html) ve seçiminiz kullanım durumunuza bağlıdır. Belgelerine göre, her yöntemin çeşitli avantajları vardır. İşte Scikit-learn tarafından desteklenen yöntemlerin ve uygun kullanım durumlarının basitleştirilmiş bir tablosu: +[Scikit-learn, kümeleme yapmak için geniş bir yöntem dizisi sunar](https://scikit-learn.org/stable/modules/clustering.html). Seçeceğiniz tür kullanım durumunuza bağlıdır. Dokümantasyona göre, her yöntemin çeşitli faydaları vardır. İşte Scikit-learn tarafından desteklenen yöntemlerin ve uygun kullanım durumlarının basit bir tablosu: -| Yöntem Adı | Kullanım Durumu | -| :-------------------------- | :--------------------------------------------------------------------- | -| K-Means | genel amaçlı, tümevarımsal | -| Affinity propagation | çok sayıda, düzensiz kümeler, tümevarımsal | -| Mean-shift | çok sayıda, düzensiz kümeler, tümevarımsal | -| Spectral clustering | az sayıda, düzenli kümeler, tümdengelimsel | -| Ward hierarchical clustering| çok sayıda, kısıtlı kümeler, tümdengelimsel | -| Agglomerative clustering | çok sayıda, kısıtlı, Öklid dışı mesafeler, tümdengelimsel | -| DBSCAN | düz olmayan geometri, düzensiz kümeler, tümdengelimsel | -| OPTICS | düz olmayan geometri, değişken yoğunluklu düzensiz kümeler, tümdengelimsel | -| Gaussian mixtures | düz geometri, tümevarımsal | -| BIRCH | büyük veri kümesi, aykırı değerler, tümevarımsal | +| Yöntem Adı | Kullanım Durumu | +| :--------------------------- | :------------------------------------------------------------------ | +| K-Ortalamalar | genel amaçlı, tümevarımsal | +| Affinity propagation | çok sayıda, düzensiz kümeler, tümevarımsal | +| Mean-shift | çok sayıda, düzensiz kümeler, tümevarımsal | +| Spektral kümeleme | az sayıda, düzenli kümeler, dönüştürücü | +| Ward hiyerarşik kümeleme | çok sayıda, kısıtlanmış kümeler, dönüştürücü | +| Agglomerative kümeleme | çok sayıda, kısıtlanmış, Öklidyen olmayan mesafeler, dönüştürücü | +| DBSCAN | düz olmayan geometri, düzensiz kümeler, dönüştürücü | +| OPTICS | düz olmayan geometri, değişken yoğunluklu düzensiz kümeler, dönüştürücü | +| Gauss karışımları | düz geometri, tümevarımsal | +| BIRCH | aykırı değer içeren büyük veri seti, tümevarımsal | -> 🎓 Kümeleri nasıl oluşturduğumuz, veri noktalarını gruplara nasıl topladığımızla yakından ilgilidir. Şimdi bazı terimleri açıklayalım: +> 🎓 Kümeler oluşturma şeklimiz, veri noktalarını gruplara nasıl topladığımızla çok ilgilidir. Bazı terimleri açıklayalım: > -> 🎓 ['Tümdengelimsel' vs. 'Tümevarımsal'](https://wikipedia.org/wiki/Transduction_(machine_learning)) -> -> Tümdengelimsel çıkarım, belirli test durumlarına eşlenen gözlemlenmiş eğitim durumlarından türetilir. Tümevarımsal çıkarım ise genel kurallara eşlenen eğitim durumlarından türetilir ve bu kurallar daha sonra test durumlarına uygulanır. -> -> Örnek: Kısmen etiketlenmiş bir veri kümeniz olduğunu hayal edin. Bazı şeyler 'plak', bazıları 'cd' ve bazıları boş. Göreviniz, boşlara etiket vermektir. Eğer tümevarımsal bir yaklaşım seçerseniz, 'plak' ve 'cd' arayan bir model eğitirsiniz ve bu etiketleri etiketlenmemiş verilere uygularsınız. Bu yaklaşım, aslında 'kaset' olan şeyleri sınıflandırmada zorluk çeker. Tümdengelimsel bir yaklaşım ise, bu bilinmeyen verileri daha etkili bir şekilde ele alır çünkü benzer öğeleri gruplamaya çalışır ve ardından bir gruba etiket uygular. Bu durumda, kümeler 'yuvarlak müzik şeyleri' ve 'kare müzik şeyleri' gibi görünebilir. -> -> 🎓 ['Düz olmayan' vs. 'Düz' geometri](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) -> -> Matematiksel terminolojiden türetilen düz olmayan vs. düz geometri, noktalar arasındaki mesafelerin 'düz' ([Öklid](https://wikipedia.org/wiki/Euclidean_geometry)) veya 'düz olmayan' (Öklid dışı) geometrik yöntemlerle ölçülmesini ifade eder. +> 🎓 ['Dönüştürücü' vs. 'Tümevarımsal'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > ->'Düz' bu bağlamda Öklid geometrisini ifade eder (bir kısmı 'düzlem' geometrisi olarak öğretilir) ve düz olmayan, Öklid dışı geometriyi ifade eder. Geometri ile makine öğreniminin ne ilgisi var? İki alan da matematiğe dayandığından, kümelerdeki noktalar arasındaki mesafeleri ölçmek için ortak bir yol olmalıdır ve bu, verinin doğasına bağlı olarak 'düz' veya 'düz olmayan' bir şekilde yapılabilir. [Öklid mesafeleri](https://wikipedia.org/wiki/Euclidean_distance), iki nokta arasındaki bir doğru parçasının uzunluğu olarak ölçülür. [Öklid dışı mesafeler](https://wikipedia.org/wiki/Non-Euclidean_geometry) ise bir eğri boyunca ölçülür. Verileriniz görselleştirildiğinde bir düzlemde değilmiş gibi görünüyorsa, bunu ele almak için özel bir algoritma kullanmanız gerekebilir. +> Dönüştürücü çıkarım, belirli test durumlarına eşlenen gözlemlenmiş eğitim örneklerinden türetilir. Tümevarımsal çıkarım ise öncelikle genel kurallara eşlenen eğitim örneklerinden türetilir ve sonra bu kurallar test örneklerine uygulanır. +> +> Bir örnek: Etiketleri kısmen bulunan bir veri kümeniz olsun. Bazıları 'plak', bazıları 'cd', bazıları boş. Göreviniz boşlara etiket vermek. Tümevarımsal yaklaşımı seçerseniz, 'plak' ve 'cd' arayan bir model eğitirsiniz ve bu etiketleri etiketlenmemiş verilere uygularsınız. Bu yöntem, aslında 'kaset' olanları sınıflandırmakta zorlanır. Dönüştürücü yaklaşım ise bilinmeyen bu verileri, benzer öğeleri bir araya getirip gruplandırarak ve ardından gruba etiket atayarak daha etkili işler. Bu durumda kümeler 'yuvarlak müzik şeyleri' ve 'kare müzik şeyleri' şeklinde olabilir. +> +> 🎓 ['Düz' vs. 'Düz olmayan' geometri](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> +> Matematiksel terimlerden türetilmiş, düz ve düz olmayan geometri, noktalar arasındaki mesafelerin ya 'düz' ([Öklidyen](https://wikipedia.org/wiki/Euclidean_geometry)) veya 'düz olmayan' (Öklidyen olmayan) geometrik yöntemlerle ölçülmesini ifade eder. +> +> Buradaki 'düz', Öklidyen geometriyi (bir kısmı 'düzlem' geometri olarak öğretilir) ifade eder, düz olmayan ise Öklidyen olmayan geometridir. Geometrinin makine öğrenmesi ile ne ilgisi var? Her iki alan da matematiğe dayandığından, kümelerdeki noktalar arasındaki mesafeleri ölçmek için ortak bir yol olmalıdır ve bu, verinin doğasına bağlı olarak düz veya düz olmayan şekilde yapılabilir. [Öklidyen mesafeler](https://wikipedia.org/wiki/Euclidean_distance), iki nokta arasındaki doğru parçasının uzunluğudur. [Öklidyen olmayan mesafeler](https://wikipedia.org/wiki/Non-Euclidean_geometry) ise bir eğri boyunca ölçülür. Veriniz, görselleştirildiğinde bir düzlemde değilse, bunu işlemek için özel bir algoritma gerekebilir. +> +![Düz ve Düz Olmayan Geometri Bilgi Grafiği](../../../../translated_images/tr/flat-nonflat.d1c8c6e2a96110c1.webp) +> Bilgi grafiği: [Dasani Madipalli](https://twitter.com/dasani_decoded) > -![Düz vs Düz Olmayan Geometri Bilgilendirme Görseli](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) -> Bilgilendirme görseli: [Dasani Madipalli](https://twitter.com/dasani_decoded) -> > 🎓 ['Mesafeler'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) -> -> Kümeler, örneğin noktalar arasındaki mesafeler olan mesafe matrisiyle tanımlanır. Bu mesafe birkaç şekilde ölçülebilir. Öklid kümeleri, nokta değerlerinin ortalamasıyla tanımlanır ve bir 'merkez' veya merkez noktası içerir. Mesafeler, bu merkeze olan mesafeyle ölçülür. Öklid dışı mesafeler ise 'clustroid' olarak adlandırılan, diğer noktalara en yakın olan nokta ile tanımlanır. Clustroid'ler çeşitli şekillerde tanımlanabilir. -> +> +> Kümeler, mesafe matrisleri ile tanımlanır; örneğin noktalar arasındaki mesafeler. Bu mesafe birkaç şekilde ölçülebilir. Öklidyen kümeler, nokta değerlerinin ortalaması ile tanımlanır ve bir 'merkez' noktası (centroid) içerir. Mesafeler bu merkeze olan uzaklıkla ölçülür. Öklidyen olmayan mesafeler ise 'kümeidroid' denen, diğer noktalara en yakın nokta ile tanımlanır. Kümeidroidler çeşitli şekillerde tanımlanabilir. +> > 🎓 ['Kısıtlı'](https://wikipedia.org/wiki/Constrained_clustering) -> -> [Kısıtlı Kümeleme](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf), bu denetimsiz yönteme 'yarı denetimli' öğrenme ekler. Noktalar arasındaki ilişkiler 'bağlanamaz' veya 'bağlanmalı' olarak işaretlenir, böylece veri kümesine bazı kurallar zorlanır. > ->Örnek: Bir algoritma, etiketlenmemiş veya kısmen etiketlenmiş bir veri kümesi üzerinde serbest bırakılırsa, ürettiği kümeler düşük kaliteli olabilir. Yukarıdaki örnekte, kümeler 'yuvarlak müzik şeyleri', 'kare müzik şeyleri', 'üçgen şeyler' ve 'kurabiyeler' olarak gruplandırılabilir. Eğer algoritmaya bazı kısıtlamalar veya kurallar verilirse ("öğe plastikten yapılmış olmalı", "öğe müzik üretebilmeli"), bu algoritmanın daha iyi seçimler yapmasına yardımcı olabilir. -> +> [Kısıtlı Kümeleme](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf), denetimsiz yönteme 'yarı denetimli' öğrenmeyi tanıtır. Noktalar arasındaki ilişkiler 'bağlanamaz' veya 'zorunlu bağlanır' olarak işaretlenerek veri setine bazı kurallar getirilir. +> +> Bir örnek: Bir algoritma, etiketsiz veya yarı etiketli bir veri kümesine serbest bırakılırsa, ürettiği kümeler düşük kalitede olabilir. Yukarıdaki örnekte kümeler 'yuvarlak müzik şeyleri', 'kare müzik şeyleri', 'üçgen şeyler' ve 'kurabiyeler' şeklinde gruplanabilir. Bazı kısıtlamalar veya izlenecek kurallar verilirse ("ürün plastiğe yapılmalı", "ürün müzik üretebilmeli"), bu algoritmanın daha iyi seçimler yapmasını sağlar. +> > 🎓 'Yoğunluk' -> -> 'Gürültülü' olarak kabul edilen veriler 'yoğun' olarak değerlendirilir. Kümelerindeki noktalar arasındaki mesafeler, inceleme sırasında daha yoğun veya daha az yoğun olabilir ve bu nedenle bu veriler uygun kümeleme yöntemiyle analiz edilmelidir. [Bu makale](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html), düzensiz küme yoğunluğuna sahip gürültülü bir veri kümesini keşfetmek için K-Means kümeleme ve HDBSCAN algoritmalarını kullanmanın farkını göstermektedir. +> +> 'Gürültülü' veri, 'yoğun' olarak kabul edilir. Kümelerindeki noktalar arasındaki mesafeler incelendiğinde daha seyrek veya daha yoğun, yani 'kalabalık' olabilir ve bu nedenle veri uygun kümeleme yöntemiyle analiz edilmelidir. [Bu makale](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html), gürültülü ve düzensiz küme yoğunluğuna sahip bir veri setini keşfetmek için K-Ortalamalar kümeleme ile HDBSCAN algoritmalarının farkını göstermektedir. ## Kümeleme Algoritmaları -100'den fazla kümeleme algoritması vardır ve kullanımları eldeki verinin doğasına bağlıdır. İşte başlıca olanlardan bazıları: +100’den fazla kümeleme algoritması bulunmaktadır ve kullanımları mevcut verinin doğasına bağlıdır. Bazı büyük algoritmalara bakalım: -- **Hiyerarşik kümeleme**. Bir nesne, daha uzak bir nesne yerine yakınındaki bir nesneye göre sınıflandırıldığında, kümeler üyelerinin diğer nesnelere olan mesafelerine göre oluşturulur. Scikit-learn'ün agglomerative clustering yöntemi hiyerarşiktir. +- **Hiyerarşik kümeleme**. Bir nesne, daha uzak olan yerine yakın bir nesneye göre sınıflandırılırsa, kümeler üyelerinin diğer nesnelere olan mesafesine dayanarak oluşur. Scikit-learn’un aglomeratif kümelemesi hiyerarşiktir. - ![Hiyerarşik Kümeleme Bilgilendirme Görseli](../../../../5-Clustering/1-Visualize/images/hierarchical.png) - > Bilgilendirme görseli: [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Hiyerarşik kümeleme Bilgi Grafiği](../../../../translated_images/tr/hierarchical.bf59403aa43c8c47.webp) + > Bilgi grafiği: [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Merkez kümeleme**. Bu popüler algoritma, oluşturulacak 'k' veya küme sayısının seçilmesini gerektirir, ardından algoritma bir kümenin merkez noktasını belirler ve verileri bu noktanın etrafında toplar. [K-means kümeleme](https://wikipedia.org/wiki/K-means_clustering), merkez kümeleme türünün popüler bir versiyonudur. Merkez, en yakın ortalama ile belirlenir, bu nedenle adı buradan gelir. Kümeden olan kare mesafesi minimize edilir. +- **Merkez noktası kümelemesi**. Bu popüler algoritma, oluşturulacak küme sayısı 'k' seçimini gerektirir, ardından algoritma kümenin merkez noktasını belirler ve verileri bu noktanın etrafında toplar. [K-ortalama kümelenmesi](https://wikipedia.org/wiki/K-means_clustering), merkez noktası kümelemenin popüler bir versiyonudur. Merkez, en yakın ortalamaya göre belirlenir, bu yüzden adı böyledir. Kümeden olan karesel uzaklık minimize edilir. - ![Merkez Kümeleme Bilgilendirme Görseli](../../../../5-Clustering/1-Visualize/images/centroid.png) - > Bilgilendirme görseli: [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Merkez noktası kümeleme Bilgi Grafiği](../../../../translated_images/tr/centroid.097fde836cf6c918.webp) + > Bilgi grafiği: [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Dağılım tabanlı kümeleme**. İstatistiksel modellemeye dayalı olan dağılım tabanlı kümeleme, bir veri noktasının bir kümeye ait olma olasılığını belirlemeye ve buna göre atamaya odaklanır. Gaussian karışım yöntemleri bu türe aittir. +- **Dağılıma dayalı kümeleme**. İstatistiksel modellemeye dayanan bu tür, bir veri noktasının kümeye ait olma olasılığını belirlemeye ve ona göre atamaya odaklanır. Gauss karışımı yöntemleri bu türe aittir. -- **Yoğunluk tabanlı kümeleme**. Veri noktaları, yoğunluklarına veya birbirleri etrafındaki gruplanmalarına göre kümelere atanır. Gruptan uzak olan veri noktaları aykırı değerler veya gürültü olarak kabul edilir. DBSCAN, Mean-shift ve OPTICS bu tür kümelemeye aittir. +- **Yoğunluğa dayalı kümeleme**. Veri noktaları, kendi aralarındaki yoğunluklarına veya birbirlerinin etrafında gruplanmalarına göre kümelere atanır. Grubun çok uzağındaki veri noktaları aykırı değer veya gürültü olarak kabul edilir. DBSCAN, Mean-shift ve OPTICS bu tür kümelemeye örnektir. -- **Izgara tabanlı kümeleme**. Çok boyutlu veri kümeleri için bir ızgara oluşturulur ve veri, ızgaranın hücreleri arasında bölünerek kümeler oluşturulur. +- **Kafes tabanlı kümeleme**. Çok boyutlu veri setleri için bir kafes oluşturulur ve veriler kafesin hücrelerine bölünerek kümeler oluşturulur. -## Egzersiz - Verilerinizi Kümeleyin +## Alıştırma - Verinizi Kümeleyin -Kümeleme, doğru görselleştirme ile büyük ölçüde desteklenir, bu yüzden müzik verilerimizi görselleştirerek başlayalım. Bu egzersiz, bu verinin doğasına en uygun kümeleme yöntemlerini belirlememize yardımcı olacaktır. +Kümeleme tekniği, uygun görselleştirmeyle çok desteklenir; bu yüzden müzik verimizi görselleştirmekle başlayalım. Bu alıştırma, verinin doğasına göre hangi kümeleme yöntemini en iyi şekilde kullanmamız gerektiğine karar vermemize yardımcı olacak. 1. Bu klasördeki [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) dosyasını açın. -1. İyi bir veri görselleştirme için `Seaborn` paketini içe aktarın. +1. İyi veri görselleştirmesi için `Seaborn` paketini içe aktarın. ```python !pip install seaborn ``` -1. [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) dosyasından şarkı verilerini ekleyin. Şarkılar hakkında bazı verilerle bir dataframe yükleyin. Kütüphaneleri içe aktararak ve verileri dökerek bu veriyi keşfetmeye hazırlanın: +1. [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) dosyasından şarkı verilerini ekleyin. Şarkılar hakkında bazı verilerle bir dataframe yükleyin. Kütüphaneleri içe aktararak ve verileri dökerek keşfe hazır olun: ```python import matplotlib.pyplot as plt @@ -126,17 +126,17 @@ Kümeleme, doğru görselleştirme ile büyük ölçüde desteklenir, bu yüzden | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Dataframe hakkında bilgi almak için `info()` çağırın: +1. Dataframe hakkında biraz bilgi alın, `info()` çağırarak: ```python df.info() ``` - Çıktı şu şekilde görünecek: + Çıktı şu şekilde görünür: ```output @@ -164,13 +164,13 @@ Kümeleme, doğru görselleştirme ile büyük ölçüde desteklenir, bu yüzden memory usage: 66.4+ KB ``` -1. Null değerleri kontrol etmek için `isnull()` çağırın ve toplamın 0 olduğunu doğrulayın: +1. Null değerler için iki kez kontrol yapın, `isnull()` çağırarak toplamın 0 olduğunu doğrulayın: ```python df.isnull().sum() ``` - Her şey yolunda görünüyor: + Sorun görünmüyor: ```output name 0 @@ -209,9 +209,9 @@ Kümeleme, doğru görselleştirme ile büyük ölçüde desteklenir, bu yüzden | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Eğer kümeleme ile çalışıyorsak, etiketli verilere ihtiyaç duymayan bir denetimsiz yöntem, neden bu veriyi etiketlerle gösteriyoruz? Veri keşfi aşamasında faydalı olabilirler, ancak kümeleme algoritmalarının çalışması için gerekli değiller. Sütun başlıklarını kaldırabilir ve veriye sütun numaralarıyla da başvurabilirsiniz. +> 🤔 Eğer üzerinde çalıştığımız kümeleme, etiketlenmiş veriye ihtiyaç duymayan denetimsiz bir yöntem ise, neden bu verileri etiketlerle gösteriyoruz? Veri keşif aşamasında bunlar kullanışlıdır, ancak kümeleme algoritmalarının çalışması için gerekli değillerdir. Sütun başlıklarını kaldırabilir ve veriye sütun numarası ile başvurabilirsiniz. -Verinin genel değerlerine bakın. Popülerlik '0' olabilir, bu da sıralaması olmayan şarkıları gösterir. Bunları kısa süre içinde çıkaralım. +Verinin genel değerlerine bakın. Popülerlik değerinin '0' olabileceğini unutmayın, bu da sıralaması olmayan şarkıları gösterir. Bu tür kayıtları kısa sürede kaldıracağız. 1. En popüler türleri bulmak için bir barplot kullanın: @@ -225,13 +225,13 @@ Verinin genel değerlerine bakın. Popülerlik '0' olabilir, bu da sıralaması plt.title('Top genres',color = 'blue') ``` - ![most popular](../../../../5-Clustering/1-Visualize/images/popular.png) + ![most popular](../../../../translated_images/tr/popular.9c48d84b3386705f.webp) -✅ Daha fazla üst değer görmek isterseniz, üst `[:5]` değerini daha büyük bir değere değiştirin veya tümünü görmek için kaldırın. +✅ Daha fazla üst değer görmek isterseniz, `[:5]` ifadesini daha büyük bir değer ile değiştirebilir veya tamamen kaldırabilirsiniz. -Not: En üst tür 'Missing' olarak tanımlandığında, bu Spotify'ın onu sınıflandırmadığı anlamına gelir, bu yüzden bunu çıkaralım. +Unutmayın, en popüler tür 'Missing' olarak tanımlanıyorsa, Spotify'ın onu sınıflandırmadığı anlamına gelir; bu yüzden bundan kurtulalım. -1. Eksik verileri filtreleyerek çıkarın: +1. Eksik verilerden kurtulmak için filtre uygulayın: ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -242,11 +242,11 @@ Not: En üst tür 'Missing' olarak tanımlandığında, bu Spotify'ın onu sın plt.title('Top genres',color = 'blue') ``` - Şimdi türleri tekrar kontrol edin: + Şimdi türlere tekrar bakın: - ![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![most popular](../../../../translated_images/tr/all-genres.1d56ef06cefbfcd6.webp) -1. Açık ara, en üst üç tür bu veri setine hakim. `afro dancehall`, `afropop` ve `nigerian pop` üzerine yoğunlaşalım, ayrıca veri setini 0 popülerlik değerine sahip olanları (veri setinde popülerlik ile sınıflandırılmamış ve bizim amaçlarımız için gürültü olarak kabul edilebilir) çıkarmak için filtreleyelim: +1. Açıkça, en üst üç tür bu veri setine hakim. `afro dancehall`, `afropop` ve `nigerian pop` türlerine odaklanalım, ayrıca popülerlik değeri 0 olanları filtreleyelim (bu veride popülerlik ile sınıflandırılmamış ve amaçlarımız için gürültü olarak kabul edilebilir): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +258,7 @@ Not: En üst tür 'Missing' olarak tanımlandığında, bu Spotify'ın onu sın plt.title('Top genres',color = 'blue') ``` -1. Verinin herhangi bir şekilde güçlü bir korelasyon gösterip göstermediğini hızlıca test edin: +1. Verinin herhangi kuvvetli bir şekilde korelasyon gösterip göstermediğini hızlıca test edin: ```python corrmat = df.corr(numeric_only=True) @@ -266,21 +266,21 @@ Not: En üst tür 'Missing' olarak tanımlandığında, bu Spotify'ın onu sın sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlations](../../../../translated_images/tr/correlation.a9356bb798f5eea5.webp) - Tek güçlü korelasyon `energy` ve `loudness` arasında, ki bu çok şaşırtıcı değil, çünkü yüksek sesli müzik genellikle oldukça enerjik olur. Bunun dışında korelasyonlar nispeten zayıf. Bu veriden bir kümeleme algoritmasının ne çıkarabileceğini görmek ilginç olacak. + Tek güçlü korelasyon `energy` ve `loudness` arasında, bu da çok şaşırtıcı değil çünkü yüksek sesli müzikler genellikle oldukça enerjiktir. Diğer korelasyonlar nispeten zayıf. Bir kümeleme algoritmasının bu veriden ne çıkaracağını görmek ilginç olacak. - > 🎓 Korelasyonun nedensellik anlamına gelmediğini unutmayın! Korelasyonun kanıtı var, ancak nedenselliğin kanıtı yok. [Eğlenceli bir web sitesi](https://tylervigen.com/spurious-correlations) bu noktayı vurgulayan görseller sunuyor. + > 🎓 Korelasyon nedensellik anlamına gelmez! Korelasyon kanıtımız var ama nedensellik kanıtımız yok. [Komik bir web sitesi](https://tylervigen.com/spurious-correlations) bu noktayı vurgulayan görseller içeriyor. -Bu veri setinde bir şarkının algılanan popülerliği ve dans edilebilirliği etrafında bir yakınsama var mı? Bir FacetGrid, türden bağımsız olarak hizalanan eşmerkezli daireler olduğunu gösteriyor. Nijeryalı zevklerin bu tür için belirli bir dans edilebilirlik seviyesinde birleştiği olabilir mi? +Bu dataset'te şarkının algılanan popülerliği ile dans edilebilirlik arasında bir yakınsama var mı? Bir FacetGrid, türden bağımsız olarak hizalanan iç içe halkalar olduğunu gösteriyor. Bu tür için Nijerya zevklerinin belirli bir dans edilebilirlik seviyesinde yakınsaması olabilir mi? -✅ Farklı veri noktalarını (energy, loudness, speechiness) ve daha fazla veya farklı müzik türlerini deneyin. Neler keşfedebilirsiniz? Verilerin genel dağılımını görmek için `df.describe()` tablosuna göz atın. +✅ Farklı veri noktaları (energy, loudness, speechiness) ve daha fazla veya farklı müzik türleri deneyin. Neler keşfedebilirsiniz? Veri noktalarının genel yayılımını görmek için `df.describe()` tablosuna bakın. ### Egzersiz - veri dağılımı -Bu üç tür, popülerliklerine göre dans edilebilirlik algısında önemli ölçüde farklı mı? +Bu üç tür, popülerliklerine göre dans edilebilirlik algısında anlamlı farklılık gösteriyor mu? -1. En üst üç türümüzün popülerlik ve dans edilebilirlik için veri dağılımını belirli bir x ve y ekseni boyunca inceleyin. +1. Üç en iyi türün popülerlik ve dans edilebilirlik veri dağılımını, verilen x ve y eksenlerinde inceleyin. ```python sns.set_theme(style="ticks") @@ -292,15 +292,15 @@ Bu üç tür, popülerliklerine göre dans edilebilirlik algısında önemli öl ) ``` - Genel bir yakınsama noktası etrafında eşmerkezli daireler keşfedebilirsiniz, bu da noktaların dağılımını gösterir. + Genel bir yakınsama noktasının etrafında iç içe halkalar keşfedebilirsiniz, bu da noktaların dağılımını gösterir. - > 🎓 Bu örnek, birden fazla dağılımla çalışırken veriyi yorumlamamıza olanak tanıyan sürekli bir olasılık yoğunluğu eğrisi kullanan bir KDE (Kernel Density Estimate) grafiği kullanır. + > 🎓 Bu örnek, veriyi sürekli bir olasılık yoğunluk eğrisi kullanarak temsil eden bir KDE (Kernel Yoğunluk Tahmini) grafiği kullanır. Bu, birden fazla dağılımla çalışırken veriyi yorumlamamızı sağlar. - Genel olarak, üç tür popülerlik ve dans edilebilirlik açısından gevşek bir şekilde hizalanır. Bu gevşek hizalanmış veride kümeleri belirlemek bir zorluk olacaktır: + Genel olarak, üç tür popülerlik ve dans edilebilirlik açısından gevşek bir şekilde hizalanmıştır. Bu gevşek hizalanmış veride kümeleri belirlemek zor olacaktır: - ![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribution](../../../../translated_images/tr/distribution.9be11df42356ca95.webp) -1. Bir scatter plot oluşturun: +1. Bir scatter plot (dağılım grafiği) oluşturun: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -308,25 +308,25 @@ Bu üç tür, popülerliklerine göre dans edilebilirlik algısında önemli öl .add_legend() ``` - Aynı eksenlerin scatterplot'u benzer bir yakınsama modeli gösterir. + Aynı eksenlerin scatterplot'u benzer bir yakınsama deseni gösteriyor - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/tr/facetgrid.9b2e65ce707eba1f.webp) -Genel olarak, kümeleme için scatterplot'ları kullanarak veri kümelerini gösterebilirsiniz, bu nedenle bu tür görselleştirmeyi öğrenmek çok faydalıdır. Bir sonraki derste, bu filtrelenmiş veriyi alıp k-means kümeleme kullanarak ilginç şekillerde örtüşen grupları keşfedeceğiz. +Genel olarak, kümeleme için veri kümelerini göstermek amacıyla scatterplotlar kullanılabilir, bu tür görselleştirmede ustalaşmak çok faydalıdır. Sonraki derste, bu filtrelenmiş veriyi kullanarak k-means kümeleme algoritmasıyla bu veride ilgi çekici şekilde örtüşen gruplar keşfedeceğiz. --- ## 🚀Meydan Okuma -Bir sonraki ders için hazırlık olarak, üretim ortamında keşfedebileceğiniz ve kullanabileceğiniz çeşitli kümeleme algoritmaları hakkında bir grafik oluşturun. Kümeleme hangi tür problemleri çözmeye çalışıyor? +Bir sonraki derse hazırlık olarak, üretim ortamında keşfedip kullanabileceğiniz çeşitli kümeleme algoritmaları hakkında bir grafik hazırlayın. Kümeleme hangi tür problemleri çözmeye çalışıyor? -## [Ders sonrası quiz](https://ff-quizzes.netlify.app/en/ml/) +## [Ders Sonrası Quiz](https://ff-quizzes.netlify.app/en/ml/) -## İnceleme ve Kendi Kendine Çalışma +## İnceleme & Kendi Kendine Çalışma -Kümeleme algoritmalarını uygulamadan önce, öğrendiğimiz gibi, veri setinizin doğasını anlamak iyi bir fikirdir. Bu konu hakkında daha fazla bilgi edinin [burada](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Kümeleme algoritmalarını uygulamadan önce, öğrendiğimiz gibi, veri setinizin doğasını anlamak iyi bir fikirdir. Bu konu hakkında daha fazla bilgi edinmek için [buraya](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) bakabilirsiniz. -[Bu faydalı makale](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) farklı veri şekilleri göz önüne alındığında çeşitli kümeleme algoritmalarının nasıl davrandığını anlatıyor. +[Bu faydalı makale](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) farklı veri şekillerine göre çeşitli kümeleme algoritmalarının nasıl davrandığını açıklamaktadır. ## Ödev @@ -334,5 +334,7 @@ Kümeleme algoritmalarını uygulamadan önce, öğrendiğimiz gibi, veri setini --- -**Feragatname**: -Bu belge, AI çeviri hizmeti [Co-op Translator](https://github.com/Azure/co-op-translator) kullanılarak çevrilmiştir. Doğruluğu sağlamak için çaba göstersek de, otomatik çevirilerin hata veya yanlışlık içerebileceğini lütfen unutmayın. Belgenin orijinal dili, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlamalar veya yanlış yorumlamalar için sorumluluk kabul etmiyoruz. \ No newline at end of file + +**Feragatname**: +Bu belge, AI çeviri hizmeti [Co-op Translator](https://github.com/Azure/co-op-translator) kullanılarak çevrilmiştir. Doğruluk için çaba sarf etsek de, otomatik çevirilerin hata veya yanlışlık içerebileceğini lütfen unutmayınız. Orijinal belge, kendi dilinde yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımı sonucu ortaya çıkabilecek yanlış anlamalardan veya yanlış yorumlamalardan sorumlu değiliz. + \ No newline at end of file