From 3b2098a6fcda23d2e2b0abcc31a04ca07b988d66 Mon Sep 17 00:00:00 2001 From: "localizeflow[bot]" Date: Tue, 26 May 2026 22:38:15 +0000 Subject: [PATCH] chore(i18n): sync translations with latest source changes (chunk 1/1, 9 changes) --- translations/et/.co-op-translator.json | 8 +- .../et/1-Introduction/1-intro-to-ML/README.md | 123 ++++----- .../et/5-Clustering/1-Visualize/README.md | 204 +++++++-------- translations/pcm/.co-op-translator.json | 8 +- .../1-Introduction/1-intro-to-ML/README.md | 103 ++++---- .../pcm/5-Clustering/1-Visualize/README.md | 127 +++++---- translations/ta/.co-op-translator.json | 8 +- .../ta/1-Introduction/1-intro-to-ML/README.md | 141 +++++----- .../ta/5-Clustering/1-Visualize/README.md | 245 +++++++++--------- 9 files changed, 494 insertions(+), 473 deletions(-) diff --git a/translations/et/.co-op-translator.json b/translations/et/.co-op-translator.json index 19e8278a9..4e7acb01f 100644 --- a/translations/et/.co-op-translator.json +++ b/translations/et/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-10-11T11:25:14+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:37:14+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "et" }, @@ -240,8 +240,8 @@ "language_code": "et" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-10-11T12:06:13+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:36:54+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "et" }, diff --git a/translations/et/1-Introduction/1-intro-to-ML/README.md b/translations/et/1-Introduction/1-intro-to-ML/README.md index 5e15fb45b..09d6a6f2a 100644 --- a/translations/et/1-Introduction/1-intro-to-ML/README.md +++ b/translations/et/1-Introduction/1-intro-to-ML/README.md @@ -1,150 +1,157 @@ # Sissejuhatus masinõppesse -## [Eelloengu viktoriin](https://ff-quizzes.netlify.app/en/ml/) +## [Eel-loengu viktoriin](https://ff-quizzes.netlify.app/en/ml/) --- [![ML algajatele - Sissejuhatus masinõppesse algajatele](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML algajatele - Sissejuhatus masinõppesse algajatele") -> 🎥 Klõpsa ülaloleval pildil, et vaadata lühikest videot, mis käsitleb seda õppetundi. +> 🎥 Klõpsa ülaloleval pildil, et vaadata lühikest videot selle õppetöö kohta. -Tere tulemast sellele klassikalise masinõppe kursusele algajatele! Olgu sul selle teemaga varasem kogemus või oled kogenud ML-i praktik, kes soovib oma teadmisi värskendada, meil on hea meel, et oled meiega liitunud! Soovime luua sõbraliku alguspunkti sinu ML-i õpingutele ja oleksime rõõmsad, kui jagaksid oma [tagasisidet](https://github.com/microsoft/ML-For-Beginners/discussions). +Tere tulemast sellele klassikalisele masinõppe kursusele algajatele! Kas oled selle teema suhtes täiesti uus või kogenud masinõppe praktiseerija, kes soovib mõnes valdkonnas teadmisi värskendada, on meil hea meel, et liitud meiega! Soovime luua sõbraliku alguspunkti sinu masinõppe õppimiseks ja oleksime rõõmsad hinnata, vastata ja kaasata sinu [tagasisidet](https://github.com/microsoft/ML-For-Beginners/discussions). [![Sissejuhatus ML-i](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Sissejuhatus ML-i") -> 🎥 Klõpsa ülaloleval pildil, et vaadata videot: MIT-i John Guttag tutvustab masinõpet +> 🎥 Klõpsa ülaloleval pildil, et vaadata videot: MITi John Guttag tutvustab masinõpet --- ## Masinõppega alustamine -Enne selle õppekava alustamist tuleb sul oma arvuti seadistada ja valmis panna, et saaksid lokaalselt käivitada märkmikke. +Enne selle õppekava alustamist pead arvuti seadistama ja valmis panema, et kohapeal sülearvuteid käivitada. -- **Seadista oma arvuti nende videote abil**. Kasuta järgmisi linke, et õppida [kuidas installida Python](https://youtu.be/CXZYvNRIAKM) oma süsteemi ja [seadistada tekstiredaktor](https://youtu.be/EU8eayHWoZg) arendamiseks. -- **Õpi Pythonit**. Soovitatav on omada põhiteadmisi [Pythonist](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), programmeerimiskeelest, mis on kasulik andmeteadlastele ja mida me selles kursuses kasutame. -- **Õpi Node.js-i ja JavaScripti**. Kasutame JavaScripti paaril korral selles kursuses veebirakenduste loomisel, seega pead olema installinud [node](https://nodejs.org) ja [npm](https://www.npmjs.com/), samuti [Visual Studio Code](https://code.visualstudio.com/) nii Pythoni kui JavaScripti arendamiseks. -- **Loo GitHubi konto**. Kuna leidsid meid siit [GitHubist](https://github.com), võib sul juba konto olla, aga kui ei, siis loo see ja hargne selle õppekava kasutamiseks enda tarbeks. (Võid meile ka tähe anda 😊) -- **Tutvu Scikit-learniga**. Tutvu [Scikit-learniga](https://scikit-learn.org/stable/user_guide.html), ML-i teekide komplektiga, millele viitame nendes õppetundides. +- **Seadista oma arvuti nende videote abil**. Kasuta järgmisi linke, et õppida, [kuidas Python paigaldada](https://youtu.be/CXZYvNRIAKM) süsteemi ja [teksti redaktorit seadistada](https://youtu.be/EU8eayHWoZg) arenduseks. +- **Õpi Pythoni**. Soovitatav on omada põhiteadmisi [Pythonist](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), programmeerimiskeelest, mis on andmeteadlastele kasulik ja mida me selles kursuses kasutame. +- **Õpi Node.js ja JavaScripti**. Kasutame selles kursuses ka mõnda korda JavaScripti veebirakenduste ehitamiseks, seega pead olema installinud [node](https://nodejs.org) ja [npm](https://www.npmjs.com/), samuti olema valmis kasutama [Visual Studio Code'i](https://code.visualstudio.com/) nii Pythoni kui ka JavaScripti arenduseks. +- **Loo GitHubi konto**. Kuna oled meid leidnud siit [GitHubist](https://github.com), võib-olla on sul juba konto, kuid kui ei ole, loo konto ning seejärel loo selle õppekava omaks võtmiseks haru (fork). (Võid meile ka tähe anda 😊) +- **Tutvu Scikit-learniga**. Tutvu [Scikit-learniga](https://scikit-learn.org/stable/user_guide.html), masinõppe raamatukogude komplektiga, mida me nende õppetundide jooksul kasutame. --- ## Mis on masinõpe? -Termin 'masinõpe' on üks tänapäeva populaarsemaid ja sagedamini kasutatavaid termineid. On suur tõenäosus, et oled seda terminit vähemalt korra kuulnud, kui sul on mingisugune kokkupuude tehnoloogiaga, olenemata valdkonnast, kus töötad. Masinõppe mehhanismid on aga enamiku inimeste jaoks müsteerium. Masinõppe algajale võib teema tunduda mõnikord üle jõu käiv. Seetõttu on oluline mõista, mis masinõpe tegelikult on, ja õppida seda samm-sammult praktiliste näidete kaudu. +Terminit 'masinõpe' kasutatakse tänapäeval väga sageli ja see on üks populaarsemaid termineid. On üsna tõenäoline, et oled seda sõna vähemalt korra kuulnud, kui sul on mingisugune tehnoloogiateadmiste taust, ükskõik millises valdkonnas tööd teed. Kuid masinõppe toimemehhanismid on enamiku inimeste jaoks mõistatus. Masinõppe algajale võib teema vahel tunduda üle jõu käiv. Seetõttu on oluline mõista, mis masinõpe tegelikult on, ja õppida seda samm-sammult praktiliste näidete kaudu. --- -## Hüppekurv +## Hype kõver -![ml hüppekurv](../../../../translated_images/et/hype.07183d711a17aafe.webp) +![ml hype curve](../../../../translated_images/et/hype.07183d711a17aafe.webp) -> Google Trends näitab termini 'masinõpe' hiljutist hüppekurvi +> Google Trends näitab termini 'masinõpe' hiljutist 'hype kõverat' --- -## Müsteeriumite universum +## Salapärane universum -Me elame universumis, mis on täis põnevaid müsteeriume. Suured teadlased nagu Stephen Hawking, Albert Einstein ja paljud teised on pühendanud oma elu tähendusrikka teabe otsimisele, mis paljastab meie ümber oleva maailma saladusi. See on inimlik õppimise seisund: inimlaps õpib uusi asju ja avastab oma maailma struktuuri aastate jooksul, kui ta kasvab täiskasvanuks. +Elame universumis, mis on täis põnevaid mõistatusi. Suured teadlased nagu Stephen Hawking, Albert Einstein ja paljud teised on pühendanud oma elu leidmaks sisukat infot, mis paljastab meid ümbritsevate maailmade saladusi. See on inimõppimise seisund: laps õpib uusi asju ja avastab nende maailma ülesehitust aasta-aastalt kuni täiskasvanuks saamiseni. --- ## Lapse aju -Lapse aju ja meeled tajuvad ümbritseva maailma fakte ning õpivad järk-järgult elu varjatud mustreid, mis aitavad lapsel luua loogilisi reegleid õpitud mustrite tuvastamiseks. Inimaju õppimisprotsess teeb inimestest selle maailma kõige keerukama elusolendi. Jätkuv õppimine varjatud mustrite avastamise kaudu ja nende mustrite põhjal innovatsioon võimaldab meil end kogu elu jooksul paremaks muuta. See õppimisvõime ja arenemisvõime on seotud kontseptsiooniga, mida nimetatakse [aju plastilisuseks](https://www.simplypsychology.org/brain-plasticity.html). Pealiskaudselt võime tõmmata mõningaid motiveerivaid sarnasusi inimaju õppimisprotsessi ja masinõppe kontseptsioonide vahel. +Lapse aju ja meeled tajuvad oma ümbruse faktilisust ning õpivad järk-järgult elu varjatud mustreid, mis aitavad lapsel koostada loogilisi reegleid õpitud mustrite tuvastamiseks. Inimaju õppimisprotsess muudab inimesed selle maailma kõige keerukamaks elusolendiks. Peale mustrite tuvastamist ja siis nende edasiarendamist võimaldab õppimine meil aastate jooksul ennast üha paremaks teha. See õppimisvõime ja arenev võimekus on seotud kontseptsiooniga, mida nimetatakse [aju plastilisuseks](https://www.simplypsychology.org/brain-plasticity.html). Pealiskaudselt võime leida motivatsioonilisi sarnasusi inimese aju õppimisprotsessi ja masinõppe kontseptsioonide vahel. --- ## Inimaju -[Inimaju](https://www.livescience.com/29365-human-brain.html) tajub asju reaalsest maailmast, töötleb tajutud teavet, teeb ratsionaalseid otsuseid ja sooritab teatud tegevusi vastavalt oludele. Seda nimetame intelligentselt käitumiseks. Kui programmeerime masina jaoks intelligentse käitumisprotsessi jäljenduse, nimetatakse seda tehisintellektiks (AI). +[Inimaju](https://www.livescience.com/29365-human-brain.html) tajub asju tegelikust maailmast, töötleb tajutud informatsiooni, teeb ratsionaalseid otsuseid ja sooritab teatud tegevusi vastavalt olukorrale. Seda nimetame me intelligentseks käitumiseks. Kui programmeerida masina jaoks intelligentse käitumise sarnane protsess, kutsutakse seda tehisintellektiks (AI). --- ## Mõned terminid -Kuigi termineid võib segamini ajada, on masinõpe (ML) tehisintellekti oluline alamhulk. **ML tegeleb spetsiaalsete algoritmide kasutamisega, et avastada tähendusrikast teavet ja leida tajutud andmetest varjatud mustreid, mis toetavad ratsionaalset otsustusprotsessi**. +Kuigi terminid võivad segadusse ajada, on masinõpe (ML) tehisintellekti oluline alamvaldkond. **ML tegeleb spetsiaalsete algoritmide kasutamisega, et avastada tähenduslikku informatsiooni ja leida varjatud mustreid tajutud andmetest ratsionaalse otsustusprotsessi toetamiseks**. --- ## AI, ML, süvaõpe -![AI, ML, süvaõpe, andmeteadus](../../../../translated_images/et/ai-ml-ds.537ea441b124ebf6.webp) +![AI, ML, deep learning, data science](../../../../translated_images/et/ai-ml-ds.537ea441b124ebf6.webp) -> Diagramm, mis näitab AI, ML-i, süvaõppe ja andmeteaduse vahelisi seoseid. Infograafik autorilt [Jen Looper](https://twitter.com/jenlooper), inspireeritud [sellest graafikust](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> Diagramm, mis näitab AI, ML, süvaõppe ja andmeteaduse seoseid. Infograafik autorilt [Jen Looper](https://twitter.com/jenlooper) inspireeritud [selle graafikuga](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- -## Käsitletavad kontseptsioonid +## Kontseptsioonid, mida käsitleme -Selles õppekavas käsitleme ainult masinõppe põhikontseptsioone, mida algaja peab teadma. Käsitleme seda, mida nimetame 'klassikaliseks masinõppeks', kasutades peamiselt Scikit-learn'i, suurepärast teeki, mida paljud õpilased kasutavad põhitõdede õppimiseks. Laiemate tehisintellekti või süvaõppe kontseptsioonide mõistmiseks on tugev masinõppe põhiteadmiste baas hädavajalik, ja seetõttu soovime seda siin pakkuda. +Selles õppekavas käsitleme ainult masinõppe põhikontseptsioone, mida algaja peab teadma. Käsitleme seda, mida nimetame „klassikaliseks masinõppeks“, kasutades peamiselt Scikit-learni, suurepärast raamatukogu, mida paljud õpilased kasutavad baasteadmiste omandamiseks. Laiemate tehisintellekti või süvaõppe kontseptsioonide mõistmiseks on masinõppe tugev põhiteadmiste baas hädavajalik, mistõttu pakume seda siin. --- -## Selles kursuses õpid: +## Selle kursuse jooksul õpid: - masinõppe põhikontseptsioone -- ML-i ajalugu -- ML ja õiglus -- regressiooni ML-tehnikaid -- klassifikatsiooni ML-tehnikaid -- klasterdamise ML-tehnikaid -- loomuliku keele töötlemise ML-tehnikaid -- ajareegressiooni prognoosimise ML-tehnikaid -- tugevdusõpet -- ML-i rakendusi päriselus +- masinõppe ajalugu +- masinõpe ja õiglus +- regressioonimasinõppe meetodid +- klassifitseerimismasinõppe meetodid +- klasterdamise masinõppe meetodid +- loomuliku keele töötlemise masinõppe meetodid +- ajaseeria ennustamise masinõppe meetodid +- tugevdamisõpe +- masinõppe praktilised rakendused --- ## Mida me ei käsitle -- süvaõpet -- närvivõrke -- tehisintellekti +- süvaõpe +- närvivõrgud +- tehisintellekt -Parema õppimiskogemuse huvides väldime närvivõrkude keerukust, 'süvaõpet' - mitmekihilist mudelite loomist närvivõrkude abil - ja tehisintellekti, mida käsitleme eraldi õppekavas. Pakume ka tulevast andmeteaduse õppekava, et keskenduda sellele suurema valdkonna aspektile. +Paremaks õppimiskogemuseks väldime keerukusi, mis on seotud närvivõrkude, „süvaõppe“ – närvivõrkude paljukihtilise mudeliteehitusega – ja tehisintellektiga, mida käsitleme teises õppekavas. Samuti pakume peatselt andmeteaduse õppekava, mis keskendub sellele valdkonna laiemale küljele. --- ## Miks õppida masinõpet? -Masinõpe süsteemide perspektiivist on defineeritud kui automatiseeritud süsteemide loomine, mis suudavad andmetest õppida varjatud mustreid, et aidata teha intelligentseid otsuseid. +Masinõpe, süsteemide vaatenurgast, tähendab automatiseeritud süsteemide loomist, mis suudavad õppida varjatud mustreid andmetest, et aidata teha intelligentseid otsuseid. -See motivatsioon on laias laastus inspireeritud sellest, kuidas inimaju õpib teatud asju välismaailmast tajutud andmete põhjal. +See motivatsioon on vabas vormis inspireeritud sellest, kuidas inimaju õpib teatud asju välistest andmetest. -✅ Mõtle hetkeks, miks ettevõte võiks eelistada masinõppe strateegiaid võrreldes kõvakodeeritud reeglipõhise mootoriga. +✅ Mõtle korraks, miks ettevõte võiks eelistada masinõppe strateegiaid kõvade reeglite põhjal loodud mootori asemel. + +--- +## Miks on andmekvaliteet oluline + +Kõrgekvaliteediline andmestik parandab mudeli sooritust. Kehv või mürarikas andmestik võib viia ebatäpsete ennustusteni isegi siis, kui kasutatakse keerukaid masinõppe algoritme. --- ## Masinõppe rakendused -Masinõppe rakendused on nüüd peaaegu kõikjal ja sama levinud kui andmed, mis voolavad meie ühiskondades, mida genereerivad meie nutitelefonid, ühendatud seadmed ja muud süsteemid. Arvestades tipptasemel masinõppe algoritmide tohutut potentsiaali, on teadlased uurinud nende võimekust lahendada mitmemõõtmelisi ja multidistsiplinaarseid päriseluprobleeme suurepäraste positiivsete tulemustega. +Masinõpet kasutatakse peaaegu kõikjal ja see on sama laialt levinud kui andmed, mis voolavad meie ühiskondades, kus neid genereerivad nutitelefonid, ühendatud seadmed ja teised süsteemid. Arvestades tipptasemel masinõppelahenduste tohutut potentsiaali, on teadlased uurinud nende võimet lahendada mitmemõõtmelisi ja multidistsiplinaarseid reaalse elu probleeme suure positiivse tulemusega. --- -## Rakendatud ML-i näited +## Masinõppe kasutusnäited -**Masinõpet saab kasutada mitmel viisil**: +**Masinõpet saab kasutada mitmel moel**: -- Haiguse tõenäosuse ennustamiseks patsiendi haigusloo või aruannete põhjal. -- Ilmaandmete kasutamiseks ilmastikuolude ennustamiseks. -- Teksti sentimenti mõistmiseks. +- Haiguste tõenäosuse prognoosimiseks patsiendi meditsiinilise ajaloo või raportite põhjal. +- Ilmaandmete kasutamiseks ilmaennustuste tegemiseks. +- Teksti meeleolu mõistmiseks. - Valeuudiste tuvastamiseks, et peatada propaganda levik. -Finants-, majandus-, maateadus-, kosmoseuuringud, biomeditsiinitehnika, kognitiivteadus ja isegi humanitaarteaduste valdkonnad on kohandanud masinõpet, et lahendada oma valdkonna keerulisi, andmetöötlusmahukaid probleeme. +Finants, majandus, geoteadus, kosmoseuuringud, biomeditsiinitehnika, kognitiivteadus ja isegi humanitaarteaduste valdkonnad on kohandanud masinõpet, et lahendada oma valdkonna keerukaid, andmetöötlusel põhinevaid probleeme. --- ## Kokkuvõte -Masinõpe automatiseerib mustrite avastamise protsessi, leides tähendusrikkaid teadmisi pärismaailma või genereeritud andmetest. See on osutunud äärmiselt väärtuslikuks äris, tervishoius ja finantsrakendustes, muu hulgas. +Masinõpe automatiseerib mustrite leidmise protsessi, avastades tähenduslikke teadmisi reaalsetest või genereeritud andmetest. See on osutunud väga väärtuslikuks äris, tervishoius, finantssektoris ja mujal. -Lähitulevikus saab masinõppe põhialuste mõistmine olema hädavajalik inimestele igast valdkonnast, arvestades selle laialdast kasutuselevõttu. +Lähematel aastatel saab masinõppe põhitõdede mõistmine vajalikuks kõigile valdkondade inimestele selle laialdase kasutuselevõtu tõttu. --- # 🚀 Väljakutse -Joonista paberil või veebirakenduse, näiteks [Excalidraw](https://excalidraw.com/), abil oma arusaam AI, ML-i, süvaõppe ja andmeteaduse erinevustest. Lisa ideid probleemidest, mida igaüks neist tehnikatest hästi lahendada suudab. +Joonista paberile või kasuta veebirakendust nagu [Excalidraw](https://excalidraw.com/), et kujutada oma arusaama erinevustest AI, ML, süvaõppe ja andmeteaduse vahel. Lisa ideid probleemide kohta, mida iga neist tehnikatest hästi lahendab. -# [Järelloengu viktoriin](https://ff-quizzes.netlify.app/en/ml/) +# [Pärast loengu viktoriin](https://ff-quizzes.netlify.app/en/ml/) --- -# Ülevaade ja iseseisev õppimine +# Kordamine ja iseseisev õppimine -Et rohkem teada saada, kuidas töötada ML-algoritmidega pilves, järgi seda [õppimisrada](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +Et teada saada, kuidas saab pilves töötada masinõppe algoritmidega, järgi seda [õppeteed](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Võta [õppimisrada](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott), et õppida ML-i põhialuseid. +Võta [õppeteekond](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) masinõppe põhialuste kohta. --- -# Ülesanne +# Kodutöö -[Alusta ja tööta](assignment.md) +[Alusta ja käivita](assignment.md) --- -**Lahtiütlus**: -See dokument on tõlgitud AI tõlketeenuse [Co-op Translator](https://github.com/Azure/co-op-translator) abil. Kuigi püüame tagada täpsust, palume arvestada, et automaatsed tõlked võivad sisaldada vigu või ebatäpsusi. Algne dokument selle algses keeles tuleks pidada autoriteetseks allikaks. Olulise teabe puhul soovitame kasutada professionaalset inimtõlget. Me ei vastuta selle tõlke kasutamisest tulenevate arusaamatuste või valesti tõlgenduste eest. \ No newline at end of file + +**Lahtiütlus**: +See dokument on tõlgitud kasutades AI tõlketeenust [Co-op Translator](https://github.com/Azure/co-op-translator). Kuigi me püüdleme täpsuse poole, palun pange tähele, et automatiseeritud tõlgetes võib esineda vigu või ebatäpsusi. Originaaldokument selle emakeeles tuleks pidada autoriteetseks allikaks. Olulise teabe puhul soovitatakse kasutada professionaalset inimtõlget. Me ei vastuta selle tõlkega seotud eksimustest või valesti mõistmistest. + \ No newline at end of file diff --git a/translations/et/5-Clustering/1-Visualize/README.md b/translations/et/5-Clustering/1-Visualize/README.md index ac18d0c66..704c859e9 100644 --- a/translations/et/5-Clustering/1-Visualize/README.md +++ b/translations/et/5-Clustering/1-Visualize/README.md @@ -1,116 +1,116 @@ # Sissejuhatus klasterdamisse -Klasterdamine on [juhendamata õppe](https://wikipedia.org/wiki/Unsupervised_learning) tüüp, mis eeldab, et andmekogum on märgistamata või et selle sisendid ei ole seotud eelnevalt määratletud väljunditega. See kasutab erinevaid algoritme, et sorteerida märgistamata andmeid ja pakkuda rühmitusi vastavalt mustritele, mida ta andmetes tuvastab. +Klasterdamine on üheks [juhendamata õppimise](https://wikipedia.org/wiki/Unsupervised_learning) tüübiks, mis eeldab, et andmestik on märgistamata või et selle sisendid ei ole seatud eelnevalt kindlaksmääratud väljunditega. See kasutab erinevaid algoritme, et sorteerida märgistamata andmeid ja moodustada rühmi vastavalt mustritele, mida see andmetes tuvastab. [![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Klõpsa ülaloleval pildil, et vaadata videot. Kui õpid masinõpet klasterdamise abil, naudi samal ajal mõnda Nigeeria tantsumuusika pala – see on kõrgelt hinnatud laul aastast 2014 PSquare'ilt. +> 🎥 Klõpsa ülaloleval pildil video vaatamiseks. Kui õpid masinõpet klasterdamisega, naudi mõningaid Nigeeria Dance Hall lugusid – see on kõrge hinne saanud lugu aastast 2014 PSquare poolt. -## [Loengu-eelne viktoriin](https://ff-quizzes.netlify.app/en/ml/) +## [Eel loengu test](https://ff-quizzes.netlify.app/en/ml/) ### Sissejuhatus -[Klasterdamine](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) on väga kasulik andmete uurimiseks. Vaatame, kas see aitab avastada trende ja mustreid Nigeeria publikute muusikatarbimise viisides. +[Klasterdamine](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) on väga kasulik andmete uurimiseks. Vaatame, kas see aitab avastada trende ja mustreid selles, kuidas Nigeeria publik muusikat tarbib. -✅ Võta hetk, et mõelda klasterdamise kasutusvõimalustele. Päriselus toimub klasterdamine näiteks siis, kui sul on hunnik pesu ja pead sorteerima oma pereliikmete riideid 🧦👕👖🩲. Andmeteaduses toimub klasterdamine, kui üritatakse analüüsida kasutaja eelistusi või määrata mis tahes märgistamata andmekogumi omadusi. Klasterdamine aitab teatud mõttes kaosest aru saada, nagu sokisahtli korrastamine. +✅ Võta minut mõtlemiseks, milleks klasterdamist kasutada saab. Igapäevaelus juhtub klasterdamine alati, kui sul on pesukorv ja vajad oma pereliikmete riideid sorteerida 🧦👕👖🩲. Andmeteaduses toimub klasterdamine siis, kui püütakse analüüsida kasutaja eelistusi või määratleda mis tahes märgistamata andmestiku omadusi. Klasterdamine aitab omamoodi kaosest mõtestada, nagu sokisahtel. -[![Sissejuhatus ML-i](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Sissejuhatus klasterdamisse") +[![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") -> 🎥 Klõpsa ülaloleval pildil, et vaadata videot: MIT-i John Guttag tutvustab klasterdamist. +> 🎥 Klõpsa ülaloleval pildil video vaatamiseks: MITi John Guttag tutvustab klasterdamist -Professionaalses keskkonnas saab klasterdamist kasutada näiteks turusegmentide määramiseks, et teada saada, millised vanuserühmad ostavad milliseid tooteid. Teine kasutusviis oleks anomaaliate tuvastamine, näiteks pettuste avastamiseks krediitkaarditehingute andmekogumist. Või võid kasutada klasterdamist kasvajate tuvastamiseks meditsiiniliste skaneeringute partiist. +Ametlikus keskkonnas võib klasterdamist kasutada näiteks turusegmentide määratlemiseks, näiteks et kindlaks teha, millised vanuserühmad ostavad milliseid tooteid. Teine kasutusala on anomaaliate tuvastamine, näiteks pettuste avastamine krediitkaarditehingute andmestikus. Võid ka kasutada klasterdamist vähkkasvajate määratlemiseks meditsiiniliste skaneeringute hulgas. -✅ Mõtle hetkeks, kuidas oled võib-olla kohanud klasterdamist "päriselus", näiteks panganduses, e-kaubanduses või ärikeskkonnas. +✅ Mõtle hetk, kus võid olla kohanud klasterdamist 'looduses', panganduse, e-kaubanduse või ärikeskkonnas. -> 🎓 Huvitaval kombel pärineb klasteranalüüs antropoloogia ja psühholoogia valdkondadest 1930ndatel. Kas oskad ette kujutada, kuidas seda võidi kasutada? +> 🎓 Huvitaval kombel pärineb klasteranalüüs antropoloogia ja psühholoogia valdkonnast 1930. aastatel. Kas oskad ette kujutada, kuidas seda võidi kasutada? -Teise võimalusena võiks seda kasutada otsingutulemuste rühmitamiseks – näiteks ostulinkide, piltide või arvustuste järgi. Klasterdamine on kasulik, kui sul on suur andmekogum, mida soovid vähendada ja millele soovid teha täpsemat analüüsi, seega saab seda tehnikat kasutada andmete tundmaõppimiseks enne teiste mudelite loomist. +Või võid kasutada seda otsingutulemuste grupeerimiseks – näiteks ostulinkide, piltide või arvustuste kaupa. Klasterdamine on kasulik, kui sul on suur andmestik, mida soovid kokku tõmmata ja mille peal soovid teha üksikasjalikumat analüüsi, nii et seda tehnikat saab kasutada andmete tundmaõppimiseks enne teiste mudelite ehitamist. -✅ Kui su andmed on klastritesse organiseeritud, määrad neile klastri ID, ja see tehnika võib olla kasulik andmekogumi privaatsuse säilitamisel; võid viidata andmepunktile selle klastri ID järgi, mitte paljastavamate identifitseeritavate andmete järgi. Kas oskad mõelda teistele põhjustele, miks viidata klastri ID-le, mitte klastri teistele elementidele? +✅ Kui sinu andmed on organiseeritud klastritesse, määrad neile klastritele ID ja see tehnika võib olla kasulik ka andmekaitse säilitamiseks; selle asemel, et viidata andmepunktile selle kirjeldavate tundlike andmetega, võid viidata sellele ainult klastrite ID järgi. Kas suudad mõelda veel põhjuseid, miks võiksid viidata klastrite ID-le, mitte teistele klastrite elementidele, et seda identifitseerida? -Süvene klasterdamistehnikate mõistmisse selles [õppemoodulis](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott). +Süvendage klasterdamise tehnikate mõistmist selles [õppemoodulis](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) -## Klasterdamise alustamine +## Klasterdamisega alustamine -[Scikit-learn pakub laia valikut](https://scikit-learn.org/stable/modules/clustering.html) meetodeid klasterdamise teostamiseks. Valik sõltub sinu kasutusjuhtumist. Dokumentatsiooni järgi on igal meetodil erinevad eelised. Siin on lihtsustatud tabel Scikit-learn'i toetatud meetoditest ja nende sobivatest kasutusjuhtudest: +[Scikit-learn pakub laia valikut](https://scikit-learn.org/stable/modules/clustering.html) meetodeid klasterdamiseks. Millist tüüpi valida, sõltub sinu kasutusjuhtumist. Dokumentatsiooni järgi on igal meetodil erinevad eelised. Siin on lihtsustatud tabel Scikit-learn poolt toetatud meetoditest ja nende sobivatest kasutusjuhtudest: -| Meetodi nimi | Kasutusjuhtum | -| :--------------------------- | :--------------------------------------------------------------------- | -| K-Means | üldotstarbeline, induktiivne | -| Affinity propagation | palju, ebaühtlased klastrid, induktiivne | -| Mean-shift | palju, ebaühtlased klastrid, induktiivne | -| Spectral clustering | vähe, ühtlased klastrid, transduktsioon | -| Ward hierarchical clustering | palju, piiratud klastrid, transduktsioon | -| Agglomerative clustering | palju, piiratud, mitte-eukleidilised kaugused, transduktsioon | -| DBSCAN | mitte-lame geomeetria, ebaühtlased klastrid, transduktsioon | -| OPTICS | mitte-lame geomeetria, ebaühtlased klastrid muutuva tihedusega, transduktsioon | -| Gaussian mixtures | lame geomeetria, induktiivne | -| BIRCH | suur andmekogum koos kõrvalekalletega, induktiivne | +| Meetodi nimi | Kasutusjuhtum | +| :--------------------------| :------------------------------------------------------------------- | +| K-Means | üldine otstarve, induktiivne | +| Affinity propagation | palju, ebaühtlased klastrid, induktiivne | +| Mean-shift | palju, ebaühtlased klastrid, induktiivne | +| Spectral clustering | vähe, ühtlased klastrid, transduktsiooniline | +| Ward hierarhiline klasterdamine | palju, piiratud klastrid, transduktsiooniline | +| Agglomeratiivne klasterdamine | palju, piiratud, mitte-Eukleidilise kaugusega, transduktsiooniline | +| DBSCAN | mitte-lame geomeetria, ebaühtlased klastrid, transduktsiooniline | +| OPTICS | mitte-lame geomeetria, ebaühtlased muutuvama tihedusega klastrid, transduktsiooniline | +| Gaussiliste segu meetodid | lame geomeetria, induktiivne | +| BIRCH | suur andmestik kõrvalekalletega, induktiivne | -> 🎓 Kuidas me loome klastreid, sõltub suuresti sellest, kuidas me kogume andmepunkte rühmadesse. Vaatame mõningaid termineid: +> 🎓 See, kuidas me klastreid loome, sõltub palju sellest, kuidas me andmepunkte rühmadesse koondame. Vaatame mõningaid termineid: > -> 🎓 ['Transduktsioon' vs. 'induktsioon'](https://wikipedia.org/wiki/Transduction_(machine_learning)) -> -> Transduktsiooniline järeldamine tuleneb täheldatud treeningjuhtudest, mis kaarduvad konkreetsetele testjuhtudele. Induktsiooniline järeldamine tuleneb treeningjuhtudest, mis kaarduvad üldistele reeglitele, mida rakendatakse alles seejärel testjuhtudele. -> -> Näide: Kujuta ette, et sul on osaliselt märgistatud andmekogum. Mõned asjad on "plaadid", mõned "CD-d" ja mõned on tühjad. Sinu ülesanne on anda tühjadele märgised. Kui valid induktiivse lähenemise, treenid mudelit otsides "plaate" ja "CD-sid" ning rakendad neid märgiseid märgistamata andmetele. See lähenemine võib raskustes olla asjade klassifitseerimisega, mis tegelikult on "kassettid". Transduktsiooniline lähenemine, teiselt poolt, käsitleb seda tundmatut andmestikku tõhusamalt, kuna see töötab sarnaste objektide rühmitamisega ja rakendab seejärel rühmale märgise. Sel juhul võivad klastrid kajastada "ümmargusi muusikaasju" ja "ruudukujulisi muusikaasju". -> -> 🎓 ['Mitte-lame' vs. 'lame' geomeetria](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) -> -> Matemaatilisest terminoloogiast tuletatud mitte-lame vs. lame geomeetria viitab punktidevaheliste kauguste mõõtmisele kas "lame" ([eukleidiline](https://wikipedia.org/wiki/Euclidean_geometry)) või "mitte-lame" (mitte-eukleidiline) geomeetriliste meetoditega. +> 🎓 ['Transduktsiooniline' vs 'induktiivne'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > ->'Lame' selles kontekstis viitab eukleidilisele geomeetriale (mida osaliselt õpetatakse "tasapinna" geomeetria nime all) ja mitte-lame viitab mitte-eukleidilisele geomeetriale. Mis on geomeetria seos masinõppega? Noh, kuna mõlemad valdkonnad põhinevad matemaatikal, peab olema ühine viis punktidevaheliste kauguste mõõtmiseks klastrites, ja seda saab teha "lame" või "mitte-lame" viisil, sõltuvalt andmete olemusest. [Eukleidilised kaugused](https://wikipedia.org/wiki/Euclidean_distance) mõõdetakse sirgjoone pikkusena kahe punkti vahel. [Mitte-eukleidilised kaugused](https://wikipedia.org/wiki/Non-Euclidean_geometry) mõõdetakse mööda kõverat. Kui su andmed, visualiseerituna, ei tundu eksisteerivat tasapinnal, võib vaja minna spetsiaalset algoritmi nende käsitlemiseks. +> Transduktsiooniline järeldus tuleneb vaatlustest treeningjuhtumite kohta, mis omavad kindlaid vasteid testjuhtumitega. Induktiivne järeldus tuletatakse treeningjuhtumitest, mis loovad üldisi reegleid, mida alles seejärel rakendatakse testjuhtumitele. +> +> Näide: Kujuta ette, et sul on andmestik, mis on ainult osaliselt märgistatud. Mõned andmed on 'plaadid', mõned 'CD-d' ja mõned lüngad on tühjad. Su ülesanne on anda nimetused nendele tühjadele. Kui valid induktiivse lähenemise, treenid mudelit, mis otsib 'plaate' ja 'CDsid' ning rakendad neid nimetusi märgistamata andmetele. See lähenemine teeb raskusi, kui tuleb klassifitseerida asju, mis on tegelikult 'kassetid'. Transduktsiooniline lähenemine käsitleb seda tundmatut andmestikku tõhusamalt, sest see proovib esmalt sarnased üksused rühmitada ja alles seejärel määrab rühmale nimetuse. Selles näites võivad klastrid kajastada 'ümmargusi muusikavahendeid' ja 'ruudukujulisi muusikavahendeid'. +> +> 🎓 ['Mitte-lame' vs 'lame' geomeetria](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> +> Võetud matemaatikaterminoloogiast, mitte-lame vs lame geomeetria tähistab punktidevaheliste kauguste mõõtmist kas 'lame' ([Eukleidiline](https://wikipedia.org/wiki/Euclidean_geometry)) või 'mitte-lame' (mitte-Eukleidiline) geomeetriliste meetodite abil. +> +> 'Lame' selles kontekstis viitab Eukleidilisele geomeetriale (mida õpetatakse ka kui 'tasapinna' geomeetriat) ning mitte-lame viitab mitte-Eukleidilisele geomeetriale. Mis pistmist on geomeetrial masinõppega? Kuna mõlemad valdkonnad on juurdunud matemaatikas, peab olema ühine viis punktidevaheliste kauguste mõõtmiseks klastrites, ja see saab olla kas 'lame' või 'mitte-lame', sõltuvalt andmete olemusest. [Eukleidilised kaugused](https://wikipedia.org/wiki/Euclidean_distance) mõõdetakse kahe punkti vahele jääva joone pikkusena. [Mitte-eukleidilised kaugused](https://wikipedia.org/wiki/Non-Euclidean_geometry) mõõdetakse kõvera pikkusena. Kui sinu andmed, kui neid visualiseerida, ei paikne tasapinnal, võib sul olla vaja kasutada spetsiaalset algoritmi selle käsitlemiseks. +> +![Lame vs mitte-lame geomeetria infograafik](../../../../translated_images/et/flat-nonflat.d1c8c6e2a96110c1.webp) +> Infograafika autor [Dasani Madipalli](https://twitter.com/dasani_decoded) > -![Lame vs Mitte-lame geomeetria infograafik](../../../../translated_images/et/flat-nonflat.d1c8c6e2a96110c1.webp) -> Infograafik: [Dasani Madipalli](https://twitter.com/dasani_decoded) -> > 🎓 ['Kaugused'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) -> -> Klastrid määratletakse nende kaugusmaatriksi järgi, st punktidevaheliste kauguste järgi. Seda kaugust saab mõõta mitmel viisil. Eukleidilised klastrid määratletakse punktiväärtuste keskmise järgi ja sisaldavad "tsentroidi" ehk keskpunkti. Kaugused mõõdetakse seega kaugusena tsentroidist. Mitte-eukleidilised kaugused viitavad "klustroididele", punktile, mis on kõige lähemal teistele punktidele. Klustroidid omakorda võivad olla määratletud mitmel viisil. -> +> +> Klastrid määratakse nende kaugusmaatriksi põhjal, st kauguste järgi punktide vahel. Seda kaugust võib mõõta mitmel moel. Eukleidilised klastrid määratakse punktide väärtuste keskmise järgi ja sisaldavad 'tükipunkti' ehk keskpunkti. Kaugused mõõdetakse just selle keskpunkti kauguste järgi. Mitte-eukleidilised kaugused viitavad 'klastroididele', mis on punktid, mis asuvad teiste punktide suhtes kõige lähemal. Klastroidid ise võivad olla määratletud erinevalt. +> > 🎓 ['Piiratud'](https://wikipedia.org/wiki/Constrained_clustering) -> -> [Piiratud klasterdamine](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) toob "pooljuhendatud" õppe sisse sellesse juhendamata meetodisse. Punktidevahelised suhted märgitakse "ei saa linkida" või "peab linkima", nii et andmekogumile kehtestatakse mõned reeglid. > ->Näide: Kui algoritm lastakse vabaks märgistamata või poolmärgistatud andmetel, võivad klastrid, mida see toodab, olla kehva kvaliteediga. Ülaltoodud näites võivad klastrid rühmitada "ümmargused muusikaasjad", "ruudukujulised muusikaasjad", "kolmnurksed asjad" ja "küpsised". Kui antakse mõned piirangud või reeglid, mida järgida ("ese peab olema valmistatud plastikust", "ese peab suutma muusikat toota"), võib see aidata algoritmil teha paremaid valikuid. -> +> [Piiratud klasterdamine](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) viib seejuures 'pooljuhendatud' õppimise sellesse juhendamata meetodisse. Punktide vahelised seosed märgistatakse kui 'ei saa ühendada' või 'peab ühendama', nii et andmetele kehtestatakse mõned reeglid. +> +> Näide: Kui algoritm lastakse 'vabalt' töötada märgistamata või poolmärgistatud andmete hulgal, võivad klastrid olla kehva kvaliteediga. Ülaltoodud näites võib klastrid moodustada 'ümmargustest muusikariistadest' ja 'ruudukujulistest muusikariistadest' ning 'kolmnurkadest' ja 'küpsistest'. Kui anda mõningaid piiranguid või reegleid ("ese peab olema plastikust", "ese peab suutma muusikat toota"), aitab see algoritmi paremaid valikuid teha. +> > 🎓 'Tihedus' -> -> Andmeid, mis on "mürarikkad", peetakse "tihedaks". Punktidevahelised kaugused igas selle klastris võivad osutuda, uurimisel, rohkem või vähem tihedaks ehk "rahvarohkeks", ja seega tuleb seda andmestikku analüüsida sobiva klasterdamismeetodiga. [See artikkel](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) näitab erinevust K-Means klasterdamise ja HDBSCAN algoritmide kasutamise vahel mürarikka andmestiku uurimiseks, mille klastrite tihedus on ebaühtlane. +> +> 'Mürastatud' andmeid peetakse 'tihedaks'. Punktidevahelised kaugused selles klastrites võivad olla kontrollimisel tihedamad või hõredamad ehk 'rahvarohkemad' või vähem, ja see tähendab, et andmeid tuleb analüüsida sobiva klasterdamismeetodiga. [See artikkel](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) näitab erinevust K-Meansi ja HDBSCAN algoritmide vahel mürarikka andmestiku uurimisel, millel on ebaühtlane klasterite tihedus. ## Klasterdamise algoritmid -Klasterdamise algoritme on üle 100, ja nende kasutamine sõltub käsitletavate andmete olemusest. Arutame mõningaid peamisi: +Klasterdamise algoritme on üle 100 ja nende kasutamine sõltub olemasolevate andmete iseloomust. Arutleme mõningaid põhilisi: -- **Hierarhiline klasterdamine**. Kui objekt klassifitseeritakse selle läheduse järgi lähedalasuvale objektile, mitte kaugemal olevale, moodustuvad klastrid nende liikmete kauguse järgi teistest objektidest. Scikit-learn'i aglomereeriv klasterdamine on hierarhiline. +- **Hierarhiline klasterdamine**. Kui objekt klassifitseeritakse selle järgi, kui lähedal see asub mõnele lähedalasuvatele objektile, mitte kaugel olevale, moodustuvad klastrid nende liikmete vahelist kaugust arvestades. Scikit-learn'i agglomeratiivne klasterdamine on hierarhiline. ![Hierarhilise klasterdamise infograafik](../../../../translated_images/et/hierarchical.bf59403aa43c8c47.webp) - > Infograafik: [Dasani Madipalli](https://twitter.com/dasani_decoded) + > Infograafika autor [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Tsentroidi klasterdamine**. See populaarne algoritm nõuab "k" ehk moodustatavate klastrite arvu valimist, mille järel algoritm määrab klastri keskpunkti ja kogub andmeid selle punkti ümber. [K-means klasterdamine](https://wikipedia.org/wiki/K-means_clustering) on populaarne tsentroidi klasterdamise versioon. Keskpunkt määratakse lähima keskmise järgi, seega nimi. Klastri ruutkaugus minimeeritakse. +- **Tükipunkti klasterdamine**. See populaarne algoritm nõuab 'k' ehk klastrite arvu valikut, millele järgneb algoritmi määrata klastrite keskpunkt ning koondada andmed selle punkti ümber. [K-means klasterdamine](https://wikipedia.org/wiki/K-means_clustering) on tuntud tükipunkti klasterdamise näide. Keskpunkt määratakse lähima keskmise järgi, seega nimetus. Klastrist kauguse ruutsumma minimeeritakse. - ![Tsentroidi klasterdamise infograafik](../../../../translated_images/et/centroid.097fde836cf6c918.webp) - > Infograafik: [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Tükipunkti klasterdamise infograafik](../../../../translated_images/et/centroid.097fde836cf6c918.webp) + > Infograafika autor [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Jaotuspõhine klasterdamine**. Statistilisel modelleerimisel põhinev jaotuspõhine klasterdamine keskendub tõenäosuse määramisele, et andmepunkt kuulub klastri juurde, ja määrab selle vastavalt. Gaussi segameetodid kuuluvad sellesse tüüpi. +- **Jaotusepõhine klasterdamine**. Statistilisel modelleerimisel põhinev jaotusepõhine klasterdamine määrab tõenäosuse, mil määral andmepunkt kuulub mingisse klastrisse ning määrab selle vastavalt. Selle tüübi hulka kuuluvad gaussliku segu meetodid. -- **Tiheduspõhine klasterdamine**. Andmepunktid määratakse klastritesse nende tiheduse järgi ehk nende rühmitamise järgi üksteise ümber. Kaugemal rühmast olevad andmepunktid loetakse kõrvalekalleteks või müraks. DBSCAN, Mean-shift ja OPTICS kuuluvad sellesse klasterdamise tüüpi. +- **Tihedus-põhine klasterdamine**. Andmepunktid määratakse klastritesse nende tiheduse alusel ehk grupi ümber koondumise põhjal. Punktid, mis asuvad grupist kaugel, loetakse kõrvalekalleteks või müraks. DBSCAN, Mean-shift ja OPTICS kuuluvad sellesse klasterdamise tüüpi. -- **Võrgupõhine klasterdamine**. Mitmemõõtmeliste andmekogumite jaoks luuakse võrk ja andmed jaotatakse võrgu lahtrite vahel, luues seeläbi klastreid. +- **Võrgustiku-põhine klasterdamine**. Mitmemõõtmeliste andmestike jaoks luuakse võrgustik ja andmed jagatakse võrgustiku rakkudeks, moodustades nii klastrid. ## Harjutus – klasterda oma andmed -Klasterdamine kui tehnika on suuresti abiks korraliku visualiseerimisega, seega alustame oma muusikaandmete visualiseerimisest. See harjutus aitab meil otsustada, millist klasterdamismeetodit kõige tõhusamalt kasutada nende andmete olemuse jaoks. +Klasterdamise tehnikat toetab suurelt hea visualiseerimine, nii et alustame muusikandmete visualiseerimisest. See harjutus aitab meil otsustada, millist klasterdusmeetodit selle andmestiku puhul kõige tõhusamalt kasutada. -1. Ava [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) fail selles kaustas. +1. Ava selles kaustas olev [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) fail. -1. Impordi `Seaborn` pakett heaks andmete visualiseerimiseks. +1. Impordi `Seaborn` pakett hea andmete visualiseerimise jaoks. ```python !pip install seaborn ``` -1. Lisa laulude andmed failist [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Laadi andmeraam andmetega laulude kohta. Valmista ette nende andmete uurimine, importides teegid ja kuvades andmed: +1. Lisa laulude andmed failist [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Laadi andmestikku laulude kohta. Valmista end andmete uurimiseks, impordides vajalikud teegid ja kuvades andmed: ```python import matplotlib.pyplot as plt @@ -120,23 +120,23 @@ Klasterdamine kui tehnika on suuresti abiks korraliku visualiseerimisega, seega df.head() ``` - Vaata andmete esimesi ridu: + Kontrolli andmete esimesi ridu: - | | nimi | album | artist | artist_top_genre | release_date | pikkus | populaarsus | tantsitavus | akustilisus | energia | instrumentaalsus | elavus | valjus | kõnelevus | tempo | taktimõõt | + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Küsige andmeid tabeli kohta, kutsudes `info()`: +1. Saa mõned andmed andmeraamist, kutsudes esile `info()`: ```python df.info() ``` - Väljund näeb välja selline: + Väljund näeb välja järgmiselt: ```output @@ -164,13 +164,13 @@ Klasterdamine kui tehnika on suuresti abiks korraliku visualiseerimisega, seega memory usage: 66.4+ KB ``` -1. Kontrollige nullväärtusi, kutsudes `isnull()` ja veendudes, et summa on 0: +1. Kinnitage nullväärtuste puudumine, kutsudes esile `isnull()` ja kontrollides, et summa on 0: ```python df.isnull().sum() ``` - Kõik tundub korras: + Tundub hea: ```output name 0 @@ -209,11 +209,11 @@ Klasterdamine kui tehnika on suuresti abiks korraliku visualiseerimisega, seega | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Kui me töötame klasterdamisega, mis on juhendamata meetod ja ei vaja märgistatud andmeid, siis miks me näitame neid andmeid koos siltidega? Andmete uurimise faasis on need kasulikud, kuid klasterdamise algoritmid ei vaja neid töötamiseks. Võiksite sama hästi eemaldada veerupäised ja viidata andmetele veeru numbri järgi. +> 🤔 Kui me töötame klasterdamisega, juhendamata meetodiga, mis ei vaja märgistatud andmeid, miks me siis näitame andmeid koos siltidega? Andmete uurimise faasis on need abiks, kuid klasterdamise algoritmide jaoks pole need vajalikud. Võite ka lihtsalt veergude päised eemaldada ja viidata andmetele veeru numbri järgi. -Vaadake andmete üldisi väärtusi. Pange tähele, et populaarsus võib olla '0', mis näitab laule, millel pole reitingut. Eemaldame need peagi. +Vaadake andmete üldisi väärtusi. Märkige, et populaarsus võib olla '0', mis näitab lugusid, millel puudub edetabelikoht. Eemaldame need peagi. -1. Kasutage tulpdiagrammi, et teada saada populaarseimad žanrid: +1. Kasutage tulbadiagrammi, et leida kõige populaarsemad žanrid: ```python import seaborn as sns @@ -227,9 +227,9 @@ Vaadake andmete üldisi väärtusi. Pange tähele, et populaarsus võib olla '0' ![kõige populaarsemad](../../../../translated_images/et/popular.9c48d84b3386705f.webp) -✅ Kui soovite näha rohkem tipptulemusi, muutke top `[:5]` suuremaks väärtuseks või eemaldage see, et näha kõiki. +✅ Kui soovite näha rohkem tipptulemusi, muutke top `[:5]` suuremaks või eemaldage see, et näha kõiki. -Pange tähele, et kui populaarseim žanr on kirjeldatud kui 'Puudub', tähendab see, et Spotify ei klassifitseerinud seda, seega eemaldame selle. +Pange tähele, kui tippžanr on kirjeldatud kui 'Missing', tähendab see, et Spotify ei klassifitseerinud seda, seega vabaneme sellest. 1. Eemaldage puuduvad andmed, filtreerides need välja @@ -242,11 +242,11 @@ Pange tähele, et kui populaarseim žanr on kirjeldatud kui 'Puudub', tähendab plt.title('Top genres',color = 'blue') ``` - Nüüd kontrollige žanre uuesti: + Kontrollige nüüd uuesti žanre: - ![kõik žanrid](../../../../translated_images/et/all-genres.1d56ef06cefbfcd6.webp) + ![kõige populaarsemad](../../../../translated_images/et/all-genres.1d56ef06cefbfcd6.webp) -1. Kolm populaarseimat žanrit domineerivad selgelt selles andmestikus. Keskendume `afro dancehall`, `afropop` ja `nigerian pop` žanritele ning lisaks filtreerime andmestiku, et eemaldada kõik, mille populaarsusväärtus on 0 (mis tähendab, et neid ei klassifitseeritud populaarsuse järgi ja neid võib meie eesmärkidel pidada müra). +1. Kauaoodatud kolm populaarseimat žanrit domineerivad seda andmestikku. Keskendume `afro dancehallile`, `afropopile` ja `nigerian popile`, lisaks filtreerime andmestiku, et eemaldada kõik, mille populaarsus on 0 (mis tähendab, et see polnud andmestikus populaarsusega klassifitseeritud ja võib meie jaoks olla müra): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +258,7 @@ Pange tähele, et kui populaarseim žanr on kirjeldatud kui 'Puudub', tähendab plt.title('Top genres',color = 'blue') ``` -1. Tehke kiire test, et näha, kas andmed korreleeruvad mingil eriti tugeval viisil: +1. Tehke kiire test, et näha, kas andmetel on mõni eriti tugev korrelatsioon: ```python corrmat = df.corr(numeric_only=True) @@ -268,19 +268,19 @@ Pange tähele, et kui populaarseim žanr on kirjeldatud kui 'Puudub', tähendab ![korrelatsioonid](../../../../translated_images/et/correlation.a9356bb798f5eea5.webp) - Ainus tugev korrelatsioon on `energy` ja `loudness` vahel, mis pole üllatav, arvestades, et valju muusika on tavaliselt üsna energiline. Muud korrelatsioonid on suhteliselt nõrgad. Huvitav on näha, mida klasterdamise algoritm nende andmetega teha suudab. + Ainus tugev seos on `energiat` ja `valjuse` vahel, mis ei ole liiga üllatav, arvestades, et vali muusika on tavaliselt üsna energiline. Muul juhul on korrelatsioonid suhteliselt nõrgad. Huvitav on näha, mida klasterdamise algoritm selle andmestikuga teeb. - > 🎓 Pange tähele, et korrelatsioon ei tähenda põhjuslikkust! Meil on tõendid korrelatsiooni kohta, kuid mitte põhjuslikkuse kohta. [Lõbus veebisait](https://tylervigen.com/spurious-correlations) pakub visuaale, mis rõhutavad seda punkti. + > 🎓 Pange tähele, et korrelatsioon ei tähenda põhjuslikkust! Meil on tõestus korrelatsiooni kohta, kuid puudub põhjuslikkuse tõestus. Üks [naljakas veebisait](https://tylervigen.com/spurious-correlations) sisaldab selle punkti rõhutamiseks visuaale. -Kas selles andmestikus on mingit lähenemist laulu tajutava populaarsuse ja tantsitavuse ümber? FacetGrid näitab, et olenemata žanrist on kontsentrilised ringid, mis joondavad end. Kas võib olla, et nigeerlaste maitsed koonduvad teatud tantsitavuse tasemele selles žanris? +Kas selles andmestikus on mingit kokkulangevust laulu tajutud populaarsuse ja tantsitavuse vahel? FacetGrid näitab, et on kontsentrilised ringid, mis joonduvad, sõltumata žanrist. Kas on võimalik, et Nigeeria maitsed koonduvad mingil tantsitavuse tasemel selle žanri puhul? -✅ Proovige erinevaid andmepunkte (energia, valjus, kõnelemine) ja rohkem või erinevaid muusikažanre. Mida saate avastada? Vaadake `df.describe()` tabelit, et näha andmepunktide üldist jaotust. +✅ Proovige erinevaid andmepunkte (energia, valjusus, kõnetähed) ja rohkem või erinevaid muusikalisi žanre. Mida võite avastada? Vaadake üle `df.describe()` tabel, et näha andmepunktide üldist levikut. ### Harjutus - andmete jaotus -Kas need kolm žanrit erinevad oluliselt tantsitavuse tajumises, lähtudes nende populaarsusest? +Kas need kolm žanrit erinevad tantsitavuse tajus oluliselt, lähtudes nende populaarsusest? -1. Uurige meie kolme populaarseima žanri andmete jaotust populaarsuse ja tantsitavuse osas antud x- ja y-teljel. +1. Uurige kolme tipptasemel žanri andmete jaotust populaarsuse ja tantsitavuse osas, kasutades x- ja y-telge. ```python sns.set_theme(style="ticks") @@ -292,11 +292,11 @@ Kas need kolm žanrit erinevad oluliselt tantsitavuse tajumises, lähtudes nende ) ``` - Võite avastada kontsentrilisi ringe üldise lähenemispunkti ümber, mis näitab punktide jaotust. + Võite avastada kontsentrilisi ringe üldise kokkulangevuse punkti ümber, mis näitab punktide jaotust. - > 🎓 Pange tähele, et see näide kasutab KDE (Kernel Density Estimate) graafikut, mis esindab andmeid pideva tõenäosuse tiheduse kõveraga. See võimaldab meil andmeid tõlgendada, kui töötame mitme jaotusega. + > 🎓 Pange tähele, et see näide kasutab KDE-d (tuumatihenduse hinnangut), mis kujutab andmeid pideva tõenäosustiheduse kõverana. See võimaldab meil tõlgendada andmeid, töötades mitme jaotusega. - Üldiselt on kolm žanrit populaarsuse ja tantsitavuse osas lahtiselt joondatud. Klasterdamise määramine selles lahtiselt joondatud andmetes on väljakutse: + Üldiselt on kolm žanrit populaarsuse ja tantsitavuse osas laialdaselt joondatud. Klasterite kindlakstegemine selles laialt joondatud andmetes on väljakutse: ![jaotus](../../../../translated_images/et/distribution.9be11df42356ca95.webp) @@ -308,31 +308,33 @@ Kas need kolm žanrit erinevad oluliselt tantsitavuse tajumises, lähtudes nende .add_legend() ``` - Sama telgede hajuvusdiagramm näitab sarnast lähenemismustrit + Sama telgede hajuvusdiagramm näitab sarnast kokkulangevuse mustrit ![Facetgrid](../../../../translated_images/et/facetgrid.9b2e65ce707eba1f.webp) -Üldiselt saate klasterdamiseks kasutada hajuvusdiagramme, et näidata andmeklastrite jaotust, seega on selle visualiseerimise tüübi valdamine väga kasulik. Järgmises õppetunnis võtame need filtreeritud andmed ja kasutame k-means klasterdamist, et avastada selles andmestikus rühmi, mis kattuvad huvitavatel viisidel. +Üldiselt võite klasterdamiseks kasutada hajuvusdiagramme, et näidata andmete klastreid, seega on selle visualiseerimise tüübi meisterdamine väga kasulik. Järgmises peatükis kasutame filtreeritud andmeid ja k-means klasterdamist, et avastada rühmi selles andmestikus, mis näivad huvitavalt kattuvat. --- ## 🚀Väljakutse -Valmistudes järgmiseks õppetunniks, koostage diagramm erinevate klasterdamise algoritmide kohta, mida võite avastada ja kasutada tootmiskeskkonnas. Milliseid probleeme klasterdamine püüab lahendada? +Järgmise peatüki ettevalmistamiseks koostage graafik erinevate klasterdamise algoritmide kohta, mida võite avastada ja kasutada tootmiskeskkonnas. Milliseid probleeme püüab klasterdamine lahendada? -## [Loengu järgne viktoriin](https://ff-quizzes.netlify.app/en/ml/) +## [Järelvaatamise viktoriin](https://ff-quizzes.netlify.app/en/ml/) -## Ülevaade ja iseseisev õppimine +## Kordamine ja iseseisev õpe -Enne klasterdamise algoritmide rakendamist, nagu oleme õppinud, on hea mõte mõista oma andmestiku olemust. Lugege selle teema kohta rohkem [siit](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Enne klasterdamise algoritmide rakendamist, nagu oleme õppinud, on hea mõista oma andmestiku olemust. Loe teema kohta rohkem [siit](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[See kasulik artikkel](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) juhendab teid erinevate klasterdamise algoritmide käitumise kaudu, arvestades erinevaid andmekujusid. +[See kasulik artikkel](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) juhatab teid erinevate klasterdamise algoritmide käitumise juurde, sõltuvalt andmete kujundusest. -## Ülesanne +## Kodutöö -[Uurige teisi klasterdamise visualiseerimisi](assignment.md) +[Uurige muid klasterdamise visualiseeringuid](assignment.md) --- -**Lahtiütlus**: -See dokument on tõlgitud AI tõlketeenuse [Co-op Translator](https://github.com/Azure/co-op-translator) abil. Kuigi püüame tagada täpsust, palume arvestada, et automaatsed tõlked võivad sisaldada vigu või ebatäpsusi. Algne dokument selle algses keeles tuleks pidada autoriteetseks allikaks. Olulise teabe puhul soovitame kasutada professionaalset inimtõlget. Me ei vastuta selle tõlke kasutamisest tulenevate arusaamatuste või valesti tõlgenduste eest. \ No newline at end of file + +**Lahtiütlus**: +See dokument on tõlgitud kasutades AI tõlketeenust [Co-op Translator](https://github.com/Azure/co-op-translator). Kuigi me püüdleme täpsuse poole, palun pange tähele, et automatiseeritud tõlgetes võib esineda vigu või ebatäpsusi. Originaaldokument selle emakeeles tuleks pidada autoriteetseks allikaks. Olulise teabe puhul soovitatakse kasutada professionaalset inimtõlget. Me ei vastuta selle tõlkega seotud eksimustest või valesti mõistmistest. + \ No newline at end of file diff --git a/translations/pcm/.co-op-translator.json b/translations/pcm/.co-op-translator.json index 485cdb0cd..fcb5ea43a 100644 --- a/translations/pcm/.co-op-translator.json +++ b/translations/pcm/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-11-18T18:21:47+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:38:04+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "pcm" }, @@ -240,8 +240,8 @@ "language_code": "pcm" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-11-18T19:06:15+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:37:50+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "pcm" }, diff --git a/translations/pcm/1-Introduction/1-intro-to-ML/README.md b/translations/pcm/1-Introduction/1-intro-to-ML/README.md index 99b3052bf..bfb1f6a82 100644 --- a/translations/pcm/1-Introduction/1-intro-to-ML/README.md +++ b/translations/pcm/1-Introduction/1-intro-to-ML/README.md @@ -6,74 +6,74 @@ [![ML for beginners - Introduction to Machine Learning for Beginners](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML for beginners - Introduction to Machine Learning for Beginners") -> 🎥 Click di image wey dey up for short video wey go show you how dis lesson dey work. +> 🎥 Click di image wey dey top for short video wey dey run through dis lesson. -Welcome to dis course wey dey about classical machine learning for beginners! Whether you be person wey no sabi anything about dis topic, or you be ML expert wey wan refresh your mind for one area, we happy say you join us! We wan make dis place friendly for you to start your ML study, and we go happy to check, reply, and add your [feedback](https://github.com/microsoft/ML-For-Beginners/discussions). +Welcome to dis course on classical machine learning for beginners! Whether you dey totally new to dis topic, or you be experienced ML practitioner wey wan brush up for one area, we dey happy to get you join us! We want create one friendly launching spot for your ML study and we go happy to check, respond, and put your [feedback](https://github.com/microsoft/ML-For-Beginners/discussions) inside. [![Introduction to ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introduction to ML") -> 🎥 Click di image wey dey up for video: MIT's John Guttag dey explain machine learning +> 🎥 Click di image wey dey top for video: MIT's John Guttag dey introduce machine learning --- -## How to start with machine learning +## Getting started with machine learning -Before you go start dis curriculum, you need make your computer ready to run notebooks for your system. +Before you start with dis curriculum, you need make your computer set up well and dey ready to run notebooks locally. -- **Set up your machine with dis videos**. Use di links wey dey here to learn [how to install Python](https://youtu.be/CXZYvNRIAKM) for your system and [setup text editor](https://youtu.be/EU8eayHWoZg) for development. -- **Learn Python**. E good make you sabi small about [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), one programming language wey data scientists dey use and we go use am for dis course. -- **Learn Node.js and JavaScript**. We go still use JavaScript small for dis course when we dey build web apps, so you go need [node](https://nodejs.org) and [npm](https://www.npmjs.com/) for your system, plus [Visual Studio Code](https://code.visualstudio.com/) for Python and JavaScript development. -- **Create GitHub account**. Since you find us for [GitHub](https://github.com), you fit don get account already, but if you never get, create one and fork dis curriculum make you use am. (No forget to give us star 😊) -- **Check Scikit-learn**. Make you sabi [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), one ML library wey we go dey use for dis lessons. +- **Configure your machine with these videos**. Use di links dem below to learn [how to install Python](https://youtu.be/CXZYvNRIAKM) for your system and [setup a text editor](https://youtu.be/EU8eayHWoZg) for development. +- **Learn Python**. E good make you get basic understanding of [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), one programming language wey data scientists dey use and we dey use for dis course. +- **Learn Node.js and JavaScript**. We still go use JavaScript small for dis course when we dey build web apps, so you go need to get [node](https://nodejs.org) and [npm](https://www.npmjs.com/) install, plus [Visual Studio Code](https://code.visualstudio.com/) ready for both Python and JavaScript development. +- **Create a GitHub account**. Since you find us here for [GitHub](https://github.com), you fit don get account, but if no be so, make you create one then fork dis curriculum make you fit use am for your own. (Feel free make you give us star too 😊) +- **Explore Scikit-learn**. Make you sabi [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), one set of ML libraries wey we dey talk about for these lessons. --- ## Wetin be machine learning? -Di word 'machine learning' na one of di popular and common words wey people dey use today. E get chance say you don hear dis word before if you sabi technology small, no matter di area wey you dey work. But how machine learning dey work na mystery for many people. For person wey dey start machine learning, e fit look like say e too much. So e good make we understand wetin machine learning be, and learn am step by step, with practical examples. +Di term 'machine learning' na one of di most popular and well-used words today. E get chance say you don hear dis term at least one time if you get any kinda knowledge about technology, no matter which area you dey work. But di way machine learning dey work na mystery to most people. For person wey dey start for machine learning, di subject fit hard sometimes. So e good make you understand wetin machine learning be for real, and make you learn am small-small by step, through practical examples. --- -## Di hype curve +## The hype curve ![ml hype curve](../../../../translated_images/pcm/hype.07183d711a17aafe.webp) -> Google Trends dey show di recent 'hype curve' of di word 'machine learning' +> Google Trends dey show di recent 'hype curve' of di term 'machine learning' --- -## One mysterious world +## A mysterious universe -We dey live for one world wey full with plenty mystery. Big scientists like Stephen Hawking, Albert Einstein, and others don use their life dey find better information wey go show di mystery of di world wey dey around us. Na di way human beings dey learn: pikin dey learn new things and dey understand di world wey dey around am as e dey grow. +We dey live for one universe wey full of plenty mysteries wey dey amaze us. Great scientists like Stephen Hawking, Albert Einstein, and many more don spend dia life dey find important information wey fit uncover di mysteries of di world wey dey round us. Na so human beings be to learn: pikin dey learn new tins and dey uncover how their world be year by year as dem dey grow. --- -## Di pikin brain +## The child's brain -Di brain and senses of pikin dey see wetin dey around am and dey learn di hidden patterns of life wey go help di pikin sabi how to use logic to understand di patterns wey e don learn. Di way human brain dey learn na wetin make humans be di most advanced living thing for dis world. Di way we dey learn and dey improve dey help us dey better as we dey grow. Dis learning ability and di way we dey change dey connect to one idea wey dem dey call [brain plasticity](https://www.simplypsychology.org/brain-plasticity.html). If we look am small, we fit see di way human brain dey learn and di idea of machine learning dey similar. +Pikin brain and sense dem dey gather facts about wetin dey around and dem dey learn di hidden patterns of life slowly wey go help di pikin create logical rules to sabi di patterns wey dem don learn. How human brain dey learn na wetin make humans be di most sabi animal for dis world. We dey learn steady by finding hidden patterns then we dey create new tins based on those patterns and dat dey help us better as we dey live. Dis ability to learn and change na wetin we dey call [brain plasticity](https://www.simplypsychology.org/brain-plasticity.html). For example, we fit see small similarity between how human brain dey learn and how machine learning dey work. --- -## Di human brain +## The human brain -Di [human brain](https://www.livescience.com/29365-human-brain.html) dey see wetin dey happen for di real world, e dey process di information wey e see, e dey make sense of di information, and e dey act based on di situation. Na wetin we dey call intelligent behavior. When we program machine to act like say e get intelligent behavior, we dey call am artificial intelligence (AI). +Di [human brain](https://www.livescience.com/29365-human-brain.html) dey collect tins from di real world, dey process wetin e gather, dey make smart decisions, then dey do actions based on situation. Na wetin we dey call intelligent behavior. When we program machine make e mimic dis intelligent behavior, na wetin dem dey call artificial intelligence (AI). --- -## Some words wey you need sabi +## Some terminology -Even though di words fit confuse person, machine learning (ML) na one important part of artificial intelligence. **ML dey use special algorithms to find better information and hidden patterns from di data wey e see to help di process of making sense of di data**. +Even though di terms fit confuse, machine learning (ML) na important part of artificial intelligence. **ML dey use special algorithms to find important information and hidden patterns from data to support smart decision making**. --- ## AI, ML, Deep Learning ![AI, ML, deep learning, data science](../../../../translated_images/pcm/ai-ml-ds.537ea441b124ebf6.webp) -> One diagram wey dey show di relationship between AI, ML, deep learning, and data science. Infographic by [Jen Looper](https://twitter.com/jenlooper) wey e take inspiration from [dis graphic](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> One diagram wey show how AI, ML, deep learning, and data science dey relate. Infographic by [Jen Looper](https://twitter.com/jenlooper) inspired by [this graphic](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- -## Wetin we go cover +## Concepts to cover -For dis curriculum, we go talk about di main ideas of machine learning wey beginner suppose sabi. We go focus on wetin we dey call 'classical machine learning' wey dey use Scikit-learn, one better library wey many students dey use to learn di basics. To understand di bigger ideas of artificial intelligence or deep learning, you need strong foundation for machine learning, and na wetin we wan give you here. +For dis curriculum, we go only cover important machine learning concepts wey beginners need sabi. We go mainly talk about 'classical machine learning' we dey use Scikit-learn, one correct library wey many students dey use learn basics. To understand bigger concepts for artificial intelligence or deep learning, you need get correct basic knowledge for machine learning, so we wan give am here. --- -## For dis course you go learn: +## In this course you will learn: -- di main ideas of machine learning -- di history of ML +- core concepts of machine learning +- history of ML - ML and fairness - regression ML techniques - classification ML techniques @@ -81,7 +81,7 @@ For dis curriculum, we go talk about di main ideas of machine learning wey begin - natural language processing ML techniques - time series forecasting ML techniques - reinforcement learning -- real-world ways to use ML +- real-world applications for ML --- ## Wetin we no go cover @@ -90,54 +90,59 @@ For dis curriculum, we go talk about di main ideas of machine learning wey begin - neural networks - AI -To make di learning easy, we no go talk about di hard parts of neural networks, 'deep learning' - di many-layered model-building wey dey use neural networks - and AI, we go talk about am for another curriculum. We go still bring data science curriculum later to focus on dat part of dis big field. +To make learning better, we go avoid di complicated things about neural networks, 'deep learning' - wey na many-layer model building with neural networks - and AI, we go talk about those for another curriculum. We go still bring one data science curriculum to focus on that big part of dis field. --- -## Why you go study machine learning? +## Why study machine learning? -Machine learning, if we look am from system side, na di way we dey create systems wey fit learn hidden patterns from data to help make smart decisions. +Machine learning from system side na to create automated systems wey fit learn hidden patterns from data to help make smart decisions. -Dis idea dey somehow connect to how human brain dey learn things based on di data wey e see from di world. +Dis idea come from how human brain dey learn tins based on data e gather from outside world. -✅ Think small why business go wan use machine learning instead of creating system wey dey use fixed rules. +✅ Think small about why business go want use machine learning strategies instead of to create hard coded rules-based engine. --- -## How machine learning dey work +## Why data quality matters -Machine learning dey everywhere now, e dey as common as di data wey dey flow for our society, wey dey come from our smart phones, connected devices, and other systems. Because of di big potential of di latest machine learning algorithms, researchers dey use am to solve big problems for different areas with better results. +Good quality data go make model work well. Bad or noisy data fit make wrong predictions even if you use better machine learning algorithms. --- -## Examples of how ML dey work +## Applications of machine learning -**You fit use machine learning for plenty things**: +Machine learning dey everywhere now, e dey everywhere like data wey dey flow for our societies wey come from our smart phones, connected devices, and other systems. Because machine learning algorithms get serious power, researchers don dey explore how dem fit solve wahala wey get many sides and many fields with good results. -- To predict di chance of disease from patient medical history or reports. -- To use weather data predict wetin go happen for weather. -- To understand di meaning of text. -- To catch fake news to stop propaganda. +--- +## Examples of applied ML + +**You fit use machine learning for many ways**: + +- To predict if person get disease from their medical history or reports. +- To use weather data predict weather changes. +- To understand how text dey express feelings. +- To find fake news and stop propaganda. -Finance, economics, earth science, space exploration, biomedical engineering, cognitive science, and even humanities don dey use machine learning to solve di hard problems wey dey their area. +Finance, economics, earth science, space exploration, biomedical engineering, cognitive science, and even humanities fields don use machine learning to solve serious, heavy data problems for their area. --- ## Conclusion -Machine learning dey automate di process of finding patterns by getting better insights from real-world or generated data. E don show say e dey very useful for business, health, and financial areas, plus others. +Machine learning dey automate how e dey find patterns by getting important insights from real or generated data. E don prove say e get big value for business, health, and financial applications and others. -For di future wey dey come, to sabi di basics of machine learning go dey important for people from any area because e don dey everywhere. +Soon, knowing di basics of machine learning go be must for people from any area because e don spread everywhere. --- # 🚀 Challenge -Draw, for paper or use online app like [Excalidraw](https://excalidraw.com/), wetin you understand about di difference between AI, ML, deep learning, and data science. Add some ideas of di kind problems wey each of dis techniques dey good to solve. +Sketch, for paper or use online app like [Excalidraw](https://excalidraw.com/), how you understand di difference between AI, ML, deep learning, and data science. Add some ideas of problems wey each of these techniques fit solve well. # [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ml/) --- # Review & Self Study -To learn more about how you fit work with ML algorithms for di cloud, follow dis [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +To learn more on how you fit work with ML algorithms for cloud, follow dis [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Take one [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) about di basics of ML. +Take one [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) about basics of ML. --- # Assignment @@ -147,6 +152,6 @@ Take one [Learning Path](https://docs.microsoft.com/learn/modules/introduction-t --- -**Disclaimer**: -Dis docu don dey translate wit AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). Even though we dey try make am accurate, abeg sabi say automatic translation fit get mistake or no correct well. Di original docu for im native language na di main correct source. For important information, e go beta make professional human translator check am. We no go fit take blame for any misunderstanding or wrong interpretation wey fit happen because you use dis translation. +**Disclaimer**: +Dis document don translate wit AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). Even tho we dey try make am correct, abeg make you know say automated translation fit get errors or mistakes. Di original document for dia own language na im be di correct source. For important info, make person wey sabi human translation do am. We no go responsible for any misunderstanding or wrong understanding wey fit happen because of dis translation. \ No newline at end of file diff --git a/translations/pcm/5-Clustering/1-Visualize/README.md b/translations/pcm/5-Clustering/1-Visualize/README.md index 6cc4f0d3b..f3e5778cc 100644 --- a/translations/pcm/5-Clustering/1-Visualize/README.md +++ b/translations/pcm/5-Clustering/1-Visualize/README.md @@ -1,38 +1,37 @@ # Introduction to clustering -Clustering na one kain [Unsupervised Learning](https://wikipedia.org/wiki/Unsupervised_learning) wey dey assume say dataset no get label or say e input no dey match with any predefined output. E dey use different algorithm to arrange data wey no get label and group dem based on pattern wey e see for di data. +Clustering na kain [Unsupervised Learning](https://wikipedia.org/wiki/Unsupervised_learning) wey dey assume say dataset no get label or say im inputs no match any predefined outputs. E dey use different algorithms take sort through unlabeled data come give groupings based on patterns wey e sabi for the data. [![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Click di image wey dey up for video. As you dey study machine learning with clustering, make you enjoy some Nigerian Dance Hall songs - dis na one correct song from 2014 by PSquare. +> 🎥 Click di picture wey dey above for video. As you dey study machine learning with clustering, enjoy some Nigerian Dance Hall tracks - dis na highly rated song from 2014 by PSquare. ## [Pre-lecture quiz](https://ff-quizzes.netlify.app/en/ml/) ### Introduction -[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) dey very useful for data exploration. Make we see if e fit help us discover trends and pattern for how Nigerian people dey enjoy music. +[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) dey very useful for data exploration. Make we see if e fit help find trends and patterns for how Nigerian people dey consume music. -✅ Take one minute think about how clustering dey useful. For real life, clustering dey happen anytime you get pile of clothes wey you wan sort out for your family members 🧦👕👖🩲. For data science, clustering dey happen when you dey try analyze user preference or determine di characteristics of any dataset wey no get label. Clustering dey help make sense of wahala, like sock drawer. +✅ Take one minute think about wetin you fit use clustering do. For real life, clustering dey happen anytime you get pile of laundry and you need to sort out your family members clothes 🧦👕👖🩲. For data science, clustering dey happen when you dey try analyze user preferences, or determine characteristics for any unlabeled dataset. Clustering, for one way, dey help make sense of chaos, like sock drawer. [![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") -> 🎥 Click di image wey dey up for video: MIT's John Guttag dey explain clustering +> 🎥 Click di picture wey dey above for video: MIT John Guttag dey introduce clustering -For professional setting, clustering fit help determine things like market segmentation, like which age group dey buy which item. Another use na anomaly detection, maybe to catch fraud for dataset of credit card transactions. Or you fit use clustering to find tumor for batch of medical scans. +For professional side, clustering fit help determine tins like market segmentation, find which age group dey buy which item. Another use na anomaly detection, maybe to detect fraud from credit card transactions dataset. Or you fit use clustering find tumors inside medical scans batch. -✅ Think small about how you don see clustering 'for di wild', maybe for banking, e-commerce, or business setting. +✅ Think small about how clustering fit show for banking, e-commerce, or business setting. -> 🎓 E dey interesting say cluster analysis start for Anthropology and Psychology for di 1930s. You fit imagine how dem take use am? +> 🎓 Interesting, cluster analysis come from Anthropology and Psychology for 1930s. You fit imagine how dem fit use am? -Another way you fit use am na to group search results - like shopping links, images, or reviews. Clustering dey useful when you get big dataset wey you wan reduce and perform more detailed analysis on top am, so di technique fit help you learn about di data before you build other models. +Alternatively, you fit use am group search results - by shopping links, images, or reviews, for example. Clustering dey useful if you get big dataset wey you want reduce and also perform detailed analysis, so you fit use am learn about data before you build other models. -✅ Once you don organize your data inside clusters, you go give am cluster Id, and dis technique fit dey useful to protect di privacy of di dataset; you fit dey refer to data point by di cluster id instead of di more revealing identifiable data. You fit think of other reasons why you go prefer use cluster Id instead of other elements of di cluster to identify am? - -Make you learn more about clustering techniques for dis [Learn module](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +✅ Once your data organize inside clusters, you assign am cluster Id, and dis technique fit help protect privacy for dataset; you fit refer to data point by cluster Id instead of using more sensitive identifiable data. You fit think why e good to use cluster Id instead of other cluster elements to identify am? +Deepen your understanding of clustering techniques for this [Learn module](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) ## Getting started with clustering -[Scikit-learn get plenty methods](https://scikit-learn.org/stable/modules/clustering.html) wey you fit use for clustering. Di one wey you go choose go depend on your use case. According to di documentation, each method get different benefits. Dis na simple table of di methods wey Scikit-learn support and di use case wey dem fit: +[Scikit-learn get plenty methods](https://scikit-learn.org/stable/modules/clustering.html) to do clustering. Di type wey you choose go depend on your use case. According to documentation, each method get different benefits. Here na simple table of methods wey Scikit-learn support plus their correct use cases: | Method name | Use case | | :--------------------------- | :--------------------------------------------------------------------- | @@ -47,70 +46,70 @@ Make you learn more about clustering techniques for dis [Learn module](https://d | Gaussian mixtures | flat geometry, inductive | | BIRCH | large dataset with outliers, inductive | -> 🎓 How we dey create clusters get plenty to do with how we dey gather di data points into groups. Make we break down some vocabulary: +> 🎓 How we take create clusters relate well with how we gather data points inside groups. Make we talk some vocabulary: > > 🎓 ['Transductive' vs. 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> Transductive inference dey come from training cases wey dem observe wey dey map to specific test cases. Inductive inference dey come from training cases wey dey map to general rules wey dem go later apply to test cases. +> Transductive inference come from observed training cases wey map to specific test cases. Inductive inference come from training cases wey map to general rules wey na only later e dey apply for test cases. > -> Example: Imagine say you get dataset wey no complete label. Some things dey labelled as 'records', some 'cds', and some dey blank. Your work na to give label to di blank ones. If you choose inductive approach, you go train model wey dey look for 'records' and 'cds', then apply di labels to di data wey no get label. Dis approach go struggle to classify things wey be 'cassettes'. Transductive approach go handle dis unknown data better as e dey group similar items together before e go give label to di group. For dis case, clusters fit show 'round musical things' and 'square musical things'. +> Example: Imagine dataset wey partly get label. Some tins na 'records', some 'cds', others na blank. Your work na provide labels for blank ones. If you choose inductive approach, you go train model to find 'records' and 'cds', then put those labels for unlabeled data. This one go get wahala if e meet tins wey really be 'cassettes'. Transductive approach go handle this unknown data better as e dey group similar tins together, then assign label to the group. For this case, clusters fit show 'round musical tins' and 'square musical tins'. > > 🎓 ['Non-flat' vs. 'flat' geometry](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> Di term dey come from mathematics, non-flat vs. flat geometry dey talk about how we dey measure distance between points, either 'flat' ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) or 'non-flat' (non-Euclidean) geometry. +> From mathematical talk, non-flat vs. flat geometry na how we measure distance between points either by 'flat' ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) or 'non-flat' (non-Euclidean) geometrical ways. > ->'Flat' for dis context mean Euclidean geometry (parts of am dey taught as 'plane' geometry), and non-flat mean non-Euclidean geometry. Wetin geometry get to do with machine learning? Well, as di two fields dey based on mathematics, we need common way to measure distance between points for clusters, and we fit do am in 'flat' or 'non-flat' way, depending on di nature of di data. [Euclidean distances](https://wikipedia.org/wiki/Euclidean_distance) dey measure di length of line segment between two points. [Non-Euclidean distances](https://wikipedia.org/wiki/Non-Euclidean_geometry) dey measure distance along curve. If your data, when you visualize am, no dey for plane, you go need special algorithm to handle am. +>'Flat' here mean Euclidean geometry (like 'plane' geometry), non-flat mean non-Euclidean geometry. Wetin geometry get to do with machine learning? As math dey the root of both, e sure say we need one way to measure distances between points for clusters, and dis fit be 'flat' or 'non-flat' based on data nature. [Euclidean distances](https://wikipedia.org/wiki/Euclidean_distance) na length of straight line between two points. [Non-Euclidean distances](https://wikipedia.org/wiki/Non-Euclidean_geometry) na measurement along curve. If data no dey for plane, you go need special algorithm to handle am. > ![Flat vs Nonflat Geometry Infographic](../../../../translated_images/pcm/flat-nonflat.d1c8c6e2a96110c1.webp) > Infographic by [Dasani Madipalli](https://twitter.com/dasani_decoded) > > 🎓 ['Distances'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> Clusters dey defined by di distance matrix, e.g. di distance between points. Dis distance fit dey measured in different ways. Euclidean clusters dey defined by di average of di point values, and dem get 'centroid' or center point. Distance dey measured by di distance to di centroid. Non-Euclidean distances dey refer to 'clustroids', di point wey dey closest to other points. Clustroids fit dey defined in different ways. +> Clusters dey defined by their distance matrix, like distance between points. You fit measure dis distance in different ways. Euclidean clusters define by average of point values and get 'centroid' or center point. Distances na how far the point dey from that centroid. Non-Euclidean distances na 'clustroids', point wey close to other points. Clustroids fit get different definitions. > > 🎓 ['Constrained'](https://wikipedia.org/wiki/Constrained_clustering) > -> [Constrained Clustering](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) dey add 'semi-supervised' learning to dis unsupervised method. Di relationship between points dey flagged as 'cannot link' or 'must-link' so some rules go dey forced on di dataset. +> [Constrained Clustering](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) dey add 'semi-supervised' learning inside this unsupervised method. Relationships between points fit get tags like 'cannot link' or 'must-link' so rules go control dataset. > ->Example: If algorithm dey free to work on batch of data wey no get label or wey get small label, di clusters wey e go produce fit no make sense. For di example wey dey up, di clusters fit group 'round music things', 'square music things', 'triangular things', and 'cookies'. If you give am some constraints or rules ("di item must be made of plastic", "di item need fit produce music") e go help 'constrain' di algorithm to make better choices. +>Example: If algorithm loose for batch of unlabelled or semi-labelled data, the clusters e produce fit no dey good quality. For example, clusters fit group 'round music tins', 'square music tins', 'triangular tins', and 'cookies'. If rules dey like ("item must be plastic", "item fit produce music"), e fit help algorithm make better choices. > > 🎓 'Density' > -> Data wey dey 'noisy' dey considered as 'dense'. Di distance between points for each cluster fit dey more or less dense, or 'crowded', and dis kind data need di correct clustering method. [Dis article](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) dey show di difference between using K-Means clustering vs. HDBSCAN algorithms to explore noisy dataset wey get uneven cluster density. +> Data wey noisy dey considered 'dense'. The distances between points for each cluster fit show more or less density, or 'crowded', so data go need the correct clustering method. [Dis article](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) show difference between K-Means clustering vs. HDBSCAN algorithms to explore noisy dataset wey get uneven cluster density. ## Clustering algorithms -Plenty clustering algorithms dey, more than 100, and di one wey you go use depend on di nature of di data wey you get. Make we talk about some major ones: +Over 100 clustering algorithms dey, and how you go use dem depend on data nature. Make we yarn some major ones: -- **Hierarchical clustering**. If object dey classified by how e near another object, instead of how far e dey, clusters go form based on di distance of di members to and from other objects. Scikit-learn agglomerative clustering na hierarchical. +- **Hierarchical clustering**. If object classify based on how near e be another object, instead of one far, clusters form based on members distance to and from other objects. Scikit-learn agglomerative clustering na hierarchical. ![Hierarchical clustering Infographic](../../../../translated_images/pcm/hierarchical.bf59403aa43c8c47.webp) > Infographic by [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Centroid clustering**. Dis popular algorithm dey require make you choose 'k', or di number of clusters wey you wan form, then di algorithm go find di center point of di cluster and gather data around di point. [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) na popular version of centroid clustering. Di center dey determined by di nearest mean, na why dem call am di name. Di squared distance from di cluster dey minimized. +- **Centroid clustering**. Dis popular algorithm need you choose 'k', the number of clusters to form, then e go find center point of cluster and gather data around am. [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) na popular centroid clustering version. Center na nearest mean, so na im get the name. Squared distance from cluster minimise. ![Centroid clustering Infographic](../../../../translated_images/pcm/centroid.097fde836cf6c918.webp) > Infographic by [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Distribution-based clustering**. Dis one dey based on statistical modeling, e dey focus on di probability say data point belong to cluster, then e go assign am. Gaussian mixture methods dey belong to dis type. +- **Distribution-based clustering**. Based on statistical modeling, distribution-based clustering go fit find probability say data point belong to cluster, then assign am correct. Gaussian mixture methods dey here. -- **Density-based clustering**. Data points dey assigned to clusters based on di density, or how dem dey group around each other. Data points wey dey far from di group dey considered as outliers or noise. DBSCAN, Mean-shift and OPTICS dey belong to dis type of clustering. +- **Density-based clustering**. Data points assign to clusters based on their density, or how dem group together. Points far from group count as outliers or noise. DBSCAN, Mean-shift and OPTICS na this one. -- **Grid-based clustering**. For multi-dimensional datasets, grid go dey created and di data go dey divided among di grid cells, so clusters go dey formed. +- **Grid-based clustering**. For multi-dimensional datasets, grid dey created and data divide inside grid cells, create clusters. ## Exercise - cluster your data -Clustering dey work well when you fit visualize am well, so make we start by visualizing our music data. Dis exercise go help us decide which method of clustering go work best for di nature of dis data. +Clustering as technique dey well supported by good visualization, so make we start by visualizing our music data. Dis exercise go help us decide which clustering method make sense for this data nature. -1. Open di [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) file wey dey dis folder. +1. Open [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) file for dis folder. -1. Import di `Seaborn` package to help you visualize di data well. +1. Import `Seaborn` package for better data visualization. ```python !pip install seaborn ``` -1. Add di song data from [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Load dataframe with some data about di songs. Prepare to explore di data by importing di libraries and dumping di data: +1. Append song data from [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Load dataframe with some data about di songs. Get ready to explore dis data by importing libraries and dumping out data: ```python import matplotlib.pyplot as plt @@ -120,17 +119,17 @@ Clustering dey work well when you fit visualize am well, so make we start by vis df.head() ``` - Check di first few lines of di data: + Check first few lines of data: | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Make we check info about di dataframe, use `info()`: +1. Mek we find some information about di dataframe, call `info()`: ```python df.info() @@ -164,13 +163,13 @@ Clustering dey work well when you fit visualize am well, so make we start by vis memory usage: 66.4+ KB ``` -1. Double-check say null values no dey, use `isnull()` and confirm say di sum na 0: +1. Check well-well for null values, call `isnull()` then verify say di sum na 0: ```python df.isnull().sum() ``` - E dey okay: + E dey good: ```output name 0 @@ -192,7 +191,7 @@ Clustering dey work well when you fit visualize am well, so make we start by vis dtype: int64 ``` -1. Describe di data: +1. Make we describe di data: ```python df.describe() @@ -209,11 +208,11 @@ Clustering dey work well when you fit visualize am well, so make we start by vis | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 If we dey work with clustering, one unsupervised method wey no need labeled data, why we dey show dis data with labels? For di data exploration phase, e dey useful, but e no dey necessary for di clustering algorithms to work. You fit even remove di column headers and refer to di data by column number. +> 🤔 If we dey work wit clustering, wey na unsupervised method wey no need labeled data, why this data get labels for dis phase? For data exploration time, dem dey important, but clustering algorithm no need di labels. You fit just remove di column headers den you refer di data by di column number. -Make we look di general values for di data. Note say popularity fit be '0', wey mean say di song no get ranking. Make we remove dem soon. +Make we look di general values of di data. Note say popularity fit be '0', wey mean say di song no get ranking. Make we remove dem small time. -1. Use barplot to find di most popular genres: +1. Use barplot find di most popular genres: ```python import seaborn as sns @@ -227,9 +226,9 @@ Make we look di general values for di data. Note say popularity fit be '0', wey ![most popular](../../../../translated_images/pcm/popular.9c48d84b3386705f.webp) -✅ If you wan see more top values, change di top `[:5]` to bigger value, or remove am to see all. +✅ If you want see more top values, change di top `[:5]` go bigger number, or remove am to see all. -Note, when di top genre dey described as 'Missing', e mean say Spotify no classify am, so make we remove am. +Note, when top genre write as 'Missing', e mean say Spotify no classify am, so make we remove am. 1. Remove missing data by filtering am out @@ -246,7 +245,7 @@ Note, when di top genre dey described as 'Missing', e mean say Spotify no classi ![most popular](../../../../translated_images/pcm/all-genres.1d56ef06cefbfcd6.webp) -1. Di top three genres dey dominate dis dataset. Make we focus on `afro dancehall`, `afropop`, and `nigerian pop`, plus filter di dataset to remove anything wey get 0 popularity value (meaning e no dey classified with popularity for di dataset and fit be noise for our purpose): +1. Di top three genres control dis dataset well well. Make we focus on `afro dancehall`, `afropop`, and `nigerian pop`, plus filter di dataset to remove all wey get 0 popularity (meaning dem no get popularity rank for di dataset and fit consider as noise for our work): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +257,7 @@ Note, when di top genre dey described as 'Missing', e mean say Spotify no classi plt.title('Top genres',color = 'blue') ``` -1. Do quick test to see if di data dey correlate in any strong way: +1. Do quick test to see if data get strong correlation anywhere: ```python corrmat = df.corr(numeric_only=True) @@ -268,19 +267,19 @@ Note, when di top genre dey described as 'Missing', e mean say Spotify no classi ![correlations](../../../../translated_images/pcm/correlation.a9356bb798f5eea5.webp) - Di only strong correlation na between `energy` and `loudness`, wey no too surprise, as loud music dey usually energetic. Otherwise, di correlations dey relatively weak. E go dey interesting to see wetin clustering algorithm fit do with dis data. + Di only strong correlation na between `energy` and `loudness`, wey no surprise, becos loud music dey usually get energy. Di other correlations na small small. E go interesting to see wetin clustering algorithm fit do wit dis data. - > 🎓 Note say correlation no mean causation! We get proof of correlation but no proof of causation. One [funny website](https://tylervigen.com/spurious-correlations) get some visuals wey dey emphasize dis point. + > 🎓 Note say correlation no mean causation! We get proof say dem correlate but no proof say one cause the other. One [fun website](https://tylervigen.com/spurious-correlations) get visuals wey show dis point well. -E get any convergence for dis dataset around song popularity and danceability? FacetGrid dey show say concentric circles dey align, no matter di genre. E fit be say Nigerian taste dey converge for certain level of danceability for dis genre? +Di dataset get any pattern wey show say song popularity and danceability dey relate? One FacetGrid dey show say dem get circles wey dey line up well, no matter di genre. E fit be say Nigerian taste dey converge for one level of danceability for dis genre? -✅ Try different datapoints (energy, loudness, speechiness) and more or different musical genres. Wetin you fit discover? Check di `df.describe()` table to see di general spread of di data points. +✅ Try other datapoints (energy, loudness, speechiness) and different musical genres. Wetin you fit discover? Check `df.describe()` table to see general data spread. ### Exercise - data distribution -Di three genres dey different well well for di perception of their danceability, based on their popularity? +These three genres differ well-well in how we dey perceive their danceability, based on their popularity? -1. Check di top three genres data distribution for popularity and danceability along given x and y axis. +1. Check our top three genres data distribution for popularity and danceability for given x and y axis. ```python sns.set_theme(style="ticks") @@ -292,15 +291,15 @@ Di three genres dey different well well for di perception of their danceability, ) ``` - You fit discover concentric circles around general point of convergence, wey dey show di distribution of points. + You go fit discover concentric circles around one general convergence point, wey show di distribution. - > 🎓 Note say dis example dey use KDE (Kernel Density Estimate) graph wey dey represent di data using continuous probability density curve. Dis one dey help us interpret data when we dey work with multiple distributions. + > 🎓 Note say dis example dey use KDE (Kernel Density Estimate) graph wey represent data wit continuous probability density curve. E help make sense of multiple distributions. - Generally, di three genres dey align small in terms of their popularity and danceability. To find clusters for dis loosely-aligned data go dey challenging: + Generally, di three genres dey loosely align for popularity and danceability. To find clusters for dis loosely-aligned data go be challenge: ![distribution](../../../../translated_images/pcm/distribution.9be11df42356ca95.webp) -1. Create scatter plot: +1. Make scatter plot: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -308,25 +307,25 @@ Di three genres dey different well well for di perception of their danceability, .add_legend() ``` - Scatterplot for di same axes dey show similar pattern of convergence + Scatterplot of same axes show similar convergence pattern ![Facetgrid](../../../../translated_images/pcm/facetgrid.9b2e65ce707eba1f.webp) -Generally, for clustering, you fit use scatterplots to show clusters of data, so e good to sabi dis type of visualization well. For di next lesson, we go use dis filtered data and use k-means clustering to find groups for dis data wey dey overlap in interesting ways. +For clustering, you fit use scatterplots show data clusters, so to sabi dis type visualization na important. For next lesson, we go use dis filtered data take k-means clustering find groups wey get interesting overlaps. --- ## 🚀Challenge -Prepare for di next lesson, make chart about di different clustering algorithms wey you fit discover and use for production environment. Wetin di clustering dey try solve? +To prepare for next lesson, make chart about different clustering algorithms wey you fit find and use for production environment. Wetin clustering dey try solve? ## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ml/) ## Review & Self Study -Before you apply clustering algorithms, as we don learn, e good to understand di nature of your dataset. Read more about dis topic [here](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Before you begin clustering algorithms, as we don learn, e good make you understand your dataset well-well. Read more on dis topic [here](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[Dis helpful article](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) go show you di different ways wey clustering algorithms dey behave, based on different data shapes. +[This helpful article](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) go show you different way clustering algorithms dey behave for different data shapes. ## Assignment @@ -335,6 +334,6 @@ Before you apply clustering algorithms, as we don learn, e good to understand di --- -**Disclaimer**: -Dis dokyument don use AI transleshion service [Co-op Translator](https://github.com/Azure/co-op-translator) do di transleshion. Even as we dey try make am accurate, abeg make you sabi say automatik transleshion fit get mistake or no dey correct well. Di original dokyument wey dey for im native language na di one wey you go take as di main source. For important mata, e good make you use professional human transleshion. We no go fit take blame for any misunderstanding or wrong interpretation wey fit happen because you use dis transleshion. +**Disclaimer**: +Dis document don translate wit AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). Even tho we dey try make am correct, abeg make you know say automated translation fit get errors or mistakes. Di original document for dia own language na im be di correct source. For important info, make person wey sabi human translation do am. We no go responsible for any misunderstanding or wrong understanding wey fit happen because of dis translation. \ No newline at end of file diff --git a/translations/ta/.co-op-translator.json b/translations/ta/.co-op-translator.json index fce4e95b1..c9ccdcc1f 100644 --- a/translations/ta/.co-op-translator.json +++ b/translations/ta/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-10-11T11:24:42+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:36:15+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "ta" }, @@ -240,8 +240,8 @@ "language_code": "ta" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-10-11T12:05:13+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:35:47+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "ta" }, diff --git a/translations/ta/1-Introduction/1-intro-to-ML/README.md b/translations/ta/1-Introduction/1-intro-to-ML/README.md index 7a81429c3..fd7f30f77 100644 --- a/translations/ta/1-Introduction/1-intro-to-ML/README.md +++ b/translations/ta/1-Introduction/1-intro-to-ML/README.md @@ -1,150 +1,157 @@ -# இயந்திரக் கற்றலுக்கான அறிமுகம் +# இயந்திரக் கற்றறிதல் அறிமுகம் -## [முன்-வகுப்பு வினாடி வினா](https://ff-quizzes.netlify.app/en/ml/) +## [முன்-பாடக் கூட்டு](https://ff-quizzes.netlify.app/en/ml/) --- -[![துவக்கத்திற்கான இயந்திரக் கற்றல் - துவக்கத்திற்கான இயந்திரக் கற்றலுக்கான அறிமுகம்](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "துவக்கத்திற்கான இயந்திரக் கற்றல் - துவக்கத்திற்கான இயந்திரக் கற்றலுக்கான அறிமுகம்") +[![ML for beginners - Introduction to Machine Learning for Beginners](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML for beginners - Introduction to Machine Learning for Beginners") -> 🎥 மேலே உள்ள படத்தை கிளிக் செய்து இந்த பாடத்தைப் பற்றிய குறுகிய வீடியோவைப் பாருங்கள். +> 🎥 இக்கட்டளையை விவரிக்கும் குறுகிய காணொளிக்காக மேலே உள்ள படத்தை கிளிக் செய்யவும். -துவக்கத்திற்கான பாரம்பரிய இயந்திரக் கற்றல் பற்றிய இந்த பாடநெறிக்கு வரவேற்கிறோம்! நீங்கள் இந்த தலைப்பில் முற்றிலும் புதியவராக இருந்தாலும், அல்லது ஒரு அனுபவமுள்ள ML பயிற்சியாளராக ஒரு பகுதியை மீண்டும் கற்றுக்கொள்ள விரும்பினாலும், உங்களை எங்களுடன் சேர்வதற்கு மகிழ்ச்சியாக இருக்கிறோம்! உங்கள் ML படிப்பைத் தொடங்குவதற்கான நட்பான தளத்தை உருவாக்க விரும்புகிறோம், மேலும் உங்கள் [கருத்துகளை](https://github.com/microsoft/ML-For-Beginners/discussions) மதிப்பீடு செய்து, பதிலளித்து, சேர்க்க மகிழ்ச்சியாக இருக்கிறோம். +ஆரம்பக்காரர்களுக்கான இந்த பாரம்பரிய இயந்திரக் கற்றறிதல் பாடக்கூடத்திற்கு வரவேற்கிறோம்! நீங்கள் இந்த தலைப்பில் முற்றிலும் புதிது என்றாலும், அல்லது அறிவார்ந்த ML பயிற்றுநர் ஒருவர் விரும்பும் பகுதியை மேம்படுத்த விரும்பினாலும், உங்களை எங்களுடன் சேர்ந்துவிட மகிழ்ச்சியடைகிறோம்! உங்கள் ML ஆய்விற்கான நண்பர் தொடக்க இடமாக இதை உருவாக்க விரும்புகிறோம் மற்றும் உங்கள் [பின்மொழியை](https://github.com/microsoft/ML-For-Beginners/discussions) மதிப்பாய்வு செய்து பதிலளிக்கவும், அதனை உள்ளடக்கவும் ஆவலுடன் இருக்கிறோம். -[![ML-க்கு அறிமுகம்](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "ML-க்கு அறிமுகம்") +[![Introduction to ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introduction to ML") -> 🎥 மேலே உள்ள படத்தை கிளிக் செய்து வீடியோவைப் பாருங்கள்: MIT-இன் ஜான் குட்டாக் இயந்திரக் கற்றலுக்கான அறிமுகத்தை வழங்குகிறார் +> 🎥 மேலே உள்ள படத்தை கிளிக் செய்தால் ஒரு காணொளி: MIT இன் ஜான் கట్టாக் இயந்திரக் கற்றறிதலை அறிமுகப்படுத்துகிறார் --- -## இயந்திரக் கற்றலுடன் தொடங்குதல் +## இயந்திரக் கற்றறிதலைத் தொடங்குதல் -இந்த பாடத்திட்டத்தைத் தொடங்குவதற்கு முன், உங்கள் கணினியை உள்ளூர் நோட்புக் இயக்கத்திற்குத் தயாராக அமைக்க வேண்டும். +இந்த பாடத்திட்டத்தைத் தொடங்குவதற்கு முன், உங்கள் கணினி உள்ளூர் முறையில் நோட்புக்குகளை இயக்க தயாராக அமைக்கப்பட வேண்டும். -- **உங்கள் கணினியை இந்த வீடியோக்களுடன் அமைக்கவும்**. உங்கள் கணினியில் [Python-ஐ நிறுவுவது எப்படி](https://youtu.be/CXZYvNRIAKM) மற்றும் [ஒரு உரைத் தொகுப்பியை அமைப்பது எப்படி](https://youtu.be/EU8eayHWoZg) என்பதைப் பற்றி அறிய கீழே உள்ள இணைப்புகளைப் பயன்படுத்தவும். -- **Python கற்றுக்கொள்ளுங்கள்**. [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) பற்றிய அடிப்படை புரிதலைக் கொண்டிருப்பது பரிந்துரைக்கப்படுகிறது. இது தரவியல் விஞ்ஞானிகளுக்கு பயனுள்ளதாக இருக்கும் ஒரு நிரலாக்க மொழி, மேலும் இந்த பாடத்தில் நாம் பயன்படுத்துகிறோம். -- **Node.js மற்றும் JavaScript கற்றுக்கொள்ளுங்கள்**. இந்த பாடத்தில் சில நேரங்களில் வலைப் பயன்பாடுகளை உருவாக்க JavaScript-ஐ பயன்படுத்துகிறோம், எனவே [node](https://nodejs.org) மற்றும் [npm](https://www.npmjs.com/) நிறுவப்பட்டிருக்க வேண்டும், மேலும் Python மற்றும் JavaScript மேம்பாட்டிற்காக [Visual Studio Code](https://code.visualstudio.com/) கிடைக்க வேண்டும். -- **GitHub கணக்கை உருவாக்கவும்**. நீங்கள் எங்களை [GitHub](https://github.com) இல் கண்டுபிடித்ததால், ஏற்கனவே ஒரு கணக்கை வைத்திருக்கலாம், ஆனால் இல்லையெனில், ஒரு கணக்கை உருவாக்கி, இந்த பாடத்திட்டத்தை உங்கள் சொந்த பயன்பாட்டிற்காக fork செய்யவும். (எங்களுக்கு ஒரு நட்சத்திரம் கொடுக்கவும் 😊) -- **Scikit-learn-ஐ ஆராயுங்கள்**. [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) பற்றிய அறிமுகத்தைப் பெறுங்கள், இது இந்த பாடங்களில் நாம் குறிப்பிடும் ML நூலகங்களின் தொகுப்பாகும். +- **இந்த காணொளிகளுடன் உங்கள் கணினியை அமைக்கவும்**. உங்கள் கணினியில் [Python ஐ எவ்வாறு நிறுவுவது](https://youtu.be/CXZYvNRIAKM) மற்றும் வளர்ச்சிக்கான ஒரு [குறிப்புரை தொகுப்பியை எப்படி அமைப்பது](https://youtu.be/EU8eayHWoZg) என்பதைக் கற்றுக்கொள்ள கீழ்காணும் இணைப்புக்களைப் பயன்படுத்தவும். +- **Python கற்றுக்கொள்வது**. இந்தப் பாடத்தில் நாம் பயன்படுத்தும் தரவு அறிவியலாளர்களுக்கு பயனுள்ள ஒரு நிரலாக்க மொழி [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) என்பது அடிப்படையாகவும் அறிந்திருக்க பரிந்துரைக்கப்படுகிறது. +- **Node.js மற்றும் JavaScript கற்றுக்கொள்ளவும்**. இந்த பாடத்தில் வலை செயலிகளை உருவாக்க சில நேரங்களில் JavaScriptஐ பயன்படுத்துவோம், எனவே [node](https://nodejs.org), [npm](https://www.npmjs.com/) மற்றும் Python மற்றும் JavaScript வளர்ச்சிக்கான [Visual Studio Code](https://code.visualstudio.com/) ஆகியவற்றை நிறுவவும் வேண்டும். +- **GitHub கணக்கை உருவாக்கவும்**. நீங்கள் இங்கே [GitHub](https://github.com) இல் எங்களைப் பெற்றுள்ளீர்கள் என்றால் உங்கள் கணக்கு இருக்கலாம், இல்லையெனில் ஒன்றை உருவாக்கி உங்களைத் தொழில்நுட்ப பாடத்திட்டத்தை நகலெடுத்து பயனடையவும். (எங்களுக்குத்தான் ஒரு நட்சத்திரமும் கொடுக்கலாம் 😊) +- **Scikit-learn-ஐ ஆராயவும்**. இந்த பாடங்களில் நாம் குறிப்பிட்ட [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) ML நூலகங்களை அணுக அனைத்து அறிமுகப்படுத்திக்கொள்ள விரும்புகிறோம். --- -## இயந்திரக் கற்றல் என்றால் என்ன? +## இயந்திரக் கற்றறிதல் என்றால் என்ன? -'இயந்திரக் கற்றல்' என்ற சொல் இன்று மிகவும் பிரபலமான மற்றும் அடிக்கடி பயன்படுத்தப்படும் சொற்களில் ஒன்றாகும். நீங்கள் எந்த துறையில் வேலை செய்தாலும், தொழில்நுட்பத்துடன் தொடர்புடையவராக இருந்தால், இந்த சொல் குறைந்தபட்சம் ஒருமுறை கேட்டிருக்க வாய்ப்பு உள்ளது. ஆனால், இயந்திரக் கற்றலின் இயந்திரவியல் பெரும்பாலான மக்களுக்கு மர்மமாகவே உள்ளது. ஒரு இயந்திரக் கற்றல் துவக்கத்திற்கான பாடம் சில நேரங்களில் மிகுந்த சிக்கலாக தோன்றலாம். எனவே, இயந்திரக் கற்றல் உண்மையில் என்ன என்பதைப் புரிந்து கொள்ளவும், அதை நடைமுறை உதாரணங்கள் மூலம் படிப்படியாகக் கற்றுக்கொள்ளவும் முக்கியம். +'இயந்திரக் கற்றறிதல்' என்பதற்கான சொல் இன்றைய காலத்தின் மிகவும் பிரபலமான மற்றும் தொடர்ந்து பயன்படும் சொற்களில் ஒன்றாக உள்ளது. நீங்கள் எந்த துறையில் பணியாற்றினாலும் தொழில்நுட்பத்துடன் சிறிய அளவுக்கு தொடர்புடையவராக இருந்தால் இந்த சொல் குறைந்தது ஒருமுறை கேட்டிருப்பதற்கான வாய்ப்பு இருக்கிறது. ஆனால் இயந்திரக் கற்றறிதலின் செயல் முறை பெரும்பாலான மக்களுக்கு மர்மமாக உள்ளது. ஒரு இயந்திரக் கற்றல் ஆரம்பக்காரருக்கு இது சில நேரங்களில் அதிர்ச்சியாக இருக்கலாம். எனவே, இயந்திரக் கற்றல் என்ன என்பதை உணர்ந்து, நடைமுறை எடுத்துக்காட்டுகளின் மூலமாக படிப்படியாய் கற்றுக்கொள்வது முக்கியம். --- -## பரபரப்பான வளைவு +## பெருமூச்சு வளைவு ![ml hype curve](../../../../translated_images/ta/hype.07183d711a17aafe.webp) -> 'இயந்திரக் கற்றல்' என்ற சொல் சமீபத்திய 'பரபரப்பான வளைவை' Google Trends காட்டுகிறது +> 'machine learning' என்ற சொல் தொடர்பான சமீபத்திய பெருமூச்சு வளைவை Google Trends காட்டுகிறது --- ## ஒரு மர்மமான பிரபஞ்சம் -நாம் பல்வேறு மர்மங்களால் நிரம்பிய பிரபஞ்சத்தில் வாழ்கிறோம். ஸ்டீபன் ஹாக்கிங், ஆல்பர்ட் ஐன்ஸ்டீன் போன்ற பெரிய விஞ்ஞானிகள் மற்றும் பலர், நம்மைச் சுற்றியுள்ள உலகின் மர்மங்களை வெளிப்படுத்தும் அர்த்தமுள்ள தகவல்களைத் தேடுவதற்காக தங்கள் வாழ்க்கையை அர்ப்பணித்துள்ளனர். இது மனிதனின் கற்றல் நிலை: ஒரு மனிதக் குழந்தை புதிய விஷயங்களை கற்றுக்கொள்கிறது மற்றும் வளர்ந்துவரும் ஆண்டுகளில் தங்கள் உலகின் அமைப்பை வெளிப்படுத்துகிறது. +நாம் இனிமையான மர்மங்கள் நிறைந்த ஒரு பிரபஞ்சத்தில் வாழ்கிறோம். ஸ்டீபன் ஹாக்கிங், அல்பர்ட் ஐன்ஸ்டீன் மற்றும் பல சிறந்த அறிவாளிகள் உலகின் சுற்றுவரலாற்றின் மர்மங்களை வெளிப்படுத்த பங்களிப்பு செய்துள்ளனர். இது மனிதன் கற்றல் நிலைமை: ஒரு குழந்தை வளர்ந்து போகும் பொழுதில் வருடந்தோறும் புதிய விஷயங்கள் கற்றுக்கொண்டு தனது உலக அமைப்பை தெளிவுபடுத்துகிறது. --- ## குழந்தையின் மூளை -ஒரு குழந்தையின் மூளையும் உணர்வுகளும் தங்கள் சுற்றுப்புறத்தின் உண்மைகளை உணர்ந்து, வாழ்க்கையின் மறைக்கப்பட்ட முறைமைகளை படிப்படியாகக் கற்றுக்கொள்கின்றன, இது குழந்தைக்கு கற்றுக்கொண்ட முறைமைகளை அடையாளம் காண தார்க்கிக விதிகளை உருவாக்க உதவுகிறது. மனித மூளையின் கற்றல் செயல்முறை மனிதர்களை இந்த உலகின் மிகவும் நவீனமான உயிரினமாக ஆக்குகிறது. மறைக்கப்பட்ட முறைமைகளை கண்டறிந்து தொடர்ந்து கற்றல் மற்றும் பின்னர் அந்த முறைமைகளில் புதுமை செய்வது, வாழ்க்கை முழுவதும் நம்மை மேலும் மேலும் மேம்படுத்த உதவுகிறது. இந்த கற்றல் திறன் மற்றும் வளர்ச்சி திறன் [மூளையின் பிளாஸ்டிசிட்டி](https://www.simplypsychology.org/brain-plasticity.html) என்ற கருத்துடன் தொடர்புடையது. மேற்பரப்பில், மனித மூளையின் கற்றல் செயல்முறைக்கும் இயந்திரக் கற்றல் கருத்துகளுக்கும் சில ஊக்கமளிக்கும் ஒற்றுமைகளை நாம் வரையறுக்கலாம். +ஒரு குழந்தையின் மூளை மற்றும் சென்சர்கள் சுற்றிலும் உள்ள உண்மைகளை உணர்ந்து அதன் மறைமுக வாழ்க்கை விதிகளை படிப்படியாக கற்றுக்கொள்கின்றன. மனித மூளையின் கற்றல் செயல்முறை இந்த உலகின் மிகவும் நுணுக்கமான உயிரினமாக மனிதரை உருவாக்குகிறது. மறைப்பட்ட தெரிவுகளை கண்டுபிடித்து பிறகு அந்த தெரிவுகளின் மேல் புதுமை செய்யும் முறையில் கற்றல் தொடர்ச்சியாக நடைபெறும், இதனால் உயிரினங்கள் வாழ்நாள் முழுவதும் முன்னேறி உலாவுகின்றனர். இந்த கற்றல் திறன் மற்றும் வளர்ச்சியின்மை [மூளை நெகிழ்வுத்தன்மை](https://www.simplypsychology.org/brain-plasticity.html) என்ற கருத்துடன் தொடர்புடையது. வெளிப்படையாக, மனித மூளையின் கற்றல் செயல்முறை மற்றும் இயந்திரக் கற்றல் கொள்கைகளுக்கு சில ஊக்கமளிக்கும் போன்று பொதுவான ஒத்திசைவை காணலாம். --- ## மனித மூளை -[மனித மூளை](https://www.livescience.com/29365-human-brain.html) உண்மையான உலகிலிருந்து விஷயங்களை உணர்கிறது, உணரப்பட்ட தகவல்களை செயலாக்குகிறது, தார்க்கிக முடிவுகளை எடுக்கிறது, மற்றும் சூழ்நிலைகளின் அடிப்படையில் குறிப்பிட்ட செயல்களைச் செய்கிறது. இதை நாங்கள் புத்திசாலித்தனமாக நடந்து கொள்வது என்று அழைக்கிறோம். புத்திசாலித்தனமான நடத்தை செயல்முறையின் ஒரு நகலை ஒரு இயந்திரத்தில் நிரலிடும்போது, ​​அதை செயற்கை நுண்ணறிவு (AI) என்று அழைக்கப்படுகிறது. +[மனித மூளை](https://www.livescience.com/29365-human-brain.html) உண்மையான உலகிலிருந்து விஷயங்களை உணர்கிறது, அதில் எடுத்துக்கொள்ளப்பட்ட தகவலை செயலாக்குகிறது, தர்க்கசங்கீதமான முடிவுகளை იღுகிறது மற்றும் சூழ்நிலைகளின் அடிப்படையில் சில செயல்களை செய்கிறது. இதுவே நாம் அறிவார்ந்த முறையில் நடக்குதல் என்று அழைக்கிறோம். ஒரு இயந்திரத்தில் அறிவார்ந்த நடத்தை செயல்பாட்டின் பிரதிபலிப்பை நிரல்படுத்தும்போது அதை செயற்கை நுண்ணறிவு (AI) என்கிறோம். --- -## சில சொற்கள் +## சில சொற்பிரயோகங்கள் -சொற்கள் குழப்பமாக இருக்கலாம் என்றாலும், இயந்திரக் கற்றல் (ML) என்பது செயற்கை நுண்ணறிவின் முக்கிய துணைத் தொகுதியாகும். **ML என்பது உணரப்பட்ட தரவிலிருந்து அர்த்தமுள்ள தகவல்களை வெளிப்படுத்தவும் மறைக்கப்பட்ட முறைமைகளை கண்டறியவும் சிறப்பு அல்காரிதம்களைப் பயன்படுத்துவதில் கவனம் செலுத்துகிறது, இது தார்க்கிக முடிவெடுக்கும் செயல்முறையை உறுதிப்படுத்த உதவுகிறது**. +சொற்கள் குழப்பமானதாக இருந்தாலும், இயந்திரக் கற்றல் (ML) என்பது செயற்கை நுண்ணறிவின் ஒரு முக்கியக் கிளை. **ML என்பது தரவிலிருந்து நுண்ணறிவான தகவல் மற்றும் மறைமுக விளக்கங்களை கண்டுபிடிக்க சிறப்பு வகை அலகுக்களை பயன்படுத்துவதற்கும், தர்க்கசங்கீதமான முடிவெடுப்பை உறுதிப்படுத்தக் கூடும்.** --- -## AI, ML, ஆழமான கற்றல் +## AI, ML, ஆழ்ந்த கற்றல் ![AI, ML, deep learning, data science](../../../../translated_images/ta/ai-ml-ds.537ea441b124ebf6.webp) -> AI, ML, ஆழமான கற்றல் மற்றும் தரவியல் விஞ்ஞானம் ஆகியவற்றின் தொடர்புகளை காட்டும் ஒரு வரைபடம். [Jen Looper](https://twitter.com/jenlooper) உருவாக்கிய தகவல்படம், [இந்த வரைபடத்தால்](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) ஊக்கமளிக்கப்பட்டது. +> AI, ML, ஆழ்ந்த கற்றல் மற்றும் தரவு அறிவியலின் உறவுகளை காட்டும் வரைபடம். [Jen Looper](https://twitter.com/jenlooper) அவர்களின் தகவலை [இந்த விளக்கப்படத்தை](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) வைத்து உருவாக்கினார். --- -## கவர்ச்சியான கருத்துக்கள் +## உள்ளடக்கத் தலைப்புகள் -இந்த பாடத்திட்டத்தில், ஒரு துவக்கத்திற்கான இயந்திரக் கற்றலின் முக்கிய கருத்துக்களை மட்டுமே நாம் கவர்ந்திழுக்கப் போகிறோம். மாணவர்கள் அடிப்படைகளை கற்றுக்கொள்ள Scikit-learn என்ற சிறந்த நூலகத்தைப் பயன்படுத்துகிறார்கள், மேலும் அதைப் பயன்படுத்தி 'பாரம்பரிய இயந்திரக் கற்றல்' என்று நாம் அழைக்கும் விஷயங்களை நாம் கவர்ந்திழுக்கிறோம். செயற்கை நுண்ணறிவு அல்லது ஆழமான கற்றலின் பரந்த கருத்துக்களைப் புரிந்துகொள்ள, இயந்திரக் கற்றலின் வலுவான அடிப்படை அறிவு அவசியம், மேலும் அதை இங்கே வழங்க விரும்புகிறோம். +இந்த பாடத்தில், ஒரு ஆரம்பக்காரர் அறிந்திருக்க வேண்டிய இயந்திரக் கற்றல் முக்கியக் கோட்பாடுகள் மட்டுமே எடுத்துக்கொள்ளப்போகிறோம். நாம் 'பாரம்பரிய இயந்திரக் கற்றல்' என்று அழைக்கும் கொள்கைகளை பிரதானமாக Scikit-learn என்ற சிறந்த நூலகத்தைப் பயன்படுத்தி அறிவிக்கும், இது பல மாணவர்கள் அடிப்படைகளை கற்றுக்கொள்ள பயன்படுகிறது. செயற்கை நுண்ணறிவு அல்லது ஆழ்ந்த கற்றல் போன்ற விரிவான விஷயங்களை புரிந்து கொள்ள இயந்திரக் கற்றல் அடிப்படைகளை வலியுறுத்த வேண்டியுள்ளது, அதனால் இதைப் படிப்பதற்கான வாய்ப்பை வழங்க விரும்புகிறோம். --- -## இந்த பாடத்தில் நீங்கள் கற்றுக்கொள்ளப் போகிறீர்கள்: +## இந்தக் குறித்துப் பாடத்தில் நீங்கள் கற்றுக்கொள்ளப்போகும் விஷயங்கள்: -- இயந்திரக் கற்றலின் முக்கிய கருத்துக்கள் -- ML-இன் வரலாறு -- ML மற்றும் நியாயம் -- பின்வாங்கல் ML தொழில்நுட்பங்கள் -- வகைப்படுத்தல் ML தொழில்நுட்பங்கள் -- குழுமம் ML தொழில்நுட்பங்கள் -- இயற்கை மொழி செயலாக்கம் ML தொழில்நுட்பங்கள் -- நேரம் வரிசை முன்னறிவிப்பு ML தொழில்நுட்பங்கள் -- வலுவூட்டல் கற்றல் -- ML-க்கு நிஜ உலக பயன்பாடுகள் +- இயந்திரக் கற்றல் அடிப்படைக் கொள்கைகள் +- ML வரலாறு +- ML மற்றும் நீதிமுறை +- பின்விளைவியல் ML நுட்பங்கள் +- வகைப்பாடு ML நுட்பங்கள் +- தொகுப்பு ML நுட்பங்கள் +- இயற்கை மொழி செயலாக்கம் ML நுட்பங்கள் +- காலவரிசை முன்னுணர்வு ML நுட்பங்கள் +- ஊக்கமளிக்கும் கற்றல் +- ML இன் உண்மை உலக பயன்பாடுகள் --- -## நாம் கவர்ந்திழுக்காதவை +## நாங்கள் சேர்க்கப்போகாதவை -- ஆழமான கற்றல் -- நரம்பியல் வலைகள் +- ஆழ்ந்த கற்றல் +- நுரையீரல் வலைப்பின்னல்கள் - AI -சிக்கலான நரம்பியல் வலைகள், 'ஆழமான கற்றல்' - பல அடுக்கு மாடல் கட்டமைப்பு மற்றும் AI ஆகியவற்றின் சிக்கல்களைத் தவிர்க்க, நாங்கள் வேறு பாடத்திட்டத்தில் அவற்றைப் பற்றி விவாதிக்கிறோம். மேலும், இந்த பெரிய துறையின் ஒரு பகுதியாக தரவியல் விஞ்ஞானத்தை மையமாகக் கொண்ட ஒரு வரவிருக்கும் பாடத்திட்டத்தை நாங்கள் வழங்குவோம். +மேலும் சிறந்த கற்றல் அனுபவத்துக்காக நுரையீரல் வலைப்பின்னல்கள், 'ஆழ்ந்த கற்றல்' (நுரையீரல் வலைப்பின்னல்களை பயன்படுத்தி அதிக அடுக்குகளான மாதிரிகளை உருவாக்கல்) மற்றும் AI இவற்றின் சிக்கல்களை தவிர்க்கப் போகிறோம்; அவற்றை மேலும் வேறு பாடத்திட்டங்களில் விவரிக்கின்றோம். மேலும் இந்தப் பெரிய துறையின் ஒருங்கிணைந்த பகுதியை மையமாகக் கொண்டு தரவு அறிவியலைப் பற்றிய புதிய பாடத்திட்டத்தையும் இங்கு வழங்கவிருக்கிறோம். --- -## ஏன் இயந்திரக் கற்றலைக் கற்றுக்கொள்ள வேண்டும்? +## இயந்திரக் கற்றலை ஏன் படிக்க வேண்டும்? -ஒரு அமைப்பு பார்வையில் இருந்து, இயந்திரக் கற்றல் என்பது தரவிலிருந்து மறைக்கப்பட்ட முறைமைகளை கற்றுக்கொண்டு புத்திசாலித்தனமான முடிவுகளை எடுக்க உதவும் தானியக்க அமைப்புகளை உருவாக்குவது என்று வரையறுக்கப்படுகிறது. +மாவட்டக் கண்காணிப்பு பார்வையில், இயந்திரக் கற்றல் என்பது தரவிலிருந்து மறைமுக மாதிரிகளை கற்றுக்கெண்டு அறிவார்ந்த முடிவெடுப்புகள் செய்ய உதவும் தானியங்கி அமைப்புகளை உருவாக்குதல் ஆகும். -இந்த ஊக்கம் மனித மூளை வெளியுலகத்திலிருந்து உணர்ந்த தரவின் அடிப்படையில் குறிப்பிட்ட விஷயங்களை எப்படி கற்றுக்கொள்கிறது என்பதை மெல்லிய முறையில் ஊக்கமளிக்கிறது. +இந்த ஊக்கமூட்டல் வெளிப்படையாக மனித மூளைச் சிருஷ்டிக்கப்பட்ட தகவல்களை அடிப்படையாகக் கொண்டு கற்றுக்கொள்ளும் விதம் மூலம் உருவாக்கப்பட்டுள்ளது. -✅ ஒரு வணிகம் ஏன் இயந்திரக் கற்றல் உத்திகளை முயற்சிக்க விரும்புகிறது என்பதை ஒரு நிமிடம் யோசிக்கவும், ஒரு கடினமாக நிரலிடப்பட்ட விதி அடிப்படையிலான இயந்திரத்தை உருவாக்குவதற்குப் பதிலாக. +✅ ஒரு வணிகம் கடினமாக நிரல்படுத்தப்பட்ட விதிமுறைகளை பயன்படுத்துவதற்கு பதிலாக இயந்திரக் கற்றல் கொள்கைகளை ஏன் பயன்படுத்த விரும்பும் என ஒரு நிமிடம் யோசிக்கவும். --- -## இயந்திரக் கற்றலின் பயன்பாடுகள் +## தரவின் தரம் ஏன் முக்கியம்? -இயந்திரக் கற்றலின் பயன்பாடுகள் இப்போது எங்கும் உள்ளன, மேலும் எங்கள் சமூகங்களில் பாயும் தரவுகளுக்கு இணையானவை, எங்கள் ஸ்மார்ட் போன்கள், இணைக்கப்பட்ட சாதனங்கள் மற்றும் பிற அமைப்புகள் உருவாக்குகின்றன. நவீன இயந்திரக் கற்றல் அல்காரிதம்களின் மிகப்பெரிய திறனைக் கருத்தில் கொண்டு, பலவகை மற்றும் பல துறைகளின் நிஜ வாழ்க்கை சிக்கல்களைத் தீர்க்க அவற்றின் திறனை ஆராய்ந்து ஆராய்ச்சியாளர்கள் சிறந்த நேர்மறை முடிவுகளுடன் ஆராய்ந்துள்ளனர். +உயர் தர தரவு மாதிரி செயல்திறனை மேம்படுத்தும். மோசமான அல்லது சத்தம் நிறைந்த தரவு, மேம்பட்ட இயந்திரக் கற்றல் அலகுகளையும் பயன்படுத்தினால் கூட துல்லியமில்லாத முன்னறிகையை உருவாக்கும். --- -## பயன்படுத்தப்பட்ட ML உதாரணங்கள் +## இயந்திரக் கற்றல் பயன்பாடுகள் -**நீங்கள் இயந்திரக் கற்றலை பல வழிகளில் பயன்படுத்தலாம்**: +இயந்திரக் கற்றல் பயன்பாடுகள் இப்போது எங்கும் உள்ளன, சமூகங்களில் நடைமுறைப்படுத்தப்பட்ட தரவு போன்று பரவலாக உள்ளன, நம் ஸ்மார்ட் போன்கள், இணைக்கப்பட்ட சாதனங்கள் மற்றும் பிற அமைப்புகளால் உருவாக்கப்பட்டவை. முன்னணியில் உள்ள இயந்திரக் கற்றல் அலகுகளின் மாபெரும் திறன் காரணமாக, ஆராய்ச்சியாளர்கள் பன்முக மற்றும் பன்முகத் துறைகளில் உள்ள உண்மையான கடுமையான பிரச்சினைகளை தீர்க்கும் திறனை ஆராய்ந்து பல நல்வாழ்வுப் பயன்களை கண்டுள்ளனர். -- ஒரு நோயின் சாத்தியத்தை ஒரு நோயாளியின் மருத்துவ வரலாறு அல்லது அறிக்கைகளிலிருந்து கணிக்க. -- வானிலை தரவுகளைப் பயன்படுத்தி வானிலை நிகழ்வுகளை முன்னறிவிக்க. -- ஒரு உரையின் மனநிலையைப் புரிந்துகொள்ள. -- பிரச்சாரத்தைத் தடுக்க பொய்யான செய்திகளை கண்டறிய. +--- +## இயந்திரக் கற்றல் செயல்முறை எடுத்துக்காட்டுகள் + +**நீங்கள் இயந்திரக் கற்றலை பல விதமாகப் பயன்படுத்த முடியும்**: + +- ஒரு நோயாளியின் மருத்துவ வரலாறிலிருந்து அல்லது அறிக்கைகளிலிருந்து நோயின் சாத்தியத்தை முன்னறிய. +- காலநிலை தரவுகளைப் பயன்படுத்தி காலநிலை நிகழ்வுகளை முன்னறிய. +- ஒரு உரையின் உணர்வைப் புரிந்துகொள்ள. +- போலியான செய்திகளை கண்டறிந்து வியாபாரப்பிரசாரத்தை தடுப்பு. -நிதி, பொருளாதாரம், பூமி அறிவியல், விண்வெளி ஆராய்ச்சி, உயிரியல் பொறியியல், அறிவாற்றல் அறிவியல் மற்றும் மனிதவியல் துறைகளில் கூட, தங்கள் துறையின் கடினமான, தரவுகளைச் செயலாக்கும் சிக்கல்களைத் தீர்க்க இயந்திரக் கற்றலை ஏற்றுக்கொண்டுள்ளனர். +நிதி, பொருளாதாரம், பூமியியல், விண்வெளி ஆய்வு, மருத்துவ பொறியியல், அறிவியல், மற்றும் மனிதவியல் துறைகளும் தங்களுக்கு சொந்தமான கடுமையான, தரவுத் தகராறான பிரச்சினைகளைத் தீர்க்க இயந்திரக் கற்றலை ஏற்றுக் கொண்டுள்ளன. --- -## முடிவு +## முடிவுரை -இயந்திரக் கற்றல், உண்மையான உலகம் அல்லது உருவாக்கப்பட்ட தரவிலிருந்து அர்த்தமுள்ள தகவல்களை கண்டறிந்து முறைமைகளைத் தேடும் செயல்முறையை தானியக்கமாக்குகிறது. இது வணிகம், சுகாதாரம் மற்றும் நிதி பயன்பாடுகள் உள்ளிட்ட பலவற்றில் மிகவும் மதிப்புமிக்கதாக தன்னை நிரூபித்துள்ளது. +இயந்திரக் கற்றல் உண்மையான உலகின் அல்லது உயிருடன் உண்டான தரவிலிருந்து பிரமுகமான அறிவிப்புக்களை கண்டறிந்து மாதிரிகளைத் தானாகவே உருவாக்கும் செயல்முறையை ஊக்குவிக்கிறது. இது வணிகம், சுகாதாரம், நிதி மற்றும் பல பயன்பாடுகளில் மிக உயர்ந்த மதிப்பை வழங்கியுள்ளது. -சமீபத்திய காலத்தில், இயந்திரக் கற்றலின் அடிப்படைகளைப் புரிந்துகொள்வது, அதன் பரவலான ஏற்றுக்கொள்ளுதலால் எந்த துறையிலிருந்தும் உள்ள மக்களுக்கு அவசியமாக இருக்கப் போகிறது. +விரைவில், இயந்திரக் கற்றல் அடிப்படைகளை புரிந்துகொள்வது எந்த துறையினருக்கும் அவசியமாகும், அதன் பரவலான பயன்பாட்டினால். --- # 🚀 சவால் -AI, ML, ஆழமான கற்றல் மற்றும் தரவியல் விஞ்ஞானத்தின் வேறுபாடுகளை உங்கள் புரிதலின் அடிப்படையில் காகிதத்தில் அல்லது [Excalidraw](https://excalidraw.com/) போன்ற ஆன்லைன் பயன்பாட்டைப் பயன்படுத்தி வரைபடம் வரைபடுங்கள். இந்த தொழில்நுட்பங்கள் தீர்க்க நல்லது என்று சில சிக்கல்களின் யோசனைகளைச் சேர்க்கவும். +[Excalidraw](https://excalidraw.com/) போன்ற ஆன்லைன் செயலியைப் பயன்படுத்தி அல்லது காகிதத்தில் வரைந்து, AI, ML, ஆழ்ந்த கற்றல் மற்றும் தரவு அறிவியல் ஆகியவற்றின் வித்தியாசங்களை உங்கள் கருத்தில் வரையவும். ஒவ்வொரு தொழில்நுட்பமும் தீர்க்க சிறந்த பிரச்சினைகளின் சில யோசனைகளையும் சேர்க்கவும். -# [பாடத்திற்குப் பின் வினாடி வினா](https://ff-quizzes.netlify.app/en/ml/) +# [பாடம் முடிந்தபின் கூட்டு](https://ff-quizzes.netlify.app/en/ml/) --- -# மதிப்பீடு & சுய கற்றல் +# பரிசீலனை மற்றும் சுயப் பயிற்சி -மேகத்தில் ML அல்காரிதம்களுடன் நீங்கள் எப்படி வேலை செய்யலாம் என்பதைப் பற்றி மேலும் அறிய, இந்த [கற்றல் பாதையை](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) பின்பற்றவும். +மேகத்தில் ML அலகுகளை எவ்வாறு வேலை செய்வது என்பதை அறிய, இந்த [கற்றல் பாதையை](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) பின்தொடர்க. -ML அடிப்படைகள் பற்றிய [கற்றல் பாதையை](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) எடுத்துக்கொள்ளுங்கள். +ML அடிப்படைகளைப் பற்றி ஒரு [கற்றல் பாதையை](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) எடுத்துக்கொள்ளவும். --- -# பணிக்கட்டளை +# பணியிடம் -[துவங்குங்கள்](assignment.md) +[தொடங்கி செயல்படுத்த](assignment.md) --- -**குறிப்பு**: -இந்த ஆவணம் [Co-op Translator](https://github.com/Azure/co-op-translator) என்ற AI மொழிபெயர்ப்பு சேவையை பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. எங்கள் தரத்தை உறுதிப்படுத்த முயற்சி செய்தாலும், தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கக்கூடும் என்பதை தயவுசெய்து கவனத்தில் கொள்ளவும். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல. \ No newline at end of file + +**மறுப்பு**: +இந்த ஆவணம் AI மொழிபெயர்ப்பு சேவை [Co-op Translator](https://github.com/Azure/co-op-translator) பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சி செய்துள்ளோம், ஆனால் தானாக செய்யப்படும் மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கலாம் என்பதை கவனத்தில் கொள்ளவும். அசல் ஆவணம் அதன் தாய்மொழியில் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்நுட்பமான மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கத்திற்கும் நாங்கள் பொறுப்பில்வில்லை. + \ No newline at end of file diff --git a/translations/ta/5-Clustering/1-Visualize/README.md b/translations/ta/5-Clustering/1-Visualize/README.md index dd0abc50a..04806fef1 100644 --- a/translations/ta/5-Clustering/1-Visualize/README.md +++ b/translations/ta/5-Clustering/1-Visualize/README.md @@ -1,116 +1,115 @@ # கிளஸ்டரிங் அறிமுகம் -கிளஸ்டரிங் என்பது [அன்சூப்பர்வைஸ்டு லெர்னிங்](https://wikipedia.org/wiki/Unsupervised_learning) வகையைச் சேர்ந்தது, இது ஒரு தரவுத்தொகுப்பு லேபிள் செய்யப்படாதது அல்லது அதன் உள்ளீடுகள் முன்கூட்டியே வரையறுக்கப்பட்ட வெளியீடுகளுடன் பொருந்தவில்லை என்று கருதுகிறது. இது பல்வேறு الگாரிதங்களைப் பயன்படுத்தி லேபிள் செய்யப்படாத தரவுகளைத் துலக்கி, அதில் கண்டறியப்படும் முறைப்படி குழுக்களை வழங்குகிறது. +கிளஸ்டரிங் என்பது ஒரு வகை [பாராட்டப்படாத கற்றல்](https://wikipedia.org/wiki/Unsupervised_learning) ஆகும், இது ஒரு தரவுத்தொகுப்பு மொழியிடப்படாதது அல்லது அதன் உள்ளீடுகள் முன்கூட்டியே வரையறுக்கப்பட்ட வெளியீடுகளுடன் பொருந்தவில்லை என்று கருதுகிறது. இது மொழியிடப்படாத தரவுகளைக் கொண்டு பல்வேறு அல்காரிதம்களைப் பயன்படுத்தி தரவையிலிருந்துள்ள விதிகளை அடிப்படையாகக் கொண்டு குழுக்களை வழங்குகிறது. -[![PSquare-இன் No One Like You](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "PSquare-இன் No One Like You") +[![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 மேலே உள்ள படத்தை கிளிக் செய்து வீடியோவைப் பாருங்கள். கிளஸ்டரிங் மூலம் மெஷின் லெர்னிங் படிக்கும்போது, நைஜீரியன் டான்ஸ் ஹால் பாடல்களை ரசிக்கவும் - இது PSquare-இன் 2014-இல் வெளியான மிகவும் மதிப்புமிக்க பாடல். +> 🎥 மேலுள்ள படத்தை கிளிக் செய்து வீடியோவைப் பாருங்கள். நீங்கள் கிளஸ்டரிங் மூலம் மெஷின் லெர்னிங்கைப் படிப்பதின் போது, சில நைஜீரியன் டான்ஸ் ஹால் பாடல்களை அனுபவியுங்கள் - இது 2014 இல் PSquare இல் இருந்து ஒரு உயர்வான பாடல். -## [முன்-வகுப்பு வினாடி வினா](https://ff-quizzes.netlify.app/en/ml/) +## [முன்னுரை க்விஸ்](https://ff-quizzes.netlify.app/en/ml/) ### அறிமுகம் -[கிளஸ்டரிங்](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) தரவுகளை ஆராய்வதற்கு மிகவும் பயனுள்ளதாக உள்ளது. நைஜீரியன் ரசிகர்கள் இசையை எப்படி அனுபவிக்கிறார்கள் என்பதை கண்டறிய இது உதவுமா என்று பார்ப்போம். +[கிளஸ்டரிங்](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) தரவு ஆய்வுக்குப் மிகவும் உதவிகரமாகும். நைஜீரியன் பார்வையாளர்கள் இசையை எப்படி நுகர்கிறார்கள் என்பதைப் பார்ப்பதில் இது நமக்கு உதவுமா என்பதை பார்ப்போம். -✅ கிளஸ்டரிங் பயன்பாடுகளைப் பற்றி ஒரு நிமிடம் யோசிக்கவும். உண்மையான வாழ்க்கையில், கிளஸ்டரிங் உங்கள் குடும்ப உறுப்பினர்களின் ஆடைகளை சுத்தம் செய்யும் போது நிகழ்கிறது 🧦👕👖🩲. தரவியல் விஞ்ஞானத்தில், கிளஸ்டரிங் பயனர் விருப்பங்களைப் பகுப்பாய்வு செய்ய அல்லது எந்த லேபிள் செய்யப்படாத தரவுத்தொகுப்பின் பண்புகளைத் தீர்மானிக்க முயற்சிக்கும் போது நிகழ்கிறது. கிளஸ்டரிங், ஒரு வகையில், குழப்பத்தை புரிந்துகொள்ள உதவுகிறது, ஒரு கால்சட்டம் போல. +✅ கிளஸ்டரிங்கின் பயன்பாடுகளைக் குறித்து ஒரு நிமிடம் யோசிக்கவும். வெற்றிகரமாக, படுக்கை நன்கு சுத்தம் செய்யும்போது உங்கள் குடும்ப உறுப்பினர்களின் ஆடைகளை வகைப்படுத்த வேண்டும் 🧦👕👖🩲. தரவு அறிவியலில், பயனாளியின் விருப்பங்களை பகுப்பாய்வு செய்ய அல்லது எந்த மொழியிடப்படாத தரவுத்தொகுப்பின் பண்புகளை நிர்ணயிக்க கிளஸ்டரிங் பயன்படுகிறது. கிளஸ்டரிங் ஒரு வகையில் சீரற்ற நிலையை உணர்வதற்குத் உதவுகிறது, உதாரணமாக கால்வளையடுக்கு பதுக்கப்படும் பெட்டிக்கு. -[![ML அறிமுகம்](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "கிளஸ்டரிங் அறிமுகம்") +[![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") -> 🎥 மேலே உள்ள படத்தை கிளிக் செய்து வீடியோவைப் பாருங்கள்: MIT-இன் ஜான் குட்டாக் கிளஸ்டரிங்கை அறிமுகப்படுத்துகிறார். +> 🎥 மேலுள்ள படத்தை கிளிக் செய்து MIT இன் John Guttag வழங்கும் கிளஸ்டரிங் அறிமுக வீடியோவைப் பாருங்கள் -தொழில்முறை சூழலில், கிளஸ்டரிங் சந்தை பிரிவினைத் தீர்மானிக்க, எந்த வயது குழுக்கள் எந்த பொருட்களை வாங்குகின்றன என்பதைத் தீர்மானிக்க, உதாரணமாக பயன்படுத்தப்படலாம். மற்றொரு பயன்பாடு மோசடிகளை கண்டறிதல், உதாரணமாக கிரெடிட் கார்டு பரிவர்த்தனைகளின் தரவுத்தொகுப்பில் இருந்து மோசடிகளை கண்டறிய. அல்லது நீங்கள் மருத்துவ ஸ்கேன் தொகுப்பில் கட்டிகள் இருப்பதைத் தீர்மானிக்க கிளஸ்டரிங்கைப் பயன்படுத்தலாம். +ஒரு தொழில்முறை சூழல்களில், கிளஸ்டரிங் சந்தை பிரிவீடு, வயது குழுக்கள் எந்த பொருட்களை வாங்குகின்றன என்பதைக் கண்டறியுதல் போன்றவற்றுக்கு பயன்படுத்தப்படும். மற்றொரு பயன்பாடு பாவனைக் கணக்கில் மோசடி கண்டறிதல் போன்ற ஓரளவான குறித்த கணிகளுக்கு இருக்கலாம். அல்லது மருத்துவ ஸ்கேன் தொகுதிகளில் சிலர் உடல் திசுக்களை கண்டறிய கிளஸ்டரிங் பயன்படலாம். -✅ நீங்கள் வங்கிகள், e-commerce அல்லது வணிக சூழலில் 'வனத்தில்' கிளஸ்டரிங்கை எப்படி சந்தித்திருக்கிறீர்கள் என்று ஒரு நிமிடம் யோசிக்கவும். +✅ நீங்கள் நம்பிக்கை, மின்னணு வணிகம் அல்லது தொழில் சூழலில் கிளஸ்டரிங்கை எப்படி எதிர்கொண்டீர்கள் என்று ஒரு நிமிடம் யோசிக்கவும். -> 🎓 சுவாரஸ்யமாக, கிளஸ்டர் பகுப்பாய்வு 1930-களில் மனிதவியல் மற்றும் உளவியல் துறைகளில் தோன்றியது. இது எப்படி பயன்படுத்தப்பட்டிருக்கலாம் என்று நீங்கள் கற்பனை செய்ய முடியுமா? +> 🎓 ரொம்ப ஆர்வமாக, கிளஸ்டர் பகுப்பாய்வு 1930களில் மனிதவியல் மற்றும் உளவியல் துறைகளில் தொடங்கப்பட்டது. அது எப்படிச் பயன்படுத்தப்பட்டிருக்கும் என்று நீங்கள் கற்பனை செய்யவே முடியுமா? -மாற்றாக, நீங்கள் தேடல் முடிவுகளை குழுவாக்குவதற்கு பயன்படுத்தலாம் - ஷாப்பிங் இணைப்புகள், படங்கள் அல்லது மதிப்பீடுகள் மூலம், உதாரணமாக. ஒரு பெரிய தரவுத்தொகுப்பை குறைக்கவும் மேலும் நுணுக்கமான பகுப்பாய்வைச் செய்யவும் நீங்கள் விரும்பினால், கிளஸ்டரிங் பயனுள்ளதாக இருக்கும், எனவே இந்த தொழில்நுட்பத்தை மற்ற மாடல்கள் உருவாக்கப்படும் முன் தரவுகளைப் பற்றி அறிய பயன்படுத்தலாம். +விருப்பம்சேர்க்கையாக, தேடல் முடிவுகளை பிரிப்பதற்கும் பயன்படுத்தலாம் - பசிக்கை நெருக்கடி, படங்கள் அல்லது விமர்சனங்கள் போன்றவை. பெரிய தரவுத்தொகுப்பை குறைக்கும் போது மற்றும் அதில் மேலும் சிறிய அளவில் பகுப்பாய்வு செய்யும்போது, கிளஸ்டரிங் பயன்படும், ஆகவே மற்ற மாதிரிகள் உருவாக்கப் படுவதற்கு முன் தரவுகளைப் பற்றி அறிய இது உதவுகிறது. -✅ உங்கள் தரவுகள் கிளஸ்டர்களில் ஒழுங்குபடுத்தப்பட்டவுடன், நீங்கள் அதற்கு ஒரு கிளஸ்டர் ஐடியை ஒதுக்குகிறீர்கள், மேலும் இந்த தொழில்நுட்பம் ஒரு தரவுத்தொகுப்பின் தனியுரிமையைப் பாதுகாக்க உதவுகிறது; நீங்கள் அதற்குப் பதிலாக கிளஸ்டர் ஐடியை குறிப்பிடலாம், மேலும் வெளிப்படையான அடையாள தரவைக் குறிப்பிடாமல். கிளஸ்டர் ஐடியை குறிப்பிடுவதற்கான மற்ற காரணங்களை நீங்கள் யோசிக்க முடியுமா? +✅ உங்கள் தரவு கிளஸ்டர்களுக்கு ஒழுங்கமைக்கப்பட்ட பிறகு, அதற்கு ஒரு கிளஸ்டர் அடையாளத்தை(Cluster Id) வழங்குகிறீர்கள். இந்த தொழில்நுட்பம் தரவுத்தொகுப்பு தனிப்பட்ட தன்மையை பாதுகாப்பதற்கு பயன்படும்; தரவு புள்ளியைக் கிளஸ்டர் அடையாளத்தில் மட்டும் குறிப்பிடலாம், மேலும் வெளிப்படையான தனிப்பட்ட தரவைக் காட்டாமல். நீங்கள் ஏன் இன்னும் பிற காரணங்களுக்காக கிளஸ்டர் அடையாளத்தை பயன்படுத்துவீர்கள் என்று நினைக்கிறீர்களா? -கிளஸ்டரிங் தொழில்நுட்பங்களைப் பற்றிய உங்கள் புரிதலை இந்த [கற்றல் தொகுதியில்](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) ஆழமாக்கவும். +இந்த [கற்று module](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) மூலம் கிளஸ்டரிங் தொழில்நுட்பங்களை மேலும் தெளிவுபடுத்தவும் +## கிளஸ்டரிங் தொடங்குதல் -## கிளஸ்டரிங்கைத் தொடங்குதல் +[Scikit-learn ஒரு பெரிய தொகுப்பினை வழங்குகிறது](https://scikit-learn.org/stable/modules/clustering.html) கிளஸ்டரிங் செய்ய. நீங்கள் தேர்ந்தெடுக்கும் வகை உங்கள் பயன்பாட்டின்படி இருக்கும. ஆவணமுறைப்படி, ஒவ்வொரு முறையும் பல பலன்கள் உள்ளன. Scikit-learn ஆதரிக்கும் முறைகள் மற்றும் அவற்றின் பொருத்தமான பயன்பாடுகள் இங்கே சுருக்கப்பட்டுள்ளன: -[Scikit-learn பல்வேறு முறைகளை](https://scikit-learn.org/stable/modules/clustering.html) கிளஸ்டரிங் செய்ய வழங்குகிறது. நீங்கள் தேர்ந்தெடுக்கும் வகை உங்கள் பயன்பாட்டைச் சார்ந்தது. ஆவணங்களின் படி, ஒவ்வொரு முறைக்கும் பல்வேறு நன்மைகள் உள்ளன. Scikit-learn ஆதரிக்கும் முறைகள் மற்றும் அவற்றின் பொருத்தமான பயன்பாடுகளின் எளிமையான அட்டவணை இங்கே: +| முறை பெயர் | பயன்பாடு | +| :------------------------- | :---------------------------------------------------------------- | +| K-Means | பொதுவான பயன்பாடு, ஆகமளிக்கும் (inductive) | +| Affinity propagation | பல, சமமாக இல்லாத கிளஸ்டர்கள், ஆகமளிக்கும் | +| Mean-shift | பல, சமமாக இல்லாத கிளஸ்டர்கள், ஆகமளிக்கும் | +| Spectral clustering | சில, சமமான கிளஸ்டர்கள், பரிமாற்றிக்கும் (transductive) | +| Ward hierarchical clustering | பல, கட்டுப்படுத்தப்பட்ட கிளஸ்டர்கள், பரிமாற்றிக்கும் | +| Agglomerative clustering | பல, கட்டுப்படுத்தப்பட்ட, யூக்லிடியன் அல்லாத தூரங்கள், பரிமாற்றிக்கும் | +| DBSCAN | மையம் இல்லாத நிலை, சமமாக இல்லாத கிளஸ்டர்கள், பரிமாற்றிக்கும் | +| OPTICS | மையம் இல்லாத நிலை,변சு அடர்த்தியுடன் சமமாக இல்லாத கிளஸ்டர்கள், பரிமாற்றிக்கும் | +| Gaussian mixtures | சமமாக்கப்பட்ட நிலை, ஆகமளிக்கும் | +| BIRCH | பெரிய தரவுத்தொகுப்பு குறுந்தொகுதிகளுடன், ஆகமளிக்கும் | -| முறை பெயர் | பயன்பாடு | -| :--------------------------- | :--------------------------------------------------------------------- | -| K-Means | பொதுவான நோக்கம், inductive | -| Affinity propagation | பல, சமமற்ற கிளஸ்டர்கள், inductive | -| Mean-shift | பல, சமமற்ற கிளஸ்டர்கள், inductive | -| Spectral clustering | சில, சமமான கிளஸ்டர்கள், transductive | -| Ward hierarchical clustering | பல, கட்டுப்படுத்தப்பட்ட கிளஸ்டர்கள், transductive | -| Agglomerative clustering | பல, கட்டுப்படுத்தப்பட்ட, non Euclidean தூரங்கள், transductive | -| DBSCAN | non-flat geometry, சமமற்ற கிளஸ்டர்கள், transductive | -| OPTICS | non-flat geometry, சமமற்ற கிளஸ்டர்கள் மாறுபட்ட அடர்த்தியுடன், transductive | -| Gaussian mixtures | flat geometry, inductive | -| BIRCH | பெரிய தரவுத்தொகுப்பு வெளிப்புறங்களுடன், inductive | - -> 🎓 கிளஸ்டர்களை உருவாக்குவது எப்படி என்பதைப் பற்றி நாம் தரவுப் புள்ளிகளை குழுக்களாகச் சேர்க்கும் முறையுடன் தொடர்புடையது. சில சொற்களைப் புரிந்துகொள்வோம்: +> 🎓 கிளஸ்டர்கள் உருவாக்கப்படும் முறை, தரவு புள்ளிகளை குழுக்களில் சேர்க்கும் முறையில் பெரிதும் பாதிக்கிறது. சில சொற்களின் விளக்கம்: > -> 🎓 ['Transductive' vs. 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning)) -> -> Transductive inference என்பது குறிப்பிட்ட சோதனை வழக்குகளுக்கு பொருந்தும் பயிற்சி வழக்குகளிலிருந்து பெறப்படுகிறது. Inductive inference என்பது பொதுவான விதிகளை உருவாக்க பயிற்சி வழக்குகளிலிருந்து பெறப்படுகிறது, பின்னர் அவை சோதனை வழக்குகளுக்கு மட்டுமே பொருந்தும். -> -> ஒரு உதாரணம்: உங்கள் தரவுத்தொகுப்பு பகுதியளவில் லேபிள் செய்யப்பட்டுள்ளது என்று கற்பனை செய்யுங்கள். சிலவற்றை 'records', சிலவற்றை 'cds', மற்றும் சிலவற்றை வெறுமையாகக் குறிப்பிடப்பட்டுள்ளது. உங்கள் வேலை வெறுமையானவற்றுக்கு லேபிள்களை வழங்குவது. நீங்கள் ஒரு inductive அணுகுமுறையைத் தேர்ந்தெடுத்தால், 'records' மற்றும் 'cds' தேடுவதற்கான ஒரு மாடலைப் பயிற்சி செய்து, உங்கள் லேபிள் செய்யப்படாத தரவுக்கு அந்த லேபிள்களைப் பயன்படுத்துவீர்கள். இந்த அணுகுமுறை உண்மையில் 'cassettes' என்று வகைப்படுத்துவதில் சிக்கல்களைச் சந்திக்கும். மற்றவொரு பக்கம், transductive அணுகுமுறை இந்த தெரியாத தரவுகளை மேலும் திறமையாகக் கையாளுகிறது, இது ஒரே மாதிரியான பொருட்களை ஒன்றாகக் குழுவாக்க முயற்சிக்கிறது, பின்னர் ஒரு குழுவுக்கு ஒரு லேபிளை வழங்குகிறது. இந்த வழக்கில், கிளஸ்டர்கள் 'round musical things' மற்றும் 'square musical things' ஆகியவற்றை பிரதிபலிக்கலாம். -> -> 🎓 ['Non-flat' vs. 'flat' geometry](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) -> -> கணிதவியல் சொற்களிலிருந்து பெறப்பட்ட, non-flat vs. flat geometry என்பது புள்ளிகளுக்கிடையிலான தூரத்தை 'flat' ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) அல்லது 'non-flat' (non-Euclidean) கணிதவியல் முறைகளால் அளவிடுவது. +> 🎓 ['பரிமாற்றிக்கும்' மற்றும் 'ஆகமளிக்கும்'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > ->'Flat' இந்த சூழலில் Euclidean geometry (இதில் சில 'plane' geometry எனக் கற்பிக்கப்படுகிறது) மற்றும் non-flat non-Euclidean geometry-யை குறிக்கிறது. கணிதவியல் மற்றும் மெஷின் லெர்னிங் ஆகிய இரு துறைகள் கணிதவியல் அடிப்படையில் உள்ளதால், கிளஸ்டர்களில் புள்ளிகளுக்கிடையிலான தூரத்தை அளவிட ஒரு பொதுவான வழி இருக்க வேண்டும், மேலும் தரவின் தன்மையைப் பொறுத்து அதை 'flat' அல்லது 'non-flat' முறையில் செய்யலாம். [Euclidean distances](https://wikipedia.org/wiki/Euclidean_distance) என்பது இரண்டு புள்ளிகளுக்கிடையிலான கோடு பகுதியின் நீளமாக அளவிடப்படுகிறது. [Non-Euclidean distances](https://wikipedia.org/wiki/Non-Euclidean_geometry) ஒரு வளைவின் sepanjang அளவிடப்படுகிறது. உங்கள் தரவுகள், காட்சிப்படுத்தப்பட்டவை, ஒரு தளத்தில் இல்லை என்று தோன்றினால், அதைச் சமாளிக்க ஒரு சிறப்பு الگாரிதத்தைப் பயன்படுத்த வேண்டும். +> பரிமாற்று நுணுக்கம் கணிப்பு அதேபோல் கணிக்கப்பட்ட பரிசோதனை வழிகளைக் கொண்டு வடிவமைக்கப்படுகிறது. ஆகமளிக்கும் நுணுக்கம் சாதாரண விதிகள் அடிப்படையில் பயிற்று வழிகளைக் கொண்டு பரிசோதனை வழிகளுக்கு பொருந்துகிறது. > -![Flat vs Nonflat Geometry Infographic](../../../../translated_images/ta/flat-nonflat.d1c8c6e2a96110c1.webp) -> [Dasani Madipalli](https://twitter.com/dasani_decoded) உருவாக்கிய தகவல்படம் -> -> 🎓 ['Distances'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) -> -> கிளஸ்டர்கள் தங்கள் தூர அட்டவணையால் வரையறுக்கப்படுகின்றன, உதாரணமாக புள்ளிகளுக்கிடையிலான தூரங்கள். இந்த தூரம் சில வழிகளில் அளவிடப்படலாம். Euclidean கிளஸ்டர்கள் புள்ளி மதிப்புகளின் சராசரியால் வரையறுக்கப்படுகின்றன, மேலும் 'centroid' அல்லது மைய புள்ளி கொண்டுள்ளன. எனவே அந்த centroid-க்கு தூரம் அளவிடப்படுகிறது. Non-Euclidean தூரங்கள் 'clustroids' எனக் குறிப்பிடப்படும், மற்ற புள்ளிகளுக்கு மிக அருகிலுள்ள புள்ளி. Clustroids மாறுபட்ட வழிகளில் வரையறுக்கப்படலாம். -> -> 🎓 ['Constrained'](https://wikipedia.org/wiki/Constrained_clustering) -> -> [Constrained Clustering](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) இந்த அன்சூப்பர்வைஸ்டு முறையில் 'semi-supervised' கற்றலை அறிமுகப்படுத்துகிறது. புள்ளிகளுக்கிடையிலான உறவுகள் 'cannot link' அல்லது 'must-link' எனக் குறிக்கப்படுகின்றன, எனவே சில விதிகள் தரவுத்தொகுப்பில் கட்டாயமாக்கப்படுகின்றன. +> ஒரு உதாரணம்: உங்கள் தரவுத்தொகுப்பு ஒருபுறமாக மட்டுமே மொழியிடப்பட்டுள்ளது என்று நினைத்துக்கொள்ளுங்கள். சில 'பதிவுகள்', சில 'சிடிகள்', மற்றவை வெற்றிடமாக உள்ளன. வெற்றிடங்களுக்கு லேபிள்களை வழங்க நீங்கள் திட்டமிடுகிறீர்கள். ஆகமளிக்கும் முறையில், நீங்கள் ஒரு மாதிரியை பயிறு செய்ய 'பதிவுகள்' மற்றும் 'சிடிகள்' இல்லாத தவிர, அந்த லேபிள்களை மொழியிடாத தரவுக்கு அளிக்கிறீர்கள். இதுவே சுற்றுச்சூழல் தரவுகளை வகைப்படுத்துவது கடினமாக இருக்கும். மறுபக்கமாக, பரிமாற்று முறையில், இது தெரிந்தெடுக்காத தரவுகளை குழுக்கள் உருவாக்கி பின்னர் லேபிள் அளிக்கும் என்பது சிறந்தது. இந்தக் கிளஸ்டர்கள் 'வட்டமான இசை பொருட்கள்' மற்றும் 'சதுரமான இசை பொருட்கள்' ஆக இருக்கலாம். > ->ஒரு உதாரணம்: ஒரு الگாரிதம் லேபிள் செய்யப்படாத அல்லது பகுதியளவில் லேபிள் செய்யப்பட்ட தரவுகளில் விடப்பட்டால், அது உருவாக்கும் கிளஸ்டர்கள் தரமற்றதாக இருக்கலாம். மேலே உள்ள உதாரணத்தில், கிளஸ்டர்கள் 'round music things' மற்றும் 'square music things' மற்றும் 'triangular things' மற்றும் 'cookies' ஆகியவற்றை குழுவாக்கலாம். சில கட்டுப்பாடுகள் அல்லது விதிகளை பின்பற்ற 'கட்டுப்படுத்தப்பட்ட' தரவுத்தொகுப்பில் கொடுக்கப்பட்டால், இது الگாரிதம் சிறந்த தேர்வுகளைச் செய்ய உதவுகிறது. +> 🎓 ['மையம் இல்லாத' மற்றும் 'மையம் வைத்த'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> +> கணித மற்றும் பரிமாண வேதியியல் சார்ந்த சொற்கள், மையம் இல்லாத மற்றும் மையம் வைத்த நிலை கீற்று, 'மையட்டுவியல்' ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) அல்லது 'மையம் இல்லாத' (மையட்டுவியல் அல்லாத) முறைகளைப் பொருள்படுத்துகின்றன. +> +> இங்கு 'மையம் வைத்த' என்பது யூக்லிடியன் நிலையை குறிக்கும் (ஒரு பகுதியை 'தள' வேதியியல் என்று கற்பிக்கின்றனர்), மற்றையது மையம் இல்லாத நிலைக்கு. மெஷின் லெர்னிங்குக்கு நிலை என்ன தேவை? இரண்டு துறைகளும் கணிதத்தில் அடிப்படையுள்ளதால், கிளஸ்டர் உள்ள புள்ளிகளுக்கிடையிலுள்ள தூரத்தை அளக்க பொதுவான ஒரு வழி இருக்கவேண்டும். அந்த வழி தளவியல் அல்லது மையம் இல்லாத முறைகள் ஆக இருக்கும். [யூக்லிடியன் தூரம்](https://wikipedia.org/wiki/Euclidean_distance) இரண்டு புள்ளிகளுக்கு இடையேயான கோடு Segments длиன் ஆக அளக்கப்படுகிறது. [மையற்ற யூக்லிடியன் தூரம்](https://wikipedia.org/wiki/Non-Euclidean_geometry) ஒரு வளைவு வழியாக அளக்கப்படுகிறது. உங்கள் தரவு நம்பிக்கை படுத்த எண்ணல் இல்லை என தோன்றின், அது கண்ணோட்டத்தில் ஒரு தளத்தில் இல்லாமையாக இருந்தால், உங்களுக்கு ஒரு சிறப்பு அல்காரிதம் தேவைப்படும். +> +> ![மையம் வைத்த மற்றும் மையம் இல்லா நிலை விளக்கப்படம்](../../../../translated_images/ta/flat-nonflat.d1c8c6e2a96110c1.webp) +> > விளக்கப்படம்: [தசனி மடிப்பள்ளி](https://twitter.com/dasani_decoded) > -> 🎓 'Density' +> 🎓 ['தூரங்கள்'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) +> +> கிளஸ்டர்கள் தங்களது தூர மாட்ரிக்ஸ் மூலம் வரையறுக்கப்படுகின்றன, உதாரணமாக புள்ளிகளுக்கிடையிலான தூரம். இந்த தூரம் பல வழிகளில் அளக்கப்படுகிறது. யூக்லிடியன் கிளஸ்டர்கள் புள்ளி மதிப்புகளின் சராசரி மூலம் வரையறுக்கப்படுகின்றன மற்றும் ஒரு 'மையக்கண்' அல்லது மைய புள்ளி கொண்டுள்ளன. தூரங்கள் அந்த மையக்கணுக்கு இடையிலான தூரமாக அளக்கப்படுகின்றன. மையத்துடன் கூடிய தூரங்கள் 'கிலஸ்ட்ராய்ட்கள்' என்று அழைக்கப்படும், அருகிலுள்ள புள்ளிகளை அடிப்படையாகக் கொண்ட புள்ளிகள் ஆகும். கிலஸ்ட்ராய்ட்கள் பல விதங்களில் வரையறுக்கப்படலாம். > -> 'சத்தமுள்ள' என்று கருதப்படும் தரவுகள் 'அடர்த்தியான'தாகக் கருதப்படுகின்றன. அதன் கிளஸ்டர்களில் உள்ள புள்ளிகளுக்கிடையிலான தூரங்கள், ஆய்வின் போது, ​​மேலும் அல்லது குறைவாக அடர்த்தியாக இருக்கலாம், அல்லது 'கூட்டமாக' இருக்கலாம், எனவே இந்த தரவுகளை சரியான கிளஸ்டரிங் முறையைப் பயன்படுத்தி பகுப்பாய்வு செய்ய வேண்டும். [இந்த கட்டுரை](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) சமமற்ற கிளஸ்டர் அடர்த்தியுடன் கூடிய சத்தமுள்ள தரவுத்தொகுப்பை ஆராய K-Means கிளஸ்டரிங் மற்றும் HDBSCAN الگாரிதங்களைப் பயன்படுத்துவதற்கான வேறுபாட்டை விளக்குகிறது. +> 🎓 ['கட்டுப்பாடுகள்'](https://wikipedia.org/wiki/Constrained_clustering) +> +> [கட்டுப்பாடு கிளஸ்டரிங்](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) இந்த பாராட்டப்படாத முறையில் 'சமி-பாராட்டப்படும்' கற்றலை கொண்டு சேர்க்கிறது. புள்ளிகளுக்கு இடையிலான தொடர்புக்கள் 'இணைக்கக் கூடாது' அல்லது 'இணைக்க வேண்டும்' என்று குறிக்கப்படுவதால் சில விதிமுறைகள் தரவுத்தொகுப்புக்கு கட்டாயப்படுத்தப்படுகின்றன. +> +> ஒரு உதாரணம்: ஒரு அல்காரிதம் ஒரு மொழியிடப்படாத அல்லது சமி-மொழியிடப்பட்ட தரவுகளில் அலவசமாக செயல்படுகிறால், உருவாக்கும் கிளஸ்டர்கள் மேல் தரமற்றவை ஆக இருக்கலாம். மேலேயுள்ள உதாரணத்தில், கிளஸ்டர்கள் 'வட்ட வாசகங்கள்', 'சதுர வாசகங்கள்', 'முக்கோண பொருட்கள்' மற்றும் 'குக்கீஸ்' என பிரிக்க முடியும். சில கட்டுப்பாடுகள் ("பொருள் பிளாஸ்டிக் ஆகியிருப்பது வேண்டும்", "பொருள் இசை உண்டாக்க கற்றல் வேண்டும்") கொடுக்கப்பட்டால், அல்காரிதத்தை சிறந்த முடிவுகள் எடுக்க கட்டுப்படுத்த முடியும். +> +> 🎓 'அடர்த்தி' +> +> 'சத்தம் நிறைந்த' தரவு 'அடர்த்தியானது' என்று கருதப்படுகிறது. ஒவ்வொரு கிளஸ்டருக்குள்ள உள்ள புள்ளிகளுக்கிடையிலான தூரம் கணித பரிசோதனையால் மிகவும் அல்லது குறைவாக அடர்த்தி கொண்டதாக இருக்கலாம், அதனால் இந்த தரவு பொருத்தமான கிளஸ்டரிங் முறையை கொண்டு பகுப்பாய்வு செய்யப்பட வேண்டும். [இந்தக் கட்டுரை](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) ஒரு சத்தம் நிறைந்த மற்றும் சமமாக இல்லாத கிளஸ்டர் அடர்த்தியுடன் கூடிய தரவுக்கு K-Means கிளஸ்டரிங் மற்றும் HDBSCAN அல்காரிதங்களின் வேறுபாட்டை விளக்குகிறது. -## கிளஸ்டரிங் الگாரிதங்கள் +## கிளஸ்டர் அல்காரிதங்கள் -100-க்கும் மேற்பட்ட கிளஸ்டரிங் الگாரிதங்கள் உள்ளன, மேலும் அவற்றின் பயன்பாடு தரவின் தன்மையைப் பொறுத்தது. முக்கியமான சிலவற்றைப் பற்றி பேசுவோம்: +100க்கும் மேற்பட்ட கிளஸ்டர் அல்காரிதங்கள் உள்ளன, அவற்றின் பயன்பாடு தரவின் இயல்பின்பார dépend ஆகும். சில முக்கியமானவற்றைப் பற்றி பேசலாம்: -- **Hierarchical clustering**. ஒரு பொருள் அருகிலுள்ள பொருளுக்கு அதன் அருகாமையை அடிப்படையாகக் கொண்டு வகைப்படுத்தப்பட்டால், கிளஸ்டர்கள் அதன் உறுப்பினர்களின் தூரத்தை அடிப்படையாகக் கொண்டு உருவாக்கப்படுகின்றன. Scikit-learn-இன் agglomerative clustering hierarchical ஆகும். +- **வரிசைப்படுத்தப்பட்ட கிளஸ்டரிங்**. ஒரு பொருள் அருகிலுள்ள பொருளுடன் கண்காணிப்பு அடிப்படையில் வகைப்படுத்தப்பட்டால், அப்பளவும் மற்ற புலிகளுடனான தூரத்தின்பரிசரின்படி கிளஸ்டர்கள் உருவாகின்றன. Scikit-learn இன் aggloomerative clustering வரிசைப்படுத்தப்பட்ட வகை ஆகும். - ![Hierarchical clustering Infographic](../../../../translated_images/ta/hierarchical.bf59403aa43c8c47.webp) - > [Dasani Madipalli](https://twitter.com/dasani_decoded) உருவாக்கிய தகவல்படம் + ![வரிசைப்படுத்தப்பட்ட கிளஸ்டரிங் விளக்கப்படம்](../../../../translated_images/ta/hierarchical.bf59403aa43c8c47.webp) + > விளக்கப்படம்: [தசனி மடிப்பள்ளி](https://twitter.com/dasani_decoded) -- **Centroid clustering**. இந்த பிரபல الگாரிதம் 'k', அல்லது உருவாக்க வேண்டிய கிளஸ்டர்களின் எண்ணிக்கையைத் தேர்ந்தெடுக்க வேண்டும், அதன் பிறகு الگாரிதம் ஒரு கிளஸ்டரின் மைய புள்ளியைத் தீர்மானித்து அந்த புள்ளியைச் சுற்றி தரவுகளைச் சேர்க்கிறது. [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) என்பது centroid clustering-இன் பிரபலமான பதிப்பு. மையம் அருகிலுள்ள சராசரியால் தீர்மானிக்கப்படுகிறது, எனவே பெயர். கிளஸ்டரிலிருந்து சதுர தூரம் குறைக்கப்படுகிறது. +- **மையக்கண் கிளஸ்டரிங்**. இந்த பிரபலமான அல்காரிதம் 'k' என்ற குழுக்களின் எண்ணிக்கையைத் தேர்வு செய்ய வேண்டும், பின்னர் அழுத்தக்குழு மைய புள்ளியை நிர்ணயித்து தரவுகளை அதற்குசேர்க்கிறது. [K-means கிளஸ்டரிங்](https://wikipedia.org/wiki/K-means_clustering) மையக்கண் கிளஸ்டரிங்கின் பிரபலமான வடிவம் ஆகும். மையம் அணிந்த சராசரி புள்ளியைக் கொண்டு நிர்ணயிக்கப்படுகிறது. கிளஸ்டர் ஒருங்கிணைப்பின் சதுரத் தூரம் குறைக்கப்படுகின்றது. - ![Centroid clustering Infographic](../../../../translated_images/ta/centroid.097fde836cf6c918.webp) - > [Dasani Madipalli](https://twitter.com/dasani_decoded) உருவாக்கிய தகவல்படம் + ![மையக்கண் கிளஸ்டரிங் விளக்கப்படம்](../../../../translated_images/ta/centroid.097fde836cf6c918.webp) + > விளக்கப்படம்: [தசனி மடிப்பள்ளி](https://twitter.com/dasani_decoded) -- **Distribution-based clustering**. புள்ளி ஒரு கிளஸ்டருக்கு சொந்தமான சாத்தியக்கூறுகளைத் தீர்மானிக்க மற்றும் அதற்கேற்ப ஒதுக்குவதில் மையமாக இருக்கும் புள்ளிவிவர மாடலிங் அடிப்படையில் உள்ளது. Gaussian mixture முறைகள் இந்த வகையைச் சேர்ந்தவை. +- **கிராம பகுப்பாய்வு அடிப்படையிலான கிளஸ்டரிங்**. புள்ளி ஒரு கிளஸ்டருக்கு சொந்தமானிருக்க வாய்ப்பு என்ன என்பதை கணிக்க statistically அடிப்படையில், புள்ளிகளுக்கு இன்னும் சரியான வகுப்பை அளிக்கிறது. Gaussian விழுப்பங்கள் இதை சேர்ந்தவை. -- **Density-based clustering**. தரவுப் புள்ளிகள் அவற்றின் அடர்த்தியை அடிப்படையாகக் கொண்டு, அல்லது ஒன்றுக்கொன்று சுற்றி குழுக்களை அடிப்படையாகக் கொண்டு கிளஸ்டர்களுக்கு ஒதுக்கப்படுகின்றன. குழுவிலிருந்து தொலைவில் உள்ள தரவுப் புள்ளிகள் வெளிப்புறங்கள் அல்லது சத்தமாகக் கருதப்படுகின்றன. DBSCAN, Mean-shift மற்றும் OPTICS இந்த வகை கிளஸ்டரிங்கைச் சேர்ந்தவை. +- **அடர்த்தி அடிப்படையிலான கிளஸ்டரிங்**. தரவு புள்ளிகள் அவற்றின் அடர்த்தி மற்றும் ஒருவருக்கொருவர் சேர்த்ததும் அடிப்படையாகக் கொண்டதாக கிளஸ்டர்களுக்கு ஒதுக்கப்படுகின்றன. குழுவிற்கு தொலைவு உடைய புள்ளிகள் மாற்றுப்புள்ளிகள் மற்றும் சத்தமாக கருதப்படுகின்றன. DBSCAN, Mean-shift மற்றும் OPTICS இதற்கு உட்பட்டவை. -- **Grid-based clustering**. பல-பரிமாண தரவுத்தொகுப்புகளுக்கு, ஒரு கிரிட் உருவாக்கப்படுகிறது மற்றும் தரவுகள் கிரிட் செல்களில் பிரிக்கப்படுகின்றன, இதனால் கிளஸ்டர்கள் உருவாக்கப்படுகின்றன. +- **கடிகார அடிப்படையிலான கிளஸ்டரிங்**. பன்முக படிவங்களுக்கான தொகுதிகள் உருவாக்கப்படுகின்றன மற்றும் தரவு அந்தச் செல்களின் முகையில் பிரிக்கப்பட்டு கிளஸ்டர்கள் உருவாகின்றன. -## பயிற்சி - உங்கள் தரவுகளை கிளஸ்டர் செய்யுங்கள் +## பயிற்சி - உங்கள் தரவின் கிளஸ்டரிங் செய்தல் -கிளஸ்டரிங் ஒரு தொழில்நுட்பமாக சரியான காட்சிப்படுத்தலால் மிகவும் உதவப்படுகிறது, எனவே நம் இசை தரவுகளை காட்சிப்படுத்துவதன் மூலம் தொடங்குவோம். இந்த பயிற்சி இந்த தரவின் தன்மைக்கு எந்த கிளஸ்டரிங் முறைகளை மிகவும் பயனுள்ளதாகப் பயன்படுத்த வேண்டும் என்பதைத் தீர்மானிக்க உதவும். +கிளஸ்டரிங் தொழில்நுட்பம் பிரமாண்டமான காட்சிப்படுத்தல் மூலம் பலவாக உதவுகிறது, ஆகவே இசை தரவை காட்சிப்படுத்துதல் மூலம் ஆரம்பிப்போம். இந்தப் பயிற்சி தரவின் இயல்புக்கேற்ப எந்த கிளஸ்டரிங் முறையை பயன்படுத்துவது சிறந்ததென்பதைத் தீர்மானிக்க உதவும். -1. இந்த கோப்பில் உள்ள [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) ஐ திறக்கவும். +1. இந்த அடைவிலுள்ள [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) கோப்பை திறக்கவும். -1. தரவுகளை சிறப்பாக காட்சிப்படுத்த `Seaborn` தொகுப்பை இறக்குமதி செய்யவும். +1. தரவு காட்சிப்படுத்தலுக்கு சிறந்த `Seaborn` தொகுப்பை இறக்குமதி செய்யவும். ```python !pip install seaborn ``` -1. [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) பாடல் தரவுகளை இணைக்கவும். பாடல்களின் தரவுகளுடன் ஒரு dataframe ஐ ஏற்றவும். நூலகங்களை இறக்குமதி செய்து தரவுகளை வெளியிடுவதன் மூலம் இந்த தரவுகளை ஆராய தயாராகுங்கள்: +1. [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) இருந்து பாடல் தரவை புகுத்தவும். பாடல்கள் பற்றிய சில தரவுடன் ஒரு டேட்டாபிரேம் உருவாக்கவும். தரவை ஆராய தயார் செய்ய நூலகங்களை இறக்குமதி செய்து தரவை வெளியிடவும்: ```python import matplotlib.pyplot as plt @@ -120,23 +119,23 @@ df.head() ``` - தரவின் முதல் சில வரிகளைச் சரிபார்க்கவும்: + முதல் சில வரிகளை சரிபார்க்கவும்: | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | நைஜீரியன் பாப் | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | ஆஃப்ரோபாப் | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. DataFrame பற்றிய தகவல்களை பெற `info()` அழைக்கவும்: +1. ஒரு டேட்டாஃப்ரேமின் (dataframe) சில தகவல்களை பெற, `info()`-ஐ அழைக்கவும்: ```python df.info() ``` - இதன் வெளியீடு இவ்வாறு இருக்கும்: + வெளியீடு இதுபோல இருக்கிறது: ```output @@ -164,7 +163,7 @@ memory usage: 66.4+ KB ``` -1. null மதிப்புகளை இருமுறை சரிபார்க்கவும், `isnull()` அழைத்து, அதன் தொகை 0 ஆக இருப்பதை உறுதிப்படுத்தவும்: +1. null மதிப்புகளுக்காக இருமடங்கு சரிபார்க்க, `isnull()` ஐ அழைத்து, சரிந்துள்ளன என பார்க்க: ```python df.isnull().sum() @@ -192,28 +191,28 @@ dtype: int64 ``` -1. தரவுகளை விவரிக்கவும்: +1. தரவை விவரிக்கவும்: ```python df.describe() ``` - | | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | - | ----- | ------------ | ----------- | ---------- | ------------ | ------------ | -------- | ---------------- | -------- | --------- | ----------- | ---------- | -------------- | - | count | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | - | mean | 2015.390566 | 222298.1698 | 17.507547 | 0.741619 | 0.265412 | 0.760623 | 0.016305 | 0.147308 | -4.953011 | 0.130748 | 116.487864 | 3.986792 | - | std | 3.131688 | 39696.82226 | 18.992212 | 0.117522 | 0.208342 | 0.148533 | 0.090321 | 0.123588 | 2.464186 | 0.092939 | 23.518601 | 0.333701 | - | min | 1998 | 89488 | 0 | 0.255 | 0.000665 | 0.111 | 0 | 0.0283 | -19.362 | 0.0278 | 61.695 | 3 | - | 25% | 2014 | 199305 | 0 | 0.681 | 0.089525 | 0.669 | 0 | 0.07565 | -6.29875 | 0.0591 | 102.96125 | 4 | - | 50% | 2016 | 218509 | 13 | 0.761 | 0.2205 | 0.7845 | 0.000004 | 0.1035 | -4.5585 | 0.09795 | 112.7145 | 4 | - | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | - | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | + | | வெளியீட்டு தேதி | நீளம் | பிரபலத்தன்மை | நடனம் செய்யக்கூடிய தன்மை | அகோஸ்டிக் தன்மை | சக்தி | கருவி தன்மை | உள்ளுணர்ச்சி | சத்தம் | பேச்சுத்தன்மை | டெம்போ | நேர ஒப்பந்தம் | + | ----- | -------------- | ----------- | ----------- | ------------------ | -------------- | -------- | -------------- | -------- | -------- | ----------- | --------- | -------------- | + | எண்ணிக்கை | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | 530 | + | சராசரி | 2015.390566 | 222298.1698 | 17.507547 | 0.741619 | 0.265412 | 0.760623 | 0.016305 | 0.147308 | -4.953011| 0.130748 | 116.487864| 3.986792 | + | மாறுபாடு | 3.131688 | 39696.82226 | 18.992212 | 0.117522 | 0.208342 | 0.148533 | 0.090321 | 0.123588 | 2.464186 | 0.092939 | 23.518601 | 0.333701 | + | குறைந்தபட்சம் | 1998 | 89488 | 0 | 0.255 | 0.000665 | 0.111 | 0 | 0.0283 | -19.362 | 0.0278 | 61.695 | 3 | + | 25% | 2014 | 199305 | 0 | 0.681 | 0.089525 | 0.669 | 0 | 0.07565 | -6.29875 | 0.0591 | 102.96125 | 4 | + | 50% | 2016 | 218509 | 13 | 0.761 | 0.2205 | 0.7845 | 0.000004 | 0.1035 | -4.5585 | 0.09795 | 112.7145 | 4 | + | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | + | அதிகபட்சம் | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 க்ளஸ்டரிங் என்பது லேபிள் செய்யப்பட்ட தரவுகளை தேவையற்ற ஒரு கண்காணிக்கப்படாத முறை என்றால், ஏன் லேபிள்களுடன் இந்த தரவுகளை காட்டுகிறோம்? தரவுகளை ஆராயும் கட்டத்தில், அவை பயனுள்ளதாக இருக்கும், ஆனால் க்ளஸ்டரிங் அல்காரிதம்கள் செயல்பட அவசியமில்லை. நீங்கள் கால் தலைகளை நீக்கி, தரவுகளை கால் எண் மூலம் குறிப்பிடலாம். +> 🤔 நாங்கள் பட்டியலிடப்படாத தரவை தேவையில்லை என்று கூறும் ஒரு unsupervised clustering முறையைப் பயன்படுத்தினாலும், ஏன் இந்த தரவை லேபிள்களுடன் காட்டுகிறோம்? தரவுக் கள ஆய்வு கட்டத்தில் அவை உதவியாக இருக்கின்றன, ஆனால் தொகுப்பு செயல்முறைகள் வேலை செய்ய அவை அவசியமில்லை. நீங்களும் த_column_ தலைப்புகளை அகற்றி, நிறுவலின் எண்ணிக்கையின்படி தரவை குறிக்கலாம். -தரவின் பொதுவான மதிப்புகளை பாருங்கள். `popularity` '0' ஆக இருக்கலாம், இது எந்த தரவரிசையும் இல்லாத பாடல்களை காட்டுகிறது. அதை விரைவில் நீக்குவோம். +தரவின் பொது மதிப்புகளைப் பாருங்கள். பிரபலத்தன்மை என்பது '0' இருக்கக்கூடும் என்று கவனிக்கவும், இது தரவரிசை இல்லாத பாடல்களை காட்டுகிறது. அதை விரைவில் அகற்றுவோம். -1. மிகவும் பிரபலமான இசை வகைகளை கண்டறிய ஒரு barplot பயன்படுத்தவும்: +1. மிகவும் பிரபலமான வகைகளை கண்டுபிடிக்க பார் பிளாட்டை பயன்படுத்தவும்: ```python import seaborn as sns @@ -225,13 +224,13 @@ plt.title('Top genres',color = 'blue') ``` - ![most popular](../../../../translated_images/ta/popular.9c48d84b3386705f.webp) + ![பெரும் பிரபலமான](../../../../translated_images/ta/popular.9c48d84b3386705f.webp) -✅ மேலும் அதிக மதிப்புகளைப் பார்க்க விரும்பினால், `[:5]` ஐ பெரிய மதிப்பாக மாற்றவும் அல்லது அனைத்தையும் பார்க்க அதை நீக்கவும். +✅ மேலதிக முக்கிய மதிப்புகளை காண விரும்பினால், உச்ச `[:5]`-ஐ அதிக மதிப்புக்கு மாற்றலாம் அல்லது அதை அகற்றி எல்லாவற்றையும் பார்க்கலாம். -குறிப்பு, 'Missing' என விவரிக்கப்படும் இசை வகை Spotify அதை வகைப்படுத்தவில்லை என்பதைக் குறிக்கிறது, எனவே அதை நீக்குவோம். +குறிப்பிடுங்கள், உச்ச வகை சொற் 'Missing' என இருந்தால், அதற்கான வகைப்படுத்தல் ஸ்பாட்டிபியில் இல்லை என பொருள், ஆகவே அதை அகற்றுவோம். -1. காணாமல் போன தரவுகளை வடிகட்டுவதன் மூலம் நீக்கவும் +1. காணாமல் போன தரவை வடிகட்டி அகற்றவும் ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -242,11 +241,11 @@ plt.title('Top genres',color = 'blue') ``` - இப்போது இசை வகைகளை மீண்டும் சரிபார்க்கவும்: + இப்போது வகைகளை மறுபரிசோதிக்கவும்: - ![most popular](../../../../translated_images/ta/all-genres.1d56ef06cefbfcd6.webp) + ![பெரும் பிரபலமான](../../../../translated_images/ta/all-genres.1d56ef06cefbfcd6.webp) -1. இந்த தரவுத்தொகுப்பில் மூன்று முக்கியமான இசை வகைகள் அதிகளவில் உள்ளது. `afro dancehall`, `afropop`, மற்றும் `nigerian pop` ஆகியவற்றில் கவனம் செலுத்துவோம், மேலும் 0 `popularity` மதிப்புடன் உள்ளவற்றை நீக்குவோம் (அதாவது தரவுத்தொகுப்பில் பிரபலத்துடன் வகைப்படுத்தப்படவில்லை, எனவே நமது நோக்கங்களுக்கு இது சத்தமாகக் கருதலாம்): +1. இதுவரை, டேட்டாவில் மூன்று சிறந்த வகைகள் தலாவாக இருப்பவை. `afro dancehall`, `afropop`, மற்றும் `nigerian pop` - இவற்றில் கவனம் செலுத்துவோம், மேலும் 0 பிரபலத்தன்மை மதிப்புள்ளவை (அதாவது தரவுத்தொகுதியில் பிரபலத்தன்மை மூலமாக வகைப்படுத்தப்படவில்லை என்பதைக் குறிக்கும்) அகற்றுவோம்: ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +257,7 @@ plt.title('Top genres',color = 'blue') ``` -1. தரவுகள் எந்தவொரு வலுவான தொடர்பில் உள்ளதா என்பதை விரைவாக சோதிக்கவும்: +1. தரவு எந்தவொரு வலுவான தொடர்பில் உள்ளது என ஒரு சிறந்த பரிசோதனை செய்யுங்கள்: ```python corrmat = df.corr(numeric_only=True) @@ -266,21 +265,21 @@ sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![correlations](../../../../translated_images/ta/correlation.a9356bb798f5eea5.webp) + ![தொடர்புகள்](../../../../translated_images/ta/correlation.a9356bb798f5eea5.webp) - `energy` மற்றும் `loudness` இடையே மட்டுமே வலுவான தொடர்பு உள்ளது, இது ஆச்சரியமாக இல்லை, ஏனெனில் சத்தமான இசை பொதுவாக மிகவும் ஆற்றல்மிக்கதாக இருக்கும். இல்லையெனில், தொடர்புகள் ஒப்பீட்டளவில் பலவீனமாக உள்ளன. இந்த தரவிலிருந்து க்ளஸ்டரிங் அல்காரிதம் என்ன கண்டறிய முடியும் என்பதைப் பார்க்க ஆர்வமாக உள்ளது. + ஒரே வலுவான தொடர்பு `energy` மற்றும் `loudness` இடையே உள்ளது, இது அதிர்ச்சியடையத் தேவையில்லை, ஏனெனில் சத்தமுள்ள இசை வழக்கமாக சக்திவாய்ந்ததாக இருக்கும். மற்ற வகைகளில் தொடர்புகள் சுமாராகவே உள்ளன. இந்த தரவைக் கொண்டு தொகுப்பு அல்காரிதம் என்ன செய்யும் என்பது கவர்ச்சிகரமாக இருக்கும். - > 🎓 தொடர்பு காரணத்தை குறிக்காது! நமக்கு தொடர்பு பற்றிய ஆதாரம் உள்ளது, ஆனால் காரணத்தை குறிக்கும் ஆதாரம் இல்லை. [ஒரு சுவாரஸ்யமான இணையதளம்](https://tylervigen.com/spurious-correlations) இந்த புள்ளியை வலியுறுத்தும் காட்சிகளை வழங்குகிறது. + > 🎓 தொடர்பு அப்படியே காரணத்தை நிரூபிக்காது என்பது கவனிக்கவும்! தொடர்பு உள்ளது ஆனால் காரணம் என்ன என்பது ஆதாரம் இல்லை. [ஒரு வினோதமான இணையதளம்](https://tylervigen.com/spurious-correlations) இதைப் பற்றி விளக்குகிறது. -இந்த தரவுத்தொகுப்பில் ஒரு பாடலின் `popularity` மற்றும் `danceability` பற்றிய கருத்தில் ஏதேனும் ஒருமித்த நிலை உள்ளதா? ஒரு FacetGrid காட்டுகிறது, இசை வகையை பொருட்படுத்தாமல் ஒரே வட்டங்கள் வரிசையாக உள்ளன. இந்த வகைக்கு நைஜீரியர்களின் விருப்பங்கள் ஒரு குறிப்பிட்ட `danceability` நிலைக்கு ஒருமித்தமாக இருக்கிறதா? +இந்த தரவில் பாடலின் கருதப்படும் பிரபலத்தன்மை மற்றும் நடன திறமை இடையே ஏதேனும் சங்கமம் உள்ளதா? ஒரு FacetGrid வகை அலைவரிசை உள்ள பட்டைகள் உள்ளன, வகையை பொருட்படுத்தாது. நைஜீரியன் சுவைகள் இந்த வகைக்கு ஒரு குறிப்பிட்ட நடன திறமை அளவில் ஒருமித்தமாக உள்ளதா? -✅ வேறு தரவுப் புள்ளிகள் (energy, loudness, speechiness) மற்றும் மேலும் அல்லது வேறு இசை வகைகளை முயற்சிக்கவும். நீங்கள் என்ன கண்டறிய முடியும்? தரவுப் புள்ளிகளின் பொதுவான பரவலைப் பார்க்க `df.describe()` அட்டவணையைப் பாருங்கள். +✅ வேறு தரக் களங்களை (energy, loudness, speechiness) மற்றும் வேறு அல்லது கூடுதல் இசைப் வகைகளை பயன்படுத்தி முயற்சி செய்யவும். என்ன கண்டுபிடிக்க முடியும்? `df.describe()` அட்டவணையைப் பாருங்கள், தரவுக் கள விநியோகம் பொதுவாக எப்படி இருக்கிறது என்பதைக் காண. -### பயிற்சி - தரவுப் பரவல் +### பயிற்சி - தரவுக் கொள்கலன் -இந்த மூன்று இசை வகைகள், `danceability` பற்றிய கருத்தில், `popularity` அடிப்படையில் குறிப்பிடத்தக்க வித்தியாசம் உள்ளதா? +இந்த மூன்று வகைகள் தாம் வைப்பதில் நடன திறமையில் விறுவிறுப்பான வகை வேறுபாடு உள்ளதா? -1. நமது மூன்று முக்கியமான இசை வகைகளின் `popularity` மற்றும் `danceability` தரவுப் பரவலை x மற்றும் y அச்சில் ஆராயவும். +1. நம் மூன்று சிறந்த வகைகளின் பிரபலத்தன்மையும் நடன திறமையும் x மற்றும் y அச்சுகளில் எப்படி உள்ளது என்பதை கவனிக்க. ```python sns.set_theme(style="ticks") @@ -292,15 +291,15 @@ ) ``` - நீங்கள் ஒரு பொதுவான ஒருமித்த புள்ளியைச் சுற்றியுள்ள வட்டங்களை கண்டறியலாம், இது புள்ளிகளின் பரவலைக் காட்டுகிறது. + பொதுவான ஒருங்கிணைப்பு இடத்தில் வழிமொழிகள் சுற்றியுள்ளன என்று கண்டுபிடிக்கலாம், எங்கும் ஒருங்கிணைப்பு காட்டும். - > 🎓 இந்த எடுத்துக்காட்டில், தரவுகளை தொடர்ச்சியான probability density curve மூலம் பிரதிநிதித்துவப்படுத்தும் KDE (Kernel Density Estimate) கிராஃபை பயன்படுத்துகிறது. பல பரவல்களுடன் வேலை செய்யும்போது தரவுகளை விளக்க இது உதவுகிறது. + > 🎓 இந்த எடுத்துக்காட்டில் இடம்பெயர்ச்சி சமன்பாடு எண்ணிக்கை (KDE) கிராப் பயன்படுத்தப்படுகிறது, இது தொடர்ச்சியான சாத்திய வாய்ப்பு அடர்த்தி வளைவைக் கொண்டு தரவை பிரதிபலிக்கிறது. இது பல விநியோகங்களோடு பணியாற்றுவதற்கு உதவும். - பொதுவாக, மூன்று இசை வகைகள் `popularity` மற்றும் `danceability` அடிப்படையில் சற்றே ஒருமித்தமாக இணைகின்றன. இந்த சற்றே இணைந்த தரவுகளில் க்ளஸ்டர்களைத் தீர்மானிப்பது ஒரு சவாலாக இருக்கும்: + பொதுவாக, இந்த மூன்று வகைகள் தங்களின் பிரபலத்தன்மை மற்றும் நடன திறமையை பொருத்து சற்று சுறுசுறுப்பாக உடன்பட்டி உள்ளன. இந்த சற்று சுறுசுறுப்பான தரவில் தொகுப்பை கண்டுபிடிப்பது சவாலை உருவாக்கும்: - ![distribution](../../../../translated_images/ta/distribution.9be11df42356ca95.webp) + ![வினியோகம்](../../../../translated_images/ta/distribution.9be11df42356ca95.webp) -1. ஒரு scatter plot உருவாக்கவும்: +1. ஒரு ஸ்காட்டர் பிளாட்டை உருவாக்கவும்: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -308,31 +307,33 @@ .add_legend() ``` - அதே அச்சுகளின் scatterplot ஒரே மாதிரியான ஒருமித்த முறைமையை காட்டுகிறது + அதே அச்சுகளில் ஸ்காட்டர் பிளாட்டும் ஒரே மாதிரியான ஒருங்கிணைப்பு வாரியத்தை காட்டுகிறது ![Facetgrid](../../../../translated_images/ta/facetgrid.9b2e65ce707eba1f.webp) -பொதுவாக, க்ளஸ்டரிங் செய்ய, தரவுக் க்ளஸ்டர்களைக் காட்ட scatterplots பயன்படுத்தலாம், எனவே இந்த வகை காட்சியமைப்பை கையாள்வதில் நிபுணத்துவம் பெறுவது மிகவும் பயனுள்ளதாக இருக்கும். அடுத்த பாடத்தில், இந்த வடிகட்டப்பட்ட தரவுகளை எடுத்து, k-means clustering பயன்படுத்தி, இந்த தரவுகளில் ஒருமித்தமான முறையில் ஒட்டுமொத்தமாக உள்ள interesting குரூப்புகளை கண்டறிவோம். +தொகுப்புக்கு, தரவு தொகுப்புகளை காண ஸ்காட்டர் பிளாட்டுகள் பயன்படுத்தப்படலாம், ஆகவே இந்த வகை காட்சி திறனில் தேர்ச்சி பெறுவது மிகவும் பயனுள்ளது. அடுத்த பாடத்தில், இந்த வடிகட்டப்பட்ட தரவை எடுத்து k-means தொகுப்பை பயன்படுத்தி, இந்த தரவில் சுவாரஸ்யமாக உரையாடும் குழுக்களை கண்டறிவோம். --- ## 🚀சவால் -அடுத்த பாடத்திற்கான தயாரிப்பில், உற்பத்தி சூழலில் நீங்கள் கண்டறிந்து பயன்படுத்தக்கூடிய பல்வேறு க்ளஸ்டரிங் அல்காரிதம்கள் பற்றிய ஒரு வரைபடத்தை உருவாக்கவும். க்ளஸ்டரிங் எந்த வகையான பிரச்சினைகளை தீர்க்க முயற்சிக்கிறது? +அடுத்த பாடத்துக்கு தயாராக, உற்பத்தி சூழலில் நீங்கள் கண்டறிந்து பயன்படுத்தக்கூடிய பல தொகுப்பு அல்காரிதம்கள் பற்றிய ஒரு வரைபடத்தை உருவாக்குங்கள். தொகுப்பு எந்த வகை பிரச்சனைகளை தீர்க்க முயற்சிக்கிறது? -## [பாடத்திற்குப் பிந்தைய வினாடி வினா](https://ff-quizzes.netlify.app/en/ml/) +## [பாடம்-பிறகு வினாடி வினா](https://ff-quizzes.netlify.app/en/ml/) -## மதிப்பீடு & சுயபடிப்பு +## பரிசீலனை & சுயபயிற்சி -க்ளஸ்டரிங் அல்காரிதம்களைப் பயன்படுத்துவதற்கு முன், உங்கள் தரவுத்தொகுப்பின் தன்மையைப் புரிந்துகொள்வது நல்லது என்று நாம் கற்றுக்கொண்டோம். இந்த தலைப்பைப் பற்றி மேலும் படிக்க [இங்கே](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +தொகுப்பு அல்காரிதம்களைக் கடைப்பிடிப்பதற்கு முன், உங்கள் தரவுத்தொகுதி இயல்பை புரிந்து கொள்வது நல்லது என்று நாங்கள் கற்றுக்கொண்டோம். இதைப் பற்றி மேலும் வாசிக்க [இங்கே](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[இந்த பயனுள்ள கட்டுரை](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) பல்வேறு க்ளஸ்டரிங் அல்காரிதம்கள், தரவின் வடிவங்களின் அடிப்படையில் எப்படி செயல்படுகின்றன என்பதை விளக்குகிறது. +[இந்த உதவிகரமான கட்டுரையில்](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) பல்வேறு தொகுப்பு அல்காரிதங்கள் வேறு வேறு வடிவிலான தரவை சம்மந்தமாக எப்படி நடந்து கொள்கின்றன என்று விளக்குகிறது. -## பணிக்கட்டளை +## பணியிடம் -[க்ளஸ்டரிங் காட்சியமைப்புகளுக்கான மற்ற ஆராய்ச்சிகள்](assignment.md) +[தொகுப்புக்கு வேறு காட்சிப்படுத்தல்களை ஆய்வு செய்யவும்](assignment.md) --- -**குறிப்பு**: -இந்த ஆவணம் [Co-op Translator](https://github.com/Azure/co-op-translator) என்ற AI மொழிபெயர்ப்பு சேவையைப் பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கின்றோம், ஆனால் தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறான தகவல்கள் இருக்கக்கூடும் என்பதை தயவுசெய்து கவனத்தில் கொள்ளுங்கள். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல. \ No newline at end of file + +**மறுப்பு**: +இந்த ஆவணம் AI மொழிபெயர்ப்பு சேவை [Co-op Translator](https://github.com/Azure/co-op-translator) பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சி செய்துள்ளோம், ஆனால் தானாக செய்யப்படும் மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கலாம் என்பதை கவனத்தில் கொள்ளவும். அசல் ஆவணம் அதன் தாய்மொழியில் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்நுட்பமான மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கத்திற்கும் நாங்கள் பொறுப்பில்வில்லை. + \ No newline at end of file