diff --git a/translations/cs/.co-op-translator.json b/translations/cs/.co-op-translator.json index 511cc0bf5..31813f583 100644 --- a/translations/cs/.co-op-translator.json +++ b/translations/cs/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-05T00:30:14+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:44:17+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "cs" }, @@ -240,8 +240,8 @@ "language_code": "cs" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-04T23:59:38+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:43:56+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "cs" }, diff --git a/translations/cs/1-Introduction/1-intro-to-ML/README.md b/translations/cs/1-Introduction/1-intro-to-ML/README.md index 94849c757..2a9c61a47 100644 --- a/translations/cs/1-Introduction/1-intro-to-ML/README.md +++ b/translations/cs/1-Introduction/1-intro-to-ML/README.md @@ -1,73 +1,73 @@ # Úvod do strojového učení -## [Kvíz před lekcí](https://ff-quizzes.netlify.app/en/ml/) +## [Přednáškový kvíz](https://ff-quizzes.netlify.app/en/ml/) --- -[![ML pro začátečníky - Úvod do strojového učení pro začátečníky](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML pro začátečníky - Úvod do strojového učení pro začátečníky") +[![ML for beginners - Introduction to Machine Learning for Beginners](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML for beginners - Introduction to Machine Learning for Beginners") -> 🎥 Klikněte na obrázek výše pro krátké video k této lekci. +> 🎥 Klikněte na obrázek výše pro krátké video, které prochází touto lekcí. -Vítejte v tomto kurzu klasického strojového učení pro začátečníky! Ať už jste v této oblasti úplně noví, nebo zkušený praktik hledající osvěžení znalostí, jsme rádi, že jste se k nám připojili! Chceme vytvořit přátelské místo pro zahájení vašeho studia strojového učení a rádi bychom zhodnotili, reagovali na a začlenili vaši [zpětnou vazbu](https://github.com/microsoft/ML-For-Beginners/discussions). +Vítejte v tomto kurzu klasického strojového učení pro začátečníky! Ať už jste na toto téma zcela noví, nebo jste zkušený praktik ML, který si chce zopakovat určitou oblast, jsme rádi, že jste s námi! Chceme vytvořit přátelské místo pro vaše studium ML a rádi vyhodnotíme, odpovíme a zapracujeme vaše [zpětné vazby](https://github.com/microsoft/ML-For-Beginners/discussions). -[![Úvod do ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Úvod do ML") +[![Introduction to ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introduction to ML") > 🎥 Klikněte na obrázek výše pro video: John Guttag z MIT představuje strojové učení --- ## Začínáme se strojovým učením -Než začnete s tímto učebním plánem, je třeba mít svůj počítač připravený na lokální spuštění notebooků. +Než začnete s tímto kurikulem, musíte mít připravený počítač a mít možnost spouštět poznámkové bloky lokálně. -- **Nastavte svůj počítač pomocí těchto videí**. Použijte následující odkazy, abyste se naučili [jak nainstalovat Python](https://youtu.be/CXZYvNRIAKM) do svého systému a [nastavit textový editor](https://youtu.be/EU8eayHWoZg) pro vývoj. -- **Naučte se Python**. Doporučuje se také mít základní znalosti [Pythonu](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), programovacího jazyka užitečného pro datové vědce, který v tomto kurzu používáme. -- **Naučte se Node.js a JavaScript**. V tomto kurzu také několikrát používáme JavaScript při vytváření webových aplikací, takže budete potřebovat mít nainstalovaný [node](https://nodejs.org) a [npm](https://www.npmjs.com/), stejně jako [Visual Studio Code](https://code.visualstudio.com/) dostupné pro vývoj v Pythonu i JavaScriptu. -- **Vytvořte si účet na GitHubu**. Protože jste nás našli zde na [GitHubu](https://github.com), možná už máte účet, ale pokud ne, vytvořte si ho a poté si tento učební plán forkněte pro vlastní použití. (Klidně nám dejte hvězdičku 😊) -- **Prozkoumejte Scikit-learn**. Seznamte se s [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), sadou knihoven pro strojové učení, na které se v těchto lekcích odkazujeme. +- **Nakonfigurujte svůj počítač podle těchto videí**. Použijte následující odkazy k naučení [jak nainstalovat Python](https://youtu.be/CXZYvNRIAKM) do vašeho systému a [nastavit textový editor](https://youtu.be/EU8eayHWoZg) pro vývoj. +- **Naučte se Python**. Doporučujeme také mít základní znalosti [Pythonu](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), programovacího jazyka užitečného pro datové vědce, který používáme v tomto kurzu. +- **Naučte se Node.js a JavaScript**. V kurzu používáme JavaScript několikrát při tvorbě webových aplikací, takže budete potřebovat mít nainstalované [node](https://nodejs.org) a [npm](https://www.npmjs.com/), stejně jako [Visual Studio Code](https://code.visualstudio.com/) pro vývoj v Pythonu i JavaScriptu. +- **Vytvořte si účet na GitHubu**. Pokud nás našli zde na [GitHubu](https://github.com), možná již účet máte, ale pokud ne, založte si ho a potom si tento kurz naklonujte (forkněte) pro vlastní použití. (Klidně nám také dejte hvězdičku 😊) +- **Prozkoumejte Scikit-learn**. Seznamte se s [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), sadou knihoven pro ML, na které se v lekcích odkazujeme. --- ## Co je strojové učení? -Termín 'strojové učení' je jedním z nejpopulárnějších a nejčastěji používaných termínů dneška. Je pravděpodobné, že jste tento termín alespoň jednou slyšeli, pokud máte nějakou znalost technologie, bez ohledu na obor, ve kterém pracujete. Mechanika strojového učení je však pro většinu lidí záhadou. Pro začátečníka ve strojovém učení může být tento obor někdy ohromující. Proto je důležité pochopit, co strojové učení vlastně je, a učit se o něm krok za krokem, prostřednictvím praktických příkladů. +Termín „strojové učení“ je jedním z nejpopulárnějších a nejčastěji používaných termínů dneška. Existuje velká pravděpodobnost, že jste tento termín slyšeli alespoň jednou, pokud máte nějaké povědomí o technologii, ať už pracujete v jakékoli oblasti. Mechanika strojového učení je však pro většinu lidí záhadou. Pro začátečníka ve strojovém učení může být toto téma někdy ohromující. Proto je důležité pochopit, co vlastně strojové učení je, a učit se o něm krok za krokem prostřednictvím praktických příkladů. --- -## Křivka popularity +## Křivka hype -![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/cs/hype.07183d711a17aafe.webp) -> Google Trends ukazuje nedávnou 'křivku popularity' termínu 'strojové učení' +> Google Trends ukazuje aktuální 'hype křivku' termínu „strojové učení“ --- -## Záhadný vesmír +## Tajemný vesmír -Žijeme ve vesmíru plném fascinujících záhad. Velcí vědci jako Stephen Hawking, Albert Einstein a mnoho dalších zasvětili své životy hledání smysluplných informací, které odhalují tajemství světa kolem nás. To je lidská podstata učení: lidské dítě se učí nové věci a rok za rokem odhaluje strukturu svého světa, jak roste do dospělosti. +Žijeme ve vesmíru plném fascinujících tajemství. Velcí vědci jako Stephen Hawking, Albert Einstein a mnozí další věnovali svůj život hledání smysluplných informací, které odkrývají záhady světa kolem nás. To je lidský stav učení: lidské dítě se učí nové věci a odkrývá strukturu svého světa rok za rokem, jak roste do dospělosti. --- ## Mozek dítěte -Mozek dítěte a jeho smysly vnímají fakta svého okolí a postupně se učí skryté vzory života, které dítěti pomáhají vytvářet logická pravidla pro identifikaci naučených vzorů. Proces učení lidského mozku činí člověka nejsofistikovanějším živým tvorem na tomto světě. Neustálé učení objevováním skrytých vzorů a následné inovace na těchto vzorech nám umožňují se během života stále zlepšovat. Tato schopnost učení a evoluce souvisí s konceptem zvaným [plasticita mozku](https://www.simplypsychology.org/brain-plasticity.html). Povrchně můžeme najít určité motivační podobnosti mezi procesem učení lidského mozku a koncepty strojového učení. +Mozek dítěte a jeho smysly vnímají fakta svého okolí a postupně se učí skryté vzory života, které dítěti pomáhají vytvořit logická pravidla k rozpoznávání naučených vzorů. Proces učení lidského mozku dělá z lidí nejsložitější živý tvor na tomto světě. Neustálým učením se pomocí odhalování skrytých vzorů a jejich následnou inovací si můžeme v průběhu života stále zlepšovat sebe sama. Tato schopnost učení a vyvíjející se kapacita souvisí s konceptem nazývaným [plasticita mozku](https://www.simplypsychology.org/brain-plasticity.html). Povrchně lze najít některé motivační podobnosti mezi procesem učení lidského mozku a koncepty strojového učení. --- ## Lidský mozek -[Lidský mozek](https://www.livescience.com/29365-human-brain.html) vnímá věci z reálného světa, zpracovává vnímané informace, činí racionální rozhodnutí a provádí určité akce na základě okolností. To nazýváme inteligentním chováním. Když naprogramujeme napodobeninu procesu inteligentního chování do stroje, nazývá se to umělá inteligence (AI). +[Lidský mozek](https://www.livescience.com/29365-human-brain.html) vnímá věci ze skutečného světa, zpracovává získané informace, učiní racionální rozhodnutí a na základě okolností vykonává určité akce. Tomu říkáme inteligentní chování. Když naprogramujeme stroj, který napodobuje tento inteligentní proces chování, nazývá se to umělá inteligence (AI). --- -## Některé pojmy +## Některá terminologie -Ačkoli mohou být termíny zaměňovány, strojové učení (ML) je důležitou podmnožinou umělé inteligence. **ML se zabývá používáním specializovaných algoritmů k odhalování smysluplných informací a hledání skrytých vzorů z vnímaných dat, aby podpořilo proces racionálního rozhodování**. +Ačkoli se termíny mohou zaměňovat, strojové učení (ML) je důležitou podmnožinou umělé inteligence. **ML se zabývá používáním specializovaných algoritmů k odhalování smysluplných informací a nalezení skrytých vzorů v získaných datech na podporu racionálního rozhodovacího procesu**. --- ## AI, ML, hluboké učení -![AI, ML, hluboké učení, datová věda](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/cs/ai-ml-ds.537ea441b124ebf6.webp) > Diagram ukazující vztahy mezi AI, ML, hlubokým učením a datovou vědou. Infografika od [Jen Looper](https://twitter.com/jenlooper) inspirovaná [tímto grafem](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- -## Koncepty, které pokryjeme +## Koncepty k pokrytí -V tomto učebním plánu pokryjeme pouze základní koncepty strojového učení, které by měl začátečník znát. Zaměříme se na to, co nazýváme 'klasické strojové učení', především pomocí Scikit-learn, vynikající knihovny, kterou mnoho studentů používá k naučení základů. Pro pochopení širších konceptů umělé inteligence nebo hlubokého učení je nezbytné mít silné základní znalosti strojového učení, které bychom vám zde rádi nabídli. +V tomto kurikulu budeme pokrývat pouze základní koncepty strojového učení, které by měl začátečník znát. Pokryjeme to, co nazýváme „klasické strojové učení“, primárně pomocí Scikit-learn, vynikající knihovny, kterou mnoho studentů využívá k učení základů. Pro pochopení širších konceptů umělé inteligence nebo hlubokého učení je nezbytné mít pevné základy ve strojovém učení, a proto vám je chceme zde nabídnout. --- ## V tomto kurzu se naučíte: @@ -75,76 +75,83 @@ V tomto učebním plánu pokryjeme pouze základní koncepty strojového učení - základní koncepty strojového učení - historii ML - ML a spravedlnost -- techniky regresního ML -- techniky klasifikačního ML -- techniky shlukovacího ML -- techniky zpracování přirozeného jazyka v ML -- techniky předpovědi časových řad v ML +- regresní techniky ML +- klasifikační techniky ML +- shlukovací techniky ML +- techniky zpracování přirozeného jazyka ML +- techniky předpovědi časových řad ML - posilované učení - reálné aplikace ML --- -## Co nebudeme pokrývat +## Co nepokryjeme - hluboké učení - neuronové sítě - AI -Pro lepší zážitek z učení se vyhneme složitostem neuronových sítí, 'hlubokého učení' - modelování s mnoha vrstvami pomocí neuronových sítí - a AI, které probereme v jiném učebním plánu. Také nabídneme připravovaný učební plán datové vědy, který se zaměří na tento aspekt širšího oboru. +Pro lepší vzdělávací zážitek se vyhneme složitostem neuronových sítí, „hlubokému učení“ – vícevrsťovému modelování pomocí neuronových sítí – a AI, o kterých si povíme v jiném kurikulu. Také nabídneme budoucí kurikulum datové vědy, které se bude zaměřovat na tento aspekt širší oblasti. --- ## Proč studovat strojové učení? -Strojové učení je z pohledu systémů definováno jako tvorba automatizovaných systémů, které dokážou z dat učit skryté vzory, aby pomohly při inteligentním rozhodování. +Strojové učení je z pohledu systémů definováno jako tvorba automatizovaných systémů, které se dokážou naučit skryté vzory z dat, aby pomohly při inteligentním rozhodování. -Tato motivace je volně inspirována tím, jak lidský mozek učí určité věci na základě dat, která vnímá z okolního světa. +Tato motivace je volně inspirována tím, jak se lidský mozek učí určité věci na základě dat, která vnímá z vnějšího světa. -✅ Zamyslete se na chvíli, proč by firma chtěla použít strategie strojového učení místo vytvoření pevně zakódovaného systému založeného na pravidlech. +✅ Zamyslete se na chvíli, proč by firma chtěla používat strategie strojového učení místo vytváření pevně zakódovaného pravidlového systému. + +--- +## Proč záleží na kvalitě dat + +Kvalitní data zlepšují výkonnost modelu. Špatná nebo hlučná data mohou vést k nepřesným předpovědím, i když používáte pokročilé algoritmy strojového učení. --- ## Aplikace strojového učení -Aplikace strojového učení jsou nyní téměř všude a jsou stejně všudypřítomné jako data, která proudí kolem našich společností, generovaná našimi chytrými telefony, připojenými zařízeními a dalšími systémy. Vzhledem k obrovskému potenciálu nejmodernějších algoritmů strojového učení zkoumají vědci jejich schopnost řešit multidimenzionální a multidisciplinární problémy reálného života s velkými pozitivními výsledky. +Aplikace strojového učení jsou dnes téměř všude a jsou tak běžné jako data, která proudí naší společností, generovaná našimi chytrými telefony, připojenými zařízeními a dalšími systémy. S ohledem na obrovský potenciál špičkových algoritmů strojového učení zkoumají výzkumníci jejich schopnost řešit mnohorozměrné a multidisciplinární reálné problémy s pozitivními výsledky. --- ## Příklady aplikovaného ML -**Strojové učení můžete využít mnoha způsoby**: +**Strojové učení lze využít mnoha způsoby**: -- K předpovědi pravděpodobnosti onemocnění na základě lékařské historie nebo zpráv pacienta. -- K využití meteorologických dat pro předpověď počasí. -- K pochopení sentimentu textu. -- K detekci falešných zpráv, aby se zabránilo šíření propagandy. +- Predikovat pravděpodobnost nemoci z lékařské historie nebo zpráv pacienta. +- Využít data o počasí k předpovědi meteorologických jevů. +- Porozumět sentimentu textu. +- Detekovat falešné zprávy k zastavení šíření propagandy. -Finance, ekonomie, vědy o Zemi, průzkum vesmíru, biomedicínské inženýrství, kognitivní vědy a dokonce i obory v humanitních vědách adaptovaly strojové učení k řešení náročných problémů těžkých na zpracování dat ve svém oboru. +Finance, ekonomie, zemědělství, průzkum vesmíru, biomedicínské inženýrství, kognitivní věda a dokonce i humanitní obory si přizpůsobily strojové učení k řešení náročných, daty náročných problémů své oblasti. --- ## Závěr -Strojové učení automatizuje proces objevování vzorů tím, že nachází smysluplné poznatky z reálných nebo generovaných dat. Ukázalo se, že je vysoce hodnotné v obchodních, zdravotních a finančních aplikacích, mimo jiné. +Strojové učení automatizuje proces objevování vzorů tím, že nalézá smysluplné poznatky z reálných nebo generovaných dat. Ukázalo se, že je velmi cenné v obchodní, zdravotní a finanční oblasti, mimo jiné. -V blízké budoucnosti bude pochopení základů strojového učení nezbytné pro lidi z jakéhokoli oboru díky jeho širokému přijetí. +V nejbližší budoucnosti bude porozumění základům strojového učení nezbytností pro lidi z jakéhokoli oboru kvůli jeho širokému přijetí. --- # 🚀 Výzva -Nakreslete na papír nebo pomocí online aplikace jako [Excalidraw](https://excalidraw.com/) své pochopení rozdílů mezi AI, ML, hlubokým učením a datovou vědou. Přidejte některé nápady na problémy, které jsou každá z těchto technik dobré při řešení. +Náčrt, na papíře nebo pomocí online aplikace jako [Excalidraw](https://excalidraw.com/), vlastním porozuměním rozdílů mezi AI, ML, hlubokým učením a datovou vědou. Přidejte i nějaké nápady na problémy, které jsou tyto techniky dobré řešit. -# [Kvíz po lekci](https://ff-quizzes.netlify.app/en/ml/) +# [Po přednáškový kvíz](https://ff-quizzes.netlify.app/en/ml/) --- -# Přehled & Samostudium +# Recenze a samostudium -Chcete-li se dozvědět více o tom, jak můžete pracovat s algoritmy ML v cloudu, sledujte tento [učební plán](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +Chcete-li se naučit více o tom, jak pracovat s ML algoritmy v cloudu, sledujte tuto [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Absolvujte [učební plán](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) o základech ML. +Abyste se naučili základy ML, sledujte tento [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott). --- # Zadání -[Začněte](assignment.md) +[Začněte a spusťte se](assignment.md) --- -**Prohlášení**: -Tento dokument byl přeložen pomocí služby pro automatický překlad [Co-op Translator](https://github.com/Azure/co-op-translator). I když se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádná nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu. \ No newline at end of file + +**Prohlášení o omezení odpovědnosti**: +Tento dokument byl přeložen pomocí AI překladatelské služby [Co-op Translator](https://github.com/Azure/co-op-translator). Přestože usilujeme o co největší přesnost, mějte prosím na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Originální dokument v jeho mateřském jazyce by měl být považován za autoritativní zdroj. Pro kritické informace se doporučuje profesionální lidský překlad. Nejsme odpovědní za jakékoli nedorozumění nebo nesprávné interpretace vzniklé použitím tohoto překladu. + \ No newline at end of file diff --git a/translations/cs/5-Clustering/1-Visualize/README.md b/translations/cs/5-Clustering/1-Visualize/README.md index 21c429db0..2c69b0a73 100644 --- a/translations/cs/5-Clustering/1-Visualize/README.md +++ b/translations/cs/5-Clustering/1-Visualize/README.md @@ -1,106 +1,106 @@ # Úvod do shlukování -Shlukování je typ [učení bez učitele](https://wikipedia.org/wiki/Unsupervised_learning), který předpokládá, že dataset není označený nebo že jeho vstupy nejsou spárovány s předem definovanými výstupy. Používá různé algoritmy k třídění neoznačených dat a poskytuje skupiny na základě vzorců, které v datech rozpozná. +Shlukování je typ [učení bez učitele](https://wikipedia.org/wiki/Unsupervised_learning), které předpokládá, že dataset je neoznačený nebo že jeho vstupy nejsou párovány s předdefinovanými výstupy. Používá různé algoritmy k rozdělení neoznačených dat a vytvoření skupin podle vzorů, které v datech rozpozná. [![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Klikněte na obrázek výše pro video. Zatímco studujete strojové učení pomocí shlukování, užijte si nigerijské Dance Hall skladby – toto je vysoce hodnocená píseň z roku 2014 od PSquare. +> 🎥 Klikněte na obrázek výše pro video. Zatímco se učíte strojové učení pomocí shlukování, užijte si nigerijské dance hall skladby – toto je velmi vysoce hodnocená píseň z roku 2014 od PSquare. -## [Kvíz před přednáškou](https://ff-quizzes.netlify.app/en/ml/) +## [Přednáškový kvíz](https://ff-quizzes.netlify.app/en/ml/) ### Úvod -[Shlukování](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) je velmi užitečné pro průzkum dat. Podívejme se, zda nám může pomoci objevit trendy a vzorce ve způsobu, jakým nigerijské publikum konzumuje hudbu. +[Shlukování](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) je velmi užitečné pro průzkum dat. Podívejme se, zda může pomoci odhalit trendy a vzory v tom, jak nigerijské publikum konzumuje hudbu. -✅ Udělejte si chvíli na zamyšlení nad využitím shlukování. V reálném životě dochází ke shlukování pokaždé, když máte hromadu prádla a potřebujete roztřídit oblečení členů rodiny 🧦👕👖🩲. V datové vědě dochází ke shlukování při analýze uživatelských preferencí nebo při určování charakteristik jakéhokoli neoznačeného datasetu. Shlukování do jisté míry pomáhá dát chaosu smysl, jako například zásuvce na ponožky. +✅ Věnujte minutu přemýšlení o využití shlukování. V reálném životě shlukování nastává, kdykoli máte hromadu prádla a potřebujete roztřídit oblečení členů rodiny 🧦👕👖🩲. Ve světě datové vědy se shlukování používá při analýze preferencí uživatele nebo při určování charakteristik jakéhokoli neoznačeného datasetu. Shlukování tak trochu pomáhá dát smysl chaosu, jako zásuvka na ponožky. -[![Úvod do ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Úvod do shlukování") +[![Introdukce do ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") -> 🎥 Klikněte na obrázek výše pro video: John Guttag z MIT představuje shlukování. +> 🎥 Klikněte na obrázek výše pro video: John Guttag z MIT představuje shlukování -V profesionálním prostředí může být shlukování použito k určení věcí, jako je segmentace trhu, například k určení, jaké věkové skupiny kupují jaké položky. Dalším využitím by bylo odhalování anomálií, například k detekci podvodů z datasetu transakcí kreditními kartami. Nebo můžete použít shlukování k určení nádorů v dávce lékařských skenů. +V profesionálním prostředí lze shlukování využít k určení věkových skupin, které kupují jaké zboží například na segmentaci trhu. Dalším využitím může být detekce anomálií, třeba odhalení podvodu v datasetu transakcí kreditní kartou. Nebo byste mohli použít shlukování k rozpoznání nádorů ve skupině lékařských snímků. -✅ Zamyslete se chvíli nad tím, jak jste se mohli setkat se shlukováním „v divočině“, například v bankovnictví, e-commerce nebo obchodním prostředí. +✅ Zamyslete se chvíli, kdy jste se mohli setkat se shlukováním "v terénu", v bankovnictví, e-commerce nebo v podnikání. -> 🎓 Zajímavé je, že analýza shluků vznikla v oborech antropologie a psychologie ve 30. letech 20. století. Dokážete si představit, jak mohla být použita? +> 🎓 Zajímavé je, že analýza shluků pochází z antropologie a psychologie ze 30. let 20. století. Dokážete si představit, jak byla tehdy využívána? -Alternativně ji můžete použít ke skupinování výsledků vyhledávání – například podle nákupních odkazů, obrázků nebo recenzí. Shlukování je užitečné, když máte velký dataset, který chcete zmenšit a na kterém chcete provést podrobnější analýzu, takže tato technika může být použita k poznání dat před vytvořením dalších modelů. +Alternativně ji můžete použít ke skupinovému seskupení výsledků vyhledávání – například podle nákupních odkazů, obrázků či recenzí. Shlukování je užitečné, pokud máte velký dataset, který chcete zjednodušit a na kterém chcete provést podrobnější analýzu, takže tuto techniku lze použít k pochopení dat dříve, než se vytvoří jiné modely. -✅ Jakmile jsou vaše data organizována do shluků, přiřadíte jim ID shluku, a tato technika může být užitečná při zachování soukromí datasetu; místo toho můžete odkazovat na datový bod podle jeho ID shluku, spíše než podle více odhalujících identifikovatelných dat. Dokážete si představit další důvody, proč byste odkazovali na ID shluku spíše než na jiné prvky shluku k jeho identifikaci? +✅ Jakmile máte data uspořádaná ve shlucích, přiřadíte jim ID shluku a tato technika může být užitečná při uchovávání soukromí datasetu; místo konkrétního bodu dat můžete odkazovat na jeho ID shluku, nikoli na více odhalující identifikovatelná data. Napadá vás nějaký jiný důvod, proč byste raději odkazovali na ID shluku než na jiné prvky shluku k jeho identifikaci? -Prohlubte své znalosti technik shlukování v tomto [výukovém modulu](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott). +Prohlubte své znalosti o technikách shlukování v tomto [Learn modulu](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott). ## Začínáme se shlukováním -[Scikit-learn nabízí širokou škálu](https://scikit-learn.org/stable/modules/clustering.html) metod pro provádění shlukování. Typ, který si vyberete, bude záviset na vašem konkrétním případu použití. Podle dokumentace má každá metoda různé výhody. Zde je zjednodušená tabulka metod podporovaných Scikit-learn a jejich vhodných případů použití: - -| Název metody | Případ použití | -| :--------------------------- | :-------------------------------------------------------------------- | -| K-Means | obecné použití, induktivní | -| Affinity propagation | mnoho, nerovnoměrné shluky, induktivní | -| Mean-shift | mnoho, nerovnoměrné shluky, induktivní | -| Spectral clustering | málo, rovnoměrné shluky, transduktivní | -| Ward hierarchical clustering | mnoho, omezené shluky, transduktivní | -| Agglomerative clustering | mnoho, omezené, ne Euklidovské vzdálenosti, transduktivní | -| DBSCAN | neplochá geometrie, nerovnoměrné shluky, transduktivní | -| OPTICS | neplochá geometrie, nerovnoměrné shluky s proměnlivou hustotou, transduktivní | -| Gaussian mixtures | plochá geometrie, induktivní | -| BIRCH | velký dataset s odlehlými hodnotami, induktivní | - -> 🎓 Jak vytváříme shluky, má hodně společného s tím, jak seskupujeme datové body do skupin. Pojďme si rozebrat některé pojmy: +[Scikit-learn nabízí širokou škálu](https://scikit-learn.org/stable/modules/clustering.html) metod pro provádění shlukování. Typ, který zvolíte, závisí na vašem použití. Podle dokumentace má každá metoda různé výhody. Zde je zjednodušená tabulka metod podporovaných Scikit-learnem a jejich vhodné použití: + +| Název metody | Použití | +| :--------------------------- | :------------------------------------------------------------------- | +| K-Means | obecné použití, induktivní | +| Affinity propagation | mnoho, nerovnoměrné shluky, induktivní | +| Mean-shift | mnoho, nerovnoměrné shluky, induktivní | +| Spektrální shlukování | málo, rovnoměrné shluky, transduktivní | +| Wardovo hierarchické shlukování | mnoho, omezené shluky, transduktivní | +| Agglomerativní shlukování | mnoho, omezené, ne-Eukleidovské vzdálenosti, transduktivní | +| DBSCAN | neplochá geometrie, nerovnoměrné shluky, transduktivní | +| OPTICS | neplochá geometrie, nerovnoměrné shluky s proměnnou hustotou, transduktivní | +| Gaussian mixtures | plochá geometrie, induktivní | +| BIRCH | velký dataset s odlehlými hodnotami, induktivní | + +> 🎓 Jak vytváříme shluky, hodně souvisí s tím, jak shromažďujeme datové body do skupin. Pojďme rozebrat slovní zásobu: > > 🎓 ['Transduktivní' vs. 'induktivní'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> Transduktivní inference je odvozena z pozorovaných tréninkových případů, které se mapují na konkrétní testovací případy. Induktivní inference je odvozena z tréninkových případů, které se mapují na obecná pravidla, která jsou teprve poté aplikována na testovací případy. +> Transduktivní inferenci získáváme z pozorovaných tréninkových případů, které odpovídají konkrétním testovacím případům. Induktivní inference vychází z tréninkových případů, které vedou k obecným pravidlům, jež jsou pak aplikována na testovací případy. > -> Příklad: Představte si, že máte dataset, který je pouze částečně označený. Některé věci jsou „desky“, některé „CD“ a některé jsou prázdné. Vaším úkolem je poskytnout štítky pro prázdné položky. Pokud zvolíte induktivní přístup, vytrénujete model hledající „desky“ a „CD“ a aplikujete tyto štítky na neoznačená data. Tento přístup bude mít problém klasifikovat věci, které jsou ve skutečnosti „kazety“. Transduktivní přístup na druhé straně zvládá tato neznámá data efektivněji, protože pracuje na seskupení podobných položek dohromady a poté aplikuje štítek na skupinu. V tomto případě mohou shluky odrážet „kulaté hudební věci“ a „čtvercové hudební věci“. +> Příklad: Představte si, že máte dataset, který je pouze částečně označený. Některá data jsou 'desky', některá 'CD' a některá jsou prázdná. Vaším úkolem je přiřadit štítky prázdným položkám. Pokud zvolíte induktivní přístup, vytrénujete model na hledání 'desek' a 'CD' a tyto štítky aplikujete na neoznačená data. Tento přístup bude mít potíže klasifikovat věci, které jsou ve skutečnosti 'kazety'. Transduktivní přístup naopak efektivněji pracuje s neznámými daty, protože se snaží seskupit podobné položky a poté přiřadit označení skupině. V tomto případě by shluky mohly reflektovat „kulaté hudební věci“ a „čtvercové hudební věci“. > > 🎓 ['Neplochá' vs. 'plochá' geometrie](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> Odvozeno z matematické terminologie, neplochá vs. plochá geometrie se týká měření vzdáleností mezi body buď „plochými“ ([Euklidovskými](https://wikipedia.org/wiki/Euclidean_geometry)) nebo „neplochými“ (ne-Euklidovskými) geometrickými metodami. +> Původ v matematické terminologii, neplochá vs. plochá geometrie se týká měření vzdáleností mezi body pomocí buď 'plochých' ([Eukleidovských](https://wikipedia.org/wiki/Euclidean_geometry)) nebo 'neplochých' (ne-Eukleidovských) geometrických metod. > -> 'Plochá' v tomto kontextu odkazuje na Euklidovskou geometrii (části z ní se učí jako „rovinná“ geometrie) a neplochá odkazuje na ne-Euklidovskou geometrii. Co má geometrie společného se strojovým učením? Jako dvě oblasti, které jsou zakořeněny v matematice, musí existovat společný způsob měření vzdáleností mezi body ve shlucích, a to lze provést „plochým“ nebo „neplochým“ způsobem, v závislosti na povaze dat. [Euklidovské vzdálenosti](https://wikipedia.org/wiki/Euclidean_distance) se měří jako délka úsečky mezi dvěma body. [Ne-Euklidovské vzdálenosti](https://wikipedia.org/wiki/Non-Euclidean_geometry) se měří podél křivky. Pokud se vaše data, vizualizovaná, zdají neexistovat na rovině, možná budete potřebovat použít specializovaný algoritmus k jejich zpracování. +> 'Plochá' zde znamená Eukleidovskou geometrii (její část je vyučována jako 'rovinná' geometrie), zatímco neplochá označuje ne-Eukleidovskou geometrii. Co má geometrie společného se strojovým učením? Jako obory založené na matematice je potřeba mít společný způsob měření vzdáleností mezi body ve shlucích, což lze provést plochým nebo neplochým způsobem v závislosti na povaze dat. [Eukleidovské vzdálenosti](https://wikipedia.org/wiki/Euclidean_distance) se měří jako délka úseku mezi dvěma body. [Ne-Eukleidovské vzdálenosti](https://wikipedia.org/wiki/Non-Euclidean_geometry) se měří podél křivky. Pokud vaše data vizualizovaná nevypadají, že by byla na rovině, budete možná potřebovat speciální algoritmus, který s tím pracuje. > -![Infografika ploché vs. neploché geometrie](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) +![Flat vs Nonflat Geometry Infographic](../../../../translated_images/cs/flat-nonflat.d1c8c6e2a96110c1.webp) > Infografika od [Dasani Madipalli](https://twitter.com/dasani_decoded) > > 🎓 ['Vzdálenosti'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> Shluky jsou definovány svou maticí vzdáleností, tj. vzdálenostmi mezi body. Tato vzdálenost může být měřena několika způsoby. Euklidovské shluky jsou definovány průměrem hodnot bodů a obsahují „centroid“ nebo středový bod. Vzdálenosti jsou tedy měřeny podle vzdálenosti k tomuto centroidu. Ne-Euklidovské vzdálenosti odkazují na „clustroidy“, bod nejbližší ostatním bodům. Clustroidy mohou být definovány různými způsoby. +> Shluky jsou definovány jejich maticí vzdáleností, tj. vzdálenostmi mezi body. Tato vzdálenost může být měřena různými způsoby. Eukleidovské shluky jsou definovány průměrem hodnot bodů a obsahují 'centroid' neboli středový bod. Vzdálenosti se pak měří k tomuto centroidu. Ne-Eukleidovské vzdálenosti označují 'klustroidy', body nejbližší ostatním bodům. Klustroidy mohou být definovány různými způsoby. > > 🎓 ['Omezené'](https://wikipedia.org/wiki/Constrained_clustering) > -> [Omezené shlukování](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) zavádí „semi-supervised“ učení do této metody bez učitele. Vztahy mezi body jsou označeny jako „nelze propojit“ nebo „musí být propojeno“, takže na dataset jsou vynucena určitá pravidla. +> [Omezené shlukování](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) zavádí do této metody učení bez učitele „polodohledové“ učení. Vztahy mezi body jsou označeny jako 'nelze spojit' nebo 'musí být spojeny', takže jsou do datasetu vynucena určitá pravidla. > -> Příklad: Pokud je algoritmus volně spuštěn na dávce neoznačených nebo částečně označených dat, shluky, které vytvoří, mohou být nekvalitní. V příkladu výše mohou shluky seskupovat „kulaté hudební věci“ a „čtvercové hudební věci“ a „trojúhelníkové věci“ a „sušenky“. Pokud jsou dána nějaká omezení nebo pravidla, která je třeba dodržovat („položka musí být vyrobena z plastu“, „položka musí být schopna produkovat hudbu“), může to pomoci „omezit“ algoritmus, aby dělal lepší volby. +> Příklad: Pokud je algoritmus spuštěn na neoznačených či poloznačených datech bez omezení, může produkovat shluky nízké kvality. Ve výše uvedeném příkladu by shluky mohly skupovat 'kulaté hudební věci' a 'čtvercové hudební věci' a 'trojúhelníkové věci' a 'sušenky'. Pokud jsou ale dána omezení či pravidla („položka musí být z plastu“, „položka musí umět vydávat hudbu“), pomáhá to algoritmu dělat lepší volby. > > 🎓 'Hustota' > -> Data, která jsou „šumová“, jsou považována za „hustá“. Vzdálenosti mezi body v každém z jeho shluků mohou při zkoumání být více či méně husté, nebo „přeplněné“, a proto je třeba tato data analyzovat pomocí vhodné metody shlukování. [Tento článek](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) ukazuje rozdíl mezi použitím K-Means shlukování vs. HDBSCAN algoritmů k průzkumu šumového datasetu s nerovnoměrnou hustotou shluků. +> Data, která jsou 'hluková', jsou považována za 'hustá'. Vzdálenosti mezi body v každém shluku mohou být po zkoumání více či méně husté, tedy „přeplněné“, a proto je třeba data analyzovat vhodnou metodou shlukování. [Tento článek](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) demonstruje rozdíl mezi použitím K-Means shlukování versus HDBSCAN algoritmy k prozkoumání hlučného datasetu s nerovnoměrnou hustotou shluků. ## Algoritmy shlukování -Existuje více než 100 algoritmů shlukování a jejich použití závisí na povaze dat. Pojďme si probrat některé z hlavních: +Existuje přes 100 algoritmů shlukování a jejich použití závisí na povaze dostupných dat. Pojďme probrat některé z hlavních: -- **Hierarchické shlukování**. Pokud je objekt klasifikován podle své blízkosti k blízkému objektu, spíše než k vzdálenějšímu, shluky jsou tvořeny na základě vzdálenosti jejich členů k ostatním objektům. Hierarchické shlukování Scikit-learn je hierarchické. +- **Hierarchické shlukování**. Pokud je objekt klasifikován podle blízkosti k sousednímu objektu spíše než k vzdálenějšímu, shluky jsou tvořeny podle vzdáleností svých členů k ostatním objektům. Agglomerativní shlukování ve Scikit-learn je hierarchické. - ![Infografika hierarchického shlukování](../../../../5-Clustering/1-Visualize/images/hierarchical.png) + ![Hierarchical clustering Infographic](../../../../translated_images/cs/hierarchical.bf59403aa43c8c47.webp) > Infografika od [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Shlukování podle centroidu**. Tento populární algoritmus vyžaduje volbu „k“, nebo počet shluků, které se mají vytvořit, po čemž algoritmus určí středový bod shluku a seskupí data kolem tohoto bodu. [K-means shlukování](https://wikipedia.org/wiki/K-means_clustering) je populární verzí shlukování podle centroidu. Střed je určen podle nejbližšího průměru, odtud název. Čtvercová vzdálenost od shluku je minimalizována. +- **Centroidové shlukování**. Tento populární algoritmus vyžaduje volbu 'k', tedy počtu shluků, které se mají vytvořit, poté algoritmus určí středový bod shluku a shromažďuje data kolem tohoto bodu. [K-means shlukování](https://wikipedia.org/wiki/K-means_clustering) je oblíbenou variantou centroidového shlukování. Střed se určuje podle nejbližšího průměru, což vysvětluje název. Čtvercová vzdálenost od shluku je minimalizována. - ![Infografika shlukování podle centroidu](../../../../5-Clustering/1-Visualize/images/centroid.png) + ![Centroid clustering Infographic](../../../../translated_images/cs/centroid.097fde836cf6c918.webp) > Infografika od [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Shlukování založené na distribuci**. Založené na statistickém modelování, shlukování založené na distribuci se zaměřuje na určení pravděpodobnosti, že datový bod patří do shluku, a jeho přiřazení odpovídajícím způsobem. Metody Gaussovské směsi patří do tohoto typu. +- **Shlukování založené na rozdělení**. Zakládá se na statistickém modelování, kdy se určuje pravděpodobnost, že datový bod patří do určitého shluku, a tomuto shluku se přiřadí. Metody Gaussovské směsi patří do tohoto typu. -- **Shlukování založené na hustotě**. Datové body jsou přiřazeny do shluků na základě jejich hustoty, nebo jejich seskupení kolem sebe. Datové body vzdálené od skupiny jsou považovány za odlehlé hodnoty nebo šum. DBSCAN, Mean-shift a OPTICS patří do tohoto typu shlukování. +- **Shlukování založené na hustotě**. Datové body jsou přiřazovány ke shlukům podle hustoty, tj. podle jejich vzájemného seskupení. Body vzdálené od skupiny jsou považovány za odlehlé hodnoty nebo šum. Do tohoto typu patří DBSCAN, Mean-shift a OPTICS. -- **Shlukování založené na mřížce**. Pro vícerozměrné datasety je vytvořena mřížka a data jsou rozdělena mezi buňky mřížky, čímž se vytvářejí shluky. +- **Mřížkové shlukování**. Pro vícerozměrné datasety se vytvoří mřížka a data se rozdělí mezi buňky mřížky, čímž vznikají shluky. -## Cvičení – shlukujte svá data +## Cvičení – seskupte svá data -Shlukování jako technika je velmi podporováno správnou vizualizací, takže začněme vizualizací našich hudebních dat. Toto cvičení nám pomůže rozhodnout, kterou z metod shlukování bychom měli nejefektivněji použít pro povahu těchto dat. +Shlukování jako technika je velmi usnadněno vhodnou vizualizací, tak pojďme začít vizualizováním našich hudebních dat. Toto cvičení nám pomůže rozhodnout, kterou metodu shlukování by bylo pro charakter dat nejefektivnější použít. 1. Otevřete soubor [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) v této složce. @@ -110,7 +110,7 @@ Shlukování jako technika je velmi podporováno správnou vizualizací, takže !pip install seaborn ``` -1. Připojte data písní ze souboru [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Načtěte dataframe s některými daty o písních. Připravte se na průzkum těchto dat importováním knihoven a vypsáním dat: +1. Připojte údaje o písních z [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Načtěte dataframe s údaji o písních. Připravte se prozkoumat data importem knihoven a vypsáním dat: ```python import matplotlib.pyplot as plt @@ -120,17 +120,17 @@ Shlukování jako technika je velmi podporováno správnou vizualizací, takže df.head() ``` - Zkontrolujte prvních pár řádků dat: + Zkontrolujte prvních několik řádků dat: - | | název | album | umělec | hlavní žánr umělce | datum vydání | délka | popularita | tanečnost | akustičnost | energie | instrumentálnost | živost | hlasitost | mluvnost | tempo | takt | - | --- | ----------------------- | ---------------------------- | ------------------- | ------------------ | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | --------- | ----------- | ------- | -------------- | - | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternativní r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | - | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | + | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Získejte informace o datovém rámci pomocí volání `info()`: +1. Získejte nějaké informace o dataframe, zavoláním `info()`: ```python df.info() @@ -164,13 +164,13 @@ Shlukování jako technika je velmi podporováno správnou vizualizací, takže memory usage: 66.4+ KB ``` -1. Zkontrolujte, zda neobsahuje nulové hodnoty, pomocí volání `isnull()` a ověření, že součet je 0: +1. Dvojitě zkontrolujte hodnoty null, zavoláním `isnull()` a ověřte, že součet je 0: ```python df.isnull().sum() ``` - Vypadá dobře: + Vypadá to dobře: ```output name 0 @@ -209,11 +209,11 @@ Shlukování jako technika je velmi podporováno správnou vizualizací, takže | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Pokud pracujeme s clusteringem, což je metoda bez dohledu, která nevyžaduje označená data, proč ukazujeme tato data s popisky? Ve fázi průzkumu dat jsou užitečné, ale pro fungování algoritmů clusteringu nejsou nezbytné. Klidně byste mohli odstranit záhlaví sloupců a odkazovat na data podle čísla sloupce. +> 🤔 Pokud pracujeme s shlukováním, neřízenou metodou, která nevyžaduje označená data, proč ukazujeme tato data s popisky? Ve fázi průzkumu dat jsou užitečná, ale nejsou nezbytná pro fungování shlukovacích algoritmů. Můžete také jednoduše odstranit záhlaví sloupců a odkazovat se na data podle čísla sloupce. -Podívejte se na obecné hodnoty dat. Všimněte si, že popularita může být '0', což ukazuje na skladby, které nemají žádné hodnocení. Tyto skladby brzy odstraníme. +Podívejte se na obecné hodnoty dat. Všimněte si, že popularita může být '0', což ukazuje písně, které nemají hodnocení. Tyto brzy odstraníme. -1. Použijte barplot k zjištění nejpopulárnějších žánrů: +1. Použijte barplot k zjištění nejoblíbenějších žánrů: ```python import seaborn as sns @@ -225,13 +225,13 @@ Podívejte se na obecné hodnoty dat. Všimněte si, že popularita může být plt.title('Top genres',color = 'blue') ``` - ![nejpopulárnější](../../../../5-Clustering/1-Visualize/images/popular.png) + ![most popular](../../../../translated_images/cs/popular.9c48d84b3386705f.webp) -✅ Pokud chcete vidět více nejlepších hodnot, změňte top `[:5]` na větší hodnotu nebo ji odstraňte, abyste viděli vše. +✅ Pokud chcete vidět více nejlepších hodnot, změňte horní `[:5]` na větší hodnotu, nebo jej odstraňte pro zobrazení všech. -Všimněte si, že když je nejpopulárnější žánr označen jako 'Missing', znamená to, že Spotify jej neklasifikoval, takže ho odstraníme. +Poznámka, když je nejvyšší žánr označen jako 'Missing', znamená to, že Spotify ho neklasifikoval, takže se ho zbavme. -1. Odstraňte chybějící data jejich filtrováním: +1. Zbavte se chybějících dat jejich filtrováním ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -244,9 +244,9 @@ Všimněte si, že když je nejpopulárnější žánr označen jako 'Missing', Nyní znovu zkontrolujte žánry: - ![nejpopulárnější](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![most popular](../../../../translated_images/cs/all-genres.1d56ef06cefbfcd6.webp) -1. Tři nejpopulárnější žánry jednoznačně dominují tomuto datovému souboru. Zaměřme se na `afro dancehall`, `afropop` a `nigerian pop`, a navíc filtrujme datový soubor tak, aby odstranil vše s hodnotou popularity 0 (což znamená, že nebylo klasifikováno s popularitou v datovém souboru a může být považováno za šum pro naše účely): +1. Zdaleka dominují tomuto datasetu tři hlavní žánry. Zaměřme se na `afro dancehall`, `afropop` a `nigerian pop`, navíc odfiltrujeme dataset, abychom odstranili cokoli s hodnotou popularity 0 (to znamená, že nebyl v datasetu zařazen do hodnocení popularity a může být pro naše účely považován za šum): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +258,7 @@ Všimněte si, že když je nejpopulárnější žánr označen jako 'Missing', plt.title('Top genres',color = 'blue') ``` -1. Proveďte rychlý test, zda data korelují nějakým zvlášť silným způsobem: +1. Proveďte rychlý test, zda data nějak zvlášť silně korelují: ```python corrmat = df.corr(numeric_only=True) @@ -266,21 +266,21 @@ Všimněte si, že když je nejpopulárnější žánr označen jako 'Missing', sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![korelace](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlations](../../../../translated_images/cs/correlation.a9356bb798f5eea5.webp) - Jediná silná korelace je mezi `energy` a `loudness`, což není příliš překvapivé, protože hlasitá hudba je obvykle dost energická. Jinak jsou korelace poměrně slabé. Bude zajímavé vidět, co si algoritmus clusteringu z těchto dat odvodí. + Jediná silná korelace je mezi `energy` a `loudness`, což není příliš překvapivé, protože hlasitá hudba je obvykle docela energická. Jinak jsou korelace relativně slabé. Bude zajímavé sledovat, co z těchto dat vytvoří shlukovací algoritmus. - > 🎓 Všimněte si, že korelace neimplikuje kauzalitu! Máme důkaz korelace, ale žádný důkaz kauzality. [Zábavná webová stránka](https://tylervigen.com/spurious-correlations) obsahuje vizualizace, které tento bod zdůrazňují. + > 🎓 Upozorňujeme, že korelace neznamená kauzalitu! Máme důkaz korelace, ale ne důkaz příčinné souvislosti. [Zábavná webová stránka](https://tylervigen.com/spurious-correlations) obsahuje vizualizace, které tento bod zdůrazňují. -Existuje v tomto datovém souboru nějaká konvergence kolem vnímané popularity skladby a její tanečnosti? FacetGrid ukazuje, že existují soustředné kruhy, které se zarovnávají bez ohledu na žánr. Mohlo by to být tak, že nigerijské chutě se sbíhají na určité úrovni tanečnosti pro tento žánr? +Existuje v tomto datasetu nějaká konvergence mezi vnímanou popularitou písně a tanečností? FacetGrid ukazuje, že se vytvářejí soustředné kruhy, a to bez ohledu na žánr. Může to být, že nigerijské chutě se sblíží na určité úrovni tanečnosti pro tento žánr? -✅ Vyzkoušejte různé datové body (energy, loudness, speechiness) a více nebo jiné hudební žánry. Co můžete objevit? Podívejte se na tabulku `df.describe()` a zjistěte obecné rozložení datových bodů. +✅ Vyzkoušejte různé datové body (energy, loudness, speechiness) a více nebo jiné hudební žánry. Co můžete objevit? Podívejte se do tabulky `df.describe()`, abyste viděli obecné rozložení datových bodů. ### Cvičení - rozložení dat -Jsou tyto tři žánry významně odlišné ve vnímání jejich tanečnosti na základě jejich popularity? +Jsou tyto tři žánry významně odlišné ve vnímání své tanečnosti, na základě jejich popularity? -1. Prozkoumejte rozložení dat našich tří nejlepších žánrů pro popularitu a tanečnost podél dané osy x a y. +1. Prozkoumejte rozložení dat našich tří hlavních žánrů podle popularity a tanečnosti podél os x a y. ```python sns.set_theme(style="ticks") @@ -292,13 +292,13 @@ Jsou tyto tři žánry významně odlišné ve vnímání jejich tanečnosti na ) ``` - Můžete objevit soustředné kruhy kolem obecného bodu konvergence, které ukazují rozložení bodů. + Můžete objevit soustředné kruhy kolem obecného bodu konvergence, ukazující rozložení bodů. - > 🎓 Všimněte si, že tento příklad používá graf KDE (Kernel Density Estimate), který reprezentuje data pomocí kontinuální křivky hustoty pravděpodobnosti. To nám umožňuje interpretovat data při práci s více rozloženími. + > 🎓 Upozorňujeme, že tento příklad používá graf KDE (Kernel Density Estimate), který reprezentuje data pomocí spojité křivky pravděpodobnostní hustoty. To nám umožňuje interpretovat data při práci s více rozděleními. - Obecně se tři žánry volně zarovnávají z hlediska jejich popularity a tanečnosti. Určení clusterů v těchto volně zarovnaných datech bude výzvou: + Obecně se tři žánry volně shodují, pokud jde o jejich popularitu a tanečnost. Určení shluků v těchto volně se překrývajících datech bude výzvou: - ![rozložení](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribution](../../../../translated_images/cs/distribution.9be11df42356ca95.webp) 1. Vytvořte scatter plot: @@ -308,31 +308,33 @@ Jsou tyto tři žánry významně odlišné ve vnímání jejich tanečnosti na .add_legend() ``` - Scatter plot stejných os ukazuje podobný vzor konvergence. + Scatterplot stejných os ukazuje podobný vzor konvergence - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/cs/facetgrid.9b2e65ce707eba1f.webp) -Obecně platí, že pro clustering můžete použít scatter ploty k zobrazení clusterů dat, takže zvládnutí tohoto typu vizualizace je velmi užitečné. V další lekci vezmeme tato filtrovaná data a použijeme k-means clustering k objevení skupin v těchto datech, které se zajímavým způsobem překrývají. +Obecně lze pro shlukování použít scatterploty k zobrazení shluků dat, proto je zvládnutí tohoto typu vizualizace velmi užitečné. V příští lekci použijeme tento filtrovaný dataset a aplikujeme k-means shlukování, abychom objevili skupiny v těchto datech, které se zdají zajímavě překrývat. --- ## 🚀Výzva -V rámci přípravy na další lekci vytvořte graf o různých algoritmech clusteringu, které můžete objevit a použít v produkčním prostředí. Jaké typy problémů se clustering snaží řešit? +Na přípravu na další lekci vytvořte graf o různých shlukovacích algoritmech, které můžete objevit a použít v produkčním prostředí. Jaké problémy se shlukování snaží řešit? -## [Kvíz po přednášce](https://ff-quizzes.netlify.app/en/ml/) +## [Kvíz po lekci](https://ff-quizzes.netlify.app/en/ml/) -## Přehled & Samostudium +## Revize a samostudium -Než použijete algoritmy clusteringu, jak jsme se naučili, je dobré pochopit povahu vašeho datového souboru. Přečtěte si více na toto téma [zde](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Než použijete shlukovací algoritmy, jak jsme se naučili, je dobré pochopit povahu vašeho datasetu. Více na toto téma si přečtěte [zde](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html). -[Tento užitečný článek](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) vás provede různými způsoby, jak se různé algoritmy clusteringu chovají vzhledem k různým tvarům dat. +[Tento užitečný článek](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) vás provede různými způsoby chování shlukovacích algoritmů při různých tvarech dat. -## Úkol +## Zadání -[Prozkoumejte další vizualizace pro clustering](assignment.md) +[Prozkoumejte další vizualizace pro shlukování](assignment.md) --- -**Prohlášení**: -Tento dokument byl přeložen pomocí služby pro automatický překlad [Co-op Translator](https://github.com/Azure/co-op-translator). I když se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádná nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu. \ No newline at end of file + +**Prohlášení o omezení odpovědnosti**: +Tento dokument byl přeložen pomocí AI překladatelské služby [Co-op Translator](https://github.com/Azure/co-op-translator). Přestože usilujeme o co největší přesnost, mějte prosím na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Originální dokument v jeho mateřském jazyce by měl být považován za autoritativní zdroj. Pro kritické informace se doporučuje profesionální lidský překlad. Nejsme odpovědní za jakékoli nedorozumění nebo nesprávné interpretace vzniklé použitím tohoto překladu. + \ No newline at end of file diff --git a/translations/hu/.co-op-translator.json b/translations/hu/.co-op-translator.json index 47a5892e8..fac84676b 100644 --- a/translations/hu/.co-op-translator.json +++ b/translations/hu/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-05T16:06:36+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:43:04+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "hu" }, @@ -240,8 +240,8 @@ "language_code": "hu" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-05T15:41:05+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:42:35+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "hu" }, diff --git a/translations/hu/1-Introduction/1-intro-to-ML/README.md b/translations/hu/1-Introduction/1-intro-to-ML/README.md index 4e26b8f0c..bc4333e61 100644 --- a/translations/hu/1-Introduction/1-intro-to-ML/README.md +++ b/translations/hu/1-Introduction/1-intro-to-ML/README.md @@ -4,147 +4,154 @@ --- -[![Gépi tanulás kezdőknek - Bevezetés a gépi tanulásba](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "Gépi tanulás kezdőknek - Bevezetés a gépi tanulásba") +[![ML kezdőknek - Bevezetés a gépi tanulásba kezdőknek](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML kezdőknek - Bevezetés a gépi tanulásba kezdőknek") -> 🎥 Kattints a fenti képre egy rövid videóért, amely bemutatja ezt a leckét. +> 🎥 Kattints a fenti képre egy rövid videó megtekintéséhez, amely ezen az órán dolgozik. -Üdvözlünk ezen a kezdőknek szóló klasszikus gépi tanulás kurzuson! Akár teljesen új vagy a témában, akár tapasztalt ML szakemberként szeretnéd felfrissíteni tudásodat, örülünk, hogy csatlakoztál hozzánk! Célunk, hogy barátságos kiindulópontot biztosítsunk a gépi tanulás tanulmányozásához, és szívesen fogadjuk, értékeljük, valamint beépítjük [visszajelzéseidet](https://github.com/microsoft/ML-For-Beginners/discussions). +Üdvözlünk ezen a klasszikus gépi tanulással foglalkozó kezdő tanfolyamon! Akár teljesen új vagy a témában, akár tapasztalt ML-gyakorló, aki egy területet szeretne felfrissíteni, örülünk, hogy csatlakoztál hozzánk! Barátságos kiindulópontot szeretnénk teremteni a gépi tanulás tanulmányozásához, és örömmel értékeljük, válaszolunk, valamint beépítjük az [visszajelzésedet](https://github.com/microsoft/ML-For-Beginners/discussions). [![Bevezetés a gépi tanulásba](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Bevezetés a gépi tanulásba") -> 🎥 Kattints a fenti képre egy videóért: MIT John Guttag bemutatja a gépi tanulást +> 🎥 Kattints a fenti képre egy videó megtekintéséhez: John Guttag az MIT-ről bemutatja a gépi tanulást --- -## Első lépések a gépi tanulásban +## Gépi tanulás kezdőknek -Mielőtt elkezdenéd ezt a tananyagot, győződj meg róla, hogy számítógéped készen áll a notebookok helyi futtatására. +Mielőtt elkezdenéd ezt a tananyagot, be kell állítanod a számítógépedet, hogy képes legyen helyben futtatni a jegyzetfüzeteket. -- **Állítsd be a gépedet ezekkel a videókkal**. Használd az alábbi linkeket, hogy megtanuld [hogyan telepítsd a Python-t](https://youtu.be/CXZYvNRIAKM) a rendszeredre, és [hogyan állítsd be egy szövegszerkesztőt](https://youtu.be/EU8eayHWoZg) a fejlesztéshez. -- **Tanuld meg a Python alapjait**. Ajánlott, hogy legyen alapvető ismereted a [Pythonról](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), egy programozási nyelvről, amely hasznos az adatkutatók számára, és amelyet ebben a kurzusban használunk. -- **Tanuld meg a Node.js-t és a JavaScriptet**. A kurzus során néhány alkalommal használjuk a JavaScriptet webalkalmazások készítéséhez, ezért szükséged lesz [node](https://nodejs.org) és [npm](https://www.npmjs.com/) telepítésére, valamint [Visual Studio Code](https://code.visualstudio.com/) használatára Python és JavaScript fejlesztéshez. -- **Hozz létre egy GitHub fiókot**. Mivel itt találtál ránk a [GitHubon](https://github.com), lehet, hogy már van fiókod, de ha nincs, hozz létre egyet, majd forkolj meg ezt a tananyagot, hogy saját magad használhasd. (Ne felejts el csillagot adni nekünk 😊) -- **Ismerkedj meg a Scikit-learnnel**. Ismerd meg a [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) könyvtárat, amelyet ezekben a leckékben hivatkozunk. +- **Állítsd be a gépedet ezekkel a videókkal**. Használd az alábbi linkeket, hogy megtudd, [hogyan telepítsd a Pythont](https://youtu.be/CXZYvNRIAKM) a rendszeredre, és hogyan [állíts be egy szövegszerkesztőt](https://youtu.be/EU8eayHWoZg) fejlesztéshez. +- **Tanuld meg a Pythont**. Ajánlott alapszinten ismerni a [Pythont](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), egy programozási nyelvet, amely hasznos az adattudósok számára, és amelyet ezen a tanfolyamon is használunk. +- **Tanuld meg a Node.js-t és a JavaScriptet**. Néhányszor JavaScriptet is használunk majd a tanfolyamon webalkalmazások építésekor, ezért szükséged lesz a [node](https://nodejs.org) és [npm](https://www.npmjs.com/) telepítésére, valamint a [Visual Studio Code](https://code.visualstudio.com/) használatára Python és JavaScript fejlesztéshez. +- **Hozz létre GitHub fiókot**. Mivel itt találtál ránk a [GitHub-on](https://github.com), lehet, hogy már van fiókod, de ha nincs, hozz létre egyet, majd forkold ezt a tananyagot, hogy a saját kedved szerint használd. (Nyugodtan adj nekünk egy csillagot is 😊) +- **Ismerkedj meg a Scikit-learnnel**. Ismerd meg a [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) könyvtárat, egy olyan ML könyvtárkészletet, amelyet ezekben a leckékben hivatkozunk. --- -## Mi az a gépi tanulás? +## Mi a gépi tanulás? -A 'gépi tanulás' kifejezés napjaink egyik legnépszerűbb és leggyakrabban használt fogalma. Nem kizárt, hogy legalább egyszer hallottad már ezt a kifejezést, ha valamilyen szinten ismered a technológiát, függetlenül attól, hogy milyen területen dolgozol. A gépi tanulás mechanikája azonban a legtöbb ember számára rejtély. Egy gépi tanulás kezdő számára a téma néha túlterhelőnek tűnhet. Ezért fontos megérteni, hogy valójában mi is a gépi tanulás, és lépésről lépésre, gyakorlati példákon keresztül tanulni róla. +A "gépi tanulás" kifejezés manapság az egyik legnépszerűbb és leggyakrabban használt fogalom. Nem kis valószínűséggel hallottad már ezt a kifejezést legalább egyszer, ha valamennyire ismered a technológiát, bármilyen területen dolgozol is. A gépi tanulás mechanikája azonban a legtöbb ember számára titokzatos. Egy gépi tanulásban kezdő számára a téma néha túlnyomónak tűnhet. Ezért fontos megérteni, pontosan mi is a gépi tanulás, és lépésről lépésre, gyakorlati példákon keresztül tanulni róla. --- -## A hype görbe +## A hisztériahullám -![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/hu/hype.07183d711a17aafe.webp) -> A Google Trends mutatja a 'gépi tanulás' kifejezés legutóbbi hype görbéjét +> A Google Trends bemutatja a 'gépi tanulás' kifejezés legutóbbi 'hisztériahullámát' (hype curve) --- -## Egy rejtélyes univerzum +## Egy titokzatos univerzum -Egy lenyűgöző rejtélyekkel teli univerzumban élünk. Nagy tudósok, mint Stephen Hawking, Albert Einstein és sokan mások, életüket annak szentelték, hogy értelmes információkat találjanak, amelyek feltárják a körülöttünk lévő világ rejtélyeit. Ez az emberi tanulás feltétele: egy emberi gyermek új dolgokat tanul, és évről évre felfedezi világának szerkezetét, ahogy felnőtté válik. +Egy érdekes titkokkal teli univerzumban élünk. Nagy tudósok, mint Stephen Hawking, Albert Einstein és sokan mások az életüket a világ titkainak feltárására szentelték. Ez az emberi tanulás állapota: egy gyerek folyamatosan új ismereteket tanul és évente fedezi fel a világának szerkezetét, miközben felnőtté válik. --- ## A gyermek agya -Egy gyermek agya és érzékei érzékelik környezetük tényeit, és fokozatosan megtanulják az élet rejtett mintázatait, amelyek segítenek logikai szabályokat alkotni a tanult minták azonosításához. Az emberi agy tanulási folyamata teszi az embereket a világ legkifinomultabb élőlényévé. Azáltal, hogy folyamatosan tanulunk, felfedezzük a rejtett mintákat, majd innoválunk ezek alapján, képesek vagyunk egyre jobbak lenni életünk során. Ez a tanulási képesség és fejlődési kapacitás összefüggésben áll egy [agy plaszticitásának](https://www.simplypsychology.org/brain-plasticity.html) nevezett fogalommal. Felületesen nézve motivációs hasonlóságokat vonhatunk az emberi agy tanulási folyamata és a gépi tanulás fogalmai között. +Egy gyermek agya és érzékelései észlelik a környezetük tényeket, és fokozatosan megtanulják az élet rejtett mintázatait, amelyek segítenek logikai szabályokat alkotni a megtanult minták azonosításához. Az emberi agy tanulási folyamata teszi az embert a világ legösszetettebb élőlényévé. A rejtett minták felfedezésével és azokon való innovációval folyamatosan jobbá tehetjük magunkat élethosszig tartó tanulás révén. Ez a tanulási képesség és fejlődő képesség kapcsolódik egy [agyplaszticitásnak](https://www.simplypsychology.org/brain-plasticity.html) nevezett fogalomhoz. Felszínesen motivációs hasonlóságokat találhatunk az emberi agy tanulási folyamata és a gépi tanulás fogalmai között. --- ## Az emberi agy -Az [emberi agy](https://www.livescience.com/29365-human-brain.html) érzékeli a valós világ dolgait, feldolgozza az érzékelt információkat, racionális döntéseket hoz, és bizonyos körülmények alapján cselekszik. Ezt nevezzük intelligens viselkedésnek. Amikor egy intelligens viselkedési folyamatot programozunk egy gépbe, azt mesterséges intelligenciának (AI) nevezzük. +Az [emberi agy](https://www.livescience.com/29365-human-brain.html) érzékeli a valós világ dolgait, feldolgozza az észlelt információt, racionális döntéseket hoz és bizonyos cselekvéseket hajt végre a körülmények alapján. Ezt nevezzük intelligens viselkedésnek. Amikor egy gépre programozunk egy olyan utánozható intelligens viselkedési folyamatot, ezt mesterséges intelligenciának (AI) nevezzük. --- ## Néhány terminológia -Bár a fogalmak összekeverhetők, a gépi tanulás (ML) a mesterséges intelligencia fontos részhalmaza. **Az ML arra összpontosít, hogy speciális algoritmusokat használjon értelmes információk feltárására és rejtett minták megtalálására az érzékelt adatokból, hogy támogassa a racionális döntéshozatali folyamatot**. +Bár ezek a kifejezések összekeverhetőek, a gépi tanulás (ML) az AI fontos része. **Az ML specializált algoritmusokat használ arra, hogy értelmes információt tárjon fel és rejtett mintákat találjon az észlelt adatokból, hogy alátámassza a racionális döntéshozatalt**. --- ## AI, ML, Mélytanulás -![AI, ML, deep learning, data science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/hu/ai-ml-ds.537ea441b124ebf6.webp) -> Egy diagram, amely bemutatja az AI, ML, mélytanulás és adatkutatás közötti kapcsolatokat. Infografika [Jen Looper](https://twitter.com/jenlooper) által, amelyet [ez a grafika](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) inspirált. +> Egy ábra, amely bemutatja az AI, ML, mélytanulás és adattudomány közti kapcsolatokat. Infografika készítője [Jen Looper](https://twitter.com/jenlooper), inspirálódva [ebben a grafikában](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- -## Lefedendő fogalmak +## Megbeszélendő fogalmak -Ebben a tananyagban csak a gépi tanulás alapvető fogalmait fogjuk lefedni, amelyeket egy kezdőnek ismernie kell. Elsősorban a 'klasszikus gépi tanulást' tárgyaljuk, főként a Scikit-learn használatával, amely egy kiváló könyvtár, amit sok diák használ az alapok elsajátításához. Ahhoz, hogy megértsük a mesterséges intelligencia vagy mélytanulás szélesebb körű fogalmait, elengedhetetlen a gépi tanulás erős alapvető ismerete, és ezt szeretnénk itt biztosítani. +Ebben a tananyagban csak a gépi tanulás alapvető fogalmait fogjuk tárgyalni, amelyeket egy kezdőnek tudnia kell. Elsősorban a "klasszikus gépi tanulással" foglalkozunk, főként a Scikit-learn használatával, egy nagyszerű könyvtárral, amelyet sok tanuló használ az alapok elsajátításához. Az általánosabb mesterséges intelligencia vagy mélytanulás megértéséhez elengedhetetlen egy erős alapvető gépi tanulási ismeretanyag, amelyet itt kínálunk. --- -## Ebben a kurzusban megtanulod: +## Ebben a tanfolyamban megtanulod: - a gépi tanulás alapfogalmait - az ML történetét -- az ML és az igazságosság kapcsolatát +- az ML és a méltányosság kérdését - regressziós ML technikákat - osztályozási ML technikákat - klaszterezési ML technikákat - természetes nyelvfeldolgozási ML technikákat -- időbeli előrejelzési ML technikákat +- idősor előrejelzési ML technikákat - megerősítéses tanulást -- az ML valós alkalmazásait +- valós világban használatos ML alkalmazásokat --- -## Amit nem fogunk lefedni +## Amit nem tárgyalunk - mélytanulás - neurális hálózatok -- mesterséges intelligencia +- AI -A jobb tanulási élmény érdekében elkerüljük a neurális hálózatok, a 'mélytanulás' - többrétegű modellépítés neurális hálózatokkal - és az AI komplexitásait, amelyeket egy másik tananyagban fogunk tárgyalni. Emellett egy közelgő adatkutatási tananyagot is kínálunk, amely erre a nagyobb területre összpontosít. +A jobb tanulási élmény érdekében elkerüljük a neurális hálózatok, a "mélytanulás" – azaz többrétegű neurális hálózatokkal való modellezés – és az AI bonyodalmait, amelyeket más tananyagban tárgyalunk majd. Hamarosan egy adattudományi tananyagot is kínálunk majd, amely erre a témakörre koncentrál. --- -## Miért érdemes gépi tanulást tanulni? +## Miért tanuljunk gépi tanulást? -A gépi tanulás rendszerszempontból úgy definiálható, mint automatizált rendszerek létrehozása, amelyek képesek rejtett mintákat tanulni az adatokból, hogy segítsenek intelligens döntések meghozatalában. +Rendszerszempontból a gépi tanulás az automatizált rendszerek létrehozását jelenti, amelyek képesek rejtett mintákat tanulni az adatokból, hogy intelligens döntéseket segítsenek hozni. -Ez a motiváció lazán inspirálódik abból, ahogyan az emberi agy bizonyos dolgokat tanul az érzékelt adatok alapján. +Ez az indíttatás lazán inspirált az emberi agy azon képessége által, hogy bizonyos dolgokat megtanul a külvilágból érkező adatok alapján. -✅ Gondolkodj el egy percre azon, hogy egy vállalkozás miért választaná a gépi tanulási stratégiákat egy keményen kódolt szabályalapú motor létrehozása helyett. +✅ Gondolkozz egy percig, miért szeretne egy vállalkozás inkább gépi tanulási stratégiákat alkalmazni, ahelyett, hogy keménykódolt szabályalapú rendszert hozna létre. --- -## A gépi tanulás alkalmazásai +## Miért számít az adatminőség? -A gépi tanulás alkalmazásai ma már szinte mindenhol jelen vannak, és olyan elterjedtek, mint az adatok, amelyek társadalmainkban áramlanak, okostelefonjaink, csatlakoztatott eszközeink és más rendszereink által generálva. Figyelembe véve a legmodernebb gépi tanulási algoritmusok hatalmas potenciálját, a kutatók vizsgálják azok képességét, hogy multidimenziós és multidiszciplináris valós problémákat oldjanak meg nagy pozitív eredményekkel. +A magas minőségű adatok javítják a modell teljesítményét. A rossz vagy zajos adatok pontatlan előrejelzésekhez vezethetnek, még fejlett gépi tanulási algoritmusok használata esetén is. + +--- +## Gépi tanulás alkalmazásai + +A gépi tanulás alkalmazásai szinte mindenhol megtalálhatók, olyan elterjedtek, mint a társadalmunkban áramló adatok, amelyeket okostelefonjaink, kapcsolódó eszközeink és más rendszereink generálnak. Tekintve a legkorszerűbb gépi tanulási algoritmusok hatalmas potenciálját, a kutatók számos terepen játszanak a képességeivel, hogy többdimenziós, több tudományterületet érintő való életbeli problémákat oldjanak meg nagy sikerekkel. --- ## Alkalmazott ML példák -**A gépi tanulást számos módon használhatod**: +**Sokféleképpen használható a gépi tanulás**: -- Betegség valószínűségének előrejelzésére egy beteg kórtörténete vagy jelentései alapján. -- Időjárási adatok felhasználásával időjárási események előrejelzésére. -- Szöveg érzelmi tartalmának megértésére. -- Hamis hírek és propaganda terjedésének megállítására. +- Előrejelezni a betegség valószínűségét egy beteg orvosi története vagy jelentései alapján. +- Időjárási adatok kihasználásával megjósolni az időjárási eseményeket. +- Megérteni egy szöveg hangulatát. +- Hamis hírek felismerése a propaganda terjedésének megállításához. -A pénzügyek, közgazdaságtan, földtudomány, űrkutatás, biomedikai mérnökség, kognitív tudomány és még a humán tudományok területei is alkalmazzák a gépi tanulást, hogy megoldják saját területük nehéz, adatfeldolgozás-igényes problémáit. +A pénzügy, közgazdaságtan, földtudomány, űrkutatás, biomedikai mérnökség, kognitív tudomány, sőt még a bölcsészettudományok is alkalmazzák a gépi tanulást, hogy megoldják saját területük nehéz, adatfeldolgozási feladatait. --- -## Összegzés +## Összefoglalás -A gépi tanulás automatizálja a mintázat-felfedezés folyamatát azáltal, hogy értelmes betekintéseket talál a valós vagy generált adatokból. Bizonyította értékét az üzleti, egészségügyi és pénzügyi alkalmazásokban, többek között. +A gépi tanulás automatizálja a mintakeresési folyamatot azzal, hogy jelentős betekintést nyújt valós vagy generált adatokból. Bizonyította értékességét az üzleti, egészségügyi és pénzügyi alkalmazások között. -A közeljövőben a gépi tanulás alapjainak megértése elengedhetetlen lesz minden területen dolgozó emberek számára, tekintettel annak széles körű elterjedésére. +A közeljövőben a gépi tanulás alapjainak megértése elengedhetetlen lesz bármely területről származó emberek számára a széleskörű terjedés miatt. --- # 🚀 Kihívás -Rajzolj papíron vagy egy online alkalmazás, például [Excalidraw](https://excalidraw.com/) segítségével egy vázlatot arról, hogyan érted az AI, ML, mélytanulás és adatkutatás közötti különbségeket. Adj hozzá néhány ötletet arról, hogy milyen problémák megoldására alkalmasak ezek a technikák. +Rajzold le papíron vagy egy online alkalmazásban, például [Excalidraw](https://excalidraw.com/), az AI, ML, mélytanulás és adattudomány közti különbségekről alkotott elképzelésedet. Adj hozzá néhány ötletet azokról a problémákról, amelyeket ezek a technikák jól oldanak meg. # [Előadás utáni kvíz](https://ff-quizzes.netlify.app/en/ml/) --- # Áttekintés és önálló tanulás -Ha többet szeretnél megtudni arról, hogyan dolgozhatsz ML algoritmusokkal a felhőben, kövesd ezt a [tanulási útvonalat](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +Azt is megtudhatod, hogyan dolgozhatsz ML algoritmusokkal a felhőben, ha ezt a [tanulási utat](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) követed. -Vegyél részt egy [tanulási útvonalon](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott), amely az ML alapjairól szól. +Készíts egy [tanulási utat](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) a gépi tanulás alapjairól. --- # Feladat -[Indulj el](assignment.md) +[Állítsd be és futtass](assignment.md) --- -**Felelősség kizárása**: -Ez a dokumentum az AI fordítási szolgáltatás, a [Co-op Translator](https://github.com/Azure/co-op-translator) segítségével lett lefordítva. Bár törekszünk a pontosságra, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az eredeti nyelvén tekintendő hiteles forrásnak. Kritikus információk esetén javasolt professzionális emberi fordítást igénybe venni. Nem vállalunk felelősséget semmilyen félreértésért vagy téves értelmezésért, amely a fordítás használatából eredhet. \ No newline at end of file + +**Jogi nyilatkozat**: +Ez a dokumentum az AI fordítási szolgáltatás, a [Co-op Translator](https://github.com/Azure/co-op-translator) segítségével készült. Bár az pontosságra törekszünk, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az anyanyelvén tekintendő hiteles forrásnak. Fontos információk esetén professzionális emberi fordítást javasolunk. Nem vállalunk felelősséget semmilyen félreértésért vagy téves értelmezésért, amely ebből a fordításból ered. + \ No newline at end of file diff --git a/translations/hu/5-Clustering/1-Visualize/README.md b/translations/hu/5-Clustering/1-Visualize/README.md index 4deae5b6b..204ed5983 100644 --- a/translations/hu/5-Clustering/1-Visualize/README.md +++ b/translations/hu/5-Clustering/1-Visualize/README.md @@ -1,116 +1,115 @@ -# Bevezetés a klaszterezéshez +# Bevezetés a klaszterezésbe -A klaszterezés a [felügyelet nélküli tanulás](https://wikipedia.org/wiki/Unsupervised_learning) egyik típusa, amely feltételezi, hogy az adathalmaz címkézetlen, vagy hogy a bemenetek nincsenek előre meghatározott kimenetekhez társítva. Különböző algoritmusokat használ a címkézetlen adatok rendezésére, és csoportosításokat hoz létre az adatokban észlelt minták alapján. +A klaszterezés az [felügyelet nélküli tanulás](https://wikipedia.org/wiki/Unsupervised_learning) egy típusa, amely azt feltételezi, hogy az adathalmaz címkézetlen vagy bemenetei nincsenek előre meghatározott kimenetekhez rendelve. Különböző algoritmusokat használ az címkézetlen adatok átvizsgálására és mintázatok alapján csoportokba rendezésére. -[![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") +[![Nincs senki hozzád hasonló a PSquare-tól](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "Nincs senki hozzád hasonló a PSquare-tól") -> 🎥 Kattints a fenti képre egy videóért. Miközben a klaszterezéssel kapcsolatos gépi tanulást tanulmányozod, élvezd néhány nigériai Dance Hall számot - ez egy nagyon népszerű dal 2014-ből a PSquare-től. +> 🎥 Kattints a fenti képre egy videóért. Amíg a klaszterezéssel tanulod a gépi tanulást, élvezd néhány nigériai Dance Hall dalt - ez egy 2014-ben készült, nagyra értékelt dal a PSquare-tól. ## [Előadás előtti kvíz](https://ff-quizzes.netlify.app/en/ml/) ### Bevezetés -A [klaszterezés](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) nagyon hasznos az adatok feltárásában. Nézzük meg, hogy segíthet-e trendek és minták felfedezésében a nigériai közönség zenehallgatási szokásai kapcsán. +A [klaszterezés](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) nagyon hasznos az adatelemzéshez. Nézzük meg, hogy segíthet-e megismerni a nigériai közönség zene fogyasztási szokásainak trendjeit és mintázatait. -✅ Gondolkodj el egy percig a klaszterezés felhasználási lehetőségein. A való életben klaszterezés történik, amikor van egy halom mosnivaló, és szét kell válogatnod a családtagok ruháit 🧦👕👖🩲. Az adatkutatásban klaszterezés történik, amikor megpróbáljuk elemezni a felhasználó preferenciáit, vagy meghatározni egy címkézetlen adathalmaz jellemzőit. A klaszterezés bizonyos értelemben segít rendet teremteni a káoszban, mint például egy zoknis fiókban. +✅ Gondolj egy percet a klaszterezés felhasználására. A való életben klaszterezés történik, amikor egy kosár szennyest kell szétválogatni a családtagok ruhái szerint 🧦👕👖🩲. Az adattudományban klaszterezés történik, amikor egy felhasználó preferenciáit elemzed, vagy egy címkézetlen adathalmaz jellemzőit próbálod meghatározni. A klaszterezés valahogy segít rendet rakni a káoszban, mint egy zoknis fiókban. -[![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") +[![Bevezetés az ML-be](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Bevezetés a klaszterezésbe") -> 🎥 Kattints a fenti képre egy videóért: MIT John Guttag bemutatja a klaszterezést +> 🎥 Kattints a fenti képre egy videóért: John Guttag, az MIT-től bemutatja a klaszterezést -Egy szakmai környezetben a klaszterezést például piaci szegmentáció meghatározására lehet használni, például annak megállapítására, hogy mely korcsoportok vásárolnak milyen termékeket. Egy másik felhasználási terület lehet az anomáliák észlelése, például csalások felderítése egy hitelkártya-tranzakciókat tartalmazó adathalmazból. Vagy használhatod a klaszterezést daganatok azonosítására egy orvosi szkenekből álló adathalmazban. +Szakmai környezetben a klaszterezés használható például piaci szegmensek meghatározására, például hogy mely korcsoport mely termékeket vásárolja. Egy másik felhasználás az anomália detektálás lehet, például csalások felismerése hitelkártyás tranzakciók adatállományából. Vagy használhatod tumorok azonosítására orvosi felvételek között. -✅ Gondolkodj el egy percig azon, hogy találkoztál-e már klaszterezéssel a való életben, például banki, e-kereskedelmi vagy üzleti környezetben. +✅ Gondolj egy percet arra, hogy hol találkozhattál a klaszterezéssel „a való életben”, banki, e-kereskedelmi vagy üzleti környezetben. -> 🎓 Érdekes módon a klaszterelemzés az antropológia és pszichológia területén kezdődött az 1930-as években. El tudod képzelni, hogyan használhatták akkoriban? +> 🎓 Érdekesség, hogy a klaszterelemzés a 1930-as évek antropológia és pszichológia területéről ered. El tudod képzelni, hogyan használták? -Alternatívaként használhatod keresési eredmények csoportosítására is - például vásárlási linkek, képek vagy vélemények alapján. A klaszterezés hasznos, ha van egy nagy adathalmaz, amelyet csökkenteni szeretnél, és amelyen részletesebb elemzést szeretnél végezni, így a technika segíthet az adatok megértésében, mielőtt más modelleket építenél. +Alternatívaként csoportosíthatod vele a keresési találatokat - például vásárlási linkek, képek vagy értékelések szerint. Klaszterezés akkor hasznos, amikor nagy adatállományt akarsz csökkenteni, és részletesebb elemzést szeretnél végezni rajta, így a módszert felhasználhatod adatok megismerésére, mielőtt más modelleket építesz. -✅ Miután az adataid klaszterekbe szerveződtek, hozzárendelhetsz egy klaszterazonosítót, és ez a technika hasznos lehet az adathalmaz adatvédelmének megőrzésében; az adatpontokra a klaszterazonosítóval hivatkozhatsz, ahelyett, hogy azonosítható adatokat használnál. Tudsz más okokat is mondani, hogy miért hivatkoznál egy klaszterazonosítóra a klaszter más elemei helyett? +✅ Ha az adatokat klaszterekbe rendezted, hozzárendelsz egy klaszterazonosítót, és ez a technika hasznos lehet az adatállomány adatvédelmének megőrzésében; egy adatpontot hivatkozhatsz klaszterazonosítóval a nyilvánosabb azonosító adatok helyett. Tudsz más okot is mondani, hogy miért jobb a klaszterazonosító használata a klaszter azonosítására? -Mélyítsd el a klaszterezési technikák megértését ebben a [Learn modulban](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +Mélyítsd el a klaszterezési technikák ismeretét ebben a [Learn modulban](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +## Klaszterezés megkezdése -## Klaszterezés kezdőknek +A [Scikit-learn számos](https://scikit-learn.org/stable/modules/clustering.html) módszert kínál klaszterezéshez. A választott típust az eseted határozza meg. A dokumentáció szerint minden módszernek megvannak a maga előnyei. Íme egy egyszerűsített táblázat a Scikit-learn által támogatott módszerekről és azok megfelelő alkalmazásairól: -[A Scikit-learn számos módszert kínál](https://scikit-learn.org/stable/modules/clustering.html) a klaszterezés elvégzésére. Az, hogy melyiket választod, az esettől függ. A dokumentáció szerint minden módszernek megvannak a maga előnyei. Íme egy egyszerűsített táblázat a Scikit-learn által támogatott módszerekről és azok megfelelő felhasználási eseteiről: +| Módszer neve | Alkalmazási terület | +| :--------------------------- | :-------------------------------------------------------------------- | +| K-Means | általános cél, induktív | +| Affinity propagation | sok, egyenetlen klaszter, induktív | +| Mean-shift | sok, egyenetlen klaszter, induktív | +| Spektrális klaszterezés | kevés, egyenletes klaszter, transzduktív | +| Ward hierarchikus klaszterezés | sok, megszorított klaszter, transzduktív | +| Agglomeratív klaszterezés | sok, megszorított, nem euklideszi távolságokat használó, transzduktív | +| DBSCAN | nem sík geometria, egyenetlen klaszterek, transzduktív | +| OPTICS | nem sík geometria, változó sűrűségű egyenetlen klaszterek, transzduktív | +| Gauss keverékek | sík geometria, induktív | +| BIRCH | nagy adathalmaz kiugró értékekkel, induktív | -| Módszer neve | Felhasználási eset | -| :--------------------------- | :--------------------------------------------------------------------- | -| K-Means | általános célú, induktív | -| Affinity propagation | sok, egyenetlen klaszterek, induktív | -| Mean-shift | sok, egyenetlen klaszterek, induktív | -| Spectral clustering | kevés, egyenletes klaszterek, transzduktív | -| Ward hierarchical clustering | sok, korlátozott klaszterek, transzduktív | -| Agglomerative clustering | sok, korlátozott, nem euklideszi távolságok, transzduktív | -| DBSCAN | nem sík geometria, egyenetlen klaszterek, transzduktív | -| OPTICS | nem sík geometria, egyenetlen klaszterek változó sűrűséggel, transzduktív | -| Gaussian mixtures | sík geometria, induktív | -| BIRCH | nagy adathalmaz kiugró értékekkel, induktív | - -> 🎓 Az, hogy hogyan hozunk létre klasztereket, nagyban függ attól, hogyan gyűjtjük össze az adatpontokat csoportokba. Nézzük meg néhány szakkifejezést: +> 🎓 A klaszterek létrehozása sokban függ attól, hogyan csoportosítjuk a pontokat. Nézzük meg pár kifejezést: > > 🎓 ['Transzduktív' vs. 'induktív'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> A transzduktív következtetés megfigyelt tanulási esetekből származik, amelyek konkrét tesztesetekhez kapcsolódnak. Az induktív következtetés tanulási esetekből származik, amelyek általános szabályokat alkotnak, amelyeket csak ezután alkalmaznak a tesztesetekre. +> A transzduktív következtetés a megfigyelt tanító esetekből származik, amelyek konkrét tesztesetekhez kapcsolódnak. Az induktív következtetés a tanító esetekből általános szabályokat von le, amelyeket aztán alkalmaz a tesztesetekre. > -> Példa: Képzeld el, hogy van egy adathalmazod, amely csak részben van címkézve. Néhány elem 'lemezek', néhány 'cd-k', és néhány üres. A feladatod az üres elemek címkézése. Ha induktív megközelítést választasz, egy modellt tanítasz 'lemezek' és 'cd-k' keresésére, és ezeket a címkéket alkalmazod a címkézetlen adatokra. Ez a megközelítés nehézségekbe ütközhet olyan dolgok osztályozásában, amelyek valójában 'kazetták'. A transzduktív megközelítés viszont hatékonyabban kezeli ezt az ismeretlen adatot, mivel hasonló elemeket csoportosít, majd címkét alkalmaz egy csoportra. Ebben az esetben a klaszterek lehetnek 'kerek zenei dolgok' és 'szögletes zenei dolgok'. +> Példa: Képzelj el egy részben címkézett adathalmazt. Van benne 'lemez', 'cd' és néhány üres címke. Az a dolgod, hogy megtöltsd az üres címkéket. Ha induktív megközelítést választasz, olyat tanítasz, ami 'lemezeket' és 'cd-ket' keres, és ezekkel látod el a címkézetlen adatokat. Ez bajban lesz, ha 'kazetták' is vannak. Egy transzduktív megközelítés jobb, mert az ismeretlen adatokat úgy kezeli, hogy hasonló elemeket csoportosít, majd címkét rendel csoporthoz. Ebben az esetben a klaszterek lehetnek például 'kerek zenei tárgyak' és 'négyzetes zenei tárgyak'. > > 🎓 ['Nem sík' vs. 'sík' geometria](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> Matematikai terminológiából származik, a nem sík vs. sík geometria az adatpontok közötti távolságok mérésére utal, akár 'sík' ([euklideszi](https://wikipedia.org/wiki/Euclidean_geometry)), akár 'nem sík' (nem euklideszi) geometriai módszerekkel. +> Matematikai terminológiából eredően a nem sík vs. sík geometria a pontok közti távolság mérésének módját jelenti, amely vagy sík ([euklideszi](https://wikipedia.org/wiki/Euclidean_geometry)) vagy nem sík (nem euklideszi) geometriai módszerek alapján történik. > ->'Sík' ebben az összefüggésben az euklideszi geometriára utal (amelynek részeit 'síkmértan' néven tanítják), míg a nem sík a nem euklideszi geometriára utal. Mi köze van a geometriának a gépi tanuláshoz? Nos, mivel mindkét terület matematikai alapokon nyugszik, szükség van egy közös módszerre az adatpontok közötti távolságok mérésére a klaszterekben, és ezt 'sík' vagy 'nem sík' módon lehet megtenni, az adatok természetétől függően. Az [euklideszi távolságokat](https://wikipedia.org/wiki/Euclidean_distance) két pont közötti vonalszakasz hosszával mérik. A [nem euklideszi távolságokat](https://wikipedia.org/wiki/Non-Euclidean_geometry) görbe mentén mérik. Ha az adataid, vizualizálva, nem síkban léteznek, akkor speciális algoritmusra lehet szükséged a kezelésükhöz. +> A 'sík' itt az euklideszi geometriára utal (amit 'síkgemometriaként' is tanítanak), a nem sík pedig a nem euklideszi geometriát jelenti. Mi köze van a geometriának a gépi tanuláshoz? Mindkettő matematikán alapul, ezért közös mód van a pontok közötti távolság mérésére klaszterekben, ami lehet 'sík' vagy 'nem sík', az adat természetétől függően. [Euklideszi távolság](https://wikipedia.org/wiki/Euclidean_distance) egy vonalszakasz hossza két pont között. [Nem euklideszi távolság](https://wikipedia.org/wiki/Non-Euclidean_geometry) görbén mért távolság. Ha az adat vizualizációját nézve nem síkon van, speciális algoritmust kell használni. > -![Sík vs Nem sík geometria Infografika](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) -> Infografika: [Dasani Madipalli](https://twitter.com/dasani_decoded) +![Sík és nem sík geometria infografika](../../../../translated_images/hu/flat-nonflat.d1c8c6e2a96110c1.webp) +> Infografika készítője: [Dasani Madipalli](https://twitter.com/dasani_decoded) > > 🎓 ['Távolságok'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> A klasztereket a távolságmátrixuk határozza meg, például az adatpontok közötti távolságok. Ez a távolság többféleképpen mérhető. Az euklideszi klasztereket az adatpontok értékeinek átlaga határozza meg, és tartalmaznak egy 'centroidot' vagy középpontot. A távolságokat így a centroidtól való távolság alapján mérik. A nem euklideszi távolságok 'clustroidok'-ra utalnak, az adatpontra, amely a legközelebb van más pontokhoz. A clustroidokat különböző módon lehet meghatározni. +> A klasztereket a távolságmátrix határozza meg, azaz a pontok közti távolságok. Ezt többféleképpen lehet mérni. Az euklideszi klaszterek a pontok értékeinek átlagát veszik, és van egy 'centruma', vagy középpontja. Távolságok a centrumtól számított távolságok alapján vannak mérve. A nem euklideszi távolságok a 'klusztoidokat' jelentik, amelyek a többi ponthoz legközelebb eső pontok. A klusztoidokat többféleképpen definiálják. > -> 🎓 ['Korlátozott'](https://wikipedia.org/wiki/Constrained_clustering) +> 🎓 ['Megszervezett'](https://wikipedia.org/wiki/Constrained_clustering) > -> A [korlátozott klaszterezés](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) 'félig felügyelt' tanulást vezet be ebbe a felügyelet nélküli módszerbe. Az adatpontok közötti kapcsolatokat 'nem kapcsolható' vagy 'kapcsolható' címkékkel jelölik, így bizonyos szabályokat kényszerítenek az adathalmazra. +> A [korlátozott klaszterezés](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) bevezeti a 'félfelügyelt' tanulást ebbe a felügyelet nélküli módszerbe. A pontok közti viszonyokat 'nem összekapcsolható' vagy 'összekapcsolandó' címkével látják el, hogy szabályokat alkalmazzanak az adatokra. > ->Példa: Ha egy algoritmus szabadon működik egy címkézetlen vagy félig címkézett adathalmazon, az általa létrehozott klaszterek gyenge minőségűek lehetnek. A fenti példában a klaszterek lehetnek 'kerek zenei dolgok', 'szögletes zenei dolgok', 'háromszög alakú dolgok' és 'sütik'. Ha néhány korlátozást vagy szabályt adunk meg ("az elemnek műanyagból kell készülnie", "az elemnek zenét kell tudnia produkálni"), ez segíthet az algoritmusnak jobb döntéseket hozni. +> Példa: Ha egy algoritmust szabadon engednek egy címkézetlen vagy részben címkézett adathalmazon, a kész klaszterek gyengék lehetnek. A fenti példánál a klaszterek csoportosíthatnak 'kerek zenei tárgyakat', 'négyzetes zenei tárgyakat', 'háromszög alakú dolgokat' és 'sütiket'. Ha szabályokat adunk hozzájuk ("az elem műanyagból kell, hogy legyen", "az elemnek zenét kell tudnia előállítani"), az segíthet jobb döntéseket hozni. > > 🎓 'Sűrűség' > -> Az 'zajos' adatokat 'sűrűnek' tekintik. Az egyes klaszterekben lévő pontok közötti távolságok vizsgálatakor kiderülhet, hogy ezek a távolságok többé-kevésbé sűrűek, vagy 'zsúfoltak', és így az ilyen adatokat megfelelő klaszterezési módszerrel kell elemezni. [Ez a cikk](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) bemutatja a különbséget a K-Means klaszterezés és a HDBSCAN algoritmusok használata között egy zajos adathalmaz egyenetlen klasztersűrűségének feltárására. +> A 'zajos' adatot sűrűnek tekintjük. Egy klaszter pontjai közötti távolságok vizsgálata alapján kiderülhet, hogy egy klaszter sűrű vagy ritkás, és ez a megfelelő klaszterezési módszer kiválasztását igényli. [Ez a cikk](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) bemutatja, hogy mi a különbség K-Means és HDBSCAN algoritmusok használata között egy zajos, változó sűrűségű klaszterű adathalmazon. -## Klaszterezési algoritmusok +## Klaszterező algoritmusok -Több mint 100 klaszterezési algoritmus létezik, és használatuk az adott adatok természetétől függ. Nézzük meg néhány főbb típust: +Több mint 100 klaszterező algoritmus létezik, és az alkalmazásuk az adatok természetétől függ. Nézzünk meg néhány nagyobb típust: -- **Hierarchikus klaszterezés**. Ha egy objektumot a közeli objektumhoz való közelsége alapján osztályoznak, nem pedig egy távolabbihoz, akkor a klaszterek az objektumok egymáshoz való távolsága alapján alakulnak ki. A Scikit-learn agglomeratív klaszterezése hierarchikus. +- **Hierarchikus klaszterezés**. Ha egy objektumot a hozzá közeli objektum távolsága alapján osztályozunk, nem pedig a távolabbi alapján, akkor a klaszterek tagjaik közti távolság szerint jönnek létre. A Scikit-learn agglomeratív klaszterezője hierarchikus. - ![Hierarchikus klaszterezés Infografika](../../../../5-Clustering/1-Visualize/images/hierarchical.png) - > Infografika: [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Hierarchikus klaszterezés infografika](../../../../translated_images/hu/hierarchical.bf59403aa43c8c47.webp) + > Infografika készítője: [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Centroid klaszterezés**. Ez a népszerű algoritmus megköveteli a 'k' választását, vagyis a létrehozandó klaszterek számát, majd az algoritmus meghatározza a klaszter középpontját, és az adatokat e pont köré gyűjti. A [K-means klaszterezés](https://wikipedia.org/wiki/K-means_clustering) a centroid klaszterezés népszerű változata. A középpontot a legközelebbi átlag határozza meg, innen ered a neve. A klasztertől való négyzetes távolság minimalizálva van. +- **Centroid klaszterezés**. Ez a népszerű algoritmus megköveteli a 'k' érték kiválasztását, vagyis a klaszterek számát, majd az algoritmus meghatározza a klaszter középpontját, és a adatokat ahhoz gyűjti össze. A [K-means klaszterezés](https://wikipedia.org/wiki/K-means_clustering) a centroid klaszterezés ismert változata. A középpontot a legközelebbi átlag határozza meg, innen ered a neve. A klasztertől való négyzetes távolságot minimalizálja. - ![Centroid klaszterezés Infografika](../../../../5-Clustering/1-Visualize/images/centroid.png) - > Infografika: [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Centroid klaszterezés infografika](../../../../translated_images/hu/centroid.097fde836cf6c918.webp) + > Infografika készítője: [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Eloszlás-alapú klaszterezés**. Statisztikai modellezésen alapul, az eloszlás-alapú klaszterezés középpontjában annak valószínűsége áll, hogy egy adatpont egy klaszterhez tartozik, és ennek megfelelően osztja be. A Gauss-keverék módszerek ehhez a típushoz tartoznak. +- **Eloszlás alapú klaszterezés**. Statisztikai modellezésen alapul, ahol megállapítják a valószínűségét, hogy egy adatpont melyik klaszterhez tartozik, és ennek megfelelően sorolja be. A Gauss keverék módszerek ide tartoznak. -- **Sűrűség-alapú klaszterezés**. Az adatpontokat klaszterekhez rendelik azok sűrűsége, vagy egymás körüli csoportosulásuk alapján. Az adatpontokat, amelyek távol vannak a csoporttól, kiugró értékeknek vagy zajnak tekintik. A DBSCAN, Mean-shift és OPTICS ehhez a típushoz tartoznak. +- **Sűrűség alapú klaszterezés**. Az adatpontok sűrűségük, vagyis egymáshoz való csoportosulás alapján kerülnek klaszterbe. A csoporttól távoli pontokat kiugrónak vagy zajnak tekintik. Ilyen algoritmusok a DBSCAN, Mean-shift és az OPTICS. -- **Rács-alapú klaszterezés**. Többdimenziós adathalmazok esetén egy rácsot hoznak létre, és az adatokat a rács cellái között osztják el, így klasztereket hozva létre. +- **Rácsalapú klaszterezés**. Többdimenziós adatállomány esetén rácsot hoz létre, majd az adatokat a cellák között osztja szét, így klasztereket hoz létre. -## Gyakorlat - klaszterezd az adataidat +## Gyakorlat - klaszterezzük az adatokat! -A klaszterezés mint technika nagyban segíti a megfelelő vizualizáció, ezért kezdjük azzal, hogy vizualizáljuk a zenei adatainkat. Ez a gyakorlat segít eldönteni, hogy a klaszterezési módszerek közül melyiket használjuk a legjobban az adatok természetéhez. +A klaszterezés technikáját nagyon segíti a megfelelő vizualizáció, ezért kezdjük azzal, hogy vizualizáljuk a zenei adatainkat. Ez a gyakorlat segít eldönteni, melyik klaszterezési módot érdemes alkalmazni erre az adatra. -1. Nyisd meg a [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) fájlt ebben a mappában. +1. Nyisd meg ebben a mappában a [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) fájlt. -1. Importáld a `Seaborn` csomagot a jó adatvizualizáció érdekében. +1. Importáld a `Seaborn` csomagot a jó adatvizualizációért. ```python !pip install seaborn ``` -1. Töltsd be a daladatokat a [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) fájlból. Töltsd be egy adatkeretbe néhány adatot a dalokról. Készülj fel az adatok feltárására a könyvtárak importálásával és az adatok kiírásával: +1. Add hozzá a dal adatokat az [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) fájlból. Tölts be egy adatkeretet néhány adattal a dalokról. Készülj fel az adatok felfedezésére a könyvtárak importálásával és az adatok kiírásával: ```python import matplotlib.pyplot as plt @@ -120,21 +119,23 @@ A klaszterezés mint technika nagyban segíti a megfelelő vizualizáció, ezér df.head() ``` - Ellenőrizd az adatok első néhány sorát: + Nézd meg az első néhány adat sort: - | | név | album | előadó | előadó_top_műfaj | megjelenési_dátum | hossz | népszerűség | táncolhatóság | akusztikusság | energia | hangszeresség | élénkség | hangosság | beszédesség | tempó | idő_aláírás | - | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ---------------- -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | + | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigériai pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Szerezzünk némi információt az adatkeretről az `info()` hívásával: +1. Szerezzünk némi információt az adattábláról az `info()` meghívásával: ```python df.info() ``` - Az eredmény így néz ki: + A kimenet így néz ki: ```output @@ -162,7 +163,7 @@ A klaszterezés mint technika nagyban segíti a megfelelő vizualizáció, ezér memory usage: 66.4+ KB ``` -1. Ellenőrizzük a null értékeket az `isnull()` hívásával, és győződjünk meg róla, hogy az összeg 0: +1. Kettős ellenőrzés a hiányzó értékekre, az `isnull()` meghívásával és a nulla összeg ellenőrzésével: ```python df.isnull().sum() @@ -207,11 +208,11 @@ A klaszterezés mint technika nagyban segíti a megfelelő vizualizáció, ezér | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Ha klaszterezéssel dolgozunk, ami egy felügyelet nélküli módszer, amely nem igényel címkézett adatokat, miért mutatjuk ezeket az adatokat címkékkel? Az adatfeltárási fázisban hasznosak lehetnek, de a klaszterezési algoritmusok működéséhez nem szükségesek. Akár el is távolíthatnánk az oszlopfejléceket, és az adatokra oszlopszám alapján hivatkozhatnánk. +> 🤔 Ha klaszterezéssel dolgozunk, egy olyan felügyelt módszer nélkülivel, amely nem igényel címkézett adatokat, miért mutatjuk meg ezeket az adatokat címkékkel? Az adatfeltárás fázisában jól jönnek, de nem szükségesek a klaszterező algoritmusok működéséhez. Egyszerűen eltávolíthatnánk az oszlopfejléceket, és hivatkozhatnánk az adatokra oszlopszám szerint. -Nézzük meg az adatok általános értékeit. Vegyük észre, hogy a népszerűség lehet '0', ami azt mutatja, hogy a daloknak nincs rangsorolása. Távolítsuk el ezeket hamarosan. +Tekintsük át az adatok általános értékeit. Vegyük észre, hogy a népszerűség lehet '0' is, ami olyan dalokat jelent, amelyeknek nincs rangsorolásuk. Ezeket rövidesen töröljük. -1. Használjunk oszlopdiagramot a legnépszerűbb műfajok megállapításához: +1. Használjunk oszlopdiagramot, hogy megtudjuk melyik a legnépszerűbb műfaj: ```python import seaborn as sns @@ -223,13 +224,13 @@ Nézzük meg az adatok általános értékeit. Vegyük észre, hogy a népszerű plt.title('Top genres',color = 'blue') ``` - ![legnépszerűbb](../../../../5-Clustering/1-Visualize/images/popular.png) + ![legnépszerűbb](../../../../translated_images/hu/popular.9c48d84b3386705f.webp) -✅ Ha szeretnél több legjobb értéket látni, változtasd meg a top `[:5]` értékét nagyobbra, vagy távolítsd el, hogy mindet lásd. +✅ Ha több top értéket szeretnél látni, a top `[:5]` értékét növeld vagy töröld, hogy az összes megjelenjen. -Figyelj, ha a legnépszerűbb műfaj 'Missing'-ként van leírva, az azt jelenti, hogy a Spotify nem osztályozta, ezért távolítsuk el. +Megjegyzés: ha a legnépszerűbb műfaj "Missing" (hiányzik) megjelöléssel szerepel, az azt jelenti, hogy a Spotify nem sorolta be, így szabaduljunk meg tőle. -1. Távolítsuk el a hiányzó adatokat szűréssel: +1. Szabaduljunk meg a hiányzó adatokról szűréssel: ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -242,9 +243,9 @@ Figyelj, ha a legnépszerűbb műfaj 'Missing'-ként van leírva, az azt jelenti Most ellenőrizzük újra a műfajokat: - ![legnépszerűbb](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![legnépszerűbb](../../../../translated_images/hu/all-genres.1d56ef06cefbfcd6.webp) -1. Messze a három legnépszerűbb műfaj uralja ezt az adatállományt. Koncentráljunk az `afro dancehall`, `afropop` és `nigerian pop` műfajokra, és szűrjük az adatállományt, hogy eltávolítsuk azokat, amelyek népszerűségi értéke 0 (ami azt jelenti, hogy nem osztályozták népszerűséggel az adatállományban, és zajnak tekinthetők a céljaink szempontjából): +1. Egyértelműen, a három legnépszerűbb műfaj dominálja az adattáblát. Koncentráljunk az `afro dancehall`, `afropop` és `nigerian pop` műfajokra, tovább szűrve az adatokat úgy, hogy eltávolítjuk azokat, amelyek népszerűsége 0 (ami azt jelenti, hogy nem volt besorolva népszerűségi adatként az adathalmazban, és zajként kezelhető a céljaink szempontjából): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -256,7 +257,7 @@ Figyelj, ha a legnépszerűbb műfaj 'Missing'-ként van leírva, az azt jelenti plt.title('Top genres',color = 'blue') ``` -1. Végezzünk egy gyors tesztet, hogy lássuk, van-e az adatok között különösen erős korreláció: +1. Végezzünk egy gyors tesztet, hogy lássuk, az adatok között van-e különösen erős korreláció: ```python corrmat = df.corr(numeric_only=True) @@ -264,21 +265,21 @@ Figyelj, ha a legnépszerűbb műfaj 'Missing'-ként van leírva, az azt jelenti sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![korrelációk](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![korrelációk](../../../../translated_images/hu/correlation.a9356bb798f5eea5.webp) - Az egyetlen erős korreláció az `energy` és a `loudness` között van, ami nem túl meglepő, mivel a hangos zene általában elég energikus. Egyébként a korrelációk viszonylag gyengék. Érdekes lesz látni, hogy mit tud kezdeni egy klaszterezési algoritmus ezekkel az adatokkal. + Az egyetlen erős korreláció az `energia` és a `hangerő` között van, ami nem meglepő, hiszen a hangos zene általában elég energikus. Egyébként a korrelációk viszonylag gyengék. Érdekes lesz látni, mit tud kezdeni a klaszterező algoritmus ezzel az adattal. - > 🎓 Ne feledd, hogy a korreláció nem jelent ok-okozati összefüggést! Van bizonyítékunk a korrelációra, de nincs bizonyítékunk az ok-okozati összefüggésre. Egy [szórakoztató weboldal](https://tylervigen.com/spurious-correlations) vizuális példákat mutat be, amelyek hangsúlyozzák ezt a pontot. + > 🎓 Ne feledd, a korreláció nem jelent oksági kapcsolatot! Bizonyítékunk van korrelációra, de nem az ok-okozatra. Egy [szórakoztató weboldal](https://tylervigen.com/spurious-correlations) vizuális példákat mutat erre. -Van-e bármilyen konvergencia ebben az adatállományban a dalok érzékelt népszerűsége és táncolhatósága körül? Egy FacetGrid megmutatja, hogy koncentrikus körök alakulnak ki, műfajtól függetlenül. Lehet, hogy a nigériai ízlés egy bizonyos táncolhatósági szinten konvergál ezeknél a műfajoknál? +Van-e konvergencia ebben az adathalmazban a dal népszerűségének érzékelése és táncolhatósága között? Egy FacetGrid azt mutatja, hogy koncentrikus körök vannak, amik sorba rendeződnek, függetlenül a műfajtól. Lehet, hogy a nigériai ízlés egy bizonyos táncolhatósági szintnél konvergál ebben a műfajban? -✅ Próbálj ki különböző adatpontokat (energy, loudness, speechiness) és több vagy más zenei műfajokat. Mit fedezhetsz fel? Nézd meg a `df.describe()` táblázatot, hogy lásd az adatpontok általános eloszlását. +✅ Próbálj ki különböző adatpontokat (energia, hangerő, beszédesség) és több vagy más zenei műfajt. Mit fedezhetsz fel? Nézd meg a `df.describe()` táblát az adatok általános eloszlásának megértéséhez. ### Gyakorlat - adateloszlás -Jelentősen különbözik-e ez a három műfaj a táncolhatóság érzékelésében a népszerűségük alapján? +E három műfaj lényegesen különbözik-e táncolhatóságuk érzékelésében, népszerűségük alapján? -1. Vizsgáljuk meg a három legnépszerűbb műfaj adateloszlását a népszerűség és táncolhatóság mentén egy adott x és y tengelyen. +1. Vizsgáld meg a három vezető műfaj adatainak eloszlását népszerűség és táncolhatóság szerint egy adott x és y tengely mentén. ```python sns.set_theme(style="ticks") @@ -290,15 +291,15 @@ Jelentősen különbözik-e ez a három műfaj a táncolhatóság érzékelésé ) ``` - Felfedezhetsz koncentrikus köröket egy általános konvergenciapont körül, amelyek az eloszlási pontokat mutatják. + Felfedezhetsz koncentrikus köröket egy általános konvergencia pont körül, amelyek az adatok eloszlását mutatják. - > 🎓 Ne feledd, hogy ez a példa egy KDE (Kernel Density Estimate) grafikont használ, amely az adatokat egy folyamatos valószínűségi sűrűség görbével ábrázolja. Ez lehetővé teszi az adatok értelmezését több eloszlás esetén. + > 🎓 Ez a példa KDE (Kernel Density Estimate) grafikont használ, ami az adatokat egy folyamatos valószínűségi sűrűség görbével ábrázolja. Ez lehetővé teszi az adatok értelmezését több eloszlás esetén. - Általánosságban elmondható, hogy a három műfaj lazán igazodik a népszerűségük és táncolhatóságuk tekintetében. Klaszterek meghatározása ebben a lazán igazodó adatokban kihívást jelent: + Általánosságban a három műfaj laza összhangban van népszerűség és táncolhatóság tekintetében. Klaszterek meghatározása ebben a laza összhangban lévő adatban kihívás lesz: - ![eloszlás](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![eloszlás](../../../../translated_images/hu/distribution.9be11df42356ca95.webp) -1. Készítsünk egy szórásdiagramot: +1. Készíts egy pontdiagramot: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -306,31 +307,33 @@ Jelentősen különbözik-e ez a három műfaj a táncolhatóság érzékelésé .add_legend() ``` - Ugyanazon tengelyek szórásdiagramja hasonló konvergenciamintát mutat + Ugyanazon tengelyek pontdiagramja hasonló konvergencia mintát mutat: - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/hu/facetgrid.9b2e65ce707eba1f.webp) -Általánosságban elmondható, hogy a klaszterezéshez használhatsz szórásdiagramokat az adatok klasztereinek megjelenítésére, így ennek a vizualizációs típusnak a elsajátítása nagyon hasznos. A következő leckében ezt a szűrt adatot fogjuk használni, és k-means klaszterezéssel fedezünk fel csoportokat az adatokban, amelyek érdekes módon átfedhetnek. +Általánosságban a klaszterezéshez pontdiagramokat használhatsz az adatok klaszterek szerinti megjelenítésére, ezért ennek a vizualizáció típusnak a meglátása nagyon hasznos. A következő leckében ezt a szűrt adatot fogjuk használni k-móduszú klaszterezéssel, hogy csoportokat fedezzünk fel, amelyek érdekes módon fedik egymást. --- ## 🚀Kihívás -A következő lecke előkészítéseként készíts egy diagramot a különböző klaszterezési algoritmusokról, amelyeket felfedezhetsz és használhatsz egy termelési környezetben. Milyen problémákat próbál megoldani a klaszterezés? +A következő lecke előkészítéseként készíts egy ábrát a különböző klaszterező algoritmusokról, amelyeket felfedezhetsz és használhatsz egy éles környezetben. Milyen problémákat próbál megoldani a klaszterezés? -## [Utó-lecke kvíz](https://ff-quizzes.netlify.app/en/ml/) +## [Leckezáró kvíz](https://ff-quizzes.netlify.app/en/ml/) -## Áttekintés és önálló tanulás +## Áttekintés & Önálló tanulás -Mielőtt klaszterezési algoritmusokat alkalmaznál, ahogy megtanultuk, jó ötlet megérteni az adatállomány természetét. Olvass többet erről a témáról [itt](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Mielőtt klaszterező algoritmusokat alkalmaznál, ahogy tanultuk, jó ötlet megérteni az adathalmazod természetét. Olvass többet erről a témáról [itt](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[Ez a hasznos cikk](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) bemutatja, hogyan viselkednek különböző klaszterezési algoritmusok különböző adatformák esetén. +[Ez a hasznos cikk](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) végigvezet a különböző klaszterező algoritmusok viselkedésén, eltérő adat alakok esetén. ## Feladat -[Kutatás más vizualizációkról a klaszterezéshez](assignment.md) +[Keresd a klaszterezés egyéb vizualizációit](assignment.md) --- -**Felelősség kizárása**: -Ez a dokumentum az AI fordítási szolgáltatás, a [Co-op Translator](https://github.com/Azure/co-op-translator) segítségével lett lefordítva. Bár törekszünk a pontosságra, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az eredeti nyelvén tekintendő hiteles forrásnak. Kritikus információk esetén javasolt professzionális emberi fordítást igénybe venni. Nem vállalunk felelősséget semmilyen félreértésért vagy téves értelmezésért, amely a fordítás használatából eredhet. \ No newline at end of file + +**Jogi nyilatkozat**: +Ez a dokumentum az AI fordítási szolgáltatás, a [Co-op Translator](https://github.com/Azure/co-op-translator) segítségével készült. Bár az pontosságra törekszünk, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az anyanyelvén tekintendő hiteles forrásnak. Fontos információk esetén professzionális emberi fordítást javasolunk. Nem vállalunk felelősséget semmilyen félreértésért vagy téves értelmezésért, amely ebből a fordításból ered. + \ No newline at end of file diff --git a/translations/sw/.co-op-translator.json b/translations/sw/.co-op-translator.json index c7a5532f2..b478b5fcc 100644 --- a/translations/sw/.co-op-translator.json +++ b/translations/sw/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-05T16:06:05+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:41:40+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "sw" }, @@ -240,8 +240,8 @@ "language_code": "sw" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-05T15:40:02+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:41:15+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "sw" }, diff --git a/translations/sw/1-Introduction/1-intro-to-ML/README.md b/translations/sw/1-Introduction/1-intro-to-ML/README.md index b4d1ea31f..1ed703646 100644 --- a/translations/sw/1-Introduction/1-intro-to-ML/README.md +++ b/translations/sw/1-Introduction/1-intro-to-ML/README.md @@ -1,150 +1,157 @@ -# Utangulizi wa kujifunza kwa mashine +# Utangulizi wa kujifunza mashine -## [Jaribio la awali ya somo](https://ff-quizzes.netlify.app/en/ml/) +## [Mtihani kabla ya somo](https://ff-quizzes.netlify.app/en/ml/) --- -[![ML kwa wanaoanza - Utangulizi wa Kujifunza kwa Mashine kwa Wanaoanza](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML kwa wanaoanza - Utangulizi wa Kujifunza kwa Mashine kwa Wanaoanza") +[![ML kwa wanaoanza - Utangulizi wa Kujifunza Mashine kwa Waanzisha](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML kwa wanaoanza - Utangulizi wa Kujifunza Mashine kwa Waanzisha") -> 🎥 Bonyeza picha hapo juu kwa video fupi inayopitia somo hili. +> 🎥 Bonyeza picha hapo juu kuona video fupi inayofundisha somo hili. -Karibu kwenye kozi hii ya kujifunza kwa mashine ya kawaida kwa wanaoanza! Ikiwa wewe ni mgeni kabisa kwenye mada hii, au mtaalamu wa ML unayetafuta kuimarisha ujuzi wako, tunafurahi kukuona hapa! Tunataka kuunda mahali rafiki pa kuanzia masomo yako ya ML na tungefurahi kutathmini, kujibu, na kuingiza [maoni yako](https://github.com/microsoft/ML-For-Beginners/discussions). +Karibu katika kozi hii ya kujifunza mashine za kale kwa wanaoanza! Iwe wewe ni mpya kabisa kwenye mada hii, au mtaalamu wa ML mwenye uzoefu anayetaka kukagua eneo fulani, tunafurahi kuwa na wewe! Tunataka kuunda mahali pazuri pa kuanza kwa kujifunza ML na tungefurahi kupokea, kujibu, na kuingiza [maoni yako](https://github.com/microsoft/ML-For-Beginners/discussions). [![Utangulizi wa ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Utangulizi wa ML") -> 🎥 Bonyeza picha hapo juu kwa video: John Guttag wa MIT anatambulisha kujifunza kwa mashine +> 🎥 Bonyeza picha hapo juu kuona video: John Guttag wa MIT anatoa utangulizi wa kujifunza mashine --- -## Kuanza na kujifunza kwa mashine +## Kuanzia na kujifunza mashine -Kabla ya kuanza na mtaala huu, unahitaji kuwa na kompyuta yako tayari kuendesha daftari za kazi (notebooks) kwa ndani. +Kabla ya kuanza na mtaala huu, unahitaji kuwa na kompyuta yako imesanidiwa na iko tayari kuendesha daftari za kumbukumbu kwa ndani. -- **Sanidi kompyuta yako kwa video hizi**. Tumia viungo vifuatavyo kujifunza [jinsi ya kusakinisha Python](https://youtu.be/CXZYvNRIAKM) kwenye mfumo wako na [kuweka mhariri wa maandishi](https://youtu.be/EU8eayHWoZg) kwa maendeleo. -- **Jifunze Python**. Inapendekezwa pia kuwa na uelewa wa msingi wa [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), lugha ya programu inayofaa kwa wanasayansi wa data ambayo tunatumia katika kozi hii. -- **Jifunze Node.js na JavaScript**. Tunatumia JavaScript mara chache katika kozi hii tunapojenga programu za wavuti, kwa hivyo utahitaji kuwa na [node](https://nodejs.org) na [npm](https://www.npmjs.com/) vilivyowekwa, pamoja na [Visual Studio Code](https://code.visualstudio.com/) kwa maendeleo ya Python na JavaScript. -- **Unda akaunti ya GitHub**. Kwa kuwa umetuona hapa kwenye [GitHub](https://github.com), huenda tayari una akaunti, lakini ikiwa huna, unda moja kisha nakili mtaala huu ili utumie mwenyewe. (Usisite kutupa nyota, pia 😊) -- **Gundua Scikit-learn**. Jifunze kuhusu [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), seti ya maktaba za ML tunazorejelea katika masomo haya. +- **Sanidi kifaa chako kwa kutumia video hizi**. Tumia viungo vifuatavyo kujifunza [jinsi ya kusakinisha Python](https://youtu.be/CXZYvNRIAKM) kwenye mfumo wako na [kusanidi mhariri wa maandishi](https://youtu.be/EU8eayHWoZg) kwa maendeleo. +- **Jifunze Python**. Pia inashauriwa kuwa na uelewa wa msingi wa [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), lugha ya programu inayotumika na wanasayansi wa data ambayo tunatumia katika kozi hii. +- **Jifunze Node.js na JavaScript**. Tunatumia JavaScript mara kadhaa katika kozi hii tunapotengeneza programu za mtandao, hivyo utahitaji kuwa na [node](https://nodejs.org) na [npm](https://www.npmjs.com/) vimesakinishwa, pamoja na [Visual Studio Code](https://code.visualstudio.com/) kwa maendeleo ya Python na JavaScript. +- **Tengeneza akaunti ya GitHub**. Kwa kuwa ulinipata hapa kwenye [GitHub](https://github.com), unaweza kuwa tayari una akaunti, lakini kama huna, tengeneza moja kisha foka mtaala huu kutumia kwa ajili yako binafsi. (Pia jisikie huru kutupa nyota 😊) +- **Chunguza Scikit-learn**. Jadiliana na [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), seti ya maktaba za ML tunayorejelea katika masomo haya. --- -## Kujifunza kwa mashine ni nini? +## Nini maana ya kujifunza mashine? -Neno 'kujifunza kwa mashine' ni mojawapo ya maneno maarufu na yanayotumika sana leo. Kuna uwezekano mkubwa kwamba umesikia neno hili angalau mara moja ikiwa una aina fulani ya ufahamu wa teknolojia, bila kujali unafanya kazi katika nyanja gani. Hata hivyo, mitambo ya kujifunza kwa mashine ni fumbo kwa watu wengi. Kwa mwanzilishi wa kujifunza kwa mashine, somo linaweza kuhisi kuwa gumu. Kwa hivyo, ni muhimu kuelewa kujifunza kwa mashine ni nini hasa, na kujifunza kuhusu hilo hatua kwa hatua, kupitia mifano ya vitendo. +Neno 'kujifunza mashine' ni mojawapo ya maneno maarufu zaidi na yanayotumika mara nyingi leo. Kuna uwezekano mkubwa kuwa umewahi kusikia neno hili angalau mara moja ikiwa una ujuzi fulani na teknolojia, haijalishi unafanya kazi katika sekta gani. Hata hivyo, mienendo ya kujifunza mashine ni fumbo kwa wengi. Kwa mwanzilishi wa kujifunza mashine, mada inaweza mara nyingine kujisikia kuzidi uwezo. Kwa hiyo, ni muhimu kuelewa kweli ni nini kujifunza mashine, na kujifunza hatua kwa hatua, kwa mfano wa vitendo. --- -## Mzunguko wa umaarufu +## Msururu wa hango ya shauku -![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/sw/hype.07183d711a17aafe.webp) -> Google Trends inaonyesha 'mzunguko wa umaarufu' wa hivi karibuni wa neno 'kujifunza kwa mashine' +> Google Trends inaonyesha 'msururu wa hango ya shauku' wa neno 'kujifunza mashine' hivi karibuni --- ## Ulimwengu wa fumbo -Tunaishi katika ulimwengu uliojaa mafumbo ya kuvutia. Wanasayansi wakuu kama Stephen Hawking, Albert Einstein, na wengine wengi wamejitolea maisha yao kutafuta taarifa muhimu zinazofichua mafumbo ya dunia inayotuzunguka. Hii ni hali ya binadamu ya kujifunza: mtoto wa binadamu hujifunza mambo mapya na kufichua muundo wa dunia yao mwaka baada ya mwaka wanapokua hadi utu uzima. +Tunaishi katika ulimwengu uliojaa mafumbo ya kuvutia. Wanasayansi wakubwa kama Stephen Hawking, Albert Einstein, na wengine wengi wamejitoa kutafuta taarifa zenye maana zinazoifunua fumbo za dunia inayotuzunguka. Hali hii ni hali ya kibinadamu ya kujifunza: mtoto wa binadamu hujifunza mambo mapya na kugundua muundo wa dunia yao mwaka baada ya mwaka wanapokua hadi kufikia utu uzima. --- ## Ubongo wa mtoto -Ubongo wa mtoto na hisia zake hutambua ukweli wa mazingira yao na polepole hujifunza mifumo iliyofichwa ya maisha ambayo husaidia mtoto kuunda sheria za kimantiki za kutambua mifumo iliyojifunza. Mchakato wa kujifunza wa ubongo wa binadamu huwafanya binadamu kuwa kiumbe wa hali ya juu zaidi duniani. Kujifunza kwa kuendelea kwa kugundua mifumo iliyofichwa na kisha kubuni mifumo hiyo hutuwezesha kujiboresha zaidi na zaidi katika maisha yetu yote. Uwezo huu wa kujifunza na kubadilika unahusiana na dhana inayoitwa [ubadilishaji wa ubongo](https://www.simplypsychology.org/brain-plasticity.html). Kwa juu juu, tunaweza kuchora mfanano wa motisha kati ya mchakato wa kujifunza wa ubongo wa binadamu na dhana za kujifunza kwa mashine. +Ubongo na hisia za mtoto hugundua matukio ya mazingira yao na polepole hujifunza mifumo iliyofichwa ya maisha ambayo huwasaidia watoto kutengeneza sheria za mantiki za kutambua mifumo waliyojifunza. Mchakato wa kujifunza wa ubongo wa binadamu unawafanya wanadamu viumbe wenye werevu zaidi duniani. Kujifunza kwa kuendelea kugundua mifumo iliyofichwa na kisha kuiboresha kunaturuhusu kuboresha maisha yetu kila wakati tunapozidi kukua. Uwezo huu wa kujifunza na kuendelea una uhusiano na dhana inayojulikana kama [ubadilika wa ubongo](https://www.simplypsychology.org/brain-plasticity.html). Kwa sura, tunaweza kuchora ulinganifu wa kuhamasisha kati ya mchakato wa kujifunza wa ubongo wa binadamu na dhana za kujifunza mashine. --- ## Ubongo wa binadamu -[Ubongo wa binadamu](https://www.livescience.com/29365-human-brain.html) hutambua mambo kutoka ulimwengu halisi, huchakata taarifa iliyotambuliwa, hufanya maamuzi ya kimantiki, na hufanya vitendo fulani kulingana na hali. Hii ndiyo tunaita tabia ya akili. Tunapopanga mfano wa mchakato wa tabia ya akili kwa mashine, inaitwa akili bandia (AI). +[Ubongo wa binadamu](https://www.livescience.com/29365-human-brain.html) hugundua mambo kutoka kwa ulimwengu halisi, hufanyia kazi taarifa zilizogunduliwa, hufanya maamuzi ya mantiki, na kutekeleza vitendo fulani kulingana na hali. Hii ndio tunaiita tabia ya werevu. Tunapompprograma mashine kupiga mfano wa mchakato wa tabia ya werevu, huitwa akili bandia (AI). --- ## Baadhi ya istilahi -Ingawa maneno yanaweza kuchanganya, kujifunza kwa mashine (ML) ni sehemu muhimu ya akili bandia. **ML inahusika na kutumia algoriti maalum kufichua taarifa muhimu na kupata mifumo iliyofichwa kutoka kwa data iliyotambuliwa ili kuthibitisha mchakato wa kufanya maamuzi ya kimantiki**. +Ingawa maneno haya yanaweza kuchanganywa, kujifunza mashine (ML) ni sehemu muhimu ya akili bandia. **ML inahusiana na kutumia algoriti maalum kugundua taarifa zenye maana na kupata mifumo iliyofichwa kutoka kwa data iliyogunduliwa ili kuimarisha mchakato wa kufanya maamuzi ya mantiki**. --- ## AI, ML, Kujifunza kwa Kina -![AI, ML, deep learning, data science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/sw/ai-ml-ds.537ea441b124ebf6.webp) -> Mchoro unaonyesha uhusiano kati ya AI, ML, kujifunza kwa kina, na sayansi ya data. Infografiki na [Jen Looper](https://twitter.com/jenlooper) iliyoongozwa na [mchoro huu](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> Mchoro unaoonyesha uhusiano kati ya AI, ML, kujifunza kwa kina, na sayansi ya data. Infographics na [Jen Looper](https://twitter.com/jenlooper) iliyoongozwa na [graphic hii](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- ## Dhana za kufunika -Katika mtaala huu, tutafunika tu dhana za msingi za kujifunza kwa mashine ambazo mwanzilishi lazima ajue. Tunafunika kile tunachokiita 'kujifunza kwa mashine ya kawaida' hasa kwa kutumia Scikit-learn, maktaba bora ambayo wanafunzi wengi hutumia kujifunza misingi. Ili kuelewa dhana pana za akili bandia au kujifunza kwa kina, maarifa ya msingi ya kujifunza kwa mashine ni muhimu, na kwa hivyo tungependa kuyatoa hapa. +Katika mtaala huu, tutashughulikia tu dhana za msingi za kujifunza mashine ambazo mwanzilishi anapaswa kujua. Tunashughulikia kile tunachokiita 'kujifunza mashine za kale' hasa kwa kutumia Scikit-learn, maktaba bora ambayo wanafunzi wengi hutumia kujifunza misingi. Ili kuelewa dhana pana za akili bandia au kujifunza kwa kina, uelewa thabiti wa msingi wa kujifunza mashine ni muhimu, na hivyo tunapenda kutoa hapa. --- ## Katika kozi hii utajifunza: -- dhana za msingi za kujifunza kwa mashine +- dhana za msingi za kujifunza mashine - historia ya ML - ML na usawa - mbinu za ML za regression - mbinu za ML za uainishaji -- mbinu za ML za clustering +- mbinu za ML za kuyasanya makundi - mbinu za ML za usindikaji wa lugha asilia -- mbinu za ML za utabiri wa mfululizo wa muda +- mbinu za ML za utabiri wa mfululizo wa wakati - kujifunza kwa kuimarisha -- matumizi ya ML katika maisha halisi +- matumizi halisi ya ML --- -## Kile ambacho hatutafunika +## Kile ambacho hatutashughulikia - kujifunza kwa kina - mitandao ya neva - AI -Ili kuboresha uzoefu wa kujifunza, tutakwepa ugumu wa mitandao ya neva, 'kujifunza kwa kina' - ujenzi wa mifano yenye tabaka nyingi kwa kutumia mitandao ya neva - na AI, ambayo tutajadili katika mtaala tofauti. Pia tutatoa mtaala wa sayansi ya data unaokuja ili kuzingatia kipengele hicho cha uwanja huu mkubwa. +Ili kupata uzoefu bora wa kujifunza, tutaepuka mchanganyiko wa mitandao ya neva, 'kujifunza kwa kina' - ujenzi wa modeli zenye tabaka nyingi kwa kutumia mitandao ya neva - na AI, ambayo tutajadili katika mtaala mwingine. Pia tutatoa mtaala mtarajiwa wa sayansi ya data kulenga upande huo wa fani hii kubwa. --- -## Kwa nini ujifunze kujifunza kwa mashine? +## Kwanini kujifunza kujifunza mashine? -Kujifunza kwa mashine, kutoka mtazamo wa mifumo, hufafanuliwa kama uundaji wa mifumo ya kiotomatiki inayoweza kujifunza mifumo iliyofichwa kutoka kwa data ili kusaidia kufanya maamuzi ya akili. +Kujifunza mashine, kwa mtazamo wa mifumo, huwekwa kama uundaji wa mifumo ya moja kwa moja inayoweza kujifunza mifumo iliyofichwa kutoka kwa data kusaidia kufanya maamuzi ya werevu. -Motisha hii imeongozwa kwa kiasi fulani na jinsi ubongo wa binadamu hujifunza mambo fulani kulingana na data inayotambuliwa kutoka ulimwengu wa nje. +Mmotisho huu umeongozwa kwa sehemu na jinsi ubongo wa binadamu unavyojifunza mambo fulani kwa msingi wa data inayogunduliwa kutoka kwa ulimwengu wa nje. -✅ Fikiria kwa dakika moja kwa nini biashara ingependa kujaribu kutumia mikakati ya kujifunza kwa mashine badala ya kuunda injini ya sheria iliyosimbwa moja kwa moja. +✅ Fikiria kwa sekunde kwa nini biashara itataka kutumia mbinu za kujifunza mashine badala ya kuunda injini ya sheria ngumu. --- -## Matumizi ya kujifunza kwa mashine +## Kwanini ubora wa data ni muhimu -Matumizi ya kujifunza kwa mashine sasa yako karibu kila mahali, na ni ya kawaida kama data inayozunguka jamii zetu, inayozalishwa na simu zetu za kisasa, vifaa vilivyounganishwa, na mifumo mingine. Kwa kuzingatia uwezo mkubwa wa algoriti za kisasa za kujifunza kwa mashine, watafiti wamekuwa wakichunguza uwezo wake wa kutatua matatizo ya maisha halisi ya pande nyingi na ya taaluma nyingi kwa matokeo mazuri. +Data yenye ubora wa juu huongeza utendaji wa modeli. Data duni au yenye kelele inaweza kusababisha utabiri usio sahihi, hata wakati unatumia algoriti za kujifunza mashine za hali ya juu. --- -## Mifano ya ML inayotumika +## Matumizi ya kujifunza mashine -**Unaweza kutumia kujifunza kwa mashine kwa njia nyingi**: +Matumizi ya kujifunza mashine sasa karibu kila mahali, na ni kama data zinazotiririka katika jamii zetu, zinazozalishwa na simu zetu smart, vifaa vilivyowekwa mtandaoni, na mifumo mingine. Kwa kuzingatia uwezo mkubwa wa algoriti za kujifunza mashine za kisasa, watafiti wamekuwa wakichunguza uwezo wao kutatua matatizo ya maisha halisi yenye vipimo vingi na taaluma nyingi kwa matokeo mazuri sana. -- Kutabiri uwezekano wa ugonjwa kutoka historia ya matibabu ya mgonjwa au ripoti. +--- +## Mifano ya ML iliyotumika + +**Unaweza kutumia kujifunza mashine kwa njia nyingi**: + +- Kutabiri uwezekano wa ugonjwa kutoka kwa historia ya matibabu au ripoti za mgonjwa. - Kutumia data ya hali ya hewa kutabiri matukio ya hali ya hewa. - Kuelewa hisia za maandishi. -- Kugundua habari za uongo ili kuzuia kuenea kwa propaganda. +- Kugundua habari za uongo kuzuia kusambaa kwa propaganda. -Fedha, uchumi, sayansi ya dunia, uchunguzi wa anga, uhandisi wa biomedikali, sayansi ya utambuzi, na hata nyanja za binadamu zimechukua kujifunza kwa mashine kutatua matatizo magumu, yanayohitaji uchakataji wa data katika nyanja zao. +Fedha, uchumi, sayansi ya dunia, uchunguzi wa anga, uhandisi wa biomedical, sayansi ya fahamu, na hata nyanja za wanadamu wamekubali kujifunza mashine kutatua matatizo magumu ya usanifu wa data katika fani zao. --- ## Hitimisho -Kujifunza kwa mashine kunafanya mchakato wa kugundua mifumo kuwa wa kiotomatiki kwa kupata maarifa muhimu kutoka kwa data halisi au iliyotengenezwa. Imethibitisha kuwa yenye thamani kubwa katika biashara, afya, na matumizi ya kifedha, miongoni mwa mengine. +Kujifunza mashine huendesha mchakato wa kugundua mifumo kwa kupata maarifa yenye maana kutoka kwa data halisi au inayotengenezwa. Imethibitisha kuwa ni ya thamani kubwa katika biashara, afya, na matumizi ya kifedha, miongoni mwa mengine. -Katika siku za usoni, kuelewa misingi ya kujifunza kwa mashine kutakuwa jambo la lazima kwa watu kutoka nyanja yoyote kutokana na matumizi yake yaliyoenea. +Katika siku zijazo za karibu, kuelewa misingi ya kujifunza mashine kutakuwa lazima kwa watu kutoka nyanja yoyote kutokana na matumizi yake makubwa. --- # 🚀 Changamoto -Chora, kwenye karatasi au kwa kutumia programu ya mtandaoni kama [Excalidraw](https://excalidraw.com/), uelewa wako wa tofauti kati ya AI, ML, kujifunza kwa kina, na sayansi ya data. Ongeza mawazo ya matatizo ambayo kila moja ya mbinu hizi ni nzuri katika kutatua. +Chora, kwa karatasi au ukitumia programu mtandaoni kama [Excalidraw](https://excalidraw.com/), uelewa wako wa tofauti kati ya AI, ML, kujifunza kwa kina, na sayansi ya data. Ongeza mawazo ya matatizo ambayo kila moja ya mbinu hizi ni nzuri kuyatatua. -# [Jaribio la baada ya somo](https://ff-quizzes.netlify.app/en/ml/) +# [Mtihani baada ya somo](https://ff-quizzes.netlify.app/en/ml/) --- -# Mapitio na Kujisomea +# Mapitio & Kujifunza Binafsi -Ili kujifunza zaidi kuhusu jinsi unavyoweza kufanya kazi na algoriti za ML kwenye wingu, fuata [Njia ya Kujifunza](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +Ili kujifunza zaidi kuhusu jinsi unavyoweza kufanya kazi na algoriti za ML katika wingu, fuata [Njia ya Kujifunza](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). Chukua [Njia ya Kujifunza](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) kuhusu misingi ya ML. --- -# Kazi +# Kazi ya nyumbani -[Pata na uanze](assignment.md) +[Pata kuanza na kuendeshwa](assignment.md) --- -**Kanusho**: -Hati hii imetafsiriwa kwa kutumia huduma ya kutafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kuhakikisha usahihi, tafadhali fahamu kuwa tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwa sahihi. Hati ya asili katika lugha yake ya awali inapaswa kuzingatiwa kama chanzo cha mamlaka. Kwa taarifa muhimu, tafsiri ya kitaalamu ya binadamu inapendekezwa. Hatutawajibika kwa kutoelewana au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii. \ No newline at end of file + +**Kionyozo**: +Hati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kupata usahihi, tafadhali fahamu kwamba tafsiri za kiotomatiki zinaweza kuwa na makosa au upungufu wa usahihi. Hati ya asili katika lugha yake halisi inapaswa kuchukuliwa kama chanzo cha mamlaka. Kwa taarifa muhimu, tafsiri ya kitaalamu inayofanywa na binadamu inapendekezwa. Hatutojibu kwa kuelewa vibaya au tafsiri potofu zinazotokea kutokana na matumizi ya tafsiri hii. + \ No newline at end of file diff --git a/translations/sw/5-Clustering/1-Visualize/README.md b/translations/sw/5-Clustering/1-Visualize/README.md index 396a2c5d1..59b22ee96 100644 --- a/translations/sw/5-Clustering/1-Visualize/README.md +++ b/translations/sw/5-Clustering/1-Visualize/README.md @@ -1,116 +1,115 @@ -# Utangulizi wa clustering +# Utangulizi wa uundaji makundi -Clustering ni aina ya [Unsupervised Learning](https://wikipedia.org/wiki/Unsupervised_learning) inayodhani kuwa dataset haina lebo au kwamba maingizo yake hayajafungamanishwa na matokeo yaliyotanguliwa. Inatumia algorithmi mbalimbali kuchambua data isiyo na lebo na kutoa makundi kulingana na mifumo inayotambua kwenye data. +Uundaji makundi ni aina ya [Mafunzo yasiyoongozwa](https://wikipedia.org/wiki/Unsupervised_learning) ambayo inadhani dataset haina lebo au kwamba pembejeo zake hazilingani na matokeo yaliyowekwa awali. Inatumia algoriti mbalimbali kuchambua data isiyolebwa na kutoa makundi kulingana na mifumo inayoiona katika data. [![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Bofya picha hapo juu kwa video. Unapojifunza machine learning kwa kutumia clustering, furahia nyimbo za Dance Hall za Nigeria - hii ni wimbo uliopendwa sana kutoka 2014 na PSquare. +> 🎥 Bofya picha hapo juu kwa video. Unapojifunza mashine ya kujifunza na uundaji makundi, furahia baadhi ya nyimbo za Nigerian Dance Hall - hii ni wimbo uliopewa alama kubwa kutoka 2014 na PSquare. -## [Maswali ya awali ya somo](https://ff-quizzes.netlify.app/en/ml/) +## [Mtihani wa kabla ya duru](https://ff-quizzes.netlify.app/en/ml/) ### Utangulizi -[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ni muhimu sana kwa uchunguzi wa data. Hebu tuone kama inaweza kusaidia kugundua mitindo na mifumo katika jinsi hadhira ya Nigeria inavyotumia muziki. +[Uundaji makundi](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) ni muhimu sana kwa uchunguzi wa data. Tuchunguze ikiwa inaweza kusaidia kugundua mwenendo na mifumo katika njia ambayo hadhira wa Nigeria huchukua muziki. -✅ Chukua dakika moja kufikiria matumizi ya clustering. Katika maisha ya kila siku, clustering hutokea kila unapokuwa na rundo la nguo na unahitaji kupanga nguo za wanafamilia wako 🧦👕👖🩲. Katika data science, clustering hutokea unapojaribu kuchambua mapendeleo ya mtumiaji, au kubaini sifa za dataset yoyote isiyo na lebo. Kwa namna fulani, clustering husaidia kuleta mpangilio kwenye machafuko, kama droo ya soksi. +✅ Chukua dakika moja kufikiria matumizi ya uundaji makundi. Katika maisha halisi, uundaji makundi hutokea wakati wowote unapokuwa na mfululizo wa nguo za kulazimika kupangilia nguo za wanak family wako 🧦👕👖🩲. Katika sayansi ya data, uundaji makundi hutokea wakati wa kujaribu kuchambua upendeleo wa mtumiaji, au kubaini sifa za dataset yoyote isiyo na lebo. Uundaji makundi, kwa namna fulani, husaidia kufasiri machafuko, kama vile kivuli cha soksi. -[![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") +[![Utangulizi wa ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Utangulizi wa Uundaji Makundi") -> 🎥 Bofya picha hapo juu kwa video: John Guttag wa MIT anatambulisha clustering. +> 🎥 Bofya picha hapo juu kwa video: John Guttag wa MIT anaanzisha uundaji makundi -Katika mazingira ya kitaalamu, clustering inaweza kutumika kubaini mambo kama mgawanyiko wa soko, kubaini ni makundi ya umri gani yanayonunua bidhaa fulani, kwa mfano. Matumizi mengine yanaweza kuwa kugundua hali zisizo za kawaida, labda kugundua udanganyifu kutoka dataset ya miamala ya kadi za mkopo. Au unaweza kutumia clustering kubaini uvimbe katika kundi la picha za uchunguzi wa matibabu. +Katika mazingira ya kazi, uundaji makundi unaweza kutumika kuamua vitu kama segmentation ya soko, kuamua ni makundi ya umri gani yanayonunua vitu gani, kwa mfano. Matumizi mengine ni kugundua kasoro, labda kugundua udanganyifu kutoka kwa dataset ya miamala ya kadi ya mkopo. Au unaweza kutumia uundaji makundi kubaini uvimbe katika kundi la skani za matibabu. -✅ Fikiria kwa dakika moja jinsi unavyoweza kuwa umekutana na clustering 'katika mazingira halisi', katika benki, e-commerce, au mazingira ya biashara. +✅ Fikiria kwa dakika moja jinsi ulivyoweza kukutana na uundaji makundi 'katika mazingira halisi', katika benki, e-commerce, au mazingira ya biashara. -> 🎓 Kwa kushangaza, uchambuzi wa makundi ulianzia katika nyanja za Anthropolojia na Saikolojia katika miaka ya 1930. Je, unaweza kufikiria jinsi ulivyotumika? +> 🎓 Kwa kufurahisha, uchambuzi wa makundi ulizaliwa katika nyanja za Anthropology na Psychology katika miaka ya 1930. Unaweza kufikiria jinsi ulivyotumika? -Vinginevyo, unaweza kuitumia kwa kupanga matokeo ya utafutaji - kwa viungo vya ununuzi, picha, au hakiki, kwa mfano. Clustering ni muhimu unapokuwa na dataset kubwa unayotaka kupunguza na ambayo unataka kufanya uchambuzi wa kina zaidi, hivyo mbinu hii inaweza kutumika kujifunza kuhusu data kabla ya kujenga mifano mingine. +Vinginevyo, unaweza kuitumia kwa kuandaa matokeo ya utafutaji - kwa viungo vya kununua, picha, au mapitio, kwa mfano. Uundaji makundi ni wa manufaa wakati una dataset kubwa unayotaka kupunguza na kufanya uchambuzi wa kina zaidi, hivyo mbinu hii inaweza kutumika kujifunza kuhusu data kabla ya kujengwa modeli nyingine. -✅ Mara data yako inapopangwa katika makundi, unaiwekea kitambulisho cha kundi, na mbinu hii inaweza kuwa muhimu katika kuhifadhi faragha ya dataset; badala yake unaweza kurejelea data kwa kitambulisho cha kundi, badala ya data inayoweza kufichua zaidi. Je, unaweza kufikiria sababu nyingine za kutumia kitambulisho cha kundi badala ya vipengele vingine vya kundi kuvitambua? +✅ Mara dataset yako inapowekwa katika makundi, unampa kitambulisho cha kundi, na mbinu hii inaweza kuwa muhimu wakati wa kuhifadhi faragha ya dataset; badala yake unaweza kurejelea kipengele kwa kitambulisho cha kundi, badala ya data inayofichua zaidi. Unaweza kufikiria sababu nyingine kwanini utarejelea kitambulisho cha kundi badala ya vipengele vingine vya kundi ili kukitambulisha? -Panua uelewa wako wa mbinu za clustering katika [Learn module](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +Inua uelewa wako wa mbinu za uundaji makundi katika [moduli ya Kujifunza](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +## Kuanzisha na uundaji makundi -## Kuanza na clustering +[Scikit-learn inatoa mbinu nyingi](https://scikit-learn.org/stable/modules/clustering.html) za kufanya uundaji makundi. Aina unayochagua itategemea matumizi yako. Kulingana na nyaraka, kila mbinu ina faida mbalimbali. Hapa kuna jedwali lililorahisishwa la mbinu zinazoungwa mkono na Scikit-learn na matumizi yake yanayofaa: -[Scikit-learn inatoa mbinu nyingi](https://scikit-learn.org/stable/modules/clustering.html) za kufanya clustering. Aina unayochagua itategemea matumizi yako. Kulingana na nyaraka, kila mbinu ina faida mbalimbali. Hapa kuna jedwali rahisi la mbinu zinazoungwa mkono na Scikit-learn na matumizi yake yanayofaa: +| Jina la mbinu | Matumizi | +| :--------------------------- | :------------------------------------------------------------------- | +| K-Means | matumizi ya jumla, inductive | +| Affinity propagation | makundi mengi, yasiyo sawa, inductive | +| Mean-shift | makundi mengi, yasiyo sawa, inductive | +| Spectral clustering | makundi machache, sawa, transductive | +| Ward hierarchical clustering | makundi mengi, yanayozuiliwa, transductive | +| Agglomerative clustering | makundi mengi, yanayozuiliwa, umbali usiotegemea Euclid, transductive | +| DBSCAN | jiometri isiyo sawa, makundi yasiyo sawa, transductive | +| OPTICS | jiometri isiyo sawa, makundi yasiyo sawa yenye msongamano tofauti, transductive | +| Gaussian mixtures | jiometri sare, inductive | +| BIRCH | dataset kubwa yenye ving'ora, inductive | -| Jina la mbinu | Matumizi | -| :--------------------------- | :---------------------------------------------------------------------- | -| K-Means | matumizi ya jumla, inductive | -| Affinity propagation | makundi mengi, yasiyo sawa, inductive | -| Mean-shift | makundi mengi, yasiyo sawa, inductive | -| Spectral clustering | makundi machache, sawa, transductive | -| Ward hierarchical clustering | makundi mengi, yaliyowekewa mipaka, transductive | -| Agglomerative clustering | makundi mengi, yaliyowekewa mipaka, umbali usio wa Euclidean, transductive | -| DBSCAN | jiometri isiyo tambarare, makundi yasiyo sawa, transductive | -| OPTICS | jiometri isiyo tambarare, makundi yasiyo sawa yenye msongamano tofauti, transductive | -| Gaussian mixtures | jiometri tambarare, inductive | -| BIRCH | dataset kubwa yenye outliers, inductive | - -> 🎓 Jinsi tunavyounda makundi inahusiana sana na jinsi tunavyokusanya pointi za data katika vikundi. Hebu tuchambue baadhi ya istilahi: +> 🎓 Jinsi tunavyounda makundi ina uhusiano mkubwa na jinsi tunavyokusanya data katika makundi. Hebu tufafanue baadhi ya msamiati: > -> 🎓 ['Transductive' vs. 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning)) +> 🎓 ['Transductive' dhidi ya 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> Utoaji wa hitimisho wa transductive hutokana na kesi za mafunzo zilizotazamwa ambazo zinahusiana na kesi maalum za majaribio. Utoaji wa hitimisho wa inductive hutokana na kesi za mafunzo ambazo zinahusiana na sheria za jumla ambazo baadaye tu zinatumika kwa kesi za majaribio. +> Hitimisho la transductive linatokana na kesi za mafunzo zilizoonekana zinazofanana na kesi maalum za mtihani. Hitimisho la inductive linatokana na kesi za mafunzo zinazofikia sheria za jumla ambazo kisha hutumika kwa kesi za mtihani. > -> Mfano: Fikiria una dataset ambayo imewekwa lebo kwa sehemu tu. Vitu vingine ni 'rekodi', vingine 'cds', na vingine havina lebo. Kazi yako ni kutoa lebo kwa data isiyo na lebo. Ukichagua mbinu ya inductive, ungefundisha mfano ukitafuta 'rekodi' na 'cds', na kutumia lebo hizo kwa data yako isiyo na lebo. Mbinu hii itakuwa na shida kuainisha vitu ambavyo kwa kweli ni 'kanda'. Mbinu ya transductive, kwa upande mwingine, hushughulikia data isiyojulikana kwa ufanisi zaidi kwani inafanya kazi kuunda vikundi vya vitu vinavyofanana na kisha kutumia lebo kwa kundi. Katika kesi hii, makundi yanaweza kuonyesha 'vitu vya muziki vya mviringo' na 'vitu vya muziki vya mraba'. +> Mfano: Fikiria una dataset iliyolebwa sehemu tu. Baadhi ni 'rekodi', baadhi ni 'cds', na baadhi hazina kitu. Kazi yako ni kuweka lebo kwa zile zisizo na lebo. Ukichagua njia ya inductive, ungefundisha modeli kutafuta 'rekodi' na 'cds', na kutumia lebo hizo kwa data isiyo na lebo. Njia hii itakumbwa na shida katika kutambua vitu ambavyo kwa kweli ni 'kaseti'. Njia ya transductive, kwa upande mwingine, hushughulikia data isiyojulikana vyema zaidi kwa kujaribu kuunganisha vitu vinavyofanana kisha kuweka lebo kwa kundi. Katika kesi hii, makundi yanaweza kuwakilisha 'vitu vya muziki mviringo' na 'vitu vya muziki vya mraba'. > -> 🎓 ['Jiometri isiyo tambarare' vs. 'jiometri tambarare'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> 🎓 ['Jiometri isiyo sare' dhidi ya 'jiometri sare'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> Imetokana na istilahi za hisabati, jiometri isiyo tambarare vs. tambarare inahusu kipimo cha umbali kati ya pointi kwa njia ya 'tambarare' ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) au 'isiyo tambarare' (isiyo ya Euclidean). +> Inatokana na istilahi za hisabati, jiometri isiyo sare dhidi ya sare inahusu kipimo cha umbali kati ya pointi kwa kutumia mbinu za jiometri 'sare' ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) au 'isiyo sare' (isiyo-Euclidean). > ->'Tambarare' katika muktadha huu inahusu jiometri ya Euclidean (sehemu zake hufundishwa kama jiometri ya 'plane'), na isiyo tambarare inahusu jiometri isiyo ya Euclidean. Jiometri inahusiana vipi na machine learning? Kweli, kama nyanja mbili zinazotokana na hisabati, lazima kuwe na njia ya kawaida ya kupima umbali kati ya pointi katika makundi, na hiyo inaweza kufanywa kwa njia ya 'tambarare' au 'isiyo tambarare', kulingana na asili ya data. [Umbali wa Euclidean](https://wikipedia.org/wiki/Euclidean_distance) hupimwa kama urefu wa sehemu ya mstari kati ya pointi mbili. [Umbali usio wa Euclidean](https://wikipedia.org/wiki/Non-Euclidean_geometry) hupimwa kando ya mkurva. Ikiwa data yako, ikionyeshwa, inaonekana haipo kwenye plane, unaweza kuhitaji kutumia algorithmi maalum kuishughulikia. +> 'Sare' katika muktadha huu inahusu jiometri ya Euclid (sehemu zake hufundishwa kama jiometri ya 'mwelekeo'), na isiyo sare inahusu jiometri isiyo-Euclidean. Jiometri ina mahusiano gani na mashine ya kujifunza? Vizuri, kama nyanja mbili zinazotegemea hisabati, lazima kuwe na njia ya kawaida ya kupima umbali kati ya pointi za makundi, na hiyo inaweza kufanywa kwa njia ya 'sare' au 'isiyo sare', kulingana na asili ya data. [Umbali wa Euclid](https://wikipedia.org/wiki/Euclidean_distance) hupimwa kama urefu wa kipengele cha mstari kati ya pointi mbili. [Umbali usio wa Euclid](https://wikipedia.org/wiki/Non-Euclidean_geometry) hupimwa kwa njia ya mviringo. Ikiwa data yako, ikionyeshwa, inaonekana haitokani na ndege, unaweza kuhitaji kutumia algoriti maalum kushughulikia. > -![Flat vs Nonflat Geometry Infographic](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) -> Infographic na [Dasani Madipalli](https://twitter.com/dasani_decoded) +![Infograpiki ya Jiometri Sare vs Isiyo Sare](../../../../translated_images/sw/flat-nonflat.d1c8c6e2a96110c1.webp) +> Infograpiki na [Dasani Madipalli](https://twitter.com/dasani_decoded) > > 🎓 ['Umbali'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> Makundi yanafafanuliwa na matrix ya umbali, yaani umbali kati ya pointi. Umbali huu unaweza kupimwa kwa njia kadhaa. Makundi ya Euclidean yanafafanuliwa na wastani wa thamani za pointi, na yana 'centroid' au pointi ya katikati. Umbali hupimwa kwa umbali hadi centroid hiyo. Umbali usio wa Euclidean unahusu 'clustroids', pointi iliyo karibu zaidi na pointi nyingine. Clustroids kwa upande wake zinaweza kufafanuliwa kwa njia mbalimbali. +> Makundi hufafanuliwa na matriki ya umbali wake, mfano umbali kati ya pointi. Umbali huu unaweza kupimwa kwa njia kadhaa. Makundi ya Euclid hufafanuliwa na wastani wa thamani za pointi, na yana 'centroid' au kituo cha katikati. Umbali hupimwa kwa umbali hadi kwenye centroid hiyo. Umbali wa isiyo ya Euclid unahusu 'clustroids', pointi inayokaribia pointi zingine. Clustroids pia zinaweza kufafanuliwa kwa njia mbalimbali. > -> 🎓 ['Yaliyowekewa mipaka'](https://wikipedia.org/wiki/Constrained_clustering) +> 🎓 ['Yanayozuiliwa'](https://wikipedia.org/wiki/Constrained_clustering) > -> [Clustering iliyowekewa mipaka](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) huanzisha 'semi-supervised' learning katika mbinu hii isiyo na usimamizi. Mahusiano kati ya pointi yanawekwa alama kama 'haiwezi kuunganishwa' au 'lazima yaunganishwe' hivyo sheria fulani zinapewa dataset. +> [Uundaji Makundi Yanayozuiliwa](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) huingiza mafunzo ya 'nusu-ongozwa' katika mbinu hii isiyoongozwa. Uhusiano kati ya pointi huwekwa kama 'haipatikani kiunganishi' au 'lazima iunganishwe' hivyo sheria fulani hutumika kwenye dataset. > ->Mfano: Ikiwa algorithmi imeachwa huru kwenye kundi la data isiyo na lebo au yenye lebo kwa sehemu, makundi inayozalisha yanaweza kuwa ya ubora duni. Katika mfano hapo juu, makundi yanaweza kuunda 'vitu vya muziki vya mviringo' na 'vitu vya muziki vya mraba' na 'vitu vya pembetatu' na 'biskuti'. Ikiwa imepewa mipaka fulani, au sheria za kufuata ("kitu lazima kiwe cha plastiki", "kitu kinahitaji kuwa na uwezo wa kutoa muziki") hii inaweza kusaidia 'kuweka mipaka' kwa algorithmi kufanya chaguo bora. +> Mfano: Ikiwa algoriti huru itatumiwa kwenye kundi la data isiyo na lebo au isiyo kamili, makundi itakayozalisha yanaweza kuwa ya ubora mdogo. Katika mfano hapo juu, makundi yanaweza kuunganisha 'vitu vya muziki mviringo' na 'vitu vya muziki vya mraba' na 'vitu vya mviringo wa pembetatu' na 'biskuti'. Ikiwa itapewa vikwazo au sheria za kufuata ("kitu lazima kifanywe kwa plastiki", "kitu kinapaswa kuweza kutoa muziki") hii inaweza kusaidia 'kuzuia' algoriti kuchagua vyema. > > 🎓 'Msongamano' > -> Data iliyo na 'kelele' inachukuliwa kuwa 'yenye msongamano'. Umbali kati ya pointi katika kila moja ya makundi yake unaweza kuonyesha, kwa uchunguzi, kuwa na msongamano zaidi au mdogo, au 'imejaa' na hivyo data hii inahitaji kuchambuliwa kwa mbinu sahihi ya clustering. [Makala hii](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) inaonyesha tofauti kati ya kutumia K-Means clustering vs. HDBSCAN algorithmi kuchunguza dataset yenye kelele na msongamano usio sawa. +> Data ambayo ni 'kelele' huchukuliwa kuwa na 'msongamano'. Umbali kati ya pointi katika kila kundi linaweza kuonyesha kuwa na msongamano mkubwa au mdogo, au 'kushikana'. Hivyo data hii inahitaji kuchambuliwa kwa njia inayofaa ya uundaji makundi. [Makala hii](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) inaonyesha tofauti kati ya kutumia K-Means dhidi ya HDBSCAN kuchunguza dataset yenye msongamano usio sawa. -## Algorithmi za clustering +## Algoriti za uundaji makundi -Kuna zaidi ya algorithmi 100 za clustering, na matumizi yake yanategemea asili ya data iliyopo. Hebu tujadili baadhi ya zile kuu: +Kuna zaidi ya algoriti 100 za uundaji makundi, na matumizi yao hutegemea asili ya data iliyopo. Tujadili baadhi ya maarufu: -- **Hierarchical clustering**. Ikiwa kitu kinaainishwa kwa ukaribu wake na kitu kilicho karibu, badala ya kile kilicho mbali zaidi, makundi yanaundwa kulingana na umbali wa wanachama wake kwa na kutoka kwa vitu vingine. Agglomerative clustering ya Scikit-learn ni hierarchical. +- **Uundaji makundi wa mfuatano**. Ikiwa kitu kinaainishwa kwa ukaribu wake na kitu kilicho karibu badala ya kile kilicho mbali, makundi hudhibitiwa kwa umbali wa wanachama na vitu vingine. Uundaji makundi wa agglomerative wa Scikit-learn ni wa mfuatano. - ![Hierarchical clustering Infographic](../../../../5-Clustering/1-Visualize/images/hierarchical.png) - > Infographic na [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Infograpiki ya uundaji makundi wa mfuatano](../../../../translated_images/sw/hierarchical.bf59403aa43c8c47.webp) + > Infograpiki na [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Centroid clustering**. Algorithmi hii maarufu inahitaji kuchagua 'k', au idadi ya makundi ya kuunda, baada ya hapo algorithmi huamua pointi ya katikati ya kundi na kukusanya data karibu na pointi hiyo. [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) ni toleo maarufu la centroid clustering. Kituo kinaamuliwa na wastani wa karibu, hivyo jina. Umbali wa mraba kutoka kwa kundi hupunguzwa. +- **Uundaji makundi wa kituo**. Algoriti hii maarufu inahitaji kuchagua 'k', au idadi ya makundi ya kuunda, kisha algoriti huamua kituo cha katikati cha kundi na kukusanya data karibu na kituo hicho. [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) ni toleo maarufu la uundaji makundi wa kituo. Kituo kinaamuliwa na wastani wa karibu, hivyo jina. Umbali wa mraba kutoka kwenye kundi hupunguzwa. - ![Centroid clustering Infographic](../../../../5-Clustering/1-Visualize/images/centroid.png) - > Infographic na [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Infograpiki ya uundaji makundi wa kituo](../../../../translated_images/sw/centroid.097fde836cf6c918.webp) + > Infograpiki na [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Distribution-based clustering**. Ikitokana na uundaji wa takwimu, distribution-based clustering inazingatia kubaini uwezekano kwamba pointi ya data inahusiana na kundi, na kuipangia ipasavyo. Mbinu za Gaussian mixture zinahusiana na aina hii. +- **Uundaji makundi wa msingi wa usambazaji**. Msingi wake ni utambuzi wa uwezekano kwamba kipengele cha data kinahusishwa na kundi, na kupewa lebo ipasavyo. Mbinu za mchanganyiko wa Gaussian zinahusiana na aina hii. -- **Density-based clustering**. Pointi za data zinapangiwa makundi kulingana na msongamano wao, au jinsi zinavyokusanyika karibu na kila moja. Pointi za data zilizo mbali na kundi zinachukuliwa kuwa outliers au kelele. DBSCAN, Mean-shift na OPTICS zinahusiana na aina hii ya clustering. +- **Uundaji makundi kwa msongamano**. Pointi za data huthibitishwa katika makundi kulingana na msongamano wake, au kuungana kwazo. Pointi zilizo mbali na kundi huonekana kama ving'ora au kelele. DBSCAN, Mean-shift na OPTICS ni aina hii ya uundaji makundi. -- **Grid-based clustering**. Kwa datasets zenye vipimo vingi, gridi huundwa na data hugawanywa kati ya seli za gridi hiyo, hivyo kuunda makundi. +- **Uundaji makundi wa msingi wa gridi**. Kwa datasets zenye vipimo vingi, gridi huundwa na data kugawanywa kwa seli za gridi, hivyo kuunda makundi. -## Zoezi - panga data yako +## Zoema - unda makundi ya data yako -Clustering kama mbinu inasaidiwa sana na uonyeshaji sahihi wa data, kwa hivyo hebu tuanze kwa kuonyesha data yetu ya muziki. Zoezi hili litatusaidia kuamua ni mbinu gani za clustering tunazopaswa kutumia kwa ufanisi zaidi kwa asili ya data hii. +Uundaji makundi kama mbinu huwasaidia sana na uonyesho mzuri, kwa hivyo tuanze kwa kuonyesha data yetu ya muziki. Zoema hili litatusaidia kuamua Mbinu gani ya uundaji makundi tunapaswa kutumia kwa ufanisi zaidi kulingana na asili ya data hii. -1. Fungua faili [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) katika folda hii. +1. Fungua faili la [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) katika saraka hii. -1. Leta pakiti ya `Seaborn` kwa uonyeshaji mzuri wa data. +1. Ingiza kifurushi cha `Seaborn` kwa ajili ya uonyesho mzuri wa data. ```python !pip install seaborn ``` -1. Ongeza data ya nyimbo kutoka [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Pakia dataframe yenye data fulani kuhusu nyimbo. Jiandae kuchunguza data hii kwa kuleta maktaba na kutoa data: +1. Ongeza data ya nyimbo kutoka [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Pakia dataframe lenye taarifa kuhusu nyimbo. Jiandae kuchunguza data hii kwa kuingiza maktaba na kuonyesha data: ```python import matplotlib.pyplot as plt @@ -120,23 +119,23 @@ Clustering kama mbinu inasaidiwa sana na uonyeshaji sahihi wa data, kwa hivyo he df.head() ``` - Angalia mistari michache ya data: + Angalia mistari michache ya kwanza ya data: - | | jina | albamu | msanii | aina kuu ya msanii | tarehe ya kutolewa | urefu | umaarufu | uwezo wa kucheza | acousticness | nguvu | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | - | --- | ------------------------ | ---------------------------- | ------------------- | ------------------ | ------------------ | ----- | -------- | ---------------- | ------------ | ----- | ---------------- | -------- | -------- | ----------- | ------- | -------------- | - | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | - | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | + | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Furahia Maisha Yako | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Pata maelezo kuhusu dataframe, kwa kutumia `info()`: +1. Pata baadhi ya taarifa kuhusu dataframe, kwa kuitisha `info()`: ```python df.info() ``` - Matokeo yanaonekana kama hivi: + Matokeo yanaonekana kama ifuatavyo: ```output @@ -164,13 +163,13 @@ Clustering kama mbinu inasaidiwa sana na uonyeshaji sahihi wa data, kwa hivyo he memory usage: 66.4+ KB ``` -1. Hakikisha hakuna thamani za null, kwa kutumia `isnull()` na kuthibitisha jumla ni 0: +1. Thibitisha mara mbili kama kuna thamani tupu, kwa kuitisha `isnull()` na kuthibitisha jumla kuwa 0: ```python df.isnull().sum() ``` - Inaonekana vizuri: + Inaonekana nzuri: ```output name 0 @@ -192,7 +191,7 @@ Clustering kama mbinu inasaidiwa sana na uonyeshaji sahihi wa data, kwa hivyo he dtype: int64 ``` -1. Eleza data: +1. Elezea data: ```python df.describe() @@ -209,11 +208,11 @@ Clustering kama mbinu inasaidiwa sana na uonyeshaji sahihi wa data, kwa hivyo he | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Ikiwa tunafanya kazi na clustering, mbinu isiyo ya usimamizi ambayo haihitaji data yenye lebo, kwa nini tunaonyesha data hii yenye lebo? Katika awamu ya uchunguzi wa data, zinafaa, lakini hazihitajiki kwa algorithms za clustering kufanya kazi. Unaweza tu kuondoa vichwa vya safu na kurejelea data kwa nambari ya safu. +> 🤔 Ikiwa tunafanya kazi na usambazaji wa makundi, njia isiyo ya usaidizi ambayo haitaji data yenye lebo, kwanini tunaonyesha data hii na lebo? Katika hatua ya uchunguzi wa data, huwa ni ya msaada, lakini sio lazima kwa algorithms za ugawaji kufanya kazi. Unaweza pia kuondoa vichwa vya safu na kurejelea data kwa nambari ya safu. -Angalia maadili ya jumla ya data. Kumbuka kuwa popularity inaweza kuwa '0', ambayo inaonyesha nyimbo ambazo hazina kiwango. Wacha tuondoe hizo muda mfupi. +Tazama thamani za jumla za data. Kumbuka kwamba umaarufu unaweza kuwa '0', ambayo inaonyesha nyimbo ambazo hazina nafasi. Wacha tujiondoe kwa muda mfupi. -1. Tumia barplot kujua aina za muziki maarufu zaidi: +1. Tumia barplot ili kufahamu aina maarufu zaidi: ```python import seaborn as sns @@ -225,13 +224,13 @@ Angalia maadili ya jumla ya data. Kumbuka kuwa popularity inaweza kuwa '0', amba plt.title('Top genres',color = 'blue') ``` - ![most popular](../../../../5-Clustering/1-Visualize/images/popular.png) + ![maarufu zaidi](../../../../translated_images/sw/popular.9c48d84b3386705f.webp) -✅ Ikiwa ungependa kuona maadili zaidi ya juu, badilisha juu `[:5]` kwa thamani kubwa, au iondoe ili kuona yote. +✅ Ikiwa ungependa kuona maadili zaidi ya juu, badilisha top `[:5]` kwa thamani kubwa zaidi, au uiondoe ili uone yote. -Kumbuka, wakati aina ya juu ya muziki inaelezewa kama 'Missing', hiyo inamaanisha kuwa Spotify haikuiweka daraja, kwa hivyo wacha tuiondoe. +Kumbuka, wakati aina kuu imeelezwa kama 'Missing', hiyo ina maana kwamba Spotify hairatibu, hivyo wacha tuiondoe. -1. Ondoa data iliyokosekana kwa kuichuja: +1. Ondoa data iliyokosekana kwa kuchuja ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -244,9 +243,9 @@ Kumbuka, wakati aina ya juu ya muziki inaelezewa kama 'Missing', hiyo inamaanish Sasa angalia tena aina za muziki: - ![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![maarufu zaidi](../../../../translated_images/sw/all-genres.1d56ef06cefbfcd6.webp) -1. Kwa mbali, aina tatu za juu za muziki zinatawala dataset hii. Wacha tuzingatie `afro dancehall`, `afropop`, na `nigerian pop`, na pia tuchuje dataset ili kuondoa chochote chenye thamani ya popularity ya 0 (inamaanisha haikuwekwa daraja na popularity katika dataset na inaweza kuchukuliwa kama kelele kwa madhumuni yetu): +1. Kwa mbali, aina kuu tatu ndizo zinazoongoza dataset hii. Tujitunze `afro dancehall`, `afropop`, na `nigerian pop`, pia chuja dataset ili kuondoa chochote kilicho na thamani ya umaarufu wa 0 (maana yake haikuainishwa na umaarufu katika dataset na inaweza kuchukuliwa kama kelele kwa malengo yetu): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +257,7 @@ Kumbuka, wakati aina ya juu ya muziki inaelezewa kama 'Missing', hiyo inamaanish plt.title('Top genres',color = 'blue') ``` -1. Fanya jaribio la haraka kuona ikiwa data inahusiana kwa njia yenye nguvu: +1. Fanya jaribio la haraka kuona kama data ina uhusiano wa nguvu kwa namna yoyote: ```python corrmat = df.corr(numeric_only=True) @@ -266,21 +265,21 @@ Kumbuka, wakati aina ya juu ya muziki inaelezewa kama 'Missing', hiyo inamaanish sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![uhusiano](../../../../translated_images/sw/correlation.a9356bb798f5eea5.webp) - Uhusiano pekee wenye nguvu ni kati ya `energy` na `loudness`, ambayo si ya kushangaza sana, ikizingatiwa kuwa muziki wenye sauti kubwa kawaida huwa na nguvu. Vinginevyo, uhusiano ni dhaifu. Itakuwa ya kuvutia kuona kile algorithm ya clustering inaweza kufanya na data hii. + Uhusiano pekee wenye nguvu ni kati ya `energy` na `loudness`, ambalo si la kushangaza sana, kwa kuwa muziki wenye sauti kubwa kawaida huwa na nguvu nyingi. Vinginevyo, uhusiano ni dhaifu zaidi. Itakuwa ya kuvutia kuona algorithm ya ugawaji itachunguza data hii vipi. - > 🎓 Kumbuka kuwa uhusiano hauonyeshi sababu! Tuna ushahidi wa uhusiano lakini hakuna ushahidi wa sababu. [Tovuti ya kuchekesha](https://tylervigen.com/spurious-correlations) ina visuals zinazoonyesha hoja hii. + > 🎓 Kumbuka kuwa uhusiano hauashirii sababu! Tuna ushahidi wa uhusiano lakini hatuna ushahidi wa sababu. [Tovuti ya kusisimua](https://tylervigen.com/spurious-correlations) ina picha zinazobainisha hili. -Je, kuna mwelekeo wowote katika dataset hii kuhusu umaarufu wa wimbo na uwezo wake wa kuchezeka? FacetGrid inaonyesha kuwa kuna miduara inayojipanga, bila kujali aina ya muziki. Inaweza kuwa ladha za Nigeria zinajipanga katika kiwango fulani cha uwezo wa kuchezeka kwa aina hii ya muziki? +Je, kuna muungano wowote katika dataset hii kuhusu umaarufu unaoonekana wa wimbo na danceability? FacetGrid inaonyesha kuwa kuna duara zinazopangwa sawia, bila kujali aina ya muziki. Je, inawezekana ladha za Nigeria zinafanana kwa kiwango fulani cha danceability kwa aina hii ya muziki? -✅ Jaribu pointi tofauti za data (energy, loudness, speechiness) na aina zaidi au tofauti za muziki. Unaweza kugundua nini? Angalia jedwali la `df.describe()` ili kuona mwelekeo wa jumla wa pointi za data. +✅ Jaribu pointi tofauti za data (energy, loudness, speechiness) na aina za muziki tofauti au zaidi. Unaweza kugundua nini? Tazama jedwali la `df.describe()` kuona usambazaji wa jumla wa pointi za data. -### Zoezi - usambazaji wa data +### Mazoezi - usambazaji wa data -Je, aina hizi tatu za muziki zinatofautiana kwa kiasi kikubwa katika mtazamo wa uwezo wa kuchezeka, kulingana na umaarufu wao? +Je, aina hizi tatu tofauti sana katika mtazamo wa danceability yao, kulingana na umaarufu wao? -1. Chunguza usambazaji wa data wa aina zetu tatu za juu kwa umaarufu na uwezo wa kuchezeka kwenye x na y axis fulani. +1. Chunguza usambazaji wa data wa aina zetu tatu kuu kwa umaarufu na danceability kupitia mhimili uliopewa wa x na y. ```python sns.set_theme(style="ticks") @@ -292,15 +291,15 @@ Je, aina hizi tatu za muziki zinatofautiana kwa kiasi kikubwa katika mtazamo wa ) ``` - Unaweza kugundua miduara inayozunguka sehemu ya mwelekeo wa jumla, ikionyesha usambazaji wa pointi. + Unaweza kugundua duara zinazopangwa sawia karibu na sehemu ya jumla ya muungano, ikionyesha usambazaji wa pointi. - > 🎓 Kumbuka kuwa mfano huu unatumia grafu ya KDE (Kernel Density Estimate) ambayo inawakilisha data kwa kutumia curve ya probability density inayoendelea. Hii inatuwezesha kufasiri data tunapofanya kazi na usambazaji mwingi. + > 🎓 Kumbuka mfano huu unatumia grafu ya KDE (Kernel Density Estimate) inayowakilisha data kwa kutumia mkoa wa uwezekano unaoendelea. Hii inatuwezesha kufasiri data tunapofanya kazi na usambazaji wengi. - Kwa ujumla, aina hizi tatu za muziki zinajipanga kwa kiasi fulani kulingana na umaarufu wao na uwezo wa kuchezeka. Kuamua makundi katika data hii inayojipanga kwa kiasi fulani itakuwa changamoto: + Kwa ujumla, aina tatu zinaelewana kwa kiwango katika umaarufu na danceability. Kuweka makundi katika data hii isiyopangwa vizuri itakuwa changamoto: - ![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![usambazaji](../../../../translated_images/sw/distribution.9be11df42356ca95.webp) -1. Unda scatter plot: +1. Unda grafu ya kuchoragatia: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -308,31 +307,33 @@ Je, aina hizi tatu za muziki zinatofautiana kwa kiasi kikubwa katika mtazamo wa .add_legend() ``` - Scatterplot ya axes zile zile inaonyesha mwelekeo sawa wa mwelekeo + Grafu ya kuchoragatia ya mihimili ile ile inaonyesha muundo kama huo wa muungano - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/sw/facetgrid.9b2e65ce707eba1f.webp) -Kwa ujumla, kwa clustering, unaweza kutumia scatterplots kuonyesha makundi ya data, kwa hivyo kujifunza aina hii ya visualisation ni muhimu sana. Katika somo linalofuata, tutachukua data hii iliyochujwa na kutumia k-means clustering kugundua makundi katika data hii ambayo yanaonekana kuingiliana kwa njia za kuvutia. +Kwa ujumla, kwa ugawaji, unaweza kutumia grafu za kuchoragatia kuonyesha makundi ya data, hivyo kumudu aina hii ya uonyeshaji ni muhimu sana. Katika somo lijalo, tutachukua data hii iliyochujwa na kutumia ugawaji wa k-means kugundua makundi katika data hii yanayoonekana kuyopanga kwa njia za kuvutia. --- ## 🚀Changamoto -Kwa maandalizi ya somo linalofuata, tengeneza chati kuhusu algorithms mbalimbali za clustering ambazo unaweza kugundua na kutumia katika mazingira ya uzalishaji. Ni aina gani za matatizo ambayo clustering inajaribu kushughulikia? +Kujitayarisha kwa somo lijalo, tengeneza chati kuhusu algorithms mbalimbali za ugawaji ambazo unaweza kugundua na kutumia katika mazingira ya uzalishaji. Ni aina gani za matatizo ugawaji unajaribu kushughulikia? -## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ml/) +## [Mtihani wa baada ya somo](https://ff-quizzes.netlify.app/en/ml/) -## Mapitio & Kujisomea +## Mapitio & Kujifunza Binafsi -Kabla ya kutumia algorithms za clustering, kama tulivyojifunza, ni wazo nzuri kuelewa asili ya dataset yako. Soma zaidi kuhusu mada hii [hapa](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Kabla ya kutumia algorithms za ugawaji, kama tulivyojifunza, ni wazo zuri kuelewa asili ya dataset yako. Soma zaidi kuhusu mada hii [hapa](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[Makala hii ya msaada](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) inakutembeza kupitia njia tofauti ambazo algorithms za clustering zinavyofanya kazi, ikizingatiwa maumbo tofauti ya data. +[Makala hii yenye msaada](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) inakuongoza kupitia njia tofauti algorithms za ugawaji zinavyofanya kazi, zikizingatiwa maumbo tofauti ya data. -## Kazi +## Kazi ya Nyumbani -[Chunguza visualizations nyingine za clustering](assignment.md) +[Tafuta maonyesho mengine ya ugawaji](assignment.md) --- -**Kanusho**: -Hati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kuhakikisha usahihi, tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwa sahihi. Hati ya asili katika lugha yake ya awali inapaswa kuchukuliwa kama chanzo cha mamlaka. Kwa taarifa muhimu, tafsiri ya kitaalamu ya binadamu inapendekezwa. Hatutawajibika kwa kutoelewana au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii. \ No newline at end of file + +**Kionyozo**: +Hati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kupata usahihi, tafadhali fahamu kwamba tafsiri za kiotomatiki zinaweza kuwa na makosa au upungufu wa usahihi. Hati ya asili katika lugha yake halisi inapaswa kuchukuliwa kama chanzo cha mamlaka. Kwa taarifa muhimu, tafsiri ya kitaalamu inayofanywa na binadamu inapendekezwa. Hatutojibu kwa kuelewa vibaya au tafsiri potofu zinazotokea kutokana na matumizi ya tafsiri hii. + \ No newline at end of file