From 12ff6946a861b4552704a13d5cebc9038ac0ddfe Mon Sep 17 00:00:00 2001 From: "localizeflow[bot]" Date: Tue, 26 May 2026 22:15:37 +0000 Subject: [PATCH] chore(i18n): sync translations with latest source changes (chunk 1/1, 9 changes) --- translations/hr/.co-op-translator.json | 8 +- .../hr/1-Introduction/1-intro-to-ML/README.md | 101 +++++---- .../hr/5-Clustering/1-Visualize/README.md | 187 ++++++++-------- translations/sl/.co-op-translator.json | 8 +- .../sl/1-Introduction/1-intro-to-ML/README.md | 125 ++++++----- .../sl/5-Clustering/1-Visualize/README.md | 203 ++++++++--------- translations/sr/.co-op-translator.json | 8 +- .../sr/1-Introduction/1-intro-to-ML/README.md | 111 ++++----- .../sr/5-Clustering/1-Visualize/README.md | 210 +++++++++--------- 9 files changed, 493 insertions(+), 468 deletions(-) diff --git a/translations/hr/.co-op-translator.json b/translations/hr/.co-op-translator.json index 4151a354e..f5a19d9b3 100644 --- a/translations/hr/.co-op-translator.json +++ b/translations/hr/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-05T12:47:19+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:13:34+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "hr" }, @@ -240,8 +240,8 @@ "language_code": "hr" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-05T12:10:57+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:12:59+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "hr" }, diff --git a/translations/hr/1-Introduction/1-intro-to-ML/README.md b/translations/hr/1-Introduction/1-intro-to-ML/README.md index a41d94d81..d55cc6411 100644 --- a/translations/hr/1-Introduction/1-intro-to-ML/README.md +++ b/translations/hr/1-Introduction/1-intro-to-ML/README.md @@ -1,87 +1,87 @@ # Uvod u strojno učenje -## [Kviz prije predavanja](https://ff-quizzes.netlify.app/en/ml/) +## [Pre-predavanje kviz](https://ff-quizzes.netlify.app/en/ml/) --- [![ML za početnike - Uvod u strojno učenje za početnike](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML za početnike - Uvod u strojno učenje za početnike") -> 🎥 Kliknite na sliku iznad za kratki video koji prolazi kroz ovu lekciju. +> 🎥 Kliknite na gornju sliku za kratki video kroz ovaj lekciju. -Dobrodošli na ovaj tečaj klasičnog strojnog učenja za početnike! Bez obzira jeste li potpuno novi u ovoj temi ili ste iskusni praktičar strojnog učenja koji želi obnoviti znanje u određenom području, drago nam je što ste s nama! Želimo stvoriti prijateljsko polazište za vaše proučavanje strojnog učenja i rado ćemo procijeniti, odgovoriti na i uključiti vaše [povratne informacije](https://github.com/microsoft/ML-For-Beginners/discussions). +Dobrodošli na ovaj tečaj klasičnog strojnog učenja za početnike! Bilo da ste potpuno novi u ovoj temi ili iskusni praktičar ML-a koji želi obnoviti znanje u nekom području, drago nam je što ste nam se pridružili! Želimo stvoriti prijateljsko polazište za vaše proučavanje ML-a i rado ćemo procijeniti, odgovoriti i uključiti vaše [povratne informacije](https://github.com/microsoft/ML-For-Beginners/discussions). [![Uvod u ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Uvod u ML") -> 🎥 Kliknite na sliku iznad za video: John Guttag s MIT-a uvodi u strojno učenje +> 🎥 Kliknite na gornju sliku za video: John Guttag s MIT-a uvodi u strojno učenje --- ## Početak sa strojnim učenjem -Prije nego što započnete s ovim kurikulumom, trebate pripremiti svoje računalo za lokalno pokretanje bilježnica. +Prije nego započnete s ovim kurikulumom, trebate imati svoj računar postavljen i spreman za pokretanje bilješki lokalno. -- **Konfigurirajte svoje računalo pomoću ovih videa**. Koristite sljedeće poveznice kako biste naučili [kako instalirati Python](https://youtu.be/CXZYvNRIAKM) na svoj sustav i [postaviti uređivač teksta](https://youtu.be/EU8eayHWoZg) za razvoj. -- **Naučite Python**. Također se preporučuje osnovno razumijevanje [Pythona](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), programskog jezika korisnog za znanstvenike podataka koji koristimo u ovom tečaju. -- **Naučite Node.js i JavaScript**. Također ćemo nekoliko puta koristiti JavaScript u ovom tečaju prilikom izrade web aplikacija, pa ćete trebati imati instalirane [node](https://nodejs.org) i [npm](https://www.npmjs.com/), kao i [Visual Studio Code](https://code.visualstudio.com/) za razvoj u Pythonu i JavaScriptu. -- **Kreirajte GitHub račun**. Budući da ste nas pronašli ovdje na [GitHubu](https://github.com), možda već imate račun, ali ako nemate, kreirajte ga i zatim forkajte ovaj kurikulum kako biste ga koristili sami. (Slobodno nam dajte zvjezdicu 😊) +- **Konfigurirajte svoje računalo uz ove videozapise**. Koristite sljedeće poveznice kako biste naučili [kako instalirati Python](https://youtu.be/CXZYvNRIAKM) na svoj sustav i [postaviti uređivač teksta](https://youtu.be/EU8eayHWoZg) za razvoj. +- **Naučite Python**. Također je preporučljivo imati osnovno razumijevanje [Pythona](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), programski jezik koristan za znanstvenike podataka koji koristimo u ovom tečaju. +- **Naučite Node.js i JavaScript**. Također koristimo JavaScript nekoliko puta u ovom tečaju prilikom izrade web aplikacija, pa ćete trebati imati instalirane [node](https://nodejs.org) i [npm](https://www.npmjs.com/), kao i [Visual Studio Code](https://code.visualstudio.com/) dostupan za razvoj u Pythonu i JavaScriptu. +- **Kreirajte GitHub račun**. Kako ste nas pronašli ovdje na [GitHubu](https://github.com), možda već imate račun, ali ako nemate, napravite ga i zatim forkajte ovaj kurikulum za vlastitu upotrebu. (Slobodno nam i dodajte zvjezdicu 😊) - **Istražite Scikit-learn**. Upoznajte se s [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), skupom ML biblioteka na koje se pozivamo u ovim lekcijama. --- ## Što je strojno učenje? -Pojam 'strojno učenje' jedan je od najpopularnijih i najčešće korištenih pojmova današnjice. Postoji velika vjerojatnost da ste ovaj pojam čuli barem jednom ako imate bilo kakvu povezanost s tehnologijom, bez obzira na područje u kojem radite. Međutim, mehanika strojnog učenja za većinu ljudi ostaje misterij. Za početnika u strojnome učenju, tema ponekad može djelovati zastrašujuće. Stoga je važno razumjeti što strojno učenje zapravo jest i učiti o njemu korak po korak, kroz praktične primjere. +Pojam 'strojno učenje' jedan je od najpopularnijih i najčešće korištenih pojmova danas. Postoji značajna vjerojatnost da ste ovaj pojam barem jednom čuli ako imate ikakvu povezanost s tehnologijom, bez obzira u kojem području radili. Međutim, mehanika strojnog učenja većini ljudi ostaje tajna. Za početnika u strojnome učenju, predmet ponekad može djelovati zastrašujuće. Stoga je važno razumjeti što strojno učenje zapravo jest te ga učiti korak po korak, kroz praktične primjere. --- -## Krivulja popularnosti +## Hype krivulja -![krivulja popularnosti strojnog učenja](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/hr/hype.07183d711a17aafe.webp) -> Google Trends prikazuje nedavnu 'krivulju popularnosti' pojma 'strojno učenje' +> Google Trends prikazuje nedavnu 'hype krivulju' termina 'strojno učenje' --- ## Tajanstveni svemir -Živimo u svemiru punom fascinantnih misterija. Veliki znanstvenici poput Stephena Hawkinga, Alberta Einsteina i mnogih drugih posvetili su svoje živote traženju značajnih informacija koje otkrivaju misterije svijeta oko nas. Ovo je ljudska potreba za učenjem: ljudsko dijete uči nove stvari i otkriva strukturu svog svijeta iz godine u godinu dok odrasta. +Živimo u svemiru punom fascinantnih misterija. Veliki znanstvenici poput Stephena Hawkinga, Alberta Einsteina i mnogih drugih posvetili su svoje živote traženju značajnih informacija koje otkrivaju misterije svijeta oko nas. Ovo je ljudsko stanje učenja: ljudsko dijete uči nove stvari i otkriva strukturu svog svijeta iz godine u godinu dok odrasta. --- -## Dječji mozak +## Mozak djeteta -Dječji mozak i osjetila percipiraju činjenice iz svoje okoline i postupno uče skrivene obrasce života koji pomažu djetetu da oblikuje logička pravila za prepoznavanje naučenih obrazaca. Proces učenja ljudskog mozga čini ljude najsloženijim živim bićima na svijetu. Kontinuirano učenje otkrivanjem skrivenih obrazaca, a zatim inoviranje na temelju tih obrazaca omogućuje nam da postajemo sve bolji tijekom života. Ova sposobnost učenja i evolucije povezana je s konceptom zvanim [plastičnost mozga](https://www.simplypsychology.org/brain-plasticity.html). Površno gledano, možemo povući neke motivacijske sličnosti između procesa učenja ljudskog mozga i koncepata strojnog učenja. +Mozak i osjetila djeteta percipiraju činjenice svog okruženja i postupno uče skrivene obrasce života koji pomažu djetetu da oblikuje logička pravila za prepoznavanje naučenih obrazaca. Proces učenja ljudskog mozga čini ljude najsloženijim živim bićem na ovom svijetu. Kontinuirano učenje kroz otkrivanje skrivenih obrazaca i zatim inoviranje na tim obrascima omogućuje nam da se tijekom života neprestano usavršavamo. Ova sposobnost učenja i evoluirajuća mogućnost povezani su s pojmom zvanim [plastičnost mozga](https://www.simplypsychology.org/brain-plasticity.html). Površno gledano, možemo izvući motivacijske sličnosti između procesa učenja ljudskog mozga i koncepta strojnog učenja. --- ## Ljudski mozak -[Ljudski mozak](https://www.livescience.com/29365-human-brain.html) percipira stvari iz stvarnog svijeta, obrađuje percipirane informacije, donosi racionalne odluke i izvodi određene radnje na temelju okolnosti. To nazivamo inteligentnim ponašanjem. Kada programiramo imitaciju procesa inteligentnog ponašanja u stroj, to nazivamo umjetnom inteligencijom (AI). +[Čovjekov mozak](https://www.livescience.com/29365-human-brain.html) percipira stvari iz stvarnog svijeta, obrađuje primljene informacije, donosi racionalne odluke i izvodi određene radnje temeljem okolnosti. To nazivamo inteligentnim ponašanjem. Kada programiramo sličan proces inteligentnog ponašanja na stroju, to se naziva umjetna inteligencija (AI). --- -## Neki pojmovi +## Neka terminologija -Iako se pojmovi mogu zamijeniti, strojno učenje (ML) važan je podskup umjetne inteligencije. **ML se bavi korištenjem specijaliziranih algoritama za otkrivanje značajnih informacija i pronalaženje skrivenih obrazaca iz percipiranih podataka kako bi se podržao proces donošenja racionalnih odluka**. +Iako se pojmovi mogu brkati, strojno učenje (ML) važan je podskup umjetne inteligencije. **ML se bavi korištenjem specijaliziranih algoritama za otkrivanje značajnih informacija i pronalaženje skrivenih obrazaca iz primljenih podataka kako bi se potkrijepio racionalni proces donošenja odluka**. --- -## AI, ML, Duboko učenje +## AI, ML, duboko učenje -![AI, ML, duboko učenje, znanost o podacima](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/hr/ai-ml-ds.537ea441b124ebf6.webp) -> Dijagram koji prikazuje odnose između AI, ML, dubokog učenja i znanosti o podacima. Infografika autorice [Jen Looper](https://twitter.com/jenlooper) inspirirana [ovom grafikom](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> Dijagram koji prikazuje odnose između AI, ML, dubokog učenja i znanosti o podacima. Infografika autorice [Jen Looper](https://twitter.com/jenlooper) inspirirana [ovim grafičkim prikazom](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- ## Koncepti koje ćemo obraditi -U ovom kurikulumu obradit ćemo samo osnovne koncepte strojnog učenja koje početnik mora znati. Obradit ćemo ono što nazivamo 'klasičnim strojnim učenjem', primarno koristeći Scikit-learn, izvrsnu biblioteku koju mnogi studenti koriste za učenje osnova. Za razumijevanje šireg konteksta umjetne inteligencije ili dubokog učenja, snažno temeljno znanje o strojnome učenju je neophodno, i to vam želimo ponuditi ovdje. +U ovom kurikulumu pokrit ćemo samo osnovne koncepte strojnog učenja koje svaki početnik mora znati. Pokrivamo ono što nazivamo 'klasičnim strojnim učenjem' prvenstveno koristeći Scikit-learn, izvrsnu biblioteku koju mnogi studenti koriste za učenje osnova. Da bismo razumjeli šire koncepte umjetne inteligencije ili dubokog učenja, snažno temeljno znanje strojnog učenja je neizostavno, pa ga ovdje želimo ponuditi. --- -## Na ovom tečaju naučit ćete: +## U ovom tečaju ćete naučiti: - osnovne koncepte strojnog učenja - povijest ML-a - ML i pravednost -- tehnike regresijskog ML-a -- tehnike klasifikacijskog ML-a -- tehnike klasteriranja ML-a -- tehnike obrade prirodnog jezika ML-a -- tehnike predviđanja vremenskih serija ML-a -- učenje pojačanjem -- primjene ML-a u stvarnom svijetu +- tehnike regresije u ML-u +- tehnike klasifikacije u ML-u +- tehnike grupiranja u ML-u +- tehnike obrade prirodnog jezika u ML-u +- tehnike vremenskog predviđanja u ML-u +- učenje s pojačanjem +- primjenu ML-a u stvarnom svijetu --- ## Što nećemo obraditi @@ -90,54 +90,59 @@ U ovom kurikulumu obradit ćemo samo osnovne koncepte strojnog učenja koje poč - neuronske mreže - AI -Kako bismo omogućili bolje iskustvo učenja, izbjeći ćemo složenosti neuronskih mreža, 'dubokog učenja' - modeliranja s više slojeva koristeći neuronske mreže - i AI, o čemu ćemo raspravljati u drugom kurikulumu. Također ćemo ponuditi nadolazeći kurikulum o znanosti o podacima kako bismo se usredotočili na taj aspekt ovog šireg područja. +Da bismo omogućili bolje iskustvo učenja, izbjegavat ćemo složenosti neuronskih mreža, 'dubokog učenja' – višeslojno modeliranje korištenjem neuronskih mreža – i AI, o kojima ćemo govoriti u drugom kurikulumu. Također ćemo uskoro ponuditi kurikulum iz znanosti o podacima koji se fokusira na taj aspekt ovog šireg područja. --- ## Zašto učiti strojno učenje? Strojno učenje, iz perspektive sustava, definira se kao stvaranje automatiziranih sustava koji mogu učiti skrivene obrasce iz podataka kako bi pomogli u donošenju inteligentnih odluka. -Ova motivacija labavo je inspirirana načinom na koji ljudski mozak uči određene stvari na temelju podataka koje percipira iz vanjskog svijeta. +Ova motivacija je labavo inspirirana načinom na koji ljudski mozak uči određene stvari na temelju podataka koje prima iz vanjskog svijeta. -✅ Razmislite na trenutak zašto bi neka tvrtka željela koristiti strategije strojnog učenja umjesto stvaranja strogo kodiranog sustava temeljenog na pravilima. +✅ Razmislite na trenutak zašto bi poslovanje željelo koristiti strategije strojnog učenja umjesto stvaranja strogo kodiranog sustava pravila. + +--- +## Zašto je kvaliteta podataka važna + +Visokokvalitetni podaci poboljšavaju performanse modela. Loši ili šumni podaci mogu dovesti do netočnih predviđanja, čak i kada se koriste napredni algoritmi strojnog učenja. --- ## Primjene strojnog učenja -Primjene strojnog učenja sada su gotovo svugdje i jednako su sveprisutne kao i podaci koji kruže našim društvima, generirani našim pametnim telefonima, povezanim uređajima i drugim sustavima. S obzirom na ogroman potencijal najsuvremenijih algoritama strojnog učenja, istraživači istražuju njihove mogućnosti za rješavanje višedimenzionalnih i multidisciplinarnih problema iz stvarnog života s iznimno pozitivnim rezultatima. +Primjene strojnog učenja danas su gotovo svugdje i jednako su raširene kao i podaci koji kruže našim društvima, generirani naših pametnim telefonima, povezanim uređajima i ostalim sustavima. Imajući u vidu golem potencijal najmodernijih algoritama strojnog učenja, istraživači su istraživali njihove mogućnosti rješavanja višedimenzionalnih i multidisciplinarnih problema iz stvarnog života s velikim pozitivnim rezultatima. --- ## Primjeri primijenjenog ML-a -**Strojno učenje možete koristiti na mnogo načina**: +**Možete koristiti strojno učenje na mnoge načine**: -- Za predviđanje vjerojatnosti bolesti na temelju medicinske povijesti ili izvještaja pacijenta. -- Za korištenje meteoroloških podataka za predviđanje vremenskih događaja. +- Za predviđanje vjerojatnosti bolesti iz povijesti bolesti ili izvještaja pacijenta. +- Za korištenje vremenskih podataka za predviđanje vremenskih događaja. - Za razumijevanje sentimenta teksta. - Za otkrivanje lažnih vijesti kako bi se zaustavilo širenje propagande. -Financije, ekonomija, znanost o Zemlji, istraživanje svemira, biomedicinsko inženjerstvo, kognitivna znanost, pa čak i područja humanističkih znanosti prilagodila su strojno učenje za rješavanje teških problema obrade podataka u svojim domenama. +Financije, ekonomija, znanost o Zemlji, istraživanje svemira, biomedicinsko inženjerstvo, kognitivne znanosti, pa čak i humanistička područja prilagodila su strojno učenje kako bi rješavala zahtjevne probleme obrade podataka svojeg područja. --- ## Zaključak -Strojno učenje automatizira proces otkrivanja obrazaca pronalazeći značajne uvide iz stvarnih ili generiranih podataka. Pokazalo se iznimno vrijednim u poslovnim, zdravstvenim i financijskim primjenama, među ostalima. +Strojno učenje automatizira proces otkrivanja obrazaca pronalaskom značajnih uvida iz stvarnih ili generiranih podataka. Pokazalo se kao vrlo vrijedno u poslovanju, zdravstvu i financijama, među ostalim područjima. -U bliskoj budućnosti, razumijevanje osnova strojnog učenja postat će nužnost za ljude iz bilo kojeg područja zbog njegove široke primjene. +U bliskoj budućnosti, razumijevanje osnova strojnog učenja postat će obavezno za ljude iz bilo kojeg područja zbog njegove široke primjene. --- # 🚀 Izazov -Nacrtajte, na papiru ili koristeći online aplikaciju poput [Excalidraw](https://excalidraw.com/), svoje razumijevanje razlika između AI, ML, dubokog učenja i znanosti o podacima. Dodajte neke ideje o problemima koje su ove tehnike dobre u rješavanju. +Nacrtajte, na papiru ili koristeći online aplikaciju poput [Excalidraw](https://excalidraw.com/), svoje razumijevanje razlika između AI, ML, dubokog učenja i znanosti o podacima. Dodajte neke ideje o problemima koje je svaka od ovih tehnika dobra u rješavanju. -# [Kviz nakon predavanja](https://ff-quizzes.netlify.app/en/ml/) +# [Posljednji kviz](https://ff-quizzes.netlify.app/en/ml/) --- # Pregled i samostalno učenje -Kako biste saznali više o tome kako raditi s ML algoritmima u oblaku, slijedite ovu [Putanju učenja](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +Da biste saznali više o tome kako raditi s ML algoritmima u oblaku, slijedite ovaj [put učenja](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Prođite [Putanju učenja](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) o osnovama ML-a. +Pohađajte [put učenja](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) o osnovama ML-a. --- # Zadatak @@ -146,5 +151,7 @@ Prođite [Putanju učenja](https://docs.microsoft.com/learn/modules/introduction --- -**Odricanje od odgovornosti**: -Ovaj dokument je preveden pomoću AI usluge za prevođenje [Co-op Translator](https://github.com/Azure/co-op-translator). Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane stručnjaka. Ne preuzimamo odgovornost za nesporazume ili pogrešne interpretacije koje mogu proizaći iz korištenja ovog prijevoda. \ No newline at end of file + +**Napomena**: +Ovaj dokument je preveden korištenjem AI prevoditeljskog servisa [Co-op Translator](https://github.com/Azure/co-op-translator). Iako težimo točnosti, imajte na umu da automatski prijevodi mogu sadržavati greške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za važne informacije preporuča se profesionalni ljudski prijevod. Nismo odgovorni za bilo kakva nesporazumevanja ili pogrešne interpretacije koje proizlaze iz korištenja ovog prijevoda. + \ No newline at end of file diff --git a/translations/hr/5-Clustering/1-Visualize/README.md b/translations/hr/5-Clustering/1-Visualize/README.md index 1b6197ffa..a7087c533 100644 --- a/translations/hr/5-Clustering/1-Visualize/README.md +++ b/translations/hr/5-Clustering/1-Visualize/README.md @@ -1,106 +1,105 @@ -# Uvod u klasteriranje +# Uvod u grupiranje -Klasteriranje je vrsta [Nenadziranog učenja](https://wikipedia.org/wiki/Unsupervised_learning) koja pretpostavlja da je skup podataka neoznačen ili da njegovi ulazi nisu povezani s unaprijed definiranim izlazima. Koristi razne algoritme za analizu neoznačenih podataka i pruža grupiranja prema obrascima koje prepoznaje u podacima. +Grupiranje je vrsta [nenadzirnog učenja](https://wikipedia.org/wiki/Unsupervised_learning) koja pretpostavlja da je skup podataka neoznačen ili da njegovi ulazi nisu povezani s unaprijed definiranim izlazima. Koristi različite algoritme za sortiranje neoznačenih podataka i pruža grupiranja u skladu s obrascima koje prepoznaje u podacima. -[![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") +[![Ne postoji nitko poput tebe od PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "Ne postoji nitko poput tebe od PSquare") -> 🎥 Kliknite na sliku iznad za video. Dok proučavate strojno učenje s klasteriranjem, uživajte u nigerijskim Dance Hall pjesmama - ovo je visoko ocijenjena pjesma iz 2014. od PSquare. +> 🎥 Kliknite sliku iznad za video. Dok proučavate strojno učenje s grupiranjem, uživajte u nekim nigerijskim Dance Hall pjesmama - ovo je vrlo cijenjena pjesma iz 2014. godine od PSquare. ## [Kviz prije predavanja](https://ff-quizzes.netlify.app/en/ml/) ### Uvod -[Klasteriranje](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) je vrlo korisno za istraživanje podataka. Pogledajmo može li pomoći u otkrivanju trendova i obrazaca u načinu na koji nigerijska publika konzumira glazbu. +[Grupiranje](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) je vrlo korisno za istraživanje podataka. Pogledajmo može li pomoći u otkrivanju trendova i obrazaca u načinu na koji nigerijska publika konzumira glazbu. -✅ Odvojite trenutak da razmislite o primjenama klasteriranja. U stvarnom životu, klasteriranje se događa kad imate hrpu rublja i trebate razvrstati odjeću članova obitelji 🧦👕👖🩲. U podatkovnoj znanosti, klasteriranje se događa kada pokušavate analizirati korisničke preferencije ili odrediti karakteristike bilo kojeg neoznačenog skupa podataka. Klasteriranje, na neki način, pomaže u stvaranju reda iz kaosa, poput ladice za čarape. +✅ Odvojite minutu za razmišljanje o upotrebi grupiranja. U stvarnom životu, grupiranje se događa kad imate hrpu rublja i trebate razvrstati odjeću članova obitelji 🧦👕👖🩲. U data scienceu, grupiranje se događa pri pokušaju analize korisničkih preferencija ili određivanju značajki bilo kojeg neoznačenog skupa podataka. Grupiranje, na neki način, pomaže da se smisli kaos, poput ladice za čarape. -[![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") +[![Uvod u ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Uvod u grupiranje") -> 🎥 Kliknite na sliku iznad za video: John Guttag s MIT-a uvodi klasteriranje +> 🎥 Kliknite sliku iznad za video: John Guttag s MIT-a predstavlja grupiranje -U profesionalnom okruženju, klasteriranje se može koristiti za određivanje stvari poput segmentacije tržišta, utvrđivanja koje dobne skupine kupuju koje proizvode, na primjer. Druga primjena bila bi otkrivanje anomalija, možda za otkrivanje prijevara iz skupa podataka o transakcijama kreditnim karticama. Ili biste mogli koristiti klasteriranje za određivanje tumora u seriji medicinskih skenova. +U profesionalnom okruženju, grupiranje se može koristiti za određivanje stvari poput segmentacije tržišta, određivanja koje dobne skupine kupuju koje proizvode, na primjer. Druga upotreba može biti otkrivanje anomalija, možda za prepoznavanje prijevara iz skupa podataka o transakcijama kreditnih kartica. Ili biste mogli koristiti grupiranje za određivanje tumora u skupu medicinskih snimaka. -✅ Razmislite na trenutak o tome kako ste možda naišli na klasteriranje 'u divljini', u bankarstvu, e-trgovini ili poslovnom okruženju. +✅ Razmislite minutu o tome kako ste se možda susreli s grupiranjem 'u prirodi', u bankarstvu, e-trgovini ili poslovnom okruženju. -> 🎓 Zanimljivo je da analiza klastera potječe iz područja antropologije i psihologije 1930-ih. Možete li zamisliti kako se mogla koristiti? +> 🎓 Zanimljivo, analiza skupina potječe iz područja antropologije i psihologije 1930-ih. Možete li zamisliti kako je možda bila korištena? -Alternativno, mogli biste ga koristiti za grupiranje rezultata pretraživanja - prema poveznicama za kupovinu, slikama ili recenzijama, na primjer. Klasteriranje je korisno kada imate veliki skup podataka koji želite smanjiti i na kojem želite provesti detaljniju analizu, pa se tehnika može koristiti za upoznavanje podataka prije nego što se izgrade drugi modeli. +Alternativno, mogli biste je koristiti za grupiranje rezultata pretraživanja - po poveznicama za kupovinu, slikama ili recenzijama, na primjer. Grupiranje je korisno kad imate veliki skup podataka koji želite smanjiti i na kojem želite izvršiti detaljniju analizu, pa se tehnika može upotrijebiti za učenje o podacima prije nego što se izgrade drugi modeli. -✅ Kada su vaši podaci organizirani u klastere, dodjeljujete im ID klastera, a ova tehnika može biti korisna pri očuvanju privatnosti skupa podataka; umjesto toga možete se referirati na podatkovnu točku prema njenom ID-u klastera, umjesto prema otkrivanju identifikacijskih podataka. Možete li smisliti druge razloge zašto biste koristili ID klastera umjesto drugih elemenata klastera za identifikaciju? +✅ Kad su vaši podaci organizirani u skupine, dodijelite im identifikacije skupina, i ova tehnika može biti korisna pri očuvanju privatnosti skupa podataka; umjesto toga možete se pozivati na podatkovnu točku prema identifikaciji skupine, a ne po više razotkrivajućim identificirajućim podacima. Možete li smisliti druge razloge zašto biste koristili identifikaciju skupine umjesto drugih elemenata skupine za njezino identificiranje? -Produbite svoje razumijevanje tehnika klasteriranja u ovom [modulu za učenje](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +Produbite svoje razumijevanje tehnika grupiranja u ovom [Learn modulu](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +## Početak rada s grupiranjem -## Početak rada s klasteriranjem +[Scikit-learn nudi širok spektar](https://scikit-learn.org/stable/modules/clustering.html) metoda za izvođenje grupiranja. Vrsta koju odaberete ovisit će o vašem slučaju uporabe. Prema dokumentaciji, svaka metoda ima različite prednosti. Evo pojednostavljene tablice metoda podržanih od strane Scikit-learn i njihovih primjerenih slučajeva uporabe: -[Scikit-learn nudi širok raspon](https://scikit-learn.org/stable/modules/clustering.html) metoda za izvođenje klasteriranja. Vrsta koju odaberete ovisit će o vašem slučaju upotrebe. Prema dokumentaciji, svaka metoda ima različite prednosti. Evo pojednostavljene tablice metoda koje podržava Scikit-learn i njihovih odgovarajućih slučajeva upotrebe: +| Naziv metode | Slučaj uporabe | +| :------------------------- | :----------------------------------------------------------------- | +| K-Means | opća namjena, induktivno | +| Affinity propagation | mnogo, nejednake skupine, induktivno | +| Mean-shift | mnogo, nejednake skupine, induktivno | +| Spectral clustering | malo, jednake skupine, transduktivno | +| Ward hierarchical clustering | mnogo, ograničene skupine, transduktivno | +| Agglomerative clustering | mnogo, ograničene, ne Euklidske udaljenosti, transduktivno | +| DBSCAN | ne ravna geometrija, nejednake skupine, transduktivno | +| OPTICS | ne ravna geometrija, nejednake skupine s promjenjivom gustoćom, transduktivno | +| Gaussian mixtures | ravna geometrija, induktivno | +| BIRCH | veliki skup podataka s odmetnicima, induktivno | -| Naziv metode | Slučaj upotrebe | -| :--------------------------- | :------------------------------------------------------------------ | -| K-Means | opća namjena, induktivno | -| Affinity propagation | mnogi, nejednaki klasteri, induktivno | -| Mean-shift | mnogi, nejednaki klasteri, induktivno | -| Spectral clustering | malo, jednaki klasteri, transduktivno | -| Ward hierarchical clustering | mnogi, ograničeni klasteri, transduktivno | -| Agglomerative clustering | mnogi, ograničeni, ne-Euklidske udaljenosti, transduktivno | -| DBSCAN | ne-ravna geometrija, nejednaki klasteri, transduktivno | -| OPTICS | ne-ravna geometrija, nejednaki klasteri s promjenjivom gustoćom, transduktivno | -| Gaussian mixtures | ravna geometrija, induktivno | -| BIRCH | veliki skup podataka s iznimkama, induktivno | - -> 🎓 Kako stvaramo klastere ima puno veze s načinom na koji grupiramo podatkovne točke u skupine. Razjasnimo neke pojmove: +> 🎓 Kako stvaramo skupine jako ovisi o načinu na koji skupljamo podatkovne točke u grupe. Razjasnimo malo vokabular: > > 🎓 ['Transduktivno' vs. 'induktivno'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> Transduktivno zaključivanje proizlazi iz promatranih slučajeva treninga koji se mapiraju na specifične testne slučajeve. Induktivno zaključivanje proizlazi iz slučajeva treninga koji se mapiraju na opća pravila koja se tek tada primjenjuju na testne slučajeve. +> Transduktivno zaključivanje proizlazi iz promatranih primjera za treniranje koji se preslikavaju na određene test primjere. Induktivno zaključivanje se izvodi iz primjera za treniranje koji se preslikavaju na opća pravila koja se tek tada primjenjuju na test primjere. > -> Primjer: Zamislite da imate skup podataka koji je samo djelomično označen. Neke stvari su 'ploče', neke 'CD-i', a neke su prazne. Vaš zadatak je dodijeliti oznake praznima. Ako odaberete induktivni pristup, trenirali biste model tražeći 'ploče' i 'CD-e' i primijenili te oznake na neoznačene podatke. Ovaj pristup će imati problema s klasifikacijom stvari koje su zapravo 'kasete'. Transduktivni pristup, s druge strane, učinkovitije se nosi s ovim nepoznatim podacima jer radi na grupiranju sličnih stavki zajedno i zatim primjenjuje oznaku na grupu. U ovom slučaju, klasteri bi mogli odražavati 'okrugle glazbene stvari' i 'kvadratne glazbene stvari'. +> Primjer: Zamislite da imate skup podataka koji je samo djelomično označen. Neke stvari su 'vinili', neke 'CD-ovi', a neke su prazne. Vaš zadatak je dati oznake praznima. Ako koristite induktivni pristup, trenirali biste model koji traži 'vinile' i 'CD-ove' te te oznake primijenili na neoznačene podatke. Taj pristup će imati problema s klasificiranjem stvari koje su zapravo 'kazete'. Transduktivni pristup, s druge strane, učinkovitije rukuje nepoznatim podacima jer radi na grupiranju sličnih stvari i zatim primjenjuje oznaku na grupu. U ovom slučaju, skupine bi mogle odražavati 'okrugle glazbene stvari' i 'kockaste glazbene stvari'. > > 🎓 ['Ne-ravna' vs. 'ravna' geometrija](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> Izvedeno iz matematičke terminologije, ne-ravna vs. ravna geometrija odnosi se na mjerenje udaljenosti između točaka bilo 'ravnim' ([Euklidskim](https://wikipedia.org/wiki/Euclidean_geometry)) ili 'ne-ravnim' (ne-Euklidskim) geometrijskim metodama. +> Izvedeno iz matematičke terminologije, ne-ravna vs. ravna geometrija odnosi se na mjerenje udaljenosti između točaka pomoću 'ravnih' ([Euklidskih](https://wikipedia.org/wiki/Euclidean_geometry)) ili 'ne-ravnih' (ne-Euklidskih) geometrijskih metoda. > ->'Ravna' u ovom kontekstu odnosi se na Euklidsku geometriju (dijelovi koje se uče kao 'ravninska' geometrija), a ne-ravna se odnosi na ne-Euklidsku geometriju. Što geometrija ima veze sa strojnim učenjem? Pa, kao dva područja koja su ukorijenjena u matematici, mora postojati zajednički način mjerenja udaljenosti između točaka u klasterima, a to se može učiniti na 'ravni' ili 'ne-ravni' način, ovisno o prirodi podataka. [Euklidske udaljenosti](https://wikipedia.org/wiki/Euclidean_distance) mjere se kao duljina segmenta linije između dvije točke. [Ne-Euklidske udaljenosti](https://wikipedia.org/wiki/Non-Euclidean_geometry) mjere se duž krivulje. Ako se vaši podaci, vizualizirani, čine da ne postoje na ravnini, možda ćete trebati koristiti specijalizirani algoritam za njihovu obradu. +> 'Ravno' u ovom kontekstu odnosi se na Euklidsku geometriju (dijelovi koje se uče kao 'ravninska' geometrija), a ne-ravno na ne-Euklidsku geometriju. Što geometrija ima s učenjem stroja? Kao dva područja utemeljena u matematici, mora postojati zajednički način za mjerenje udaljenosti između točaka u skupinama, a to se može učiniti 'ravnim' ili 'ne-ravnim' načinom, ovisno o prirodi podataka. [Euklidske udaljenosti](https://wikipedia.org/wiki/Euclidean_distance) mjere se kao duljina duž segmenta između dvije točke. [Ne-Euklidske udaljenosti](https://wikipedia.org/wiki/Non-Euclidean_geometry) mjere se duž krivulje. Ako vaši podaci, vizualizirani, ne postoje na ravnini, možda ćete trebati koristiti specijalizirani algoritam za njihovo rukovanje. > -![Infografika ravne vs. ne-ravne geometrije](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) -> Infografika od [Dasani Madipalli](https://twitter.com/dasani_decoded) +![Infografika ravna vs neravna geometrija](../../../../translated_images/hr/flat-nonflat.d1c8c6e2a96110c1.webp) +> Infografika autora [Dasani Madipalli](https://twitter.com/dasani_decoded) > > 🎓 ['Udaljenosti'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> Klasteri su definirani njihovom matricom udaljenosti, npr. udaljenostima između točaka. Ova udaljenost može se mjeriti na nekoliko načina. Euklidski klasteri definirani su prosjekom vrijednosti točaka i sadrže 'centroid' ili središnju točku. Udaljenosti se stoga mjere udaljenosti do tog centroida. Ne-Euklidske udaljenosti odnose se na 'clustroid', točku najbližu drugim točkama. Clustroidi se pak mogu definirati na različite načine. +> Skupine se definiraju njihovom matricom udaljenosti, tj. udaljenostima između točaka. Ta se udaljenost može mjeriti na nekoliko načina. Euklidske skupine definiraju se prosjekom vrijednosti točaka i sadrže 'centroid' ili središnju točku. Udaljenosti se tako mjere do tog centroida. Ne-euklidske udaljenosti odnose se na 'klustroide', točku najbližu drugim točkama. Klustroidi se pak mogu definirati na različite načine. > > 🎓 ['Ograničeno'](https://wikipedia.org/wiki/Constrained_clustering) > -> [Ograničeno klasteriranje](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) uvodi 'polu-nadzirano' učenje u ovu nenadziranu metodu. Odnosi između točaka označeni su kao 'ne može se povezati' ili 'mora se povezati' pa se neka pravila nameću skupu podataka. +> [Ograničeno grupiranje](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) uvodi 'polunadzirano' učenje u ovu nenadziranu metodu. Odnosi između točaka označavaju se kao 'ne može se povezati' ili 'mora se povezati', pa se na skup podataka nameću neka pravila. > ->Primjer: Ako se algoritam pusti na skup neoznačenih ili polu-označenih podataka, klasteri koje proizvede mogu biti loše kvalitete. U gore navedenom primjeru, klasteri bi mogli grupirati 'okrugle glazbene stvari' i 'kvadratne glazbene stvari' i 'trokutaste stvari' i 'kolačiće'. Ako se daju neka ograničenja ili pravila koja treba slijediti ("stavka mora biti izrađena od plastike", "stavka mora moći proizvoditi glazbu") to može pomoći 'ograničiti' algoritam da donosi bolje odluke. +>Primjer: Ako se algoritam pusti slobodno na skup neoznačenih ili poluoznačenih podataka, skupine koje stvara mogu biti loše kvalitete. U prethodnom primjeru, skupine bi mogle objediniti 'okrugle glazbene stvari', 'kockaste glazbene stvari', 'trokutaste stvari' i 'kolačiće'. Ako se dodaju neka ograničenja ili pravila koje treba slijediti ("proizvod mora biti od plastike", "proizvod treba moći proizvoditi glazbu"), to može pomoći algoritmu da napravi bolje izbore. > > 🎓 'Gustoća' > -> Podaci koji su 'bučni' smatraju se 'gustima'. Udaljenosti između točaka u svakom od njegovih klastera mogu se pokazati, pri ispitivanju, više ili manje gustima, ili 'zbijenima', pa se ti podaci moraju analizirati odgovarajućom metodom klasteriranja. [Ovaj članak](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) pokazuje razliku između korištenja K-Means klasteriranja i HDBSCAN algoritama za istraživanje bučnog skupa podataka s nejednakom gustoćom klastera. +> Podaci koji su 'bučni' smatraju se 'gustom' skupinom. Udaljenosti između točaka u svakoj od njihovih skupina mogu se pokazati prilikom proučavanja kao više ili manje guste, ili 'zbijene', pa te podatke treba analizirati odgovarajućom metodom grupiranja. [Ovaj članak](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) prikazuje razliku između korištenja K-Means grupiranja i HDBSCAN algoritama za istraživanje bučnog skupa podataka s nejednakom gustoćom skupina. -## Algoritmi klasteriranja +## Algoritmi za grupiranje -Postoji preko 100 algoritama klasteriranja, a njihova upotreba ovisi o prirodi podataka. Razgovarajmo o nekima od glavnih: +Postoji preko 100 algoritama za grupiranje, a njihova upotreba ovisi o prirodi raspoloživih podataka. Razmotrimo neke od glavnih: -- **Hijerarhijsko klasteriranje**. Ako se objekt klasificira prema njegovoj blizini obližnjem objektu, a ne onom udaljenijem, klasteri se formiraju na temelju udaljenosti članova od i prema drugim objektima. Scikit-learn-ovo aglomerativno klasteriranje je hijerarhijsko. +- **Hijerarhijsko grupiranje**. Ako se objekt klasificira prema svojoj blizini bližem objektu, a ne onom udaljenijem, skupine se formiraju na temelju udaljenosti članova prema drugim objektima. Agglomerativno grupiranje u Scikit-learnu je hijerarhijsko. - ![Infografika hijerarhijskog klasteriranja](../../../../5-Clustering/1-Visualize/images/hierarchical.png) - > Infografika od [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Infografika hijerarhijsko grupiranje](../../../../translated_images/hr/hierarchical.bf59403aa43c8c47.webp) + > Infografika autora [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Centroid klasteriranje**. Ovaj popularni algoritam zahtijeva odabir 'k', ili broja klastera koje treba formirati, nakon čega algoritam određuje središnju točku klastera i okuplja podatke oko te točke. [K-means klasteriranje](https://wikipedia.org/wiki/K-means_clustering) je popularna verzija centroid klasteriranja. Središte se određuje prema najbližem prosjeku, otuda i naziv. Kvadratna udaljenost od klastera se minimizira. +- **Centroidno grupiranje**. Ovaj popularni algoritam zahtijeva odabir 'k', odnosno broja skupina za formiranje, nakon čega algoritam određuje središnju točku skupine i okuplja podatke oko te točke. [K-means grupiranje](https://wikipedia.org/wiki/K-means_clustering) je popularna verzija centroidnog grupiranja. Centar se određuje prema najbližem prosjeku, odakle i naziv. Kvadratna udaljenost od skupine se minimizira. - ![Infografika centroid klasteriranja](../../../../5-Clustering/1-Visualize/images/centroid.png) - > Infografika od [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Infografika centroidno grupiranje](../../../../translated_images/hr/centroid.097fde836cf6c918.webp) + > Infografika autora [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Klasteriranje temeljeno na distribuciji**. Temeljeno na statističkom modeliranju, klasteriranje temeljeno na distribuciji usredotočuje se na određivanje vjerojatnosti da podatkovna točka pripada klasteru i dodjeljuje je u skladu s tim. Metode Gaussian mješavina pripadaju ovom tipu. +- **Grupiranje temeljeno na distribuciji**. Temeljeno na statističkom modeliranju, grupiranje temeljeno na distribuciji fokusira se na određivanje vjerojatnosti da podatkovna točka pripada skupini i odgovarajuću joj dodjelu. Metode Gaussovih mješavina pripadaju ovoj vrsti. -- **Klasteriranje temeljeno na gustoći**. Podatkovne točke dodjeljuju se klasterima na temelju njihove gustoće, odnosno njihovog grupiranja jedne oko drugih. Podatkovne točke udaljene od grupe smatraju se iznimkama ili šumom. DBSCAN, Mean-shift i OPTICS pripadaju ovom tipu klasteriranja. +- **Grupiranje temeljeno na gustoći**. Podatkovnim točkama se dodjeljuju skupine prema njihovoj gustoći, odnosno oko njihove međusobne grupacije. Podatkovne točke udaljene od grupe smatraju se odmetnicima ili šumom. DBSCAN, Mean-shift i OPTICS pripadaju ovoj vrsti grupiranja. -- **Klasteriranje temeljeno na mreži**. Za višedimenzionalne skupove podataka, stvara se mreža i podaci se dijele među ćelijama mreže, čime se stvaraju klasteri. +- **Grupiranje temeljeno na mreži**. Za višedimenzionalne skupove podataka, stvara se mreža te se podaci dijele među ćelijama mreže, čime se stvaraju skupine. -## Vježba - klasterirajte svoje podatke +## Vježba - grupirajte svoje podatke -Klasteriranje kao tehnika uvelike se olakšava pravilnom vizualizacijom, pa krenimo s vizualizacijom naših glazbenih podataka. Ova vježba pomoći će nam odlučiti koju od metoda klasteriranja najefikasnije koristiti za prirodu ovih podataka. +Grupiranju kao tehnici znatno pomaže pravilna vizualizacija, pa započnimo vizualizacijom podataka o glazbi. Ova vježba pomoći će nam odlučiti koju od metoda grupiranja trebamo najefikasnije koristiti za prirodu ovih podataka. 1. Otvorite datoteku [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) u ovoj mapi. @@ -110,7 +109,7 @@ Klasteriranje kao tehnika uvelike se olakšava pravilnom vizualizacijom, pa kren !pip install seaborn ``` -1. Dodajte podatke o pjesmama iz [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Učitajte dataframe s nekim podacima o pjesmama. Pripremite se za istraživanje ovih podataka uvozom biblioteka i ispisivanjem podataka: +1. Dodajte podatke o pjesmama iz [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Učitajte dataframe s nekim podacima o pjesmama. Pripremite se za istraživanje ovih podataka uvozom knjižnica i ispisivanjem podataka: ```python import matplotlib.pyplot as plt @@ -120,17 +119,17 @@ Klasteriranje kao tehnika uvelike se olakšava pravilnom vizualizacijom, pa kren df.head() ``` - Provjerite prvih nekoliko redaka podataka: + Provjerite prvih nekoliko redova podataka: - | | naziv | album | izvođač | glavni žanr izvođača | datum izlaska | duljina | popularnost | plesnost | akustičnost | energija | instrumentalnost | živost | glasnoća | govornost | tempo | vremenski potpis | - | --- | ------------------------ | ---------------------------- | ------------------- | -------------------- | ------------- | ------- | ----------- | ------------ | ----------- | -------- | ---------------- | -------- | -------- | ----------- | ------- | ---------------- | - | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternativni r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | - | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | + | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Dobijte informacije o dataframeu pozivajući `info()`: +1. Dobite neke informacije o dataframeu, pozivom `info()`: ```python df.info() @@ -164,7 +163,7 @@ Klasteriranje kao tehnika uvelike se olakšava pravilnom vizualizacijom, pa kren memory usage: 66.4+ KB ``` -1. Provjerite ima li null vrijednosti pozivajući `isnull()` i provjerite da je zbroj 0: +1. Dvaput provjerite postoje li null vrijednosti, pozivanjem `isnull()` i provjerom da je suma 0: ```python df.isnull().sum() @@ -209,11 +208,11 @@ Klasteriranje kao tehnika uvelike se olakšava pravilnom vizualizacijom, pa kren | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Ako radimo s klasteriranjem, nesuperviziranom metodom koja ne zahtijeva označene podatke, zašto prikazujemo ove podatke s oznakama? Tijekom faze istraživanja podataka, oznake su korisne, ali nisu nužne za rad algoritama klasteriranja. Mogli biste jednostavno ukloniti zaglavlja stupaca i referirati se na podatke prema broju stupca. +> 🤔 Ako radimo sa klasteriranjem, ne-nadziranim metodom koja ne zahtijeva označene podatke, zašto prikazujemo ove podatke s oznakama? U fazi istraživanja podataka koristi su korisni, ali nisu potrebni za rad klaster algoritama. Mogli biste jednako tako ukloniti zaglavlja stupaca i referirati se na podatke preko broja stupca. -Pogledajte opće vrijednosti podataka. Primijetite da popularnost može biti '0', što pokazuje pjesme koje nemaju rangiranje. Uskoro ćemo ih ukloniti. +Pogledajte opće vrijednosti podataka. Napomena da popularnost može biti '0', što znači pjesme koje nemaju rangiranje. Uskoro ćemo ih ukloniti. -1. Koristite barplot za otkrivanje najpopularnijih žanrova: +1. Upotrijebite barplot da biste saznali najpopularnije žanrove: ```python import seaborn as sns @@ -225,13 +224,13 @@ Pogledajte opće vrijednosti podataka. Primijetite da popularnost može biti '0' plt.title('Top genres',color = 'blue') ``` - ![najpopularniji](../../../../5-Clustering/1-Visualize/images/popular.png) + ![most popular](../../../../translated_images/hr/popular.9c48d84b3386705f.webp) -✅ Ako želite vidjeti više top vrijednosti, promijenite top `[:5]` na veću vrijednost ili ga uklonite da vidite sve. +✅ Ako želite vidjeti više vrhunskih vrijednosti, promijenite top `[:5]` u veći broj, ili ga uklonite da vidite sve. -Napomena: kada je top žanr opisan kao 'Missing', to znači da ga Spotify nije klasificirao, pa ga uklonimo. +Napomena, kada je vrhunski žanr opisan kao 'Missing', to znači da ga Spotify nije klasificirao, pa ga se riješimo. -1. Uklonite nedostajuće podatke filtriranjem: +1. Uklonite nedostajuće podatke filtriranjem ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -244,9 +243,9 @@ Napomena: kada je top žanr opisan kao 'Missing', to znači da ga Spotify nije k Sada ponovno provjerite žanrove: - ![svi žanrovi](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![most popular](../../../../translated_images/hr/all-genres.1d56ef06cefbfcd6.webp) -1. Tri najpopularnija žanra dominiraju ovim skupom podataka. Usredotočimo se na `afro dancehall`, `afropop` i `nigerian pop`, dodatno filtrirajmo skup podataka kako bismo uklonili sve s vrijednošću popularnosti 0 (što znači da nije klasificirano s popularnošću u skupu podataka i može se smatrati šumom za naše svrhe): +1. Daleko najdominantnija su tri žanra u ovom skupu podataka. Usredotočimo se na `afro dancehall`, `afropop` i `nigerian pop`, dodatno filtrirajte skup podataka da uklonite sve s vrijednošću popularnosti 0 (što znači da nije klasificiran s popularnošću u skupu podataka i može se smatrati bukom za naše svrhe): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +257,7 @@ Napomena: kada je top žanr opisan kao 'Missing', to znači da ga Spotify nije k plt.title('Top genres',color = 'blue') ``` -1. Brzo testirajte koreliraju li podaci na neki posebno jak način: +1. Napravite brzi test da vidite postoji li jaka korelacija među podatcima: ```python corrmat = df.corr(numeric_only=True) @@ -266,21 +265,21 @@ Napomena: kada je top žanr opisan kao 'Missing', to znači da ga Spotify nije k sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![korelacije](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlations](../../../../translated_images/hr/correlation.a9356bb798f5eea5.webp) - Jedina jaka korelacija je između `energy` i `loudness`, što nije previše iznenađujuće, s obzirom na to da je glasna glazba obično prilično energična. Inače, korelacije su relativno slabe. Bit će zanimljivo vidjeti što algoritam klasteriranja može napraviti s ovim podacima. + Jedina jaka korelacija je između `energy` i `loudness`, što nije iznenađujuće, s obzirom da je glasna glazba obično prilično energična. Inače, korelacije su relativno slabe. Bit će zanimljivo vidjeti što algoritam klasteriranja može izvući iz ovih podataka. - > 🎓 Napomena: korelacija ne implicira uzročnost! Imamo dokaz korelacije, ali ne i dokaz uzročnosti. [Zabavna web stranica](https://tylervigen.com/spurious-correlations) ima vizuale koji naglašavaju ovu točku. + > 🎓 Napomena da korelacija ne podrazumijeva uzročnost! Imamo dokaz korelacije, ali ne i dokaz uzročnosti. [Zabavna web stranica](https://tylervigen.com/spurious-correlations) ima neke vizuale koji naglašavaju ovu točku. -Postoji li konvergencija u ovom skupu podataka oko percepcije popularnosti i plesnosti pjesme? FacetGrid pokazuje da postoje koncentrični krugovi koji se podudaraju, bez obzira na žanr. Može li biti da se nigerijski ukusi konvergiraju na određenoj razini plesnosti za ovaj žanr? +Postoji li konvergencija u ovom skupu podataka oko percipirane popularnosti i plesnosti pjesme? FacetGrid pokazuje da postoje koncentrični krugovi koji se poklapaju, bez obzira na žanr. Može li biti da se nigerijski ukusi konvergiraju na određenoj razini plesnosti za ovaj žanr? -✅ Isprobajte različite podatkovne točke (energy, loudness, speechiness) i više ili različite glazbene žanrove. Što možete otkriti? Pogledajte tablicu `df.describe()` kako biste vidjeli opći raspon podatkovnih točaka. +✅ Isprobajte različite točke podataka (energija, glasnoća, govorljivost) i više ili različitih glazbenih žanrova. Što možete otkriti? Pogledajte tablicu `df.describe()` da vidite opći raspon podataka. ### Vježba - distribucija podataka Jesu li ova tri žanra značajno različita u percepciji njihove plesnosti, na temelju njihove popularnosti? -1. Ispitajte distribuciju podataka za naša tri najbolja žanra za popularnost i plesnost duž zadane x i y osi. +1. Ispitajte distribuciju podataka naših top tri žanra za popularnost i plesnost duž zadane x i y osi. ```python sns.set_theme(style="ticks") @@ -292,13 +291,13 @@ Jesu li ova tri žanra značajno različita u percepciji njihove plesnosti, na t ) ``` - Možete otkriti koncentrične krugove oko opće točke konvergencije, pokazujući distribuciju točaka. + Možete otkriti koncentrične krugove oko opće točke konvergencije, što pokazuje raspodjelu točaka. - > 🎓 Napomena: ovaj primjer koristi KDE (Kernel Density Estimate) graf koji predstavlja podatke koristeći kontinuiranu krivulju gustoće vjerojatnosti. To nam omogućuje interpretaciju podataka pri radu s višestrukim distribucijama. + > 🎓 Napomena da ovaj primjer koristi KDE (Kernel Density Estimate) graf koji predstavlja podatke korištenjem kontinuirane krivulje gustoće vjerojatnosti. To nam omogućava interpretaciju podataka kada radimo s višestrukim distribucijama. - Općenito, tri žanra se labavo usklađuju u smislu njihove popularnosti i plesnosti. Određivanje klastera u ovim labavo usklađenim podacima bit će izazov: + Općenito, tri žanra se labavo poravnavaju u pogledu njihove popularnosti i plesnosti. Određivanje klastera u ovom labavo poravnanom skupu podataka bit će izazov: - ![distribucija](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribution](../../../../translated_images/hr/distribution.9be11df42356ca95.webp) 1. Napravite scatter plot: @@ -308,31 +307,33 @@ Jesu li ova tri žanra značajno različita u percepciji njihove plesnosti, na t .add_legend() ``` - Scatterplot istih osi pokazuje sličan obrazac konvergencije. + Scatterplot istih osi pokazuje sličan obrazac konvergencije - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/hr/facetgrid.9b2e65ce707eba1f.webp) -Općenito, za klasteriranje možete koristiti scatterplotove za prikaz klastera podataka, pa je ovladavanje ovom vrstom vizualizacije vrlo korisno. U sljedećoj lekciji, uzet ćemo ove filtrirane podatke i koristiti k-means klasteriranje za otkrivanje grupa u ovim podacima koje se preklapaju na zanimljive načine. +Općenito, za klasteriranje možete koristiti scatter plotove za prikaz klastera podataka, pa je ovladavanje ovom vrstom vizualizacije vrlo korisno. U sljedećem ćemo satu uzeti ove filtrirane podatke i koristiti k-means klasteriranje da otkrijemo skupine u ovim podacima koje se na zanimljiv način preklapaju. --- ## 🚀Izazov -U pripremi za sljedeću lekciju, napravite grafikon o raznim algoritmima klasteriranja koje biste mogli otkriti i koristiti u produkcijskom okruženju. Koje vrste problema klasteriranje pokušava riješiti? +U pripremi za sljedeći sat, napravite grafikon o različitim algoritmima klasteriranja koje biste mogli otkriti i koristiti u proizvodnom okruženju. Koje vrste problema klasteriranje pokušava riješiti? -## [Post-lecture kviz](https://ff-quizzes.netlify.app/en/ml/) +## [Kviz nakon predavanja](https://ff-quizzes.netlify.app/en/ml/) ## Pregled i samostalno učenje -Prije nego što primijenite algoritme klasteriranja, kao što smo naučili, dobro je razumjeti prirodu vašeg skupa podataka. Pročitajte više o ovoj temi [ovdje](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Prije nego što primijenite algoritme klasteriranja, kao što smo naučili, dobra je ideja razumjeti prirodu vašeg skupa podataka. Više o ovoj temi pročitajte [ovdje](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) [Ovaj koristan članak](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) vodi vas kroz različite načine na koje se različiti algoritmi klasteriranja ponašaju, s obzirom na različite oblike podataka. ## Zadatak -[Istrazite druge vizualizacije za klasteriranje](assignment.md) +[Istražite druge vizualizacije za klasteriranje](assignment.md) --- -**Odricanje od odgovornosti**: -Ovaj dokument je preveden pomoću AI usluge za prevođenje [Co-op Translator](https://github.com/Azure/co-op-translator). Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane ljudskog prevoditelja. Ne preuzimamo odgovornost za bilo kakve nesporazume ili pogrešne interpretacije koje proizlaze iz korištenja ovog prijevoda. \ No newline at end of file + +**Napomena**: +Ovaj dokument je preveden korištenjem AI prevoditeljskog servisa [Co-op Translator](https://github.com/Azure/co-op-translator). Iako težimo točnosti, imajte na umu da automatski prijevodi mogu sadržavati greške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za važne informacije preporuča se profesionalni ljudski prijevod. Nismo odgovorni za bilo kakva nesporazumevanja ili pogrešne interpretacije koje proizlaze iz korištenja ovog prijevoda. + \ No newline at end of file diff --git a/translations/sl/.co-op-translator.json b/translations/sl/.co-op-translator.json index b065adad0..03bf6bace 100644 --- a/translations/sl/.co-op-translator.json +++ b/translations/sl/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-05T12:47:53+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:15:27+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "sl" }, @@ -240,8 +240,8 @@ "language_code": "sl" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-05T12:12:07+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:14:47+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "sl" }, diff --git a/translations/sl/1-Introduction/1-intro-to-ML/README.md b/translations/sl/1-Introduction/1-intro-to-ML/README.md index e07f4db1d..20a50cef9 100644 --- a/translations/sl/1-Introduction/1-intro-to-ML/README.md +++ b/translations/sl/1-Introduction/1-intro-to-ML/README.md @@ -1,6 +1,6 @@ # Uvod v strojno učenje -## [Predhodni kviz](https://ff-quizzes.netlify.app/en/ml/) +## [Pred predavanjem kviz](https://ff-quizzes.netlify.app/en/ml/) --- @@ -8,143 +8,150 @@ > 🎥 Kliknite na zgornjo sliko za kratek video, ki obravnava to lekcijo. -Dobrodošli v tem tečaju klasičnega strojnega učenja za začetnike! Ne glede na to, ali ste popolnoma novi na tem področju ali izkušen strokovnjak za strojno učenje, ki želi osvežiti svoje znanje, veseli smo, da ste se nam pridružili! Želimo ustvariti prijazno izhodišče za vaše študije strojnega učenja in z veseljem ocenimo, odgovorimo ter vključimo vaše [povratne informacije](https://github.com/microsoft/ML-For-Beginners/discussions). +Dobrodošli v tem tečaju o klasičnem strojnem učenju za začetnike! Ne glede na to, ali ste popolnoma novi na to temo ali izkušen izvajalec ML, ki želi osvežiti znanje v določenem področju, smo veseli, da ste se nam pridružili! Želimo ustvariti prijazno izhodišče za vaše študij strojnjega učenja in z veseljem bomo ocenili, odgovorili na in vključili vaše [povratne informacije](https://github.com/microsoft/ML-For-Beginners/discussions). -[![Uvod v strojno učenje](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Uvod v strojno učenje") +[![Uvod v ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Uvod v ML") -> 🎥 Kliknite na zgornjo sliko za video: MIT-ov John Guttag predstavlja strojno učenje +> 🎥 Kliknite na zgornjo sliko za video: John Guttag z MIT predstavlja strojno učenje --- ## Začetek s strojnim učenjem -Preden začnete s tem učnim načrtom, morate pripraviti svoj računalnik za lokalno izvajanje beležk. +Pred začetkom s tem učnim načrtom morate imeti svoj računalnik pripravljen in konfiguriran za lokalno izvajanje zvezkov. -- **Pripravite svoj računalnik s temi videi**. Uporabite naslednje povezave, da se naučite [kako namestiti Python](https://youtu.be/CXZYvNRIAKM) na vaš sistem in [nastaviti urejevalnik besedila](https://youtu.be/EU8eayHWoZg) za razvoj. -- **Naučite se Python**. Priporočljivo je, da imate osnovno razumevanje [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), programskega jezika, ki je koristen za podatkovne znanstvenike in ga uporabljamo v tem tečaju. -- **Naučite se Node.js in JavaScript**. JavaScript uporabljamo nekajkrat v tem tečaju pri gradnji spletnih aplikacij, zato boste potrebovali [node](https://nodejs.org) in [npm](https://www.npmjs.com/), pa tudi [Visual Studio Code](https://code.visualstudio.com/) za razvoj v Pythonu in JavaScriptu. -- **Ustvarite GitHub račun**. Ker ste nas našli tukaj na [GitHub](https://github.com), morda že imate račun, če pa ne, ga ustvarite in nato razvejite ta učni načrt za lastno uporabo. (Lahko nam tudi podarite zvezdico 😊) -- **Raziščite Scikit-learn**. Seznanite se z [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), nizom knjižnic za strojno učenje, ki jih uporabljamo v teh lekcijah. +- **Konfigurirajte svoj računalnik z temi videi**. Uporabite naslednje povezave, da se naučite [kako namestiti Python](https://youtu.be/CXZYvNRIAKM) v svoj sistem in [nastaviti urejevalnik besedil](https://youtu.be/EU8eayHWoZg) za razvoj. +- **Naučite se Pythona**. Priporočljivo je tudi imeti osnovno razumevanje [Pythona](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), programskega jezika, ki je uporaben za podatkovne znanstvenike in ga uporabljamo v tem tečaju. +- **Naučite se Node.js in JavaScript**. V tem tečaju JavaScript uporabimo tudi nekajkrat pri gradnji spletnih aplikacij, zato boste morali imeti nameščen [node](https://nodejs.org) in [npm](https://www.npmjs.com/), prav tako pa je za razvoj v Pythonu in JavaScriptu priporočljiv [Visual Studio Code](https://code.visualstudio.com/). +- **Ustvarite GitHub račun**. Ker ste nas našli tukaj na [GitHubu](https://github.com), imate morda že račun, če ne, pa si ga ustvarite in nato odvežite ta učni načrt za svojo uporabo. (Lahko nam tudi daste zvezdico 😊) +- **Raziskujte Scikit-learn**. Spoznajte [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), nabor knjižnic ML, na katere se sklicujemo v teh lekcijah. --- ## Kaj je strojno učenje? -Izraz 'strojno učenje' je eden najbolj priljubljenih in pogosto uporabljenih izrazov danes. Obstaja velika verjetnost, da ste ta izraz vsaj enkrat slišali, če imate kakršnokoli povezavo s tehnologijo, ne glede na področje, v katerem delate. Mehanika strojnega učenja pa je za večino ljudi skrivnost. Za začetnika v strojnem učenju se lahko tema včasih zdi preobsežna. Zato je pomembno razumeti, kaj strojno učenje dejansko je, in se o njem učiti korak za korakom, skozi praktične primere. +Izraz 'strojno učenje' je eden najbolj priljubljenih in pogosto uporabljenih izrazov danes. Obstaja zelo velika verjetnost, da ste ta izraz zasledili vsaj enkrat, če imate kakršnokoli poznanstvo s tehnologijo, ne glede na to, v katerem področju delate. Mehanika strojnjega učenja pa je za večino ljudi skrivnost. Za začetnika strojnjega učenja je lahko ta tema včasih preobširna. Zato je pomembno razumeti, kaj strojno učenje dejansko je, in se z njim učiti korak za korakom, skozi praktične primere. --- -## Krivulja navdušenja +## Hipe krivulja -![krivulja navdušenja strojnega učenja](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/sl/hype.07183d711a17aafe.webp) -> Google Trends prikazuje nedavno 'krivuljo navdušenja' izraza 'strojno učenje' +> Google Trends prikazuje nedavno 'hype krivuljo' pojma 'strojno učenje' --- -## Skrivnostno vesolje +## skrivnostno vesolje -Živimo v vesolju, polnem fascinantnih skrivnosti. Veliki znanstveniki, kot so Stephen Hawking, Albert Einstein in mnogi drugi, so svoja življenja posvetili iskanju smiselnih informacij, ki razkrivajo skrivnosti sveta okoli nas. To je človeška narava učenja: človeški otrok se uči novih stvari in odkriva strukturo svojega sveta leto za letom, ko odrašča. +Živimo v vesolju, polnem fascinantnih skrivnosti. Veliki znanstveniki, kot so Stephen Hawking, Albert Einstein in mnogi drugi, so svoj življenjski čas posvetili iskanju pomembnih informacij, ki razkrivajo skrivnosti sveta okoli nas. To je človeško stanje učenja: otrok se uči novih stvari in odkriva strukturo svojega sveta iz leta v leto, ko odrašča do odraslosti. --- -## Otroški možgani +## Otrokov možgan -Otroški možgani in čuti zaznavajo dejstva iz okolice ter postopoma spoznavajo skrite vzorce življenja, ki otroku pomagajo oblikovati logična pravila za prepoznavanje naučenih vzorcev. Proces učenja človeških možganov naredi ljudi najbolj sofisticirana živa bitja na tem svetu. Nenehno učenje z odkrivanjem skritih vzorcev in nato inoviranje na podlagi teh vzorcev nam omogoča, da se skozi življenje nenehno izboljšujemo. Ta sposobnost učenja in evolucije je povezana s konceptom, imenovanim [plastičnost možganov](https://www.simplypsychology.org/brain-plasticity.html). Površinsko lahko potegnemo nekaj motivacijskih podobnosti med procesom učenja človeških možganov in koncepti strojnega učenja. +Otrokov možgan in čutila zaznavajo dejstva svojega okolja in postopoma spoznavajo skrite vzorce življenja, ki otroku pomagajo oblikovati logična pravila za prepoznavanje naučenih vzorcev. Proces učenja človeških možganov naredi ljudi najbolj dovršena živa bitja na tem svetu. Nenehno učenje s odkrivanjem skritih vzorcev in nato inoviranje na teh vzorcih nam omogoča, da se čez celo življenje izboljšujemo. Ta sposobnost učenja in razvijajoča se zmogljivost sta povezana s konceptom, imenovanim [plastičnost možganov](https://www.simplypsychology.org/brain-plasticity.html). Površinsko lahko najdemo nekaj motivacijskih podobnosti med procesom učenja človeških možganov in koncepti strojnjega učenja. --- ## Človeški možgani -[Človeški možgani](https://www.livescience.com/29365-human-brain.html) zaznavajo stvari iz resničnega sveta, obdelujejo zaznane informacije, sprejemajo racionalne odločitve in izvajajo določena dejanja glede na okoliščine. To imenujemo inteligentno vedenje. Ko programiramo posnemanje inteligentnega vedenjskega procesa v stroj, to imenujemo umetna inteligenca (AI). +[Človeški možgani](https://www.livescience.com/29365-human-brain.html) zaznavajo stvari iz resničnega sveta, obdelujejo zaznane informacije, sprejemajo racionalne odločitve in izvajajo določena dejanja glede na okoliščine. To imenujemo inteligentno vedenje. Ko stroj programiramo s simulacijo inteligentnega vedenjskega procesa, temu pravimo umetna inteligenca (UI). --- -## Nekaj terminologije +## Nekateri izrazi -Čeprav se izrazi lahko zamenjujejo, je strojno učenje (ML) pomemben podsklop umetne inteligence. **ML se ukvarja z uporabo specializiranih algoritmov za odkrivanje smiselnih informacij in iskanje skritih vzorcev iz zaznanih podatkov, da podpre racionalni proces odločanja**. +Čeprav se izrazi lahko zamenjujejo, je strojno učenje (ML) pomemben podskup umetne inteligence. **ML se ukvarja z uporabo specializiranih algoritmov za odkrivanje pomembnih informacij in iskanje skritih vzorcev iz zaznanih podatkov za podporo racionalnemu procesu odločanja**. --- -## AI, ML, globoko učenje +## UI, ML, globoko učenje -![AI, ML, globoko učenje, podatkovna znanost](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/sl/ai-ml-ds.537ea441b124ebf6.webp) -> Diagram, ki prikazuje odnose med AI, ML, globokim učenjem in podatkovno znanostjo. Infografika avtorice [Jen Looper](https://twitter.com/jenlooper), navdihnjena z [to grafiko](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> Diagram, ki prikazuje odnose med UI, ML, globokim učenjem in podatkovno znanostjo. Infografika avtorice [Jen Looper](https://twitter.com/jenlooper) po vzoru [te grafike](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- ## Koncepti, ki jih bomo obravnavali -V tem učnem načrtu bomo obravnavali le osnovne koncepte strojnega učenja, ki jih mora poznati začetnik. Obravnavamo tisto, kar imenujemo 'klasično strojno učenje', predvsem z uporabo Scikit-learn, odlične knjižnice, ki jo mnogi študenti uporabljajo za učenje osnov. Za razumevanje širših konceptov umetne inteligence ali globokega učenja je močno temeljno znanje strojnega učenja nepogrešljivo, zato ga želimo ponuditi tukaj. +V tem učnem načrtu bomo pokrili le osnovne koncepte strojnjega učenja, ki jih mora začetnik poznati. Obravnavamo tisto, kar imenujemo 'klasično strojno učenje', predvsem s pomočjo Scikit-learn, odlične knjižnice, ki jo mnogi študentje uporabljajo za učenje osnov. Za razumevanje širših konceptov umetne inteligence ali globokega učenja je trdno temeljno znanje strojnjega učenja nepogrešljivo, zato vam ga želimo tukaj ponuditi. --- -## V tem tečaju se boste naučili: +## V tem tečaju boste spoznali: -- osnovnih konceptov strojnega učenja -- zgodovine ML -- ML in pravičnosti -- regresijskih tehnik ML -- klasifikacijskih tehnik ML -- tehnik grupiranja ML -- tehnik obdelave naravnega jezika ML -- tehnik napovedovanja časovnih vrst ML -- okrepljenega učenja -- resničnih aplikacij za ML +- osnovne koncepte strojnjega učenja +- zgodovino ML +- ML in pravičnost +- regresijske tehnike ML +- klasifikacijske tehnike ML +- tehnike združevanja (clustering) ML +- tehnike obdelave naravnega jezika ML +- tehnike napovedovanja časovnih vrst ML +- krepitveno učenje +- praktične uporabe ML --- -## Kaj ne bomo obravnavali +## Česa ne bomo obravnavali - globoko učenje - nevronske mreže -- AI +- UI -Za boljšo izkušnjo učenja se bomo izognili kompleksnostim nevronskih mrež, 'globokega učenja' - gradnje modelov z več plastmi z uporabo nevronskih mrež - in AI, o čemer bomo razpravljali v drugem učnem načrtu. Prav tako bomo ponudili prihajajoči učni načrt podatkovne znanosti, ki se bo osredotočil na ta vidik širšega področja. +Za boljšo izkušnjo učenja se bomo izognili zapletenostim nevronskih mrež, 'globokemu učenju' – večplastnemu modeliranju z nevronskimi mrežami – in UI, o katerih bomo govorili v drugem učnem načrtu. Prav tako bomo ponudili prihajajoči učni načrt podatkovne znanosti, ki bo osredotočen na ta del širšega področja. --- ## Zakaj študirati strojno učenje? -Strojno učenje je z vidika sistemov opredeljeno kot ustvarjanje avtomatiziranih sistemov, ki lahko iz podatkov odkrijejo skrite vzorce za pomoč pri sprejemanju inteligentnih odločitev. +Strojno učenje je z vidika sistemov definirano kot ustvarjanje avtomatiziranih sistemov, ki se lahko učijo skrite vzorce iz podatkov za pomoč pri sprejemanju inteligentnih odločitev. -Ta motivacija je ohlapno navdihnjena z načinom, kako človeški možgani učijo določene stvari na podlagi podatkov, ki jih zaznavajo iz zunanjega sveta. +Ta motivacija je v grobem navdihnjena s tem, kako se človeški možgani učijo določenih stvari na podlagi podatkov, ki jih zaznajo iz zunanjega sveta. -✅ Premislite za trenutek, zakaj bi podjetje želelo uporabiti strategije strojnega učenja namesto ustvarjanja sistema s trdo kodiranimi pravili. +✅ Za minuto premislite, zakaj bi podjetje želelo uporabiti strategije strojnjega učenja namesto ustvarjanja sistema z vnaprej določenimi pravili. --- -## Aplikacije strojnega učenja +## Zakaj je pomembna kakovost podatkov -Aplikacije strojnega učenja so zdaj skoraj povsod in so tako razširjene kot podatki, ki krožijo po naših družbah, ustvarjeni s pametnimi telefoni, povezanimi napravami in drugimi sistemi. Glede na izjemen potencial najsodobnejših algoritmov strojnega učenja raziskovalci preučujejo njihovo sposobnost reševanja večdimenzionalnih in večdisciplinarnih resničnih problemov z odličnimi pozitivnimi rezultati. +Podatki visoke kakovosti izboljšajo delovanje modela. Slabi ali šumni podatki lahko vodijo do netočnih napovedi, tudi pri uporabi naprednih algoritmov strojnjega učenja. --- -## Primeri uporabe ML +## Uporabe strojnjega učenja -**Strojno učenje lahko uporabite na številne načine**: +Uporabe strojnjega učenja so danes skoraj povsod in so tako razširjene kot tudi podatki, ki se pretakajo skozi naše družbe, ustvarjeni z našimi pametnimi telefoni, povezanimi napravami in drugimi sistemi. Glede na izjemen potencial najnovejših algoritmov strojnjega učenja raziskovalci preučujejo njihovo zmožnost reševanja večdimenzionalnih in večdisciplinarnih resničnih problemskih izzivov z odličnimi pozitivnimi rezultati. -- Za napovedovanje verjetnosti bolezni na podlagi pacientove zdravstvene zgodovine ali poročil. -- Za uporabo vremenskih podatkov za napovedovanje vremenskih dogodkov. -- Za razumevanje sentimenta besedila. +--- +## Primeri uporabljenega ML + +**Strojno učenje lahko uporabite na več načinov**: + +- Za napovedovanje verjetnosti bolezni na podlagi zgodovine ali poročil pacienta. +- Za uporabo vremenskih podatkov za napovedovanje vremenskih pojavov. +- Za razumevanje sentimenta v besedilu. - Za odkrivanje lažnih novic in preprečevanje širjenja propagande. -Finance, ekonomija, znanost o Zemlji, raziskovanje vesolja, biomedicinski inženiring, kognitivna znanost in celo področja humanistike so prilagodili strojno učenje za reševanje težkih problemov obdelave podatkov v svojih domenah. +Finance, ekonomija, znanost o Zemlji, raziskovanje vesolja, biomedicinsko inženirstvo, kognitivna znanost in celo področja humanistike so sprejela strojno učenje za reševanje zahtevnih, podatkovno intenzivnih problemov na svojem področju. --- ## Zaključek -Strojno učenje avtomatizira proces odkrivanja vzorcev z iskanjem smiselnih vpogledov iz resničnih ali generiranih podatkov. Izkazalo se je, da je izjemno dragoceno na področjih poslovanja, zdravja in financ, med drugim. +Strojno učenje avtomatizira proces odkrivanja vzorcev z iskanjem pomembnih vpogledov iz resničnih ali generiranih podatkov. Dokazalo se je kot zelo dragoceno v poslovnih, zdravstvenih in finančnih aplikacijah med drugimi. -V bližnji prihodnosti bo razumevanje osnov strojnega učenja postalo nujno za ljudi iz katerega koli področja zaradi njegove široke uporabe. +V bližnji prihodnosti bo razumevanje osnov strojnjega učenja nujno za ljudi iz vseh področij zaradi njegove široke uporabe. --- # 🚀 Izziv -Narišite, na papirju ali z uporabo spletne aplikacije, kot je [Excalidraw](https://excalidraw.com/), vaše razumevanje razlik med AI, ML, globokim učenjem in podatkovno znanostjo. Dodajte nekaj idej o problemih, ki jih lahko vsaka od teh tehnik dobro rešuje. +Na papir narišite ali s pomočjo spletne aplikacije, kot je [Excalidraw](https://excalidraw.com/), predstavite svoje razumevanje razlik med UI, ML, globokim učenjem in podatkovno znanostjo. Dodajte nekaj idej o problemih, ki jih vsaka od teh tehnik dobro rešuje. # [Kviz po predavanju](https://ff-quizzes.netlify.app/en/ml/) --- -# Pregled in samostojno učenje +# Pregled & Samostojno učenje -Če želite izvedeti več o tem, kako lahko delate z algoritmi ML v oblaku, sledite tej [učni poti](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +Če želite izvedeti več o tem, kako lahko delate z ML algoritmi v oblaku, sledite temu [učnemu poti](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Sprejmite [učni načrt](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) o osnovah ML. +Opravite [učni pot](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) o osnovah ML. --- # Naloga -[Začnite z delom](assignment.md) +[Zaženite se](assignment.md) --- -**Omejitev odgovornosti**: -Ta dokument je bil preveden z uporabo storitve za prevajanje z umetno inteligenco [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem maternem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo profesionalni človeški prevod. Ne prevzemamo odgovornosti za morebitna nesporazumevanja ali napačne razlage, ki bi nastale zaradi uporabe tega prevoda. \ No newline at end of file + +**Omejitev odgovornosti**: +Ta dokument je bil preveden z uporabo AI prevajalske storitve [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da avtomatizirani prevodi lahko vsebujejo napake ali netočnosti. Izvirni dokument v njegovem izvirnem jeziku je treba obravnavati kot avtoritativni vir. Za kritične informacije je priporočljiv strokovni človeški prevod. Ne odgovarjamo za morebitna nesporazume ali napačne interpretacije, ki izhajajo iz uporabe tega prevoda. + \ No newline at end of file diff --git a/translations/sl/5-Clustering/1-Visualize/README.md b/translations/sl/5-Clustering/1-Visualize/README.md index 198b4840d..bac3bab68 100644 --- a/translations/sl/5-Clustering/1-Visualize/README.md +++ b/translations/sl/5-Clustering/1-Visualize/README.md @@ -1,106 +1,105 @@ -# Uvod v razvrščanje v skupine +# Uvod v gručenje -Razvrščanje v skupine je vrsta [nenadzorovanega učenja](https://wikipedia.org/wiki/Unsupervised_learning), ki predpostavlja, da je podatkovni niz neoznačen ali da njegovi vnosi niso povezani z vnaprej določenimi izhodi. Uporablja različne algoritme za razvrščanje neoznačenih podatkov in zagotavlja skupine glede na vzorce, ki jih zazna v podatkih. +Gručenje je vrsta [nenadzorovanega učenja](https://wikipedia.org/wiki/Unsupervised_learning), ki predpostavlja, da je podatkovni niz neoznačen ali da njegovi vhodi niso usklajeni s predhodno določenimi izhodi. Uporablja različne algoritme za razvrščanje neoznačenih podatkov in zagotavlja skupine glede na vzorce, ki jih zazna v podatkih. [![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Kliknite zgornjo sliko za video. Medtem ko študirate strojno učenje z razvrščanjem v skupine, uživajte ob nigerijskih plesnih skladbah - to je visoko ocenjena pesem iz leta 2014 skupine PSquare. +> 🎥 Kliknite sliko zgoraj za video. Medtem ko se učite strojno učenje z gručenjem, uživajte v afriških plesnih muzikah - to je visoko ocenjeno pesem iz leta 2014 od PSquare. -## [Predhodni kviz](https://ff-quizzes.netlify.app/en/ml/) +## [Kviz pred predavanjem](https://ff-quizzes.netlify.app/en/ml/) ### Uvod -[Razvrščanje v skupine](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) je zelo uporabno za raziskovanje podatkov. Poglejmo, ali lahko pomaga odkriti trende in vzorce v načinu, kako nigerijsko občinstvo uživa glasbo. +[Gručenje](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) je zelo uporabno za raziskovanje podatkov. Poglejmo, ali lahko pomaga odkriti trende in vzorce v načinu, kako nigerijska publika posluša glasbo. -✅ Vzemite si trenutek in razmislite o uporabi razvrščanja v skupine. V resničnem življenju se razvrščanje zgodi, kadar imate kup perila in morate razvrstiti oblačila družinskih članov 🧦👕👖🩲. V podatkovni znanosti se razvrščanje zgodi, ko poskušate analizirati uporabnikove preference ali določiti značilnosti katerega koli neoznačenega podatkovnega niza. Razvrščanje na nek način pomaga razumeti kaos, kot je predal za nogavice. +✅ Vzemite si minuto za razmislek o uporabi gručenja. V resničnem življenju gručenje nastane, kadar imate kup perila in morate razvrstiti oblačila družinskih članov 🧦👕👖🩲. V podatkovni znanosti nastane gručenje, ko poskušate analizirati uporabnikove preference ali določiti značilnosti katerega koli neoznačenega podatkovnega niza. Gručenje, na nek način, pomaga razumeti kaos, kot predal za nogavice. -[![Uvod v strojno učenje](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") +[![Uvod v ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Uvod v gručenje") -> 🎥 Kliknite zgornjo sliko za video: John Guttag z MIT-a predstavlja razvrščanje v skupine. +> 🎥 Kliknite sliko zgoraj za video: John Guttag z MIT predstavlja gručenje -V profesionalnem okolju se razvrščanje lahko uporablja za določanje stvari, kot je segmentacija trga, na primer za ugotavljanje, katere starostne skupine kupujejo določene izdelke. Druga uporaba bi bila odkrivanje anomalij, morda za zaznavanje goljufij iz podatkovnega niza transakcij s kreditnimi karticami. Lahko pa uporabite razvrščanje za določanje tumorjev v seriji medicinskih skenov. +V profesionalnem okolju se gručenje lahko uporablja za določanje stvari, kot je segmentacija trga, določanje, katere starostne skupine kupujejo katere izdelke, na primer. Druga uporaba bi bila odkrivanje anomalij, morda za zaznavanje goljufij iz niza podatkov o transakcijah s kreditnimi karticami. Ali pa bi lahko uporabili gručenje za določanje tumorjev v nizu medicinskih posnetkov. -✅ Razmislite za trenutek, kako ste morda naleteli na razvrščanje 'v naravi', v bančništvu, e-trgovini ali poslovnem okolju. +✅ Vzemite si minuto, da premislite, kje ste morda naleteli na gručenje 'v naravi', v bankarstvu, e-trgovini ali poslovnem okolju. -> 🎓 Zanimivo je, da analiza skupin izvira iz področij antropologije in psihologije v 30. letih prejšnjega stoletja. Si lahko predstavljate, kako bi jo takrat uporabljali? +> 🎓 Zanimivo je, da je analiza gruče nastala na področjih antropologije in psihologije v tridesetih letih prejšnjega stoletja. Si lahko predstavljate, kako je bilo uporabljeno? -Druga možnost je, da jo uporabite za razvrščanje rezultatov iskanja - na primer po nakupovalnih povezavah, slikah ali ocenah. Razvrščanje je uporabno, kadar imate velik podatkovni niz, ki ga želite zmanjšati in na katerem želite opraviti bolj podrobno analizo, zato se tehnika lahko uporablja za spoznavanje podatkov, preden se zgradijo drugi modeli. +Alternativno bi ga lahko uporabili za združevanje rezultatov iskanja - na primer po nakupovalnih povezavah, slikah ali ocenah. Gručenje je uporabno, kadar imate velik podatkovni niz, ki ga želite zmanjšati in na katerem želite izvesti bolj granulirano analizo, zato se tehnika lahko uporablja za spoznavanje podatkov, preden so zgrajeni drugi modeli. -✅ Ko so vaši podatki organizirani v skupine, jim dodelite ID skupine, kar je lahko uporabno pri ohranjanju zasebnosti podatkovnega niza; namesto bolj razkrivajočih identifikacijskih podatkov se lahko sklicujete na podatkovno točko z njenim ID-jem skupine. Ali lahko pomislite na druge razloge, zakaj bi se sklicevali na ID skupine namesto na druge elemente skupine za identifikacijo? +✅ Ko so vaši podatki organizirani v gruče, jih označite s številko gruče, in ta tehnika je lahko uporabna pri ohranjanju zasebnosti podatkov; lahko se namesto tega sklicujete na podatkovno točko po številki gruče, namesto po bolj razkrivajočih identifikacijskih podatkih. Se lahko spomnite drugih razlogov, zakaj bi se sklicevali na številko gruče namesto na druge elemente gruče za identifikacijo? -Poglobite svoje razumevanje tehnik razvrščanja v tem [učnem modulu](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott). +Poglobite svoje razumevanje gruče v tem [učnem modulu](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +## Začetek z gručenjem -## Začetek z razvrščanjem v skupine +[Scikit-learn ponuja širok nabor](https://scikit-learn.org/stable/modules/clustering.html) metod za izvajanje gručenja. Izbran tip bo odvisen od vašega primera uporabe. Po dokumentaciji ima vsaka metoda različne prednosti. Tukaj je poenostavljena tabela metod, ki jih podpira Scikit-learn, in njihovih primernih primerov uporabe: -[Scikit-learn ponuja širok nabor](https://scikit-learn.org/stable/modules/clustering.html) metod za izvajanje razvrščanja v skupine. Vrsta, ki jo izberete, bo odvisna od vašega primera uporabe. Po dokumentaciji ima vsaka metoda različne prednosti. Tukaj je poenostavljena tabela metod, ki jih podpira Scikit-learn, in njihovih ustreznih primerov uporabe: +| Ime metode | Primer uporabe | +| :--------------------------- | :------------------------------------------------------------------- | +| K-Means | splošna uporaba, induktivno | +| Affinity propagation | veliko, neenakomerne gruče, induktivno | +| Mean-shift | veliko, neenakomerne gruče, induktivno | +| Spektralno gručenje | malo, enakomerno, transduktivno | +| Ward hierarhično gručenje | veliko, omejene gruče, transduktivno | +| Agglomerativno gručenje | veliko, omejeno, neevklidske razdalje, transduktivno | +| DBSCAN | neploščata geometrija, neenakomerne gruče, transduktivno | +| OPTICS | neploščata geometrija, neenakomerne gruče z različnimi gostotami, transduktivno | +| Gaussove mešanice | ploščata geometrija, induktivno | +| BIRCH | velik podatkovni niz z izstopajočimi vrednostmi, induktivno | -| Ime metode | Primer uporabe | -| :-------------------------- | :-------------------------------------------------------------------- | -| K-Means | splošna uporaba, induktivna | -| Affinity propagation | številne, neenakomerne skupine, induktivna | -| Mean-shift | številne, neenakomerne skupine, induktivna | -| Spectral clustering | malo, enakomerne skupine, transduktivna | -| Ward hierarchical clustering | številne, omejene skupine, transduktivna | -| Agglomerative clustering | številne, omejene, neevklidske razdalje, transduktivna | -| DBSCAN | neploska geometrija, neenakomerne skupine, transduktivna | -| OPTICS | neploska geometrija, neenakomerne skupine z različno gostoto, transduktivna | -| Gaussian mixtures | ploska geometrija, induktivna | -| BIRCH | velik podatkovni niz z odstopanji, induktivna | - -> 🎓 Kako ustvarjamo skupine, je močno povezano s tem, kako združujemo podatkovne točke v skupine. Razložimo nekaj terminologije: +> 🎓 Kako ustvarjamo gruče je močno povezano s tem, kako združujemo podatkovne točke v skupine. Poglejmo nekaj besedišča: > -> 🎓 ['Transduktivno' vs. 'induktivno'](https://wikipedia.org/wiki/Transduction_(machine_learning)) +> 🎓 ['Transduktivno' proti 'induktivno'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> Transduktivno sklepanje izhaja iz opazovanih primerov usposabljanja, ki se preslikajo na specifične testne primere. Induktivno sklepanje izhaja iz primerov usposabljanja, ki se preslikajo na splošna pravila, ki se nato uporabijo na testnih primerih. +> Transduktivno sklepanje izhaja iz opazovanih učnih primerov, ki so povezani s specifičnimi testnimi primeri. Induktivno sklepanje izhaja iz učnih primerov, ki so povezani s splošnimi pravili, ki se nato uporabijo za testne primere. > -> Primer: Predstavljajte si, da imate podatkovni niz, ki je le delno označen. Nekatere stvari so 'plošče', nekatere 'CD-ji', nekatere pa so prazne. Vaša naloga je zagotoviti oznake za prazne. Če izberete induktivni pristop, bi usposobili model, ki išče 'plošče' in 'CD-je', ter te oznake uporabili na neoznačenih podatkih. Ta pristop bo imel težave pri razvrščanju stvari, ki so dejansko 'kasete'. Transduktivni pristop pa učinkoviteje obravnava te neznane podatke, saj deluje na združevanju podobnih predmetov in nato dodeli oznako skupini. V tem primeru bi skupine lahko odražale 'okrogle glasbene stvari' in 'kvadratne glasbene stvari'. +> Primer: Predstavljajte si, da imate podatkovni niz, ki je le delno označen. Nekatere stvari so 'vinilke', druge 'cd-ji', nekatere pa so prazne. Vaša naloga je, da za prazne zagotovite oznake. Če se odločite za induktivni pristop, boste izučili model za 'vinilke' in 'cd-je' in te oznake uporabili na svojih neoznačenih podatkih. Ta pristop bo imel težave pri klasifikaciji stvari, ki so pravzaprav 'kasete'. Transduktivni pristop pa bolje obravnava te neznane podatke, saj jih skuša združiti v skupine in nato skupinam dodeli oznake. V tem primeru gruče lahko odražajo 'okrogle glasbene stvari' in 'kvadratne glasbene stvari'. > -> 🎓 ['Neploska' vs. 'ploska' geometrija](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> 🎓 ['Neploščata' proti 'ploščata' geometrija](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> Izpeljano iz matematične terminologije, neploska vs. ploska geometrija se nanaša na merjenje razdalj med točkami bodisi s 'plosko' ([evklidsko](https://wikipedia.org/wiki/Euclidean_geometry)) bodisi z 'neplosko' (neevklidsko) geometrijsko metodo. +> Izvira iz matematične terminologije; neploščata proti ploščati geometriji se nanaša na merjenje razdalj med točkami bodisi z 'ploščatimi' ([evklidskimi](https://wikipedia.org/wiki/Euclidean_geometry)) bodisi z 'neploščatimi' (neevklidskimi) geometrijskimi metodami. > ->'Ploska' v tem kontekstu se nanaša na evklidsko geometrijo (deli katere se učijo kot 'ravninska' geometrija), medtem ko se 'neploska' nanaša na neevklidsko geometrijo. Kaj ima geometrija skupnega s strojno inteligenco? Kot dve področji, ki temeljita na matematiki, mora obstajati skupen način merjenja razdalj med točkami v skupinah, kar se lahko izvede na 'ploski' ali 'neploski' način, odvisno od narave podatkov. [Evklidske razdalje](https://wikipedia.org/wiki/Euclidean_distance) se merijo kot dolžina odseka med dvema točkama. [Neevklidske razdalje](https://wikipedia.org/wiki/Non-Euclidean_geometry) se merijo vzdolž krivulje. Če se vaši podatki, vizualizirani, ne nahajajo na ravnini, boste morda morali uporabiti specializiran algoritem za obravnavo. +> 'Ploščata' v tem kontekstu pomeni evklidsko geometrijo (del katere se uči kot geometrija ravnine), neploščata pa je neevklidska geometrija. Kaj ima geometrija opraviti z učenjem stroja? Ker sta obe področji zasidrani v matematiki, mora obstajati skupen način merjenja razdalj med točkami v gruči, kar je mogoče storiti na 'ploščat' ali 'neploščat' način, odvisno od narave podatkov. [Evklidske razdalje](https://wikipedia.org/wiki/Euclidean_distance) se merijo kot dolžina daljice med dvema točkama. [Nevklidske razdalje](https://wikipedia.org/wiki/Non-Euclidean_geometry) pa se merijo po krivulji. Če vaši podatki, vizualizirani, niso na ravnini, boste morda potrebovali poseben algoritem. > -![Ploska vs. neploska geometrija Infografika](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) +![Infografika ploščate proti neploščati geometriji](../../../../translated_images/sl/flat-nonflat.d1c8c6e2a96110c1.webp) > Infografika avtorja [Dasani Madipalli](https://twitter.com/dasani_decoded) > > 🎓 ['Razdalje'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> Skupine so opredeljene z matriko razdalj, npr. razdaljami med točkami. Te razdalje je mogoče meriti na več načinov. Evklidske skupine so opredeljene z povprečjem vrednosti točk in vsebujejo 'centroid' ali osrednjo točko. Razdalje se tako merijo glede na razdaljo do tega centroida. Neevklidske razdalje se nanašajo na 'clustroid', točko, ki je najbližja drugim točkam. Clustroidi so lahko opredeljeni na različne načine. +> Gruče so definirane z njihovo matriko razdalj, npr. razdaljami med točkami. Te razdalje se lahko merijo na različne načine. Evklidske gruče so definirane kot povprečje vrednosti točk in vsebujejo 'centroid' ali središčno točko. Razdalje se nato merijo do tega centroida. Neevklidske razdalje pomenijo 'clustroide', točko, ki je najbližje drugim točkam. Clustroide, v nadaljevanju, lahko definiramo na različne načine. > > 🎓 ['Omejeno'](https://wikipedia.org/wiki/Constrained_clustering) > -> [Omejeno razvrščanje](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) uvaja 'polnadzorovano' učenje v to nenadzorovano metodo. Razmerja med točkami so označena kot 'ne smejo se povezati' ali 'morajo se povezati', tako da se na podatkovni niz vsilijo nekatera pravila. +> [Omejeno gručenje](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) uvede 'polonadzorovano' učenje v to nenadzorovano metodo. Razmerja med točkami so označena kot 'ni mogoče povezati' ali 'mora povezati', zato so nekatera pravila prisiljena v podatkovni niz. > ->Primer: Če je algoritem sproščen na seriji neoznačenih ali delno označenih podatkov, so lahko skupine, ki jih ustvari, slabe kakovosti. V zgornjem primeru bi skupine lahko združevale 'okrogle glasbene stvari', 'kvadratne glasbene stvari', 'trikotne stvari' in 'piškote'. Če so podane nekatere omejitve ali pravila ("predmet mora biti iz plastike", "predmet mora biti sposoben proizvajati glasbo"), to lahko pomaga 'omejiti' algoritem, da sprejme boljše odločitve. +> Primer: Če je algoritem sproščen na določeni množici neoznačenih ali delno označenih podatkov, so gruče lahko nizke kakovosti. V zgornjem primeru bi gruče lahko grupirale 'okrogle glasbene stvari' in 'kvadratne glasbene stvari' ter 'trikotne stvari' in 'piškote'. Če dobite nekaj omejitev ali pravil ("izdelek mora biti iz plastike", "izdelek mora znati proizvajati glasbo"), to lahko pomaga 'omejiti' algoritem k boljšim odločitvam. > -> 🎓 'Gostota' +> 🎓 Gostota > -> Podatki, ki so 'hrupni', se štejejo za 'goste'. Razdalje med točkami v vsaki od njihovih skupin se lahko ob pregledu izkažejo za bolj ali manj goste ali 'natrpane', zato je treba te podatke analizirati z ustrezno metodo razvrščanja. [Ta članek](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) prikazuje razliko med uporabo algoritmov K-Means in HDBSCAN za raziskovanje hrupnega podatkovnega niza z neenakomerno gostoto skupin. +> Podatki, ki so 'hrupni', se štejejo za 'goste'. Razdalje med točkami v vsaki gruči so lahko ob pregledu bolj ali manj goste oziroma 'gneteče', zato je treba te podatke analizirati z ustrezno metodo gručenja. [Ta članek](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) prikazuje razliko med uporabo K-Means gručenja in algoritmom HDBSCAN za raziskovanje hrupnih podatkov z neenakomerno gostoto gruče. -## Algoritmi za razvrščanje v skupine +## Algoritmi gručenja -Obstaja več kot 100 algoritmov za razvrščanje v skupine, njihova uporaba pa je odvisna od narave podatkov. Oglejmo si nekatere glavne: +Obstaja več kot 100 algoritmov gručenja, njihova uporaba pa je odvisna od narave podatkov na voljo. Pogovorimo se o nekaterih glavnih: -- **Hierarhično razvrščanje**. Če je predmet razvrščen glede na svojo bližino bližnjemu predmetu, namesto bolj oddaljenemu, se skupine oblikujejo na podlagi razdalje njihovih članov do in od drugih predmetov. Scikit-learnova aglomerativna razvrstitev je hierarhična. +- **Hierarhično gručenje**. Če je objekt klasificiran glede na bližino bližnjega objekta namesto na tistega dlje, nastanejo gruče na podlagi razdalj med njihovimi člani in drugimi objekti. Agglomerativno gručenje Scikit-learna je hierarhično. - ![Hierarhično razvrščanje Infografika](../../../../5-Clustering/1-Visualize/images/hierarchical.png) + ![Infografika hierarhičnega gručenja](../../../../translated_images/sl/hierarchical.bf59403aa43c8c47.webp) > Infografika avtorja [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Razvrščanje po centroidih**. Ta priljubljen algoritem zahteva izbiro 'k', ali število skupin, ki jih je treba oblikovati, nato pa algoritem določi osrednjo točko skupine in zbira podatke okoli te točke. [K-means razvrščanje](https://wikipedia.org/wiki/K-means_clustering) je priljubljena različica razvrščanja po centroidih. Center je določen glede na najbližje povprečje, od tod tudi ime. Kvadratna razdalja od skupine je minimizirana. +- **Gručenje centroidov**. Ta priljubljen algoritem zahteva izbiro 'k', števila gruče, ki jih je treba oblikovati, nato algoritem določi središčno točko gruče in zbere podatke okoli nje. [K-means gručenje](https://wikipedia.org/wiki/K-means_clustering) je priljubljena različica gručenja centroidov. Središče določi najbližje povprečje, od tod ime. Kvadratna razdalja od gruče je minimalizirana. - ![Razvrščanje po centroidih Infografika](../../../../5-Clustering/1-Visualize/images/centroid.png) + ![Infografika gručenja centroidov](../../../../translated_images/sl/centroid.097fde836cf6c918.webp) > Infografika avtorja [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Razvrščanje na podlagi porazdelitve**. Temelji na statističnem modeliranju, razvrščanje na podlagi porazdelitve se osredotoča na določanje verjetnosti, da podatkovna točka pripada skupini, in ji ustrezno dodeli mesto. Metode Gaussovih mešanic spadajo v to vrsto. +- **Gručenje na podlagi porazdelitve**. Temelji na statističnem modeliranju, pri katerem gručenje porazdelitve določa verjetnost, da podatkovna točka pripada gruči, in jo temu primerno dodeli. Metode gaussovih mešanic spadajo v to vrsto. -- **Razvrščanje na podlagi gostote**. Podatkovne točke so dodeljene skupinam glede na njihovo gostoto ali njihovo združevanje okoli drugih točk. Podatkovne točke, ki so daleč od skupine, se štejejo za odstopanja ali hrup. DBSCAN, Mean-shift in OPTICS spadajo v to vrsto razvrščanja. +- **Gručenje na podlagi gostote**. Podatkovne točke so dodeljene gručam na podlagi njihove gostote oziroma medsebojnega združevanja. Točke, oddaljene od skupine, se štejejo za izstopajoče ali hrup. DBSCAN, Mean-shift in OPTICS so vrste tega gručenja. -- **Razvrščanje na podlagi mreže**. Za večdimenzionalne podatkovne nize se ustvari mreža, podatki pa se razdelijo med celice mreže, s čimer se ustvarijo skupine. +- **Rastlinsko gručenje**. Za večdimenzionalne podatkovne nize se ustvari mreža in podatki se razdelijo med celice mreže, kar ustvarja gruče. -## Vaja - razvrstite svoje podatke +## Vaja - grupirajte svoje podatke -Razvrščanje kot tehnika je močno podprto z ustrezno vizualizacijo, zato začnimo z vizualizacijo naših glasbenih podatkov. Ta vaja nam bo pomagala odločiti, katero metodo razvrščanja bi bilo najbolj učinkovito uporabiti glede na naravo teh podatkov. +Gručenje kot tehnika je bistveno olajšano z ustrezno vizualizacijo, zato začnimo z vizualizacijo naših podatkov o glasbi. Ta vaja nam bo pomagala odločiti, katero metodo gručenja naj učinkoviteje uporabimo za naravo teh podatkov. 1. Odprite datoteko [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) v tej mapi. @@ -110,7 +109,7 @@ Razvrščanje kot tehnika je močno podprto z ustrezno vizualizacijo, zato začn !pip install seaborn ``` -1. Dodajte podatke o pesmih iz [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Naložite podatkovni okvir z nekaterimi podatki o pesmih. Pripravite se na raziskovanje teh podatkov z uvozom knjižnic in izpisom podatkov: +1. Dodajte podatke o skladbah iz [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Naložite dataframe z nekaj podatki o skladbah. Pripravite se na raziskovanje teh podatkov z uvozom knjižnic in prikazom podatkov: ```python import matplotlib.pyplot as plt @@ -120,23 +119,23 @@ Razvrščanje kot tehnika je močno podprto z ustrezno vizualizacijo, zato začn df.head() ``` - Preverite prvih nekaj vrstic podatkov: + Preverite nekaj prvih vrstic podatkov: - | | ime | album | izvajalec | glavni žanr izvajalca | datum izdaje | dolžina | priljubljenost | plesnost | akustičnost | energija | instrumentalnost | živost | glasnost | govornost | tempo | časovni podpis | - | --- | ------------------------ | ---------------------------- | ------------------- | --------------------- | ------------ | ------ | ------------- | ------------ | ------------ | ------ | ---------------- | ------- | -------- | ----------- | ------- | -------------- | - | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternativni r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | - | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | + | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Užívaj si življenje | Lady Donli | nigerijski pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Pridobite nekaj informacij o podatkovnem okviru z uporabo `info()`: +1. Pridobite nekaj informacij o podatkovnem okviru, tako da pokličete `info()`: ```python df.info() ``` - Izhod je videti takole: + Izhod izgleda takole: ```output @@ -164,13 +163,13 @@ Razvrščanje kot tehnika je močno podprto z ustrezno vizualizacijo, zato začn memory usage: 66.4+ KB ``` -1. Dvakrat preverite, ali obstajajo manjkajoče vrednosti, tako da pokličete `isnull()` in preverite, da je vsota 0: +1. Dvakrat preverite, ali obstajajo manjkajoče vrednosti, tako da pokličete `isnull()` in preverite, ali je vsota 0: ```python df.isnull().sum() ``` - Videti je dobro: + Izgleda dobro: ```output name 0 @@ -209,11 +208,11 @@ Razvrščanje kot tehnika je močno podprto z ustrezno vizualizacijo, zato začn | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Če delamo s klastriranjem, nenadzorovano metodo, ki ne zahteva označenih podatkov, zakaj prikazujemo te podatke z oznakami? V fazi raziskovanja podatkov so koristne, vendar za delovanje algoritmov klastriranja niso nujno potrebne. Stolpčne oznake bi lahko odstranili in se sklicevali na podatke po številki stolpca. +> 🤔 Če delamo s gručenjem, nenadzorovano metodo, ki ne zahteva označenih podatkov, zakaj te podatke prikazujemo z oznakami? V fazi raziskovanja podatkov pridejo prav, vendar niso potrebne za delovanje algoritmov gručenja. Stolpce lahko prav tako preprosto odstranite in se na podatke sklicujete po številki stolpca. -Poglejte splošne vrednosti podatkov. Upoštevajte, da priljubljenost lahko znaša '0', kar kaže na pesmi, ki nimajo uvrstitve. Te bomo kmalu odstranili. +Poglejte splošne vrednosti podatkov. Upoštevajte, da je priljubljenost lahko '0', kar kaže na pesmi brez uvrstitve. Te bomo kmalu odstranili. -1. Uporabite stolpčni graf za ugotavljanje najbolj priljubljenih žanrov: +1. Uporabite stolpični grafikon, da ugotovite najbolj priljubljene zvrsti: ```python import seaborn as sns @@ -225,13 +224,13 @@ Poglejte splošne vrednosti podatkov. Upoštevajte, da priljubljenost lahko zna plt.title('Top genres',color = 'blue') ``` - ![najbolj priljubljeni](../../../../5-Clustering/1-Visualize/images/popular.png) + ![najbolj priljubljene](../../../../translated_images/sl/popular.9c48d84b3386705f.webp) -✅ Če želite videti več najvišjih vrednosti, spremenite zgornji `[:5]` v večjo vrednost ali ga odstranite, da vidite vse. +✅ Če želite videti več vrhunskih vrednosti, spremenite zgornjo omejitev `[:5]` na večjo vrednost ali jo odstranite, da vidite vse. -Upoštevajte, da ko je najvišji žanr opisan kot 'Missing', to pomeni, da ga Spotify ni razvrstil, zato ga odstranimo. +Opomba: če je najvišja zvrst opisana kot 'Manjkajoče', to pomeni, da je Spotify ni uvrstil, zato jo odstranimo. -1. Odstranite manjkajoče podatke z njihovo filtracijo +1. Odstranite manjkajoče podatke s filtriranjem ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -242,11 +241,11 @@ Upoštevajte, da ko je najvišji žanr opisan kot 'Missing', to pomeni, da ga Sp plt.title('Top genres',color = 'blue') ``` - Zdaj ponovno preverite žanre: + Zdaj ponovno preverite zvrsti: - ![vsi žanri](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![najbolj priljubljene](../../../../translated_images/sl/all-genres.1d56ef06cefbfcd6.webp) -1. Trije najboljši žanri močno prevladujejo v tem naboru podatkov. Osredotočimo se na `afro dancehall`, `afropop` in `nigerian pop`, dodatno filtrirajmo nabor podatkov, da odstranimo vse z vrednostjo priljubljenosti 0 (kar pomeni, da ni bilo razvrščeno glede na priljubljenost v naboru podatkov in se lahko za naše namene šteje kot šum): +1. Najbolj prevladujejo tri zvrsti v tem naboru podatkov. Osredotočili se bomo na `afro dancehall`, `afropop` in `nigerian pop`, dodatno filtrirali nabor podatkov, da odstranimo vse pesmi z vrednostjo priljubljenosti 0 (kar pomeni, da ni bila ocenjena glede priljubljenosti v naboru in jo lahko za naše namene obravnavamo kot šum): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +257,7 @@ Upoštevajte, da ko je najvišji žanr opisan kot 'Missing', to pomeni, da ga Sp plt.title('Top genres',color = 'blue') ``` -1. Hitro preverite, ali podatki močno korelirajo na kakšen poseben način: +1. Naredite kratek test, da preverite, ali podatki korelirajo na kak poseben močan način: ```python corrmat = df.corr(numeric_only=True) @@ -266,21 +265,21 @@ Upoštevajte, da ko je najvišji žanr opisan kot 'Missing', to pomeni, da ga Sp sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![korelacije](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![korelacije](../../../../translated_images/sl/correlation.a9356bb798f5eea5.webp) - Edina močna korelacija je med `energy` in `loudness`, kar ni preveč presenetljivo, saj je glasna glasba običajno precej energična. Sicer so korelacije razmeroma šibke. Zanimivo bo videti, kaj lahko algoritem klastriranja naredi iz teh podatkov. + Edina močna korelacija je med `energetičnostjo` in `glasnostjo`, kar ni presenečenje, saj je glasna glasba ponavadi precej energična. Drugače so korelacije razmeroma šibke. Zanimivo bo videti, kaj bo gručevalni algoritem naredil s temi podatki. - > 🎓 Upoštevajte, da korelacija ne pomeni vzročnosti! Imamo dokaz korelacije, vendar ne dokaz vzročnosti. [Zabavna spletna stran](https://tylervigen.com/spurious-correlations) ima nekaj vizualizacij, ki poudarjajo to točko. + > 🎓 Upoštevajte, da korelacija ne pomeni vzročne zveze! Imamo dokaz korelacije, a ne dokaz vzročnosti. [Zabavna spletna stran](https://tylervigen.com/spurious-correlations) ponuja vizualizacije, ki to poudarjajo. -Ali obstaja kakšna konvergenca v tem naboru podatkov glede na zaznano priljubljenost pesmi in plesnost? FacetGrid kaže, da obstajajo koncentrični krogi, ki se ujemajo, ne glede na žanr. Ali je mogoče, da se nigerijski okusi za ta žanr konvergirajo na določeni ravni plesnosti? +Ali obstaja kakršna koli konvergenca v tem naboru podatkov glede zaznane priljubljenosti in plesnosti pesmi? FacetGrid kaže koncentrične kroge, ki se ujemajo ne glede na zvrst. Ali bi bilo lahko, da se nigerijski okusi na določeni ravni plesnosti konvergirajo za to zvrst? -✅ Preizkusite različne podatkovne točke (energija, glasnost, govorljivost) in več ali različne glasbene žanre. Kaj lahko odkrijete? Oglejte si tabelo `df.describe()` za splošno razporeditev podatkovnih točk. +✅ Preizkusite različne podatkovne točke (energija, glasnost, govorljivost) in več ali različne glasbene zvrsti. Kaj odkrijete? Poglejte tabelo `df.describe()`, da vidite splošno razporeditev podatkovnih točk. -### Naloga - razporeditev podatkov +### Naloga - porazdelitev podatkov -Ali se ti trije žanri bistveno razlikujejo v zaznavanju njihove plesnosti glede na njihovo priljubljenost? +Ali se te tri zvrsti bistveno razlikujejo v dojemanju plesnosti glede na njihovo priljubljenost? -1. Preučite razporeditev podatkov za priljubljenost in plesnost naših treh najboljših žanrov vzdolž dane osi x in y. +1. Preglejte porazdelitev podatkov za priljubljenost in plesnost za naše tri vrhunske zvrsti na dani x in y osi. ```python sns.set_theme(style="ticks") @@ -292,15 +291,15 @@ Ali se ti trije žanri bistveno razlikujejo v zaznavanju njihove plesnosti glede ) ``` - Lahko odkrijete koncentrične kroge okoli splošne točke konvergence, ki prikazujejo razporeditev točk. + Odkrijete lahko koncentrične kroge okoli splošne točke konvergence, ki prikazujejo razporeditev točk. - > 🎓 Upoštevajte, da ta primer uporablja graf KDE (Kernel Density Estimate), ki predstavlja podatke z uporabo kontinuirane krivulje gostote verjetnosti. To nam omogoča interpretacijo podatkov pri delu z več razporeditvami. + > 🎓 Ta primer uporablja graf KDE (cenitev gostote jedra), ki podatke predstavlja z neprekinjeno krivuljo verjetnostne gostote. To omogoča interpretacijo podatkov pri delu z več distribucijami. - Na splošno se trije žanri ohlapno uskladijo glede na njihovo priljubljenost in plesnost. Določanje skupin v teh ohlapno usklajenih podatkih bo izziv: + Na splošno se tri zvrsti ohlapno poravnajo glede priljubljenosti in plesnosti. Določanje gruče v teh ohlapno poravnanih podatkih bo izziv: - ![razporeditev](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![porazdelitev](../../../../translated_images/sl/distribution.9be11df42356ca95.webp) -1. Ustvarite razpršeni graf: +1. Ustvarite razpršitveni grafikon: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -308,31 +307,33 @@ Ali se ti trije žanri bistveno razlikujejo v zaznavanju njihove plesnosti glede .add_legend() ``` - Razpršeni graf na istih oseh kaže podoben vzorec konvergence + Razpršitveni grafikon istih osi kaže podoben vzorec konvergence - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/sl/facetgrid.9b2e65ce707eba1f.webp) -Na splošno lahko za klastriranje uporabite razpršene grafe za prikaz skupin podatkov, zato je obvladovanje te vrste vizualizacije zelo koristno. V naslednji lekciji bomo uporabili te filtrirane podatke in uporabili klastriranje k-means za odkrivanje skupin v teh podatkih, ki se zanimivo prekrivajo. +Na splošno lahko za gručenje uporabite razpršitvene grafikone za prikaz skupin podatkov, zato je obvladovanje te vrste vizualizacije zelo uporabno. V naslednjem poglavju bomo uporabili ta filtrirani nabor podatkov in uporabili gručevalni algoritem k-means, da odkrijemo skupine, ki se zdijo v podatkih zanimivo prekrivajoče. --- ## 🚀Izziv -V pripravi na naslednjo lekcijo naredite graf o različnih algoritmih klastriranja, ki jih lahko odkrijete in uporabite v produkcijskem okolju. Kakšne vrste težav poskuša klastriranje rešiti? +Za pripravo na naslednje poglavje naredite grafikon različnih gručevalnih algoritmov, ki jih lahko odkrijete in uporabljate v produkcijskem okolju. Katere vrste problemov skuša gručenje rešiti? -## [Kvizi po predavanju](https://ff-quizzes.netlify.app/en/ml/) +## [Kviz po predavanju](https://ff-quizzes.netlify.app/en/ml/) ## Pregled in samostojno učenje -Preden uporabite algoritme klastriranja, kot smo se naučili, je dobro razumeti naravo vašega nabora podatkov. Preberite več o tej temi [tukaj](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Preden uporabite gručevalne algoritme, kot smo se naučili, je dobro razumeti naravo vašega nabora podatkov. Preberite več o tej temi [tukaj](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[Ta koristen članek](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) vas vodi skozi različne načine, kako se različni algoritmi klastriranja obnašajo glede na različne oblike podatkov. +[Ta koristni članek](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) vas popelje skozi različne načine, kako se obnašajo različni gručevalni algoritmi glede na različne oblike podatkov. -## Naloga +## Domača naloga -[Raziskujte druge vizualizacije za klastriranje](assignment.md) +[Raziskujte druge vizualizacije za gručenje](assignment.md) --- -**Omejitev odgovornosti**: -Ta dokument je bil preveden z uporabo storitve za prevajanje z umetno inteligenco [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem izvirnem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo profesionalni človeški prevod. Ne prevzemamo odgovornosti za morebitna nesporazumevanja ali napačne razlage, ki bi nastale zaradi uporabe tega prevoda. \ No newline at end of file + +**Omejitev odgovornosti**: +Ta dokument je bil preveden z uporabo AI prevajalske storitve [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da avtomatizirani prevodi lahko vsebujejo napake ali netočnosti. Izvirni dokument v njegovem izvirnem jeziku je treba obravnavati kot avtoritativni vir. Za kritične informacije je priporočljiv strokovni človeški prevod. Ne odgovarjamo za morebitna nesporazume ali napačne interpretacije, ki izhajajo iz uporabe tega prevoda. + \ No newline at end of file diff --git a/translations/sr/.co-op-translator.json b/translations/sr/.co-op-translator.json index e2df9d0fe..e8285a61c 100644 --- a/translations/sr/.co-op-translator.json +++ b/translations/sr/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-05T12:46:42+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T22:11:53+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "sr" }, @@ -240,8 +240,8 @@ "language_code": "sr" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-05T12:09:34+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T22:11:15+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "sr" }, diff --git a/translations/sr/1-Introduction/1-intro-to-ML/README.md b/translations/sr/1-Introduction/1-intro-to-ML/README.md index 149d82edf..7f8702e22 100644 --- a/translations/sr/1-Introduction/1-intro-to-ML/README.md +++ b/translations/sr/1-Introduction/1-intro-to-ML/README.md @@ -1,73 +1,73 @@ # Увод у машинско учење -## [Квиз пре предавања](https://ff-quizzes.netlify.app/en/ml/) +## [Пре-предавачки квиз](https://ff-quizzes.netlify.app/en/ml/) --- -[![Машинско учење за почетнике - Увод у машинско учење за почетнике](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "Машинско учење за почетнике - Увод у машинско учење за почетнике") +[![ML for beginners - Introduction to Machine Learning for Beginners](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML for beginners - Introduction to Machine Learning for Beginners") > 🎥 Кликните на слику изнад за кратак видео који обрађује ову лекцију. -Добродошли на овај курс о класичном машинском учењу за почетнике! Било да сте потпуно нови у овој области или сте искусан практичар машинског учења који жели да обнови знање, драго нам је што сте нам се придружили! Желимо да створимо пријатно место за почетак вашег изучавања машинског учења и биће нам драго да проценимо, одговоримо и укључимо ваше [повратне информације](https://github.com/microsoft/ML-For-Beginners/discussions). +Добродошли на овај курс класичног машинског учења за почетнике! Без обзира да ли сте потпуно нови у овој теми или искусан ML практичар који жели да унапреди знање из појединих области, драго нам је што сте са нама! Желимо да створимо пријатељско место за ваш студиј машинског учења и радо ћемо оценити, одговорити и укључити ваше [повратне информације](https://github.com/microsoft/ML-For-Beginners/discussions). -[![Увод у машинско учење](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Увод у машинско учење") +[![Introduction to ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introduction to ML") -> 🎥 Кликните на слику изнад за видео: Џон Гуттаг са МИТ-а представља машинско учење +> 🎥 Кликните на слику изнад за видео: Џон Гаттаг са MIT-а представља машинско учење --- -## Почетак са машинским учењем +## Почетак рада са машинским учењем -Пре него што почнете са овим програмом, потребно је да ваш рачунар буде подешен и спреман за локално покретање бележница. +Пре него што почнете са овим курикулумом, потребно је да имате рачунар спреман за покретање нотебоок-а локално. -- **Подесите свој рачунар помоћу ових видеа**. Користите следеће линкове да научите [како да инсталирате Python](https://youtu.be/CXZYvNRIAKM) на вашем систему и [подесите текст едитор](https://youtu.be/EU8eayHWoZg) за развој. -- **Научите Python**. Такође се препоручује да имате основно разумевање [Python-а](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), програмског језика корисног за научнике података који користимо у овом курсу. -- **Научите Node.js и JavaScript**. Неколико пута у овом курсу користимо JavaScript за изградњу веб апликација, па ће вам бити потребно да имате [node](https://nodejs.org) и [npm](https://www.npmjs.com/) инсталиране, као и [Visual Studio Code](https://code.visualstudio.com/) доступан за развој у Python-у и JavaScript-у. -- **Направите GitHub налог**. Пошто сте нас пронашли на [GitHub-у](https://github.com), можда већ имате налог, али ако немате, направите га и затим форкујте овај програм како бисте га користили сами. (Слободно нам дајте и звездицу 😊) -- **Истражите Scikit-learn**. Упознајте се са [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), скупом библиотека за машинско учење које користимо у овим лекцијама. +- **Подесите свој уређај уз помоћ ових видео записа.** Користите следеће линкове да бисте научили [како да инсталирате Python](https://youtu.be/CXZYvNRIAKM) на свом систему и [подесите текстуални едитор](https://youtu.be/EU8eayHWoZg) за развој. +- **Научите Python.** Такође се препоручује поседовање основног разумевања [Python-а](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), програмског језика корисног за научнике података који користимо у овом курсу. +- **Научите Node.js и JavaScript.** У овом курсу такође користимо JavaScript неколико пута током израде веб апликација, па ћете морати да имате инсталиране [node](https://nodejs.org) и [npm](https://www.npmjs.com/), као и доступан [Visual Studio Code](https://code.visualstudio.com/) за развој Python-а и JavaScript-а. +- **Направите GitHub налог.** Пошто сте нас овде нашли на [GitHub](https://github.com), можда већ имате налог, али ако немате, креирајте налог и онда форкујте овај курикулум за сопствену употребу. (Слободно нам дајте и звездицу 😊) +- **Истражите Scikit-learn.** Упознајте се са [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), скупом ML библиотека на које се позивамо у овим лекцијама. --- ## Шта је машинско учење? -Термин 'машинско учење' је један од најпопуларнијих и најчешће коришћених термина данашњице. Постоји велика вероватноћа да сте овај термин чули бар једном ако имате било какву повезаност са технологијом, без обзира на област у којој радите. Механизми машинског учења, међутим, остају мистерија за већину људи. За почетника у машинском учењу, ова тема може понекад деловати застрашујуће. Зато је важно разумети шта машинско учење заправо јесте и учити о њему корак по корак, кроз практичне примере. +Термин „машинско учење“ је један од најпопуларнијих и најчешће коришћених термина данас. Постоји велика вероватноћа да сте овај термин чули бар једном ако имате било какву познавање технологије, без обзира у којој области радите. Међутим, механизми машинског учења су за већину људи мистерија. За почетнике у машинском учењу ова тема може понекад изгледати превише сложено. Због тога је важно разумети шта је машинско учење заправо и учити о њему корак по корак, кроз практичне примере. --- -## Крива хипе-а +## Кривина хипе-а -![крива хипе-а за машинско учење](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/sr/hype.07183d711a17aafe.webp) -> Google Trends приказује недавну 'криву хипе-а' за термин 'машинско учење' +> Google Trends приказује недавно „хипе криву“ термина „машинско учење“ --- ## Мистериозни универзум -Живимо у универзуму пуном фасцинантних мистерија. Велики научници попут Стивена Хокинга, Алберта Ајнштајна и многих других посветили су своје животе трагању за значајним информацијама које откривају мистерије света око нас. Ово је људска потреба за учењем: људско дете учи нове ствари и открива структуру свог света из године у годину како расте до одраслог доба. +Живимо у универзуму пуном фасцинантних мистерија. Велики научници као што су Стивен Хокинг, Алберт Ајнштајн и многи други посветили су животе тражењу смислених информација које откривају тајне света око нас. Ово је људско стање учења: људско дете годинама учи нове ствари и открива структуру свог света док одраста у одраслу особу. --- -## Дечји мозак +## Мозак детета -Дечји мозак и чула перципирају чињенице из своје околине и постепено уче скривене обрасце живота који помажу детету да обликује логичка правила за препознавање научених образаца. Процес учења људског мозга чини људе најсофистициранијим живим бићима на овом свету. Континуирано учење откривањем скривених образаца и затим иновације на тим обрасцима омогућавају нам да постајемо све бољи током живота. Ова способност учења и еволуције повезана је са концептом који се зове [пластичност мозга](https://www.simplypsychology.org/brain-plasticity.html). Површно гледано, можемо повући неке мотивационе сличности између процеса учења људског мозга и концепата машинског учења. +Мозак и сетила детета перципирају чињенице о окружењу и постепено уче скривене обрасце живота који помажу детету да направи логичка правила за идентификовање научених образаца. Процес учења људског мозга чини људе најсофистициранијим живим бићем на свету. Континуирано учење путем откривања скривених образаца и иновирања тих образаца омогућава нам да се током свог живота све више усавршавамо. Ова способност учења и развијања повезана је са концептом званим [пластичност мозга](https://www.simplypsychology.org/brain-plasticity.html). Површно гледано, можемо наћи неке мотивационе сличности између процеса учења људског мозга и концепата машинског учења. --- ## Људски мозак -[Људски мозак](https://www.livescience.com/29365-human-brain.html) перципира ствари из стварног света, обрађује перципиране информације, доноси рационалне одлуке и изводи одређене радње у зависности од околности. Ово називамо интелигентним понашањем. Када програмирамо реплику процеса интелигентног понашања у машину, то називамо вештачком интелигенцијом (AI). +[Људски мозак](https://www.livescience.com/29365-human-brain.html) перципира ствари из стварног света, обрађује примљене информације, доноси рационалне одлуке и изводи одређене радње на основу околности. Ово називамо интелигентним понашањем. Када програмирамо машину да опонаша овај процес интелигентног понашања, то се зове вештачка интелигенција (AI). --- -## Нека терминологија +## Неки термини -Иако се термини могу мешати, машинско учење (ML) је важан подсет вештачке интелигенције. **ML се бави коришћењем специјализованих алгоритама за откривање значајних информација и проналажење скривених образаца из перципираних података како би се потврдио процес рационалног доношења одлука**. +Иако се термини могу мешати, машинско учење (ML) је важан подскуп вештачке интелигенције. **ML се бави коришћењем специјализованих алгоритама за откривање смислених информација и проналажење скривених образаца из примљених података ради потврђивања процеса рационалног доношења одлука**. --- ## AI, ML, дубоко учење -![AI, ML, дубоко учење, наука о подацима](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/sr/ai-ml-ds.537ea441b124ebf6.webp) -> Дијаграм који приказује односе између AI, ML, дубоког учења и науке о подацима. Инфографика аутора [Џен Лупер](https://twitter.com/jenlooper) инспирисана [овом графиком](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> Дијаграм који приказује односе између AI, ML, дубоког учења и науке о подацима. Инфографик од [Jen Looper](https://twitter.com/jenlooper) инспирисан овом [графиком](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- ## Концепти које ћемо обрадити -У овом програму ћемо обрадити само основне концепте машинског учења које почетник мора знати. Обрађујемо оно што називамо 'класичним машинским учењем', углавном користећи Scikit-learn, одличну библиотеку коју многи студенти користе за учење основа. Да бисмо разумели шире концепте вештачке интелигенције или дубоког учења, неопходно је имати јако основно знање машинског учења, и зато желимо да га понудимо овде. +У овом курикулуму ћемо обрадити само основне концепте машинског учења које почетник мора да зна. Покрићемо оно што називамо „класично машинско учење“ углавном користећи Scikit-learn, одличну библиотеку коју многи студенти користе за учење основе. Да бисмо разумели шири спектар концепата вештачке интелигенције или дубоког учења, неопходно је имати снажно основно знање машинског учења, па га желимо понудити овде. --- ## На овом курсу ћете научити: @@ -77,67 +77,72 @@ - ML и правичност - технике регресије у ML-у - технике класификације у ML-у -- технике кластерисања у ML-у -- обраду природног језика у ML-у -- технике прогнозирања временских серија -- учење путем појачања -- примене ML-а у стварном свету +- технике кластеризације у ML-у +- технике обраде природног језика у ML-у +- технике прогнозирања временских низова у ML-у +- учење појачањем +- примере примене ML-а у стварном свету --- -## Шта нећемо обрађивати +## Шта нећемо обрадити - дубоко учење - неуронске мреже -- вештачку интелигенцију +- AI -Да бисмо омогућили боље искуство учења, избегаваћемо сложености неуронских мрежа, 'дубоког учења' - изградње модела са више слојева користећи неуронске мреже - и вештачке интелигенције, о чему ћемо говорити у другом програму. Такође ћемо понудити предстојећи програм о науци о подацима како бисмо се фокусирали на тај аспект ове шире области. +Да бисмо обезбедили боље искуство учења, избећи ћемо сложености неуронских мрежа, „дубоког учења“ – изградње многослојних модела користећи неуронске мреже – и AI, о којем ћемо говорити у другом курикулуму. Такође ћемо понудити предстојећи курикулум науке о подацима усмерен на тај део ове шире области. --- -## Зашто изучавати машинско учење? +## Зашто учити машинско учење? -Машинско учење, из перспективе система, дефинише се као стварање аутоматизованих система који могу учити скривене обрасце из података како би помогли у доношењу интелигентних одлука. +Машинско учење, из перспективе система, дефинише се као креирање аутоматизованих система који могу да уче скривене обрасце из података да би помогли у доношењу интелигентних одлука. -Ова мотивација је лабаво инспирисана начином на који људски мозак учи одређене ствари на основу података које перципира из спољашњег света. +Ова мотивација је слабо инспирисана начином на који људски мозак учи одређене ствари на основу података које перципира из спољашњег света. -✅ Размислите на тренутак зашто би нека компанија желела да користи стратегије машинског учења уместо да креира систем заснован на фиксним правилима. +✅ Размислите минут зашто би посао желео да користи стратегије машинског учења уместо да креира хард-кодирани систем заснован на правилима. + +--- +## Зашто је важан квалитет података + +Квалитетни подаци побољшавају перформансе модела. Лоши или бучни подаци могу довести до нетачних предвиђања чак и када се користе напредни алгоритми машинског учења. --- ## Примене машинског учења -Примене машинског учења сада су готово свуда и присутне су као и подаци који круже нашим друштвима, генерисани нашим паметним телефонима, повезаним уређајима и другим системима. С обзиром на огроман потенцијал савремених алгоритама машинског учења, истраживачи истражују њихову способност да реше вишедимензионалне и мултидисциплинарне проблеме из стварног живота са изузетно позитивним резултатима. +Примене машинског учења су сада скоро свуда и све су присутније као подаци који се шире нашим друштвом, генерисани паметним телефонима, повезаним уређајима и другим системима. Узимајући у обзир огроман потенцијал савремених алгоритама машинског учења, истраживачи проучавају њихову способност да решавају мултидимензионалне и мултидисциплинарне стварне проблеме са великим позитивним резултатима. --- ## Примери примене ML-а -**Машинско учење можете користити на многе начине**: +**Можете користити машинско учење на много начина**: -- За предвиђање вероватноће болести на основу медицинске историје или извештаја пацијента. -- За коришћење података о времену ради предвиђања временских догађаја. -- За разумевање сентимента текста. -- За откривање лажних вести како би се спречило ширење пропаганде. +- Да предвидите вероватноћу болести из медицинске историје или извештаја пацијента. +- Да користите податке о времену за предвиђање временских појава. +- Да разумете сентимент текста. +- Да откријете лажне вести и зауставите ширење пропаганде. -Финансије, економија, наука о Земљи, истраживање свемира, биомедицинско инжењерство, когнитивна наука, па чак и области хуманистичких наука адаптирале су машинско учење за решавање тешких проблема обраде података у својим доменима. +Финансије, економија, наука о Земљи, истраживање свемира, биомедицинско инжењерство, когнитивна наука, па чак и област хуманистичких наука прилагодиле су машинско учење за решавање тешких, захтевних проблема обраде података у својим доменима. --- ## Закључак -Машинско учење аутоматизује процес откривања образаца проналажењем значајних увида из стварних или генерисаних података. Доказало је своју вредност у пословним, здравственим и финансијским применама, између осталог. +Машинско учење аутоматизује процес откривања образаца проналажењем смислених увида из стварних или генерисаних података. Показао се као изузетно вредан у пословним, здравственим и финансијским применама, између осталог. -У блиској будућности, разумевање основа машинског учења биће неопходно за људе из било које области због његове широке примене. +У блиској будућности разумевање основа машинског учења биће неопходно за људе из било које области због његове широко распространите употребе. --- # 🚀 Изазов -Нацртајте, на папиру или користећи онлајн апликацију попут [Excalidraw](https://excalidraw.com/), своје разумевање разлика између AI, ML, дубоког учења и науке о подацима. Додајте неке идеје о проблемима које свака од ових техника добро решава. +Накрцкајте, на папиру или уз помоћ онлајн апликације као што је [Excalidraw](https://excalidraw.com/), ваше разумевање разлика између AI, ML, дубоког учења и науке о подацима. Додајте неке идеје о проблемима које свака од ових техника добро решава. -# [Квиз након предавања](https://ff-quizzes.netlify.app/en/ml/) +# [Пост-предавачки квиз](https://ff-quizzes.netlify.app/en/ml/) --- -# Преглед и самостално учење +# Преглед и самоучење Да бисте сазнали више о томе како можете радити са ML алгоритмима у облаку, пратите овај [пут учења](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Пратите [пут учења](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) о основама машинског учења. +Пройдите [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) о основама ML-а. --- # Задатак @@ -146,5 +151,7 @@ --- -**Одрицање од одговорности**: -Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако тежимо тачности, молимо вас да имате у виду да аутоматизовани преводи могу садржати грешке или нетачности. Оригинални документ на изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква неспоразумевања или погрешна тумачења која могу произаћи из коришћења овог превода. \ No newline at end of file + +**Изјава о одрицању одговорности**: +Овај документ је преведен коришћењем услуге за аутоматски превод [Co-op Translator](https://github.com/Azure/co-op-translator). Иако тежимо тачности, имајте у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални људски превод. Нисмо одговорни за било каква неспоразума или погрешна тумачења која произилазе из коришћења овог превода. + \ No newline at end of file diff --git a/translations/sr/5-Clustering/1-Visualize/README.md b/translations/sr/5-Clustering/1-Visualize/README.md index 4c33ae4b2..7d6d84dfe 100644 --- a/translations/sr/5-Clustering/1-Visualize/README.md +++ b/translations/sr/5-Clustering/1-Visualize/README.md @@ -1,116 +1,115 @@ # Увод у кластеризацију -Кластеризација је врста [ненаџираног учења](https://wikipedia.org/wiki/Unsupervised_learning) која претпоставља да је скуп података необележен или да његови уноси нису повезани са унапред дефинисаним излазима. Користи различите алгоритме за сортирање необележених података и пружа груписања на основу образаца које препознаје у подацима. +Кластеризација је врста [ненадзирано учење](https://wikipedia.org/wiki/Unsupervised_learning) која претпоставља да је скуп података без ознака или да његови уноси нису повезани са унапред дефинисаним излазима. Користи различите алгоритме за сортирање неозначених података и обезбеђује груписања према обрасцима које уочава у подацима. [![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Кликните на слику изнад за видео. Док изучавате машинско учење са кластеризацијом, уживајте у неким нигеријским Dance Hall песмама - ово је високо оцењена песма из 2014. године од PSquare. +> 🎥 Кликните на слику горе за видео. Док учите машинско учење са кластеризацијом, уживајте у неким Нигеријским Dance Hall траковима - ово је високо оцењена песма из 2014. од PSquare. ## [Квиз пре предавања](https://ff-quizzes.netlify.app/en/ml/) ### Увод -[Кластеризација](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) је веома корисна за истраживање података. Хајде да видимо да ли може помоћи у откривању трендова и образаца у начину на који нигеријска публика конзумира музику. +[Кластеризација](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) је веома корисна за истраживање података. Хајде да видимо да ли може да помогне у откривању трендова и образаца у томе како нигеријска публика конзумира музику. -✅ Одвојите минут да размислите о употребама кластеризације. У стварном животу, кластеризација се дешава кад год имате гомилу веша и треба да сортирате одећу чланова породице 🧦👕👖🩲. У науци о подацима, кластеризација се дешава када покушавате да анализирате корисничке преференције или одредите карактеристике било ког необележеног скупа података. Кластеризација, на неки начин, помаже да се уведе ред у хаос, као у фиоци за чарапе. +✅ Одвојите минут да размислите о употребама кластеризације. У стварном животу, кластеризација се дешава кад год имате гомилу веша и потребно је да распоредите одећу по члановима породице 🧦👕👖🩲. У науци о подацима, кластеризација се дешава када се покушава анализирати корисничке преференције или одредити карактеристике било ког неозначеног скупа података. Кластеризација, на неки начин, помаже да се из хаоса направи ред, као фиока са чарапама. [![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") -> 🎥 Кликните на слику изнад за видео: Џон Гуттаг са MIT-а представља кластеризацију. +> 🎥 Кликните на слику горе за видео: Џон Гатаг са MIT-а представља кластеризацију -У професионалном окружењу, кластеризација се може користити за одређивање ствари као што су сегментација тржишта, утврђивање које старосне групе купују које артикле, на пример. Друга употреба би била откривање аномалија, можда за откривање преваре из скупа података о трансакцијама кредитним картицама. Или можете користити кластеризацију за одређивање тумора у серији медицинских снимака. +У професионалном окружењу, кластеризација се може користити за одређивање ствари као што је сегментација тржишта, одређивање који узрасни групи купује које артикле, на пример. Друга употреба била би детекција аномалија, можда за откривање превара на скупу података трансакција кредитном картицом. Или бисте могли користити кластеризацију да одредите туморе у низу медицинских снимака. -✅ Размислите минут о томе како сте можда наишли на кластеризацију 'у природи', у банкарству, е-трговини или пословном окружењу. +✅ Размислите минут о томе како сте можда срели кластеризацију „у дивљини“, у банкарству, е-трговини или пословном окружењу. -> 🎓 Занимљиво је да је анализа кластера настала у областима антропологије и психологије 1930-их. Можете ли замислити како је могла бити коришћена? +> 🎓 Интересантно, анализа кластера потекла је из поља антропологије и психологије 1930-их. Можете ли замислити како је могла бити коришћена? -Алтернативно, можете је користити за груписање резултата претраге - на пример, по куповним линковима, сликама или рецензијама. Кластеризација је корисна када имате велики скуп података који желите да смањите и на којем желите да извршите детаљнију анализу, па се техника може користити за учење о подацима пре него што се конструишу други модели. +Алтернативно, могли бисте је користити за груписање резултата претраге - по линковима за куповину, сликама или рецензијама, на пример. Кластеризација је корисна када имате велики скуп података који желите да смањите и на коме желите извршити детаљнију анализу, тако да се техника може користити за упознавање података пре него што се конструишу други модели. -✅ Када су ваши подаци организовани у кластере, додељујете им идентификатор кластера, и ова техника може бити корисна када желите да сачувате приватност скупа података; можете уместо тога да се позовете на тачку података преко њеног идентификатора кластера, а не преко откривенијих идентификационих података. Можете ли смислити друге разлоге зашто бисте се позивали на идентификатор кластера уместо на друге елементе кластера да бисте га идентификовали? +✅ Кад су ваши подаци организовани у кластерима, додељујете им идентификатор кластера, и ова техника може бити корисна за очување приватности скупа података; уместо тога, можете се позвати на тачку података по идентитету кластера, а не по препознатљивим подацима. Можете ли смислити друге разлоге због којих бисте користили идентификатор кластера уместо других елемената кластера за његово идентификовање? -Продубите своје разумевање техника кластеризације у овом [модулу за учење](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott). +Продубите своје разумевање техника кластеризације у овом [Learn модулу](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +## Почетак са кластеризацијом -## Почетак рада са кластеризацијом +[Scikit-learn нуди велики избор](https://scikit-learn.org/stable/modules/clustering.html) метода за извођење кластеризације. Тип који одаберете зависиће од вашег случаја употребе. Према документацији, свака метода има разне користи. Ево поједностављене табеле метода које Scikit-learn подржава и њихових одговарајућих случајева употребе: -[Scikit-learn нуди велики избор](https://scikit-learn.org/stable/modules/clustering.html) метода за извођење кластеризације. Тип који изаберете зависиће од вашег случаја употребе. Према документацији, свака метода има различите предности. Ево поједностављене табеле метода које подржава Scikit-learn и њихових одговарајућих случајева употребе: +| Назив методе | Случај употребе | +| :-------------------------- | :----------------------------------------------------------------- | +| K-Means | за општу употребу, индуктивни | +| Affinity propagation | много, неравномерни кластери, индуктивни | +| Mean-shift | много, неравномерни кластери, индуктивни | +| Spectral clustering | мало, равномерни кластери, трандуктивни | +| Ward hierarchical clustering| много, ограничени кластери, трандуктивни | +| Agglomerative clustering | много, ограничени, не-Еуклидова удаљеност, трандуктивни | +| DBSCAN | неравна геометрија, неравномерни кластери, трандуктивни | +| OPTICS | неравна геометрија, неравномерни кластери са варијабилном густином, трандуктивни | +| Gaussian mixtures | равна геометрија, индуктивни | +| BIRCH | велики скуп података са одступањима, индуктивни | -| Назив методе | Случај употребе | -| :--------------------------- | :------------------------------------------------------------------ | -| K-Means | општа намена, индуктивна | -| Affinity propagation | многи, неравномерни кластери, индуктивна | -| Mean-shift | многи, неравномерни кластери, индуктивна | -| Spectral clustering | мало, равномерни кластери, трансдуктивна | -| Ward hierarchical clustering | многи, ограничени кластери, трансдуктивна | -| Agglomerative clustering | многи, ограничени, неевклидске удаљености, трансдуктивна | -| DBSCAN | неравна геометрија, неравномерни кластери, трансдуктивна | -| OPTICS | неравна геометрија, неравномерни кластери са променљивом густином, трансдуктивна | -| Gaussian mixtures | равна геометрија, индуктивна | -| BIRCH | велики скуп података са изузецима, индуктивна | - -> 🎓 Како креирамо кластере има много везе са начином на који групишемо тачке података у групе. Хајде да разјаснимо неке термине: +> 🎓 Како правимо кластере има везе са тим како прикупљамо тачке података у групе. Хајде да разјаснимо неку терминологију: +> +> 🎓 ['Трандуктивно' vs. 'индуктивно'](https://wikipedia.org/wiki/Transduction_(machine_learning)) +> +> Трандуктивна инференција изведена је из посматраних тренинг случајева који се мапирају на специфичне тест случајеве. Индуктивна инференција произилази из тренинг случајева који се мапирају на општа правила која се тек онда примењују на тест случајеве. +> +> Пример: Замислите да имате скуп података који је само делимично означен. Неке ствари су "плоче", неке "цд-ови", а неке су празне. Ваш посао је да обезбедите ознаке за празне. Ако изаберете индуктивни приступ, тренирали бисте модел тражећи "плоче" и "цд-ове", и применили те ознаке на своје неозначене податке. Овај приступ ће имати потешкоће са класификацијом ствари које су заправо "касете". Трандуктивни приступ, с друге стране, ефикасније третира ове непознате податке јер ради на груписању сличних ставки заједно, а затим примењује ознаку на групу. У овом случају, кластери би могли одражавати "кругле музичке ствари" и "квадратне музичке ствари". > -> 🎓 ['Трансдуктивно' vs. 'индуктивно'](https://wikipedia.org/wiki/Transduction_(machine_learning)) -> -> Трансдуктивно закључивање се изводи из посматраних случајева тренинга који се мапирају на одређене тест случајеве. Индуктивно закључивање се изводи из случајева тренинга који се мапирају на општа правила која се тек онда примењују на тест случајеве. -> -> Пример: Замислите да имате скуп података који је само делимично обележен. Неке ствари су 'плоче', неке 'цд-ови', а неке су празне. Ваш задатак је да обезбедите ознаке за празне. Ако изаберете индуктивни приступ, обучили бисте модел тражећи 'плоче' и 'цд-ове', и применили те ознаке на необележене податке. Овај приступ ће имати проблема са класификацијом ствари које су заправо 'касете'. Трансдуктивни приступ, с друге стране, ефикасније обрађује ове непознате податке јер ради на груписању сличних ставки заједно и затим примењује ознаку на групу. У овом случају, кластери би могли одражавати 'округле музичке ствари' и 'квадратне музичке ствари'. -> > 🎓 ['Неравна' vs. 'равна' геометрија](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) -> -> Изведено из математичке терминологије, неравна vs. равна геометрија односи се на мерење удаљености између тачака било 'равним' ([евклидским](https://wikipedia.org/wiki/Euclidean_geometry)) или 'неравним' (неевклидским) геометријским методама. > ->'Равно' у овом контексту се односи на евклидску геометрију (делови које се уче као 'планарна' геометрија), а 'неравно' се односи на неевклидску геометрију. Шта геометрија има са машинским учењем? Па, као две области које су укорењене у математици, мора постојати заједнички начин мерења удаљености између тачака у кластерима, и то се може урадити на 'раван' или 'нераван' начин, у зависности од природе података. [Евклидске удаљености](https://wikipedia.org/wiki/Euclidean_distance) се мере као дужина сегмента линије између две тачке. [Неевклидске удаљености](https://wikipedia.org/wiki/Non-Euclidean_geometry) се мере дуж криве. Ако ваши подаци, визуализовани, изгледају као да не постоје на равни, можда ћете морати да користите специјализовани алгоритам за њихову обраду. +> Изведено из математичке терминологије, неравна и равна геометрија односе се на мерење удаљености између тачака путем "равних" ([Еуклидових](https://wikipedia.org/wiki/Euclidean_geometry)) или "неравних" (не-Еуклидових) геометријских метода. +> +> "Равна" у овом контексту означава Еуклидову геометрију (делове које уче као "раван" геометрију), а неравна се односи на не-Еуклидову геометрију. Шта геометрија има са машинским учењем? Као два поља кореном у математици, мора постојати заједнички начин мерења удаљености између тачака у кластерима, и то може бити учињено "равним" или "неравним" начином, у зависности од природе података. [Еуклидске удаљености](https://wikipedia.org/wiki/Euclidean_distance) мере се као дужина линијског сегмента између две тачке. [Не-Еуклидске удаљености](https://wikipedia.org/wiki/Non-Euclidean_geometry) мере се дуж криве. Ако ваши подаци, када су визуелизовани, изгледају да не постоје у равни, можда ће вам бити потребан специјализовани алгоритам да их обради. +> +> ![Flat vs Nonflat Geometry Infographic](../../../../translated_images/sr/flat-nonflat.d1c8c6e2a96110c1.webp) +> Инфографик од [Дасанa Мадипaлија](https://twitter.com/dasani_decoded) > -![Flat vs Nonflat Geometry Infographic](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) -> Инфографика од [Dasani Madipalli](https://twitter.com/dasani_decoded) -> > 🎓 ['Удаљености'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) -> -> Кластери су дефинисани својом матрицом удаљености, нпр. удаљеностима између тачака. Ова удаљеност се може мерити на неколико начина. Евклидски кластери су дефинисани просеком вредности тачака и садрже 'центроид' или централну тачку. Удаљености се стога мере удаљеношћу до тог центроида. Неевклидске удаљености се односе на 'кластроиде', тачку најближу другим тачкама. Кластроиди се могу дефинисати на различите начине. -> -> 🎓 ['Ограничени'](https://wikipedia.org/wiki/Constrained_clustering) -> -> [Ограничена кластеризација](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) уводи 'полу-наџирано' учење у овај ненаџирани метод. Односи између тачака су означени као 'не може се повезати' или 'мора се повезати' тако да се нека правила намећу на скуп података. > ->Пример: Ако је алгоритам пуштен на серију необележених или полу-обележених података, кластери које производи могу бити лошег квалитета. У горњем примеру, кластери би могли груписати 'округле музичке ствари' и 'квадратне музичке ствари' и 'троугласте ствари' и 'колачиће'. Ако се дају нека ограничења, или правила која треба следити ("ставка мора бити направљена од пластике", "ставка треба да може да производи музику") то може помоћи да се 'ограничи' алгоритам да донесе боље изборе. -> +> Кластери су дефинисани својом матрицом удаљености, нпр. удаљеностима између тачака. Ова удаљеност може бити измерена на неколико начина. Еуклидски кластери су дефинисани просеком вредности тачака и садрже 'центроид' или централну тачку. Удаљености се тако мере као удаљеност од тог центроида. Не-Еуклидске удаљености се односе на 'кластроиде', тачку најближу другим тачкама. Кластроиди се могу дефинисати на различите начине. +> +> 🎓 ['Ограничена'](https://wikipedia.org/wiki/Constrained_clustering) +> +> [Ограничена кластеризација](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) уводи „полунадзирано“ учење у ову ненадзирану методу. Односи између тачака су означени као 'не сме се повезати' или 'мора да се повезује' тако да нека правила буду наметнута скупу података. +> +> Пример: Ако алгоритам буде пуштен на скуп неозначених или полуозначених података, кластеризација којој ће довести може бити лошег квалитета. У примеру горе, кластери би могли груписати 'кругле музичке ствари' и 'квадратне музичке ствари' и 'троугаоне ствари' и 'кексе'. Ако добије нека ограничења или правила ("ставка мора бити од пластике", "ставка треба да може да производи музику") ово може помоћи да се 'ограничи' алгоритам да прави боље изборе. +> > 🎓 'Густина' -> -> Подаци који су 'шумни' сматрају се 'густим'. Удаљености између тачака у сваком од њихових кластера могу се, при испитивању, показати као више или мање густе, или 'претрпане', и стога ове податке треба анализирати одговарајућом методом кластеризације. [Овај чланак](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) демонстрира разлику између коришћења K-Means кластеризације и HDBSCAN алгоритама за истраживање шумног скупа података са неравномерном густином кластера. +> +> Податке који су 'буцни' сматрају се 'густим'. Удаљености између тачака у сваком од њихових кластера могу се, на прегледу, показати као мање или више гушће, или 'гужваније' и зато је потребно да се подаци анализирају одговарајућом методом кластеризације. [Овај чланак](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) илуструје разлику између коришћења K-Means кластеризације и HDBSCAN алгоритама за истраживање бучних података са неравномерном густином кластера. ## Алгоритми кластеризације -Постоји преко 100 алгоритама кластеризације, а њихова употреба зависи од природе података. Хајде да разговарамо о неким од главних: +Постоји преко 100 алгоритама кластеризације, а њихова употреба зависи од природе података. Хајде да дискутујемо о неким од главних: -- **Хијерархијска кластеризација**. Ако се објекат класификује према његовој близини другом објекту, а не оном који је удаљенији, кластери се формирају на основу удаљености њихових чланова од других објеката. Agglomerative кластеризација у Scikit-learn-у је хијерархијска. +- **Хијерархијска кластеризација**. Ако је објекат класификован по близини до оближњег објекта, а не удаљенијег, кластери се формирају на основу удаљености чланова једног од другог. Scikit-learn агломеративна кластеризација је хијерархијска. - ![Hierarchical clustering Infographic](../../../../5-Clustering/1-Visualize/images/hierarchical.png) - > Инфографика од [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Hierarchical clustering Infographic](../../../../translated_images/sr/hierarchical.bf59403aa43c8c47.webp) + > Инфографик од [Дасанa Мадипaлија](https://twitter.com/dasani_decoded) -- **Кластеризација центроида**. Овај популарни алгоритам захтева избор 'k', или броја кластера који треба формирати, након чега алгоритам одређује централну тачку кластера и окупља податке око те тачке. [K-means кластеризација](https://wikipedia.org/wiki/K-means_clustering) је популарна верзија кластеризације центроида. Центар се одређује најближим просеком, отуда и назив. Квадрат удаљености од кластера се минимизира. +- **Кластеризација центроида**. Овај популаран алгоритам захтева избор 'k', односно броја кластера који треба формирати, након чега алгоритам одређује централну тачку кластера и сакупља податке око ње. [K-means кластеризација](https://wikipedia.org/wiki/K-means_clustering) је популаран облик кластеризације центроида. Центар се одређује по најближој средини, отуда и име. Квадратна удаљеност од кластера се минимизира. - ![Centroid clustering Infographic](../../../../5-Clustering/1-Visualize/images/centroid.png) - > Инфографика од [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Centroid clustering Infographic](../../../../translated_images/sr/centroid.097fde836cf6c918.webp) + > Инфографик од [Дасанa Мадипaлија](https://twitter.com/dasani_decoded) -- **Кластеризација заснована на расподели**. Заснована на статистичком моделовању, кластеризација заснована на расподели се фокусира на одређивање вероватноће да тачка података припада кластеру и додељује је у складу с тим. Методи Gaussian mixture припадају овом типу. +- **Расподелом заснована кластеризација**. Заснована на статистичком моделовању, ова кластеризација се фокусира на одређивање вероватноће да тачка података припада кластеру и одговарајуће јој је додељује. Гаусове мешавине припадају овој врсти. -- **Кластеризација заснована на густини**. Тачке података се додељују кластерима на основу њихове густине, или њиховог груписања једна око друге. Тачке података далеко од групе се сматрају изузецима или шумом. DBSCAN, Mean-shift и OPTICS припадају овом типу кластеризације. +- **Густином заснована кластеризација**. Тачке података се додељују кластерима на основу њихове густине, односно њиховог груписања једних око других. Тачке података далеко од групе сматрају се одступањима или шумом. DBSCAN, Mean-shift и OPTICS припадају овом типу кластеризације. -- **Кластеризација заснована на мрежи**. За мултидимензионалне скупове података, креира се мрежа и подаци се деле међу ћелијама мреже, чиме се стварају кластери. +- **Mрешично заснована кластеризација**. За више-димензијске скупове података, креира се мрежа и подаци се деле између ћелија мреже, чиме се стварају кластери. ## Вежба - кластеризујте своје податке -Кластеризација као техника је значајно олакшана правилном визуализацијом, па хајде да почнемо визуализацијом наших музичких података. Ова вежба ће нам помоћи да одлучимо који од метода кластеризације најбоље одговара природи ових података. +Кластеризација као техника је у великој мери олакшана правилном визуелизацијом, па хајде да почнемо са визуелизацијом наших музичких података. Ова вежба ће нам помоћи да одлучимо коју од метода кластеризације треба најделотворније користити за природу ових података. -1. Отворите [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) датотеку у овом фолдеру. +1. Отворите фајл [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) у овом фолдеру. -1. Увезите пакет `Seaborn` за добру визуализацију података. +1. Увезите пакет `Seaborn` за добру визуелизацију података. ```python !pip install seaborn ``` -1. Додајте податке о песмама из [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Учитајте dataframe са неким подацима о песмама. Припремите се за истраживање ових података увозом библиотека и исписивањем података: +1. Додатно учитајте податке о песмама из файла [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Учитајте dataframe са неким подацима о песмама. Спремите се да истражите те податке увозом библиотека и исписом података: ```python import matplotlib.pyplot as plt @@ -124,12 +123,13 @@ | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | - | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0 -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Добијте неке информације о подацима, позивањем `info()`: +1. Добити неке информације о dataframe-у позивајући `info()`: ```python df.info() @@ -163,7 +163,7 @@ memory usage: 66.4+ KB ``` -1. Поново проверите да ли постоје празне вредности, позивањем `isnull()` и проверавањем да ли је збир 0: +1. Двоструко провери null вредности позивајући `isnull()` и провером да је сума 0: ```python df.isnull().sum() @@ -191,7 +191,7 @@ dtype: int64 ``` -1. Опис података: +1. Описати податке: ```python df.describe() @@ -208,11 +208,11 @@ | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Ако радимо са кластерисањем, ненадгледаним методом који не захтева означене податке, зашто приказујемо ове податке са ознакама? У фази истраживања података, оне су корисне, али нису неопходне за рад алгоритама кластерисања. Могли бисмо једноставно уклонити заглавља колона и позивати се на податке по броју колоне. +> 🤔 Ако радимо са кластеровањем, незадирљивом методом која не захтева означене податке, зашто показујемо ове податке са ознакама? У фази истраживања података оне су корисне, али нису неопходне за рад алгоритама кластеровања. Можете једноставно уклонити заглавља колона и позивати се на податке по броју колоне. -Погледајте опште вредности података. Имајте на уму да популарност може бити '0', што показује песме које немају ранг. Ускоро ћемо их уклонити. +Погледајте опште вредности података. Имајте у виду да популарност може бити '0', што показује песме које немају ранг. Ускоро ћемо те уклонити. -1. Користите стубичасти графикон да бисте сазнали који су жанрови најпопуларнији: +1. Користите барплот да сазнате који су најпопуларнији жанрови: ```python import seaborn as sns @@ -224,13 +224,13 @@ plt.title('Top genres',color = 'blue') ``` - ![most popular](../../../../5-Clustering/1-Visualize/images/popular.png) + ![најпопуларнији](../../../../translated_images/sr/popular.9c48d84b3386705f.webp) -✅ Ако желите да видите више највиших вредности, промените `[:5]` у већу вредност или га уклоните да бисте видели све. +✅ Ако желите видети више врхунских вредности, промијените горњих `[:5]` у већу вредност, или уклоните тај део да видите све. -Имајте на уму, када је најпопуларнији жанр описан као 'Missing', то значи да га Spotify није класификовао, па хајде да га уклонимо. +Обратите пажњу, када је најпопуларнији жанр описан као 'Пропуштено', то значи да га Spotify није класификовао, па се тога решавамо. -1. Уклоните недостајуће податке филтрирањем: +1. Уклонити пропуштене податке филтрирањем ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -243,9 +243,9 @@ Сада поново проверите жанрове: - ![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![најпопуларнији](../../../../translated_images/sr/all-genres.1d56ef06cefbfcd6.webp) -1. Три најпопуларнија жанра доминирају овим скупом података. Фокусирајмо се на `afro dancehall`, `afropop` и `nigerian pop`, додатно филтрирајући скуп података да уклонимо све са вредношћу популарности 0 (што значи да није класификовано са популарношћу у скупу података и може се сматрати шумом за наше потребе): +1. Три најпопуларнија жанра доминирају овим скупом података. Концентришимо се на `afro dancehall`, `afropop` и `nigerian pop`, уз додатно филтрирање података да уклонимо све са вредношћу 0 у популарности (што значи да нису класификоване по популарности у скупу података и могу се сматрати шумом за наше сврхе): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -257,7 +257,7 @@ plt.title('Top genres',color = 'blue') ``` -1. Урадите брзи тест да видите да ли подаци корелирају на неки посебно јак начин: +1. Направите брзи тест да видите да ли подаци корелирају на неки посебно јак начин: ```python corrmat = df.corr(numeric_only=True) @@ -265,21 +265,21 @@ sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![корелације](../../../../translated_images/sr/correlation.a9356bb798f5eea5.webp) - Једина јака корелација је између `energy` и `loudness`, што није изненађујуће, с обзиром на то да је гласна музика обично прилично енергична. У супротном, корелације су релативно слабе. Биће занимљиво видети шта алгоритам кластерисања може да направи од ових података. + Једина јака корелација је између `енергије` и `гласности`, што није изненађење с обзиром да је гласна музика обично прилично енергична. У осталом, корелације су релативно слабе. Биће занимљиво видети шта алгоритам кластеровања може извучи из ових података. - > 🎓 Имајте на уму да корелација не имплицира узрочност! Имамо доказ корелације, али немамо доказ узрочности. [Занимљив веб сајт](https://tylervigen.com/spurious-correlations) има визуализације које наглашавају ову тачку. + > 🎓 Имајте на уму да корелација не имплицира узрочност! Имамо доказ о корелацији али не и доказ о узрочности. Један [забаван веб сајт](https://tylervigen.com/spurious-correlations) има неке визуеле који то наглашавају. -Постоји ли нека конвергенција у овом скупу података око перципиране популарности песме и њене плесности? FacetGrid показује да постоје концентрични кругови који се поравнавају, без обзира на жанр. Да ли је могуће да се укуси у Нигерији конвергирају на одређеном нивоу плесности за овај жанр? +Да ли постоји нека конвергенција у овом скупу података око перципиране популарности песме и играбилности? FacetGrid показује да постоје концентрични кругови који се уклапају, без обзира на жанр. Да ли је могуће да се нигеријски укуси конвергирају на одређеном нивоу играбилности за овај жанр? -✅ Испробајте различите тачке података (енергија, гласноћа, говорност) и више или различитих музичких жанрова. Шта можете открити? Погледајте табелу `df.describe()` да видите општи распон тачака података. +✅ Испробајте различите тачке података (енергију, гласност, говорљивост) и више или другачије музичке жанрове. Шта можете открити? Погледајте табелу `df.describe()` да видите општи распоред података. -### Вежба - расподела података +### Вежба - распоред података -Да ли се ова три жанра значајно разликују у перцепцији њихове плесности, на основу њихове популарности? +Да ли су ова три жанра значајно различита у перцепцији своје играбилности, засновано на њиховој популарности? -1. Испитајте расподелу података за наша три најпопуларнија жанра у погледу популарности и плесности дуж задате x и y осе. +1. Испитајте распоред података за популарност и играбилност за наша три најбоља жанра дуж задате x и y осе. ```python sns.set_theme(style="ticks") @@ -291,15 +291,15 @@ ) ``` - Можете открити концентричне кругове око опште тачке конвергенције, који показују расподелу тачака. + Можете открити концентричне кругове око опште тачке конвергенције, показајући распоред тачака. - > 🎓 Имајте на уму да овај пример користи KDE (Kernel Density Estimate) графикон који представља податке користећи континуирану криву густине вероватноће. Ово нам омогућава да интерпретирамо податке када радимо са више расподела. + > 🎓 Имајте на уму да овај пример користи KDE (Kernel Density Estimate) графикон који представља податке коришћењем континуиране криве вероватноће густине. Ово нам омогућава интерпретацију података када радимо са више расподела. - Уопштено, три жанра се лабаво поравнавају у смислу њихове популарности и плесности. Одређивање кластера у овим лабаво поравнатим подацима биће изазов: + Уопштено, три жанра се лабаво усклађују у смислу њихове популарности и играбилности. Одређивање кластера у овим лабаво усклађеним подацима биће изазов: - ![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![распоред](../../../../translated_images/sr/distribution.9be11df42356ca95.webp) -1. Направите графикон расејања: +1. Направите расејани дијаграм: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -307,31 +307,33 @@ .add_legend() ``` - Графикон расејања истих оса показује сличан образац конвергенције + Расејани дијаграм истих оса показује сличан образац конвергенције - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/sr/facetgrid.9b2e65ce707eba1f.webp) -Уопштено, за кластерисање можете користити графиконе расејања да бисте приказали кластере података, тако да је савладавање ове врсте визуализације веома корисно. У следећем часу, користићемо ове филтриране податке и применити k-means кластерисање како бисмо открили групе у овим подацима које се преклапају на занимљиве начине. +Уопштено, за кластеровање можете користити расејане дијаграме за приказ кластера података, па је усавршавање ове врсте визуализације веома корисно. У наредном часу узети ћемо овај филтрирани скуп података и применити k-means кластеровање да откријемо групе у овим подацима које изгледају да се преплићу на занимљиве начине. --- ## 🚀Изазов -У припреми за следећи час, направите графикон о различитим алгоритмима кластерисања које бисте могли открити и користити у производном окружењу. Које врсте проблема кластерисање покушава да реши? +У припреми за наредни час, направите графикон о различитим алгоритмима кластеровања које бисте могли открити и користити у продуктивном окружењу. Које врсте проблема кластеровање покушава да реши? -## [Квиз након предавања](https://ff-quizzes.netlify.app/en/ml/) +## [Квиз после предавања](https://ff-quizzes.netlify.app/en/ml/) -## Преглед и самостално учење +## Преглед и Самостални рад -Пре него што примените алгоритме кластерисања, као што смо научили, добра је идеја да разумете природу вашег скупа података. Прочитајте више о овој теми [овде](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Пре него што примените алгоритме кластеровања, како смо научили, добро је разумети природу вашег скупа података. Прочитајте више о овој теми [овде](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[Овај користан чланак](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) вас води кроз различите начине на које различити алгоритми кластерисања функционишу, с обзиром на различите облике података. +[Ова корисна артикулација](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) вас води кроз различите начине на које се понашају различити алгоритми кластеровања, у зависности од облика података. ## Задатак -[Истражите друге визуализације за кластерисање](assignment.md) +[Истражите друге визуализације за кластеровање](assignment.md) --- -**Одрицање од одговорности**: -Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако тежимо тачности, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква неспоразумевања или погрешна тумачења која могу произаћи из коришћења овог превода. \ No newline at end of file + +**Изјава о одрицању одговорности**: +Овај документ је преведен коришћењем услуге за аутоматски превод [Co-op Translator](https://github.com/Azure/co-op-translator). Иако тежимо тачности, имајте у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални људски превод. Нисмо одговорни за било каква неспоразума или погрешна тумачења која произилазе из коришћења овог превода. + \ No newline at end of file