[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [Kviz prije predavanja](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Ako želimo ići još složenije, možemo prikazati vrijeme potrebno za svaki mo
U ovom izazovu pokušat ćemo pronaći koncepte relevantne za područje Data Sciencea analizirajući tekstove. Uzet ćemo članak s Wikipedije o Data Scienceu, preuzeti i obraditi tekst, a zatim izraditi oblak riječi poput ovog:


Posjetite [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') kako biste pregledali kod. Također možete pokrenuti kod i vidjeti kako u stvarnom vremenu obavlja sve transformacije podataka.
"# Izazov: Analiza teksta o podatkovnoj znanosti\n",
"\n",
"U ovom primjeru, napravit ćemo jednostavnu vježbu koja obuhvaća sve korake tradicionalnog procesa podatkovne znanosti. Ne morate pisati nikakav kod, samo možete kliknuti na ćelije ispod kako biste ih izvršili i promatrali rezultat. Kao izazov, potičemo vas da isprobate ovaj kod s različitim podacima.\n",
"\n",
"## Cilj\n",
"\n",
"U ovoj lekciji raspravljali smo o različitim konceptima vezanim uz podatkovnu znanost. Pokušajmo otkriti više povezanih koncepata radeći **rudarenje teksta**. Počet ćemo s tekstom o podatkovnoj znanosti, izvući ključne riječi iz njega, a zatim pokušati vizualizirati rezultat.\n",
"\n",
"Kao tekst koristit ćemo stranicu o podatkovnoj znanosti s Wikipedije:\n"
"# Izazov: Analiza teksta o znanosti o podacima\r\n",
"\r\n",
"U ovom primjeru, napravimo jednostavnu vježbu koja pokriva sve korake tradicionalnog procesa znanosti o podacima. Ne morate pisati nikakav kod, možete jednostavno kliknuti na ćelije u nastavku da ih izvršite i promatrate rezultat. Kao izazov, potičemo vas da isprobate ovaj kod s različitim podacima. \r\n",
"\r\n",
"## Cilj\r\n",
"\r\n",
"U ovoj lekciji raspravljali smo o različitim pojmovima vezanim uz znanost o podacima. Pokušajmo otkriti još povezanih pojmova radeći **rudarenje teksta**. Počet ćemo s tekstom o znanosti o podacima, izvući ključne riječi iz njega, a zatim pokušati vizualizirati rezultat.\r\n",
"\r\n",
"Kao tekst, koristit ću stranicu o znanosti o podacima s Wikipedije:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Korak 1: Dobivanje podataka\n",
"## Korak 1: Dobivanje Podataka\n",
"\n",
"Prvi korak u svakom procesu obrade podataka je dobivanje podataka. Koristit ćemo biblioteku `requests` za to:\n"
"Prvi korak u svakom procesu znanosti o podacima je dobivanje podataka. Koristit ćemo biblioteku `requests` za to:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## Korak 2: Transformacija podataka\n",
"## Korak 2: Pretvaranje podataka\n",
"\n",
"Sljedeći korak je pretvoriti podatke u oblik prikladan za obradu. U našem slučaju, preuzeli smo HTML izvorni kod sa stranice i trebamo ga pretvoriti u običan tekst.\n",
"Sljedeći korak je pretvoriti podatke u oblik prikladan za obradu. U našem slučaju, preuzeli smo HTML izvorni kod stranice i trebamo ga pretvoriti u običan tekst.\n",
"\n",
"Postoji mnogo načina kako se to može učiniti. Koristit ćemo najjednostavniji ugrađeni objekt [HTMLParser](https://docs.python.org/3/library/html.parser.html) iz Pythona. Potrebno je naslijediti klasu `HTMLParser` i definirati kod koji će prikupljati sav tekst unutar HTML oznaka, osim oznaka `<script>` i `<style>`.\n"
"Postoji mnogo načina kako se to može napraviti. Koristit ćemo [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), popularnu Python biblioteku za parsiranje HTML-a. BeautifulSoup nam omogućuje ciljano dohvaćanje određenih HTML elemenata, pa se možemo usredotočiti na glavni članak s Wikipedije i smanjiti neke navigacijske izbornike, bočne trake, podnožja i ostale nebitne sadržaje (iako neki boilerplate tekst i dalje može ostati).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Prvo, trebamo instalirati biblioteku BeautifulSoup za parsiranje HTML-a:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## Korak 3: Dobivanje uvida\n",
"\n",
"Najvažniji korak je pretvoriti naše podatke u oblik iz kojeg možemo izvući uvide. U našem slučaju, želimo izdvojiti ključne riječi iz teksta i vidjeti koje su ključne riječi značajnije.\n",
"Najvažniji korak je pretvoriti naše podatke u neki oblik iz kojeg možemo izvući uvide. U našem slučaju, želimo izdvojiti ključne riječi iz teksta i vidjeti koje su ključne riječi značajnije.\n",
"\n",
"Koristit ćemo Python biblioteku pod nazivom [RAKE](https://github.com/aneesha/RAKE) za izdvajanje ključnih riječi. Prvo, instalirajmo ovu biblioteku ako već nije prisutna:\n"
"Koristit ćemo Python knjižnicu nazvanu [RAKE](https://github.com/aneesha/RAKE) za izdvajanje ključnih riječi. Prvo, instalirajmo ovu knjižnicu ako nije prisutna: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Glavna funkcionalnost dostupna je iz objekta `Rake`, koji možemo prilagoditi pomoću nekih parametara. U našem slučaju, postavit ćemo minimalnu duljinu ključne riječi na 5 znakova, minimalnu učestalost ključne riječi u dokumentu na 3, i maksimalan broj riječi u ključnoj riječi na 2. Slobodno eksperimentirajte s drugim vrijednostima i promatrajte rezultat.\n"
"Glavna funkcionalnost dostupna je iz objekta `Rake`, koji možemo prilagoditi pomoću nekih parametara. U našem slučaju, postavit ćemo minimalnu duljinu ključne riječi na 5 znakova, minimalnu učestalost ključne riječi u dokumentu na 3, te maksimalan broj riječi u ključnoj riječi na 2. Slobodno eksperimentirajte s drugim vrijednostima i promatrajte rezultat.\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"Dobili smo popis pojmova zajedno s pripadajućim stupnjem važnosti. Kao što možete vidjeti, najrelevantnije discipline, poput strojnog učenja i velikih podataka, nalaze se na vrhu popisa.\n",
"\n",
"Dobili smo popis pojmova zajedno s pripadajućom razinom važnosti. Kao što vidite, najvažnije discipline, poput strojnog učenja i velikih podataka, nalaze se na vrhu popisa.\n",
"\n",
"## Korak 4: Vizualizacija rezultata\n",
"\n",
"Ljudi najbolje interpretiraju podatke u vizualnom obliku. Stoga često ima smisla vizualizirati podatke kako bismo izvukli određene uvide. Možemo koristiti biblioteku `matplotlib` u Pythonu za prikaz jednostavne distribucije ključnih riječi s njihovom relevantnošću:\n"
"Ljudi podatke najbolje razumiju u vizualnom obliku. Stoga često ima smisla podatke vizualizirati kako bismo izvukli neke uvide. Možemo koristiti biblioteku `matplotlib` u Pythonu za iscrtavanje jednostavne distribucije ključnih riječi s njihovom relevantnošću:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"Postoji, međutim, još bolji način za vizualizaciju učestalosti riječi - korištenjem **Word Cloud**. Trebat ćemo instalirati još jednu biblioteku kako bismo prikazali word cloud iz našeg popisa ključnih riječi.\n"
"Međutim, postoji još bolji način za vizualizaciju učestalosti riječi - korištenjem **Word Cloud**. Morat ćemo instalirati još jednu biblioteku za iscrtavanje oblaka riječi iz naše liste ključnih riječi.\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` objekt je odgovoran za primanje ili originalnog teksta, ili unaprijed izračunatog popisa riječi s njihovim frekvencijama, i vraća sliku, koja se zatim može prikazati pomoću `matplotlib`:\n"
"`WordCloud` objekt je odgovoran za prihvaćanje ili izvornog teksta ili unaprijed izračunate liste riječi s njihovim frekvencijama, i vraća sliku, koja se zatim može prikazati pomoću `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"Izvorni tekst možemo također proslijediti u `WordCloud` - pogledajmo možemo li dobiti sličan rezultat:\n"
"Također možemo proslijediti izvornik tekst u `WordCloud` - pogledajmo hoćemo li moći dobiti sličan rezultat:\n"
],
"metadata": {}
},
@ -372,11 +371,11 @@
{
"cell_type": "markdown",
"source": [
"Možete vidjeti da sada oblak riječi izgleda impresivnije, ali također sadrži puno šuma (npr. nepovezane riječi poput `Retrieved on`). Također, dobivamo manje ključnih riječi koje se sastoje od dvije riječi, poput *data scientist* ili *computer science*. To je zato što RAKE algoritam puno bolje odabire dobre ključne riječi iz teksta. Ovaj primjer naglašava važnost predobrade i čišćenja podataka, jer će nam jasnija slika na kraju omogućiti donošenje boljih odluka.\n",
"Možete vidjeti da riječni oblak sada izgleda impresivnije, ali također sadrži puno šuma (npr. nepovezane riječi poput `Retrieved on`). Također, dobijemo manje ključnih riječi koje se sastoje od dvije riječi, poput *data scientist* ili *computer science*. To je zato što RAKE algoritam puno bolje radi na odabiru dobrih ključnih riječi iz teksta. Ovaj primjer ilustrira važnost predobrade i čišćenja podataka, jer će jasna slika na kraju omogućiti bolje odluke.\n",
"\n",
"U ovoj vježbi prošli smo kroz jednostavan proces izvlačenja značenja iz Wikipedijinog teksta, u obliku ključnih riječi i oblaka riječi. Ovaj primjer je prilično jednostavan, ali dobro prikazuje sve tipične korake koje će podatkovni znanstvenik poduzeti pri radu s podacima, počevši od prikupljanja podataka pa sve do vizualizacije.\n",
"U ovoj vježbi prošli smo jednostavan proces izvlačenja nekog značenja iz Wikipedijskog teksta, u obliku ključnih riječi i riječnog oblaka. Ovaj primjer je prilično jednostavan, ali dobro prikazuje sve tipične korake koje će data scientist poduzeti prilikom rada s podacima, počevši od pribavljanja podataka pa sve do vizualizacije.\n",
"\n",
"Na našem tečaju detaljno ćemo raspraviti sve te korake.\n"
"Na našem tečaju ćemo detaljno raspraviti sve te korake.\n"
],
"metadata": {}
},
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Odricanje od odgovornosti**: \nOvaj dokument je preveden pomoću AI usluge za prevođenje [Co-op Translator](https://github.com/Azure/co-op-translator). Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane ljudskog prevoditelja. Ne preuzimamo odgovornost za bilo kakve nesporazume ili pogrešne interpretacije koje proizlaze iz korištenja ovog prijevoda.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Izjava o odricanju odgovornosti**:\nOvaj dokument preveden je korištenjem AI prevoditeljskog servisa [Co-op Translator](https://github.com/Azure/co-op-translator). Iako težimo točnosti, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba se smatrati službenim i autoritativnim izvorom. Za važne informacije preporučuje se profesionalni ljudski prijevod. Ne snosimo odgovornost za bilo kakve nesporazume ili pogrešna tumačenja proizašla iz korištenja ovog prijevoda.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"# Izazov: Analiza teksta o znanosti o podacima\n",
"\n",
"> *U ovom bilježniku eksperimentiramo s korištenjem različitih URL-ova - Wikipedijin članak o strojnom učenju. Možete primijetiti da, za razliku od znanosti o podacima, ovaj članak sadrži mnogo pojmova, što analizu čini problematičnijom. Moramo osmisliti drugačiji način za čišćenje podataka nakon izdvajanja ključnih riječi, kako bismo se riješili nekih čestih, ali nebitnih kombinacija riječi.*\n",
"> *U ovom bilježniku eksperimentiramo s korištenjem različitih URL-ova - Wikipedijska stranica o strojnome učenju. Možete vidjeti da, za razliku od Znanosti o podacima, ovaj članak sadrži mnogo termina, što čini analizu problematičnijom. Moramo smisliti drugi način čišćenja podataka nakon vađenja ključnih riječi kako bismo se riješili nekih čestih, ali nevažnih kombinacija riječi.*\n",
"\n",
"U ovom primjeru, napravimo jednostavnu vježbu koja pokriva sve korake tradicionalnog procesa znanosti o podacima. Ne morate pisati nikakav kod, samo kliknite na ćelije ispod kako biste ih izvršili i promatrali rezultat. Kao izazov, potičemo vas da isprobate ovaj kod s različitim podacima.\n",
"U ovom primjeru, napravimo jednostavnu vježbu koja pokriva sve korake tradicionalnog procesa znanosti o podacima. Ne morate pisati nikakav kod, možete samo kliknuti na ćelije ispod da ih izvršite i promatrate rezultat. Kao izazov, potičemo vas da isprobate ovaj kod s različitim podacima.\n",
"\n",
"## Cilj\n",
"\n",
"U ovoj lekciji raspravljali smo o različitim konceptima vezanim za znanost o podacima. Pokušajmo otkriti više povezanih pojmova radeći **rudarenje teksta**. Počet ćemo s tekstom o znanosti o podacima, izvući ključne riječi iz njega, a zatim pokušati vizualizirati rezultat.\n",
"U ovoj lekciji raspravljali smo o različitim konceptima vezanim uz znanost o podacima. Pokušajmo otkriti više povezanih pojmova radeći **rudarenje teksta**. Počet ćemo s tekstom o znanosti o podacima, iz njega izvući ključne riječi, a zatim pokušati vizualizirati rezultat.\n",
"\n",
"Kao tekst koristit ćemo stranicu o znanosti o podacima s Wikipedije:\n"
"Kao tekst koristit ću stranicu o znanosti o podacima s Wikipedije:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Korak 1: Dobivanje podataka\n",
"## Korak 1: Preuzimanje podataka\n",
"\n",
"Prvi korak u svakom procesu obrade podataka je dobivanje podataka. Koristit ćemo biblioteku `requests` za to:\n"
"Prvi korak u svakom procesu znanosti o podacima je preuzimanje podataka. Koristit ćemo biblioteku `requests` za to:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Korak 2: Transformacija podataka\n",
"## Korak 2: Transformacija Podataka\n",
"\n",
"Sljedeći korak je pretvaranje podataka u oblik pogodan za obradu. U našem slučaju, preuzeli smo HTML izvorni kod sa stranice i trebamo ga pretvoriti u običan tekst.\n",
"Sljedeći korak je pretvoriti podatke u oblik pogodan za obradu. U našem slučaju, preuzeli smo HTML izvorni kod s stranice i trebamo ga pretvoriti u običan tekst.\n",
"\n",
"Postoji mnogo načina na koje se to može učiniti. Mi ćemo koristiti najjednostavniji ugrađeni objekt [HTMLParser](https://docs.python.org/3/library/html.parser.html) iz Pythona. Potrebno je naslijediti klasu `HTMLParser` i definirati kod koji će prikupljati sav tekst unutar HTML oznaka, osim unutar `<script>` i `<style>` oznaka.\n"
"Postoji mnogo načina na koje se to može učiniti. Koristit ćemo [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), popularnu Python biblioteku za parsiranje HTML-a. BeautifulSoup nam omogućuje da ciljno pristupamo određenim HTML elementima, pa se možemo usredotočiti na glavni sadržaj članka s Wikipedije i smanjiti neke navigacijske izbornike, bočne trake, podnožja i drugi nevažan sadržaj (iako može ostati neki boilerplate tekst).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Prvo, trebamo instalirati biblioteku BeautifulSoup za parsiranje HTML-a:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -120,7 +118,7 @@
"\n",
"Najvažniji korak je pretvoriti naše podatke u oblik iz kojeg možemo izvući uvide. U našem slučaju, želimo izdvojiti ključne riječi iz teksta i vidjeti koje su ključne riječi značajnije.\n",
"\n",
"Koristit ćemo Python biblioteku pod nazivom [RAKE](https://github.com/aneesha/RAKE) za izdvajanje ključnih riječi. Prvo, instalirajmo ovu biblioteku ako već nije prisutna:\n"
"Koristit ćemo Python biblioteku pod nazivom [RAKE](https://github.com/aneesha/RAKE) za izdvajanje ključnih riječi. Prvo, instalirajmo ovu biblioteku ako nije prisutna:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Glavna funkcionalnost dostupna je iz objekta `Rake`, koji možemo prilagoditi pomoću nekih parametara. U našem slučaju, postavit ćemo minimalnu duljinu ključne riječi na 5 znakova, minimalnu učestalost ključne riječi u dokumentu na 3, i maksimalan broj riječi u ključnoj riječi na 2. Slobodno eksperimentirajte s drugim vrijednostima i promatrajte rezultat.\n"
"Glavna funkcionalnost dostupna je iz objekta `Rake`, koji možemo prilagoditi pomoću nekih parametara. U našem slučaju, postavit ćemo minimalnu duljinu ključne riječi na 5 znakova, minimalnu frekvenciju ključne riječi u dokumentu na 3, te maksimalan broj riječi u ključnoj riječi na 2. Slobodno se poigrajte s drugim vrijednostima i promatrajte rezultat.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Dobili smo popis pojmova zajedno s pripadajućim stupnjem važnosti. Kao što možete vidjeti, najrelevantnije discipline, poput strojnog učenja i velikih podataka, nalaze se na vrhu popisa.\n",
"\n",
"Dobili smo popis pojmova zajedno s pridruženom razinom važnosti. Kao što možete vidjeti, najvažnije discipline, poput strojnog učenja i big data, nalaze se na vrhu popisa.\n",
"\n",
"## Korak 4: Vizualizacija rezultata\n",
"\n",
"Ljudi najbolje interpretiraju podatke u vizualnom obliku. Stoga često ima smisla vizualizirati podatke kako bismo izvukli određene uvide. Možemo koristiti biblioteku `matplotlib` u Pythonu za prikaz jednostavne distribucije ključnih riječi s njihovom relevantnošću:\n"
"Ljudi najbolje mogu protumačiti podatke u vizualnom obliku. Stoga često ima smisla vizualizirati podatke kako bismo izvukli neke uvide. Možemo koristiti biblioteku `matplotlib` u Pythonu za iscrtavanje jednostavne distribucije ključnih riječi s njihovom relevantnošću:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"Postoji, međutim, još bolji način za vizualizaciju učestalosti riječi - korištenjem **Word Cloud**. Trebat ćemo instalirati još jednu biblioteku kako bismo prikazali word cloud iz našeg popisa ključnih riječi.\n"
"Postoji, međutim, još bolji način za vizualizaciju frekvencija riječi - korištenjem **Word Cloud**. Trebat ćemo instalirati još jednu biblioteku za iscrtavanje oblaka riječi iz naše liste ključnih riječi.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` objekt je odgovoran za primanje ili originalnog teksta, ili unaprijed izračunatog popisa riječi s njihovim frekvencijama, i vraća sliku, koja se zatim može prikazati pomoću `matplotlib`:\n"
"`WordCloud` objekt je odgovoran za primanje ili originalnog teksta, ili unaprijed izračunate liste riječi sa njihovim učestalostima, i vraća sliku, koja se zatim može prikazati pomoću `matplotlib`:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"Možete vidjeti da sada oblak riječi izgleda impresivnije, ali također sadrži puno šuma (npr. nepovezane riječi poput `Retrieved on`). Također dobivamo manje ključnih riječi koje se sastoje od dvije riječi, poput *data scientist* ili *computer science*. To je zato što RAKE algoritam puno bolje odabire dobre ključne riječi iz teksta. Ovaj primjer ilustrira važnost predobrade i čišćenja podataka, jer jasna slika na kraju omogućuje donošenje boljih odluka.\n",
"Možete vidjeti da riječni oblak sada izgleda impresivnije, ali također sadrži mnogo buke (npr. nepovezane riječi kao što je `Retrieved on`). Također, dobivamo manje ključnih riječi koje se sastoje od dvije riječi, poput *data scientist* ili *computer science*. To je zato što RAKE algoritam puno bolje odabire dobre ključne riječi iz teksta. Ovaj primjer ilustrira važnost prethodne obrade i čišćenja podataka, jer jasan prikaz na kraju omogućuje donošenje boljih odluka.\n",
"\n",
"U ovoj vježbi prošli smo kroz jednostavan proces izvlačenja značenja iz Wikipedijinog teksta, u obliku ključnih riječi i oblaka riječi. Ovaj primjer je prilično jednostavan, ali dobro pokazuje sve tipične korake koje će data scientist poduzeti pri radu s podacima, počevši od prikupljanja podataka pa sve do vizualizacije.\n",
"U ovoj smo vježbi prošli jednostavan postupak izdvajanja značenja iz Wikipedijinog teksta, u obliku ključnih riječi i riječnog oblaka. Ovaj je primjer prilično jednostavan, ali dobro pokazuje sve tipične korake koje data scientist poduzima pri radu s podacima, od prikupljanja podataka do vizualizacije.\n",
"\n",
"Na našem tečaju detaljno ćemo raspraviti sve te korake.\n"
"Na našem ćemo tečaju detaljno raspraviti sve te korake.\n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Odricanje od odgovornosti**: \nOvaj dokument je preveden pomoću AI usluge za prevođenje [Co-op Translator](https://github.com/Azure/co-op-translator). Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane čovjeka. Ne preuzimamo odgovornost za bilo kakva nesporazuma ili pogrešna tumačenja koja proizlaze iz korištenja ovog prijevoda.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Odricanje od odgovornosti**: \nOvaj dokument je preveden korištenjem AI usluge za prijevod [Co-op Translator](https://github.com/Azure/co-op-translator). Iako težimo točnosti, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za kritične informacije preporučuje se profesionalni ljudski prijevod. Nismo odgovorni za bilo kakva nesporazuma ili netočna tumačenja koja proizlaze iz korištenja ovog prijevoda.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
Statistika i teorija vjerojatnosti su dva usko povezana područja matematike koja su izuzetno važna za znanost o podacima. Iako je moguće raditi s podacima bez dubokog poznavanja matematike, ipak je korisno razumjeti barem osnovne koncepte. Ovdje ćemo predstaviti kratak uvod koji će vam pomoći da započnete.
## [Kviz prije predavanja](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Teže je opisati raspodjelu vjerojatnosti kontinuirane varijable, s vrijednostim
Možemo govoriti samo o vjerojatnosti da varijabla padne u određeni interval vrijednosti, npr. P(t<sub>1</sub>≤X<t<sub>2</sub>). U ovom slučaju, raspodjela vjerojatnosti opisana je **funkcijom gustoće vjerojatnosti** p(x), tako da
Kontinuirani analog uniformne raspodjele naziva se **kontinuirana uniformna raspodjela**, koja je definirana na konačnom intervalu. Vjerojatnost da vrijednost X padne u interval duljine l proporcionalna je l i raste do 1.
@ -73,11 +73,11 @@ Kada analiziramo podatke iz stvarnog života, oni često nisu slučajne varijabl
Evo box plota koji prikazuje srednju vrijednost, medijan i kvartile za naše podatke:
Budući da naši podaci sadrže informacije o različitim **ulogama** igrača, možemo napraviti i box plot prema ulozi - to će nam omogućiti da steknemo uvid u to kako se vrijednosti parametara razlikuju među ulogama. Ovaj put razmotrit ćemo visinu:


Ovaj dijagram sugerira da je, u prosjeku, visina igrača na prvoj bazi veća od visine igrača na drugoj bazi. Kasnije u ovoj lekciji naučit ćemo kako možemo formalnije testirati ovu hipotezu i kako pokazati da su naši podaci statistički značajni za to.
@ -85,7 +85,7 @@ Ovaj dijagram sugerira da je, u prosjeku, visina igrača na prvoj bazi veća od
Kako bismo vidjeli kakva je raspodjela naših podataka, možemo nacrtati grafikon zvan **histogram**. X-os bi sadržavala broj različitih intervala težine (tzv. **binova**), a Y-os bi prikazivala broj puta kada je uzorak naše slučajne varijable bio unutar određenog intervala.
Iz ovog histograma možete vidjeti da su sve vrijednosti centrirane oko određene srednje težine, a što se više udaljavamo od te težine, to se rjeđe susreću težine te vrijednosti. Drugim riječima, vrlo je malo vjerojatno da će težina bejzbol igrača biti vrlo različita od srednje težine. Varijanca težina pokazuje u kojoj mjeri težine odstupaju od srednje vrijednosti.
Ako nacrtamo histogram generiranih uzoraka, vidjet ćemo sliku vrlo sličnu onoj prikazanoj gore. A ako povećamo broj uzoraka i broj binova, možemo generirati sliku normalne raspodjele koja je bliža idealu:


*Normalna raspodjela sa srednjom vrijednošću=0 i std.dev=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
U našem slučaju, vrijednost 0.53 ukazuje na to da postoji određena korelacija između težine i visine osobe. Također možemo napraviti scatter plot jedne vrijednosti u odnosu na drugu kako bismo vizualno vidjeli odnos:


> Više primjera korelacije i kovarijance možete pronaći u [priloženoj bilježnici](notebook.ipynb).


> Fotografija autora <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> na <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
U ovim lekcijama otkrit ćete kako se definira podatkovna znanost i upoznati se s etičkim razmatranjima koja mora uzeti u obzir podatkovni znanstvenik. Također ćete naučiti kako se definiraju podaci te steći osnovno razumijevanje statistike i vjerojatnosti, ključnih akademskih područja podatkovne znanosti.
Iako baze podataka nude vrlo učinkovite načine za pohranu podataka i njihovo pretraživanje pomoću jezika upita, najfleksibilniji način obrade podataka je pisanje vlastitog programa za manipulaciju podacima. U mnogim slučajevima, upit u bazi podataka bio bi učinkovitiji način. Međutim, u nekim slučajevima kada je potrebna složenija obrada podataka, to se ne može lako postići pomoću SQL-a.
Obrada podataka može se programirati u bilo kojem programskom jeziku, ali postoje određeni jezici koji su na višoj razini u radu s podacima. Data znanstvenici obično preferiraju jedan od sljedećih jezika:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")


Sada pretpostavimo da svaki tjedan organiziramo zabavu za prijatelje i uzimamo dodatnih 10 paketa sladoleda za zabavu. Možemo stvoriti drugi niz, indeksiran po tjednu, kako bismo to prikazali:
```python
@ -75,7 +75,7 @@ Kada zbrojimo dva niza, dobijemo ukupni broj:


> **Napomena** da ne koristimo jednostavnu sintaksu `total_items+additional_items`. Da jesmo, dobili bismo puno `NaN` (*Not a Number*) vrijednosti u rezultirajućem nizu. To je zato što nedostaju vrijednosti za neke točke indeksa u nizu `additional_items`, a zbrajanje `NaN` s bilo čim rezultira `NaN`. Stoga trebamo specificirati parametar `fill_value` tijekom zbrajanja.
@ -84,7 +84,7 @@ S vremenskim nizovima također možemo **ponovno uzorkovati** nizove s različit
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```


### DataFrame
@ -210,7 +210,7 @@ Prvi problem na kojem ćemo se fokusirati je modeliranje širenja epidemije COVI
Budući da želimo demonstrirati kako raditi s podacima, pozivamo vas da otvorite [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) i pročitate ga od početka do kraja. Također možete izvršavati ćelije i riješiti neke izazove koje smo ostavili na kraju.
> Ako ne znate kako pokrenuti kod u Jupyter Notebooku, pogledajte [ovaj članak](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Potpuni primjer analize ovog skupa podataka koristeći [Text Analytics for Healt
Otvorite [`notebook-papers.ipynb`](notebook-papers.ipynb) i pročitajte ga od početka do kraja. Također možete izvršavati ćelije i riješiti neke izazove koje smo ostavili na kraju.
> Fotografija autora <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> na <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
U ovim lekcijama naučit ćete neke od načina na koje se podaci mogu upravljati, manipulirati i koristiti u aplikacijama. Naučit ćete o relacijskim i nerelacijskim bazama podataka te kako se podaci mogu pohranjivati u njima. Upoznat ćete osnove rada s Pythonom za upravljanje podacima i otkriti neke od brojnih načina na koje možete koristiti Python za upravljanje i analizu podataka.
Sada prikažite iste podatke s paletom boja inspiriranom medom kako biste pokazali kako se cijena mijenja tijekom godina. To možete učiniti dodavanjem parametra 'hue' za prikaz promjena iz godine u godinu:
@ -51,7 +51,7 @@ Sada prikažite iste podatke s paletom boja inspiriranom medom kako biste pokaza
S ovom promjenom palete boja možete jasno vidjeti snažan napredak tijekom godina u pogledu cijene meda po funti. Ako pogledate uzorak podataka za provjeru (na primjer, odaberite državu Arizonu), možete uočiti obrazac povećanja cijene iz godine u godinu, uz nekoliko iznimaka:
Je li ovo jednostavan slučaj ponude i potražnje? Zbog čimbenika poput klimatskih promjena i kolapsa kolonija, je li dostupno manje meda za kupnju iz godine u godinu, pa cijena raste?
✅ Budući da Seaborn agregira podatke u jednu liniju, prikazuje "više mjerenja za svaku vrijednost x tako što crta srednju vrijednost i interval pouzdanosti od 95% oko srednje vrijednosti". [Izvor](https://seaborn.pydata.org/tutorial/relational.html). Ovo ponašanje koje oduzima vrijeme može se onemogućiti dodavanjem `ci=None`.
@ -105,7 +105,7 @@ Pitanje: Pa, možemo li također vidjeti porast u opskrbi medom oko 2003. godine
Odgovor: Ne baš. Ako pogledate ukupnu proizvodnju, čini se da je zapravo porasla te godine, iako općenito količina proizvedenog meda opada tijekom tih godina.
@ -130,7 +130,7 @@ sns.relplot(
```
U ovoj vizualizaciji možete usporediti prinos po koloniji i broj kolonija iz godine u godinu, usporedno s postavkom wrap na 3 za stupce:
Za ovaj skup podataka, ništa posebno ne iskače u vezi s brojem kolonija i njihovim prinosom, iz godine u godinu i iz države u državu. Postoji li drugačiji način za pronalaženje korelacije između ove dvije varijable?
Iako ništa posebno ne iskače oko 2003. godine, ovo nam omogućuje da završimo lekciju na malo sretnijoj noti: iako općenito dolazi do smanjenja broja kolonija, broj kolonija se stabilizira čak i ako njihov prinos po koloniji opada.
Ovdje instalirate paket `ggplot2` i zatim ga uvozite u radni prostor pomoću naredbe `library("ggplot2")`. Za crtanje bilo kojeg grafa u ggplot-u koristi se funkcija `ggplot()`, a vi specificirate skup podataka, x i y varijable kao atribute. U ovom slučaju koristimo funkciju `geom_line()` jer želimo nacrtati linijski graf.
Što odmah primjećujete? Čini se da postoji barem jedan outlier - to je prilično velik raspon krila! Raspon krila od preko 2000 centimetara jednak je više od 20 metara - lutaju li Pterodaktili Minnesotom? Istražimo.
Čak i s rotacijom oznaka postavljenom na 45 stupnjeva, previše ih je za čitanje. Pokušajmo drugačiju strategiju: označimo samo outliere i postavimo oznake unutar grafa. Možete koristiti raspršeni graf kako biste napravili više prostora za označavanje:
U sljedećem isječku instaliramo pakete [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) i [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) kako bismo manipulirali i grupirali podatke za crtanje složenog stupčastog grafa. Prvo grupirate podatke prema `Category` ptica i zatim sažimate stupce `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Zatim crtate stupčasti graf koristeći `ggplot2` i specificirate boje za različite kategorije i oznake.


Ovaj stupčasti graf, međutim, nije čitljiv jer ima previše negrupiranih podataka. Trebate odabrati samo podatke koje želite prikazati, pa pogledajmo duljinu ptica na temelju njihove kategorije.
Prvo brojite jedinstvene vrijednosti u stupcu `Category` i zatim ih sortirate u novi dataframe `birds_count`. Ovi sortirani podaci zatim se faktoriziraju na istoj razini kako bi se prikazali na sortirani način. Koristeći `ggplot2`, zatim crtate podatke u stupčastom grafu. Funkcija `coord_flip()` prikazuje horizontalne stupce.
Ovaj stupčasti graf pruža dobar pregled broja ptica u svakoj kategoriji. Na prvi pogled vidite da je najveći broj ptica u ovoj regiji u kategoriji Patke/Guske/Vodene ptice. Minnesota je 'zemlja 10.000 jezera', pa to nije iznenađujuće!
Ništa ovdje nije iznenađujuće: kolibrići imaju najmanju maksimalnu duljinu u usporedbi s pelikanima ili guskama. Dobro je kada podaci imaju logičan smisao!


Ovo daje pregled opće distribucije duljine tijela po redu ptica, ali nije optimalan način za prikaz stvarnih distribucija. Taj zadatak obično se rješava izradom histograma.
## Rad s histogramima
@ -47,7 +47,7 @@ Ovo daje pregled opće distribucije duljine tijela po redu ptica, ali nije optim


Kao što možete vidjeti, većina od 400+ ptica u ovom skupu podataka spada u raspon ispod 2000 za njihovu maksimalnu tjelesnu masu. Dobijte više uvida u podatke promjenom parametra `bins` na veći broj, poput 30:
@ -55,7 +55,7 @@ Kao što možete vidjeti, većina od 400+ ptica u ovom skupu podataka spada u ra
Ovaj grafikon prikazuje distribuciju na malo detaljniji način. Grafikon manje nagnut ulijevo mogao bi se stvoriti osiguravanjem da odaberete samo podatke unutar određenog raspona:
✅ Isprobajte neke druge filtre i točke podataka. Da biste vidjeli punu distribuciju podataka, uklonite filter `['MaxBodyMass']` kako biste prikazali označene distribucije.


Čini se da ne postoji dobra korelacija između minimalnog raspona krila i statusa očuvanosti. Testirajte druge elemente skupa podataka koristeći ovu metodu. Možete isprobati i različite filtre. Nalazite li neku korelaciju?
@ -126,7 +126,7 @@ Radimo sada s grafovima gustoće!
Možete vidjeti kako grafikon odražava prethodni za podatke o minimalnom rasponu krila; samo je malo glađi. Ako želite ponovno pogledati onaj nazubljeni grafikon MaxBodyMass iz drugog grafikona koji ste izradili, mogli biste ga vrlo dobro izgladiti koristeći ovu metodu:
@ -134,7 +134,7 @@ Možete vidjeti kako grafikon odražava prethodni za podatke o minimalnom raspon
Voila, tortni grafikon koji prikazuje proporcije ovih podataka prema ove dvije klase gljiva. Vrlo je važno dobiti redoslijed oznaka točno, posebno ovdje, pa svakako provjerite redoslijed kojim je niz oznaka izgrađen!
Koristeći grafikon u obliku vafla, jasno možete vidjeti proporcije boja klobuka u ovom datasetu gljiva. Zanimljivo je da postoji mnogo gljiva sa zelenim klobukom!


U ovoj lekciji naučili ste tri načina za vizualizaciju proporcija. Prvo, trebate grupirati svoje podatke u kategorije, a zatim odlučiti koji je najbolji način za prikaz podataka - torta, prsten ili vafl. Svi su ukusni i pružaju korisniku trenutni pregled dataset-a.
Sada prikažite iste podatke s paletom boja meda kako biste pokazali kako se cijena razvija tijekom godina. To možete učiniti dodavanjem parametra 'scale_color_gradientn' za prikaz promjena iz godine u godinu:
@ -52,7 +52,7 @@ Sada prikažite iste podatke s paletom boja meda kako biste pokazali kako se cij
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
S ovom promjenom palete boja možete vidjeti očigledan snažan napredak tijekom godina u smislu cijene meda po funti. Doista, ako pogledate uzorak podataka za provjeru (odaberite određenu državu, na primjer Arizonu), možete vidjeti obrazac povećanja cijene iz godine u godinu, s nekoliko iznimaka:
Je li ovo jednostavan slučaj ponude i potražnje? Zbog faktora poput klimatskih promjena i kolapsa kolonija, je li dostupno manje meda za kupnju iz godine u godinu, pa cijena raste?
Odgovor: Ne baš. Ako pogledate ukupnu proizvodnju, čini se da je zapravo porasla te godine, iako općenito količina proizvedenog meda opada tijekom tih godina.
Za ovaj skup podataka, ništa posebno ne ističe se u vezi s brojem kolonija i njihovim prinosom, iz godine u godinu i iz države u državu. Postoji li drugačiji način za pronalaženje korelacije između ove dvije varijable?
Iako ništa ne iskače oko 2003. godine, ovo nam omogućuje da završimo ovu lekciju na malo sretnijoj noti: iako ukupno broj kolonija opada, broj kolonija se stabilizira čak i ako njihov prinos po koloniji opada.
@ -38,25 +38,25 @@ U prethodnim lekcijama eksperimentirali ste s izradom raznih zanimljivih vizuali
Čak i ako podatkovni znanstvenik pažljivo odabere pravi grafikon za prave podatke, postoji mnogo načina na koje se podaci mogu prikazati kako bi se dokazala određena točka, često na štetu samih podataka. Postoji mnogo primjera obmanjujućih grafikona i infografika!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kako grafikoni lažu")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kako grafikoni lažu")
> 🎥 Kliknite na sliku iznad za konferencijsko predavanje o obmanjujućim grafikonima
Ovaj grafikon obrće X os kako bi prikazao suprotnost istini, temeljenoj na datumu:
[Ovaj grafikon](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) još je obmanjujući jer oko privlači desna strana, sugerirajući da su slučajevi COVID-a opali tijekom vremena u raznim okruzima. Međutim, ako pažljivo pogledate datume, otkrit ćete da su preuređeni kako bi stvorili obmanjujući trend pada.
Ovaj zloglasni primjer koristi boju I obrnutu Y os kako bi obmanuo: umjesto zaključka da su smrtni slučajevi od vatrenog oružja porasli nakon donošenja zakona koji pogoduje oružju, oko je zavarano da misli suprotno:
Uspoređivanje neusporedivog još je jedan sumnjiv trik. Postoji [sjajna web stranica](https://tylervigen.com/spurious-correlations) posvećena 'lažnim korelacijama' koja prikazuje 'činjenice' koje povezuju, primjerice, stopu razvoda u Maineu i potrošnju margarina. Reddit grupa također prikuplja [ružne primjere](https://www.reddit.com/r/dataisugly/top/?t=all) korištenja podataka.
@ -91,13 +91,13 @@ Označite svoje osi, osigurajte legendu ako je potrebno i ponudite alate za bolj
Ako su vaši podaci tekstualni i opširni na X osi, možete zakrenuti tekst radi bolje čitljivosti. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) nudi 3D grafičke prikaze, ako vaši podaci to podržavaju. Sofisticirane vizualizacije podataka mogu se izraditi pomoću njega.
Neke od najboljih vizualizacija podataka danas su animirane. Shirley Wu ima nevjerojatne primjere izrađene pomoću D3, poput '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', gdje svaki cvijet predstavlja vizualizaciju filma. Drugi primjer za Guardian je 'bussed out', interaktivno iskustvo koje kombinira vizualizacije s Greensockom i D3 te formatom članka za prikaz kako NYC rješava problem beskućnika premještanjem ljudi izvan grada.
> "Bussed Out: Kako Amerika premješta svoje beskućnike" iz [Guardiana](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Vizualizacije autorice Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Iako ova lekcija nije dovoljno detaljna da vas nauči ovim moćnim bibliotekama
Dovršit ćete web aplikaciju koja će prikazati animirani prikaz ove društvene mreže. Koristi biblioteku koja je izrađena za stvaranje [vizualizacije mreže](https://github.com/emiliorizzo/vue-d3-network) koristeći Vue.js i D3. Kada aplikacija radi, možete povlačiti čvorove po ekranu kako biste premještali podatke.


> Fotografija od <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> na <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Vizualizacija podataka jedna je od najvažnijih zadaća data scientista. Slike vrijede više od 1000 riječi, a vizualizacija vam može pomoći da identificirate razne zanimljive dijelove vaših podataka, poput vrhunaca, odstupanja, grupiranja, tendencija i još mnogo toga, što vam može pomoći da razumijete priču koju vaši podaci žele ispričati.
> Fotografija od [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Prikupljanje
@ -92,7 +92,7 @@ Istražite [Team Data Science Process lifecycle](https://docs.microsoft.com/en-u
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
| |  |
| |  |
| Slika od [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Slika od [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Kviz nakon lekcije](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> Fotografija od <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> na <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
U ovim lekcijama istražit ćete neke aspekte životnog ciklusa podatkovne znanosti, uključujući analizu i komunikaciju vezanu uz podatke.
> Fotografija od [Jelleke Vanooteghem](https://unsplash.com/@ilumire) s [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Kada je riječ o primjeni data sciencea na velike količine podataka, oblak može biti revolucionaran. U sljedeće tri lekcije vidjet ćemo što je oblak i zašto može biti vrlo koristan. Također ćemo istražiti skup podataka o zatajenju srca i izgraditi model koji pomaže u procjeni vjerojatnosti da osoba ima zatajenje srca. Iskoristit ćemo snagu oblaka za treniranje, implementaciju i korištenje modela na dva različita načina. Jedan način koristi samo korisničko sučelje u stilu "Low code/No code", dok drugi način koristi Azure Machine Learning Software Developer Kit (Azure ML SDK).
@ -32,7 +32,7 @@ Zahvaljujući demokratizaciji AI-a, programerima je sada lakše dizajnirati i in
* [Data Science u zdravstvu](https://data-flair.training/blogs/data-science-in-healthcare/) - ističe primjene poput medicinskog snimanja (npr. MRI, X-Ray, CT-Scan), genomike (sekvenciranje DNA), razvoja lijekova (procjena rizika, predviđanje uspjeha), prediktivne analitike (skrb za pacijente i logistika opskrbe), praćenja i prevencije bolesti itd.
 Izvor slike: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Izvor slike: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Slika prikazuje druge domene i primjere primjene tehnika data sciencea. Želite istražiti druge primjene? Pogledajte odjeljak [Pregled i samostalno učenje](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) u nastavku.
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
Azure Cloud Advocacy u Microsoftu s radošću nude 10-tjedni, 20-lekcijski kurikulum posvećen Data Science-u. Svaka lekcija uključuje kviz prije i nakon lekcije, pisane upute za dovršetak lekcije, rješenje i zadatak. Naša pedagogija usmjerena na projekte omogućuje vam učenje kroz izgradnju, što je dokazan način da nove vještine „ostanu“.
Zagovornici Azure Clouda u Microsoftu s veseljem nude 10-tjedni, 20-lekcijski nastavni plan u potpunosti posvećen Data Scienceu. Svaka lekcija uključuje kvizove prije i poslije lekcije, pisane upute za dovršavanje lekcije, rješenje i zadatak. Naša pedagoška metoda bazirana na projektima omogućava učenje kroz izgradnju, dokazano djelotvoran način da nove vještine 'upamtiš'.
> Ovaj repozitorij uključuje 50+ prevoda što značajno povećava veličinu preuzimanja. Da biste klonirali bez prijevoda, koristite sparse checkout:
> **Radije lokalno klonirati?**
>
> Ovaj repozitorij uključuje prijevode na preko 50 jezika što značajno povećava veličinu preuzimanja. Za kloniranje bez prijevoda, koristite sparse checkout:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Ovo vam daje sve što vam treba za dovršetak tečaja s mnogo bržim preuzimanjem.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Ako želite da budu podržani dodatni jezici prijevoda, oni su navedeni [ovdje](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Ako želite podržati dodatne jezike prijevoda, popis podržanih jezika je [ovdje](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
Imamo aktivnu seriju na Discordu pod nazivom "Uči s AI-jem", saznajte više i pridružite nam se na [Learn with AI Series](https://aka.ms/learnwithai/discord) od 18. do 30. rujna 2025. Dobit ćete savjete i trikove o korištenju GitHub Copilot za Data Science.
Imamo u tijeku Discord seriju "learn with AI", saznajte više i pridružite nam se na [Learn with AI Series](https://aka.ms/learnwithai/discord) od 18. do 30. rujna 2025. Dobit ćete korisne savjete i trikove za korištenje GitHub Copilota za Data Science.

# Jeste li student?
Počnite s sljedećim resursima:
Započnite sa sljedećim resursima:
- [Student Hub stranica](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Na ovoj stranici pronaći ćete resurse za početnike, Studentske pakete pa čak i načine da dobijete besplatni certifikat. Ovo je stranica koju želite označiti i povremeno provjeravati jer sadržaj mijenjamo barem mjesečno.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Pridružite se globalnoj zajednici studentskih ambasadora, ovo bi mogao biti vaš put u Microsoft.
- [Student Hub stranica](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Na ovoj stranici pronaći ćete resurse za početnike, studentske pakete pa čak i načine za dobiti besplatni certifikat vaučer. Ovo je stranica koju ćete htjeti bookmarkirati i povremeno pregledavati jer redovito mijenjamo sadržaj, barem na mjesečnoj bazi.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Pridružite se globalnoj zajednici studentskih ambasadora, ovo može biti vaš put u Microsoft.
# Početak rada
# Početak
## 📚 Dokumentacija
- **[Vodič za instalaciju](INSTALLATION.md)** - Korak po korak upute za početnike
- **[Vodič za korištenje](USAGE.md)** - Primjeri i uobičajeni radni tijekovi
- **[Rješavanje problema](TROUBLESHOOTING.md)** - Rješenja uobičajenih problema
- **[Vodič za doprinos](CONTRIBUTING.md)** - Kako doprinositi ovom projektu
- **[Za nastavnike](for-teachers.md)** - Upute za podučavanje i resursi za školu
- **[Upute za instalaciju](INSTALLATION.md)** - Korak-po-korak upute za postavljanje za početnike
- **[Upute za korištenje](USAGE.md)** - Primjeri i uobičajeni postupci
- **[Rješavanje problema](TROUBLESHOOTING.md)** - Rješenja za uobičajene probleme
- **[Upute za doprinos](CONTRIBUTING.md)** - Kako pridonijeti ovom projektu
- **[Za nastavnike](for-teachers.md)** - Upute za podučavanje i materijali za nastavu
## 👨🎓 Za studente
> **Potpuni početnici**: Novi ste u data science? Počnite s našim [primjerima prilagođenim početnicima](examples/README.md)! Ovi jednostavni, dobro komentirani primjeri pomoći će vam razumjeti osnove prije nego što prijeđete na cijeli kurikulum.
> **[Studenti](https://aka.ms/student-page)**: za korištenje ovog kurikuluma samostalno, napravite fork cijelog repozitorija i samostalno dovršite vježbe, počevši s kvizom prije predavanja. Zatim pročitajte predavanje i dovršite ostale aktivnosti. Pokušajte stvarati projekte razumijevanjem lekcija, a ne kopirajući rješenje; međutim, taj je kod dostupan u mapama /solutions u svakoj lekciji usmjerenoj na projekt. Još jedna ideja je da formirate studijsku grupu s prijateljima i zajedno prolazite sadržaj. Za daljnje učenje preporučujemo [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Potpuni početnici**: Novi ste u data scienceu? Započnite s našim [primjerima prilagođenim početnicima](examples/README.md)! Ovi jednostavni, dobro komentirani primjeri pomoći će vam shvatiti osnove prije nego započnete s punim nastavnim planom.
> **[Studenti](https://aka.ms/student-page)**: Za samostalan rad na ovom nastavnom planu, forkajte cijeli repozitorij i sami dovršavajte zadatke, počevši s kvizom prije predavanja. Zatim pročitajte predavanje i dovršite ostatak aktivnosti. Pokušajte stvarati projekte razumijevanjem lekcija umjesto kopiranjem koda rješenja; no taj kod je dostupan u mapama /solutions u svakoj lekciji usmjerenoj na projekte. Druga ideja je formirati studijsku grupu s prijateljima i zajedno prolaziti sadržaj. Za dodatno učenje preporučujemo [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Brzi početak:**
1. Pogledajte [Vodič za instalaciju](INSTALLATION.md) za postavljanje okruženja
2. Pregledajte [Vodič za korištenje](USAGE.md) da naučite kako raditi s kurikulumom
3. Počnite s Lekcijom 1 i redom prođite kroz lekcije
1. Provjerite [Upute za instalaciju](INSTALLATION.md) za postavljanje vašeg okruženja
2. Pregledajte [Upute za korištenje](USAGE.md) kako biste naučili rad s nastavnim planom
3. Započnite s Lekcijom 1 i radite redom
4. Pridružite se našoj [Discord zajednici](https://aka.ms/ds4beginners/discord) za podršku
## 👩🏫 Za nastavnike
> **Nastavnici**: uključili smo [neke prijedloge](for-teachers.md) o tome kako koristiti ovaj kurikulum. Veselimo se vašim povratnim informacijama [u našem forumu za raspravu](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Nastavnici**: uključen je [nekoliko prijedloga](for-teachers.md) o tome kako koristiti ovaj kurikulum. Veselimo se vašim povratnim informacijama [na našem forumu za raspravu](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> 🎥 Kliknite na gornju sliku za video o projektu i ljudima koji su ga stvorili!
> 🎥 Kliknite gornju sliku za video o projektu i ljudima koji su ga stvorili!
## Pedagogija
Odabrali smo dva pedagoška načela prilikom izrade ovog kurikuluma: osigurati da bude baziran na projektima i da uključuje česte kvizove. Do kraja ove serije, studenti će naučiti osnovne principe znanosti o podacima, uključujući etičke koncepte, pripremu podataka, različite načine rada s podacima, vizualizaciju podataka, analizu podataka, primjere iz stvarnog svijeta primjene znanosti o podacima i više.
Prilikom izrade ovog kurikuluma odabrali smo dva pedagoška načela: osigurati da je projektno orijentiran i da uključuje česte kvizove. Do kraja ove serije, učenici će naučiti osnovne principe podatkovne znanosti, uključujući etičke koncepte, pripremu podataka, različite načine rada s podacima, vizualizaciju podataka, analizu podataka, primjere upotrebe podatkovne znanosti u stvarnom svijetu i više.
Uz to, kviz s niskim ulogom prije sata postavlja namjeru studenta prema učenju teme, dok drugi kviz nakon sata osigurava dodatno zadržavanje znanja. Ovaj kurikulum je dizajniran da bude fleksibilan i zabavan te ga se može pohađati u cijelosti ili djelomično. Projekti počinju malo i postaju sve složeniji do kraja ciklusa od 10 tjedana.
Osim toga, kviz s niskim ulogom prije sata usmjerava učenikovu namjeru prema učenju teme, dok drugi kviz nakon sata osigurava dodatno zadržavanje znanja. Ovaj kurikulum dizajniran je da bude fleksibilan i zabavan i može se prolaziti u cijelosti ili dijelom. Projekti započinju mali i postaju složeniji do kraja 10-tjednog ciklusa.
> Pronađite naš [Kodeks ponašanja](CODE_OF_CONDUCT.md), [Upute za doprinos](CONTRIBUTING.md), [Prijevode](TRANSLATIONS.md). Dobrodošli su vaši konstruktivni komentari!
> Pronađite naš [Kodeks ponašanja](CODE_OF_CONDUCT.md), [Upute za doprinos](CONTRIBUTING.md), [Pravila prevođenja](TRANSLATIONS.md). Veselimo se vašim konstruktivnim povratnim informacijama!
## Svaka lekcija uključuje:
- Opcionalni sketchnote
- Opcionalni dodatni video
- Neobavezan sketchnote
- Neobavezan dodatni video
- Kviz za zagrijavanje prije lekcije
- Pisanu lekciju
- Za lekcije bazirane na projektu, vodiče korak po korak kako izgraditi projekt
- Za projektno orijentirane lekcije, korak-po-korak vodiče za izgradnju projekta
- Provjere znanja
- Izazov
- Dodatnu literaturu
- Dodatno čitanje
- Zadatak
- [Kviz nakon lekcije](https://ff-quizzes.netlify.app/en/)
> **Napomena o kvizovima**: Svi kvizovi nalaze se u mapi Quiz-App, ukupno 40 kvizova sa po tri pitanja svaki. Povezani su iz lekcija, ali aplikaciju za kvizove možete pokrenuti lokalno ili je implementirati na Azure; slijedite upute u mapi `quiz-app`. Postupno se lokaliziraju.
> **Napomena o kvizovima**: Svi kvizovi nalaze se u mapi Quiz-App, ukupno 40 kvizova po tri pitanja svaki. Povezani su unutar lekcija, ali quiz app se može pokrenuti lokalno ili implementirati na Azure; slijedite upute u mapi `quiz-app`. Postupno se lokaliziraju.
## 🎓 Primjeri prilagođeni početnicima
**Novi ste u znanosti o podacima?** Stvorili smo poseban [direktorij primjera](examples/README.md) sa jednostavnim, dobro komentiranim kodom za lakši početak:
**Novi ste u podatkovnoj znanosti?** Kreirali smo poseban [direktorij primjera](examples/README.md) s jednostavnim i dobro komentiranim kodom koji će vam pomoći da započnete:
- 🌟 **Hello World** - Vaš prvi program za znanost o podacima
- 🌟 **Hello World** - Vaš prvi program podatkovne znanosti
- 📂 **Učitavanje podataka** - Naučite kako čitati i istraživati skupove podataka
- 📊 **Jednostavna analiza** - Izračunajte statistiku i pronađite obrasce
- 📈 **Osnovna vizualizacija** - Izradite grafikone i nacrte
- 🔬 **Projekt iz stvarnog svijeta** - Kompletan tijek rada od početka do kraja
- 📊 **Jednostavna analiza** - Izračunajte statistike i pronađite obrasce
- 📈 **Osnovna vizualizacija** - Stvarajte grafikone i grafikone
- 🔬 **Projekt iz stvarnog svijeta** - Potpuni radni tijek od početka do kraja
Svaki primjer uključuje detaljne komentare koji objašnjavaju svaki korak, što ga čini savršenim za apsolutne početnike!
@ -135,59 +145,59 @@ Svaki primjer uključuje detaljne komentare koji objašnjavaju svaki korak, što
||
|:---:|
| Znanost o podacima za početnike: Plan puta - _Sketchnote autor [@nitya](https://twitter.com/nitya)_ |
| Podatkovna znanost za početnike: Putokaz - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
| Broj lekcije | Tema | Grupiranje lekcija | Ciljevi učenja | Povezana lekcija | Autor |
| Broj lekcije | Tema | Grupiranje lekcije | Ciljevi učenja | Povezana lekcija | Autor |
| 01 | Definiranje znanosti o podacima | [Uvod](1-Introduction/README.md) | Naučite osnovne pojmove koji stoje iza znanosti o podacima i kako je povezana s umjetnom inteligencijom, strojnim učenjem i velikim podacima. | [lekcija](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etika u znanosti o podacima | [Uvod](1-Introduction/README.md) | Koncepti, izazovi i okviri etike podataka. | [lekcija](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definiranje podataka | [Uvod](1-Introduction/README.md) | Kako su podaci klasificirani i njihovi uobičajeni izvori. | [lekcija](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 01 | Definiranje podatkovne znanosti | [Uvod](1-Introduction/README.md) | Naučite osnovne pojmove vezane uz podatkovnu znanost i kako je povezana s umjetnom inteligencijom, strojnim učenjem i velikim podacima. | [lekcija](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etika podatkovne znanosti | [Uvod](1-Introduction/README.md) | Koncepti, izazovi i okviri etike podataka. | [lekcija](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definiranje podataka | [Uvod](1-Introduction/README.md) | Kako se podaci klasificiraju i njihovi uobičajeni izvori. | [lekcija](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Uvod u statistiku i vjerojatnost | [Uvod](1-Introduction/README.md) | Matematičke tehnike vjerojatnosti i statistike za razumijevanje podataka. | [lekcija](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Rad s relacijskim podacima | [Rad s podacima](2-Working-With-Data/README.md) | Uvod u relacijske podatke i osnove istraživanja i analize relacijskih podataka pomoću jezika za strukturirane upite, poznatog kao SQL (izgovara se „es-kju-el“). | [lekcija](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Rad s NoSQL podacima | [Rad s podacima](2-Working-With-Data/README.md) | Uvod u nerealacijske podatke, njihove različite vrste i osnove istraživanja i analize baza dokumenata. | [lekcija](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Rad s Pythonom | [Rad s podacima](2-Working-With-Data/README.md) | Osnove korištenja Pythona za istraživanje podataka s bibliotekama poput Pandas. Preporučuje se osnovno razumijevanje programiranja u Pythonu. | [lekcija](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Priprema podataka | [Rad s podacima](2-Working-With-Data/README.md) | Teme o tehnikama čišćenja i transformacije podataka za rješavanje problema poput nedostajućih, netočnih ili nepotpunih podataka. | [lekcija](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 05 | Rad s relacijskim podacima | [Rad s podacima](2-Working-With-Data/README.md) | Uvod u relacijske podatke i osnove istraživanja i analize relacijskih podataka uz korištenje strukturalnog jezika upita, poznatog kao SQL (izgovara se "es-kju-el"). | [lekcija](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Rad s NoSQL podacima | [Rad s podacima](2-Working-With-Data/README.md) | Uvod u nerelacijske podatke, različite vrste i osnove istraživanja i analize dokumenata baza podataka. | [lekcija](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Rad s Pythonom | [Rad s podacima](2-Working-With-Data/README.md) | Osnove korištenja Pythona za istraživanje podataka s bibliotekama kao što je Pandas. Preporučeno osnovno razumijevanje programiranja u Pythonu. | [lekcija](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Priprema podataka | [Rad s podacima](2-Working-With-Data/README.md) | Tematska područja tehnika čišćenja i transformacije podataka za rješavanje izazova poput nedostajućih, netočnih ili nepotpunih podataka. | [lekcija](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Vizualizacija količina | [Vizualizacija podataka](3-Data-Visualization/README.md) | Naučite kako koristiti Matplotlib za vizualizaciju podataka o pticama 🦆 | [lekcija](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Vizualizacija distribucija podataka | [Vizualizacija podataka](3-Data-Visualization/README.md) | Vizualizacija opažanja i trendova unutar intervala. | [lekcija](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Vizualizacija raspodjele podataka | [Vizualizacija podataka](3-Data-Visualization/README.md) | Vizualizacija opažanja i trendova unutar intervala. | [lekcija](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Vizualizacija odnosa | [Vizualizacija podataka](3-Data-Visualization/README.md) | Vizualizacija veza i korelacija između skupova podataka i njihovih varijabli. | [lekcija](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Značajne vizualizacije | [Vizualizacija podataka](3-Data-Visualization/README.md) | Tehnike i smjernice za stvaranje vrijednih vizualizacija za učinkovito rješavanje problema i dobivanje uvida. | [lekcija](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Uvod u životni ciklus znanosti o podacima | [Životni ciklus](4-Data-Science-Lifecycle/README.md) | Uvod u životni ciklus znanosti o podacima i njegov prvi korak - prikupljanje i ekstrakcija podataka. | [lekcija](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analiza | [Životni ciklus](4-Data-Science-Lifecycle/README.md) | Ova faza životnog ciklusa znanosti o podacima fokusira se na tehnike analize podataka. | [lekcija](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikacija | [Životni ciklus](4-Data-Science-Lifecycle/README.md) | Ova faza životnog ciklusa znanosti o podacima fokusira se na prezentaciju uvida iz podataka na način koji olakšava razumijevanje donositeljima odluka. | [lekcija](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Znanost o podacima u oblaku | [Podaci u oblaku](5-Data-Science-In-Cloud/README.md) | Ova serija lekcija uvodi znanost o podacima u oblaku i njezine prednosti. | [lekcija](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) i [Maud](https://twitter.com/maudstweets) |
| 18 | Znanost o podacima u oblaku | [Podaci u oblaku](5-Data-Science-In-Cloud/README.md) | Treniranje modela korištenjem Low Code alata. |[lekcija](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) i [Maud](https://twitter.com/maudstweets) |
| 19 | Znanost o podacima u oblaku | [Podaci u oblaku](5-Data-Science-In-Cloud/README.md) | Implementacija modela pomoću Azure Machine Learning Studio. | [lekcija](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) i [Maud](https://twitter.com/maudstweets) |
| 20 | Znanost o podacima u stvarnosti | [U stvarnosti](6-Data-Science-In-Wild/README.md) | Projekti temeljeni na znanosti o podacima u stvarnom svijetu. | [lekcija](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 14 | Uvod u životni ciklus podatkovne znanosti | [Životni ciklus](4-Data-Science-Lifecycle/README.md) | Uvod u životni ciklus podatkovne znanosti i njegov prvi korak - prikupljanje i izdvajanje podataka. | [lekcija](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analiza | [Životni ciklus](4-Data-Science-Lifecycle/README.md) | Ova faza životnog ciklusa podatkovne znanosti fokusira se na tehnike analize podataka. | [lekcija](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikacija | [Životni ciklus](4-Data-Science-Lifecycle/README.md) | Ova faza životnog ciklusa podatkovne znanosti fokusira se na prezentiranje uvida iz podataka na način koji olakšava razumijevanje donositeljima odluka. | [lekcija](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Podatkovna znanost u oblaku | [Podaci u oblaku](5-Data-Science-In-Cloud/README.md) | Ova serija lekcija uvodi podatkovnu znanost u oblak i njezine prednosti. | [lekcija](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) i [Maud](https://twitter.com/maudstweets) |
| 18 | Podatkovna znanost u oblaku | [Podaci u oblaku](5-Data-Science-In-Cloud/README.md) | Treniranje modela koristeći Low Code alate. |[lekcija](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) i [Maud](https://twitter.com/maudstweets) |
| 19 | Podatkovna znanost u oblaku | [Podaci u oblaku](5-Data-Science-In-Cloud/README.md) | Implementacija modela s Azure Machine Learning Studio. | [lekcija](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) i [Maud](https://twitter.com/maudstweets) |
| 20 | Podatkovna znanost u praksi | [U praksi](6-Data-Science-In-Wild/README.md) | Projekti vođeni podatkovnom znanošću u stvarnom svijetu. | [lekcija](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Slijedite ove korake za otvaranje ovog uzorka u Codespace-u:
Slijedite ove korake da biste otvorili ovaj primjer u Codespaceu:
1. Kliknite na padajući izbornik Code i odaberite opciju Open with Codespaces.
2. Odaberite + New codespace na dnu panela.
2. Odaberite + New codespace pri dnu okna.
Za više informacija, pogledajte [GitHub dokumentaciju](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Slijedite ove korake za otvaranje ovog spremišta u kontejneru koristeći lokalno računalo i VSCode uz pomoć proširenja VS Code Remote - Containers:
Slijedite ove korake da biste otvorili ovaj repozitorij u kontejneru koristeći vaše lokalno računalo i VSCode s proširenjem VS Code Remote - Containers:
1. Ako prvi put koristite razvojni kontejner, provjerite da vaš sustav ispunjava preduvjete (npr. instaliran Docker) u [uputama za početak](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Ako prvi put koristite razvojni kontejner, provjerite zadovoljava li vaš sustav preduvjete (npr. imate li instaliran Docker) u [putu za početak rada](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Da biste koristili ovo spremište, možete ga otvoriti u izoliranom Docker volumenu:
Za korištenje ovog repozitorija možete ili otvoriti repozitorij u izoliranom Docker volumenu:
**Napomena**: U pozadini, ovo će koristiti naredbu Remote-Containers: **Clone Repository in Container Volume...** za kloniranje izvornog koda u Docker volumen umjesto lokalnog datotečnog sustava. [Volumeni](https://docs.docker.com/storage/volumes/) su preferirani način za trajno pohranjivanje podataka kontejnera.
**Napomena**: U pozadini će se koristiti naredba Remote-Containers: **Clone Repository in Container Volume...** za kloniranje izvornog koda unutar Docker volumena umjesto lokalnog datotečnog sustava. [Volumeni](https://docs.docker.com/storage/volumes/) su preferirani mehanizam za trajno pohranjivanje podataka kontejnera.
Ili otvorite lokalno kloniranu ili preuzetu verziju spremišta:
Ili otvoriti lokalno kloniranu ili preuzetu verziju repozitorija:
- Klonirajte ovo spremište na lokalni datotečni sustav.
- Klonirajte ovaj repozitorij na svoj lokalni datotečni sustav.
- Pritisnite F1 i odaberite naredbu **Remote-Containers: Open Folder in Container...**.
- Odaberite kloniranu kopiju ove mape, pričekajte da se kontejner pokrene i isprobajte.
- Odaberite kloniranu kopiju ove mape, pričekajte da kontejner krene i isprobajte.
## Pristup bez interneta
## Pristup bez mreže
Ovu dokumentaciju možete koristiti offline pomoću [Docsify](https://docsify.js.org/#/). Forkajte ovo spremište, [instalirajte Docsify](https://docsify.js.org/#/quickstart) na lokalno računalo, zatim u korijenskoj mapi ovog spremišta upišite `docsify serve`. Web stranica će se poslužiti na portu 3000 na vašem localhostu: `localhost:3000`.
Ovu dokumentaciju možete pokrenuti offline koristeći [Docsify](https://docsify.js.org/#/). Forkajte ovaj repozitorij, [instalirajte Docsify](https://docsify.js.org/#/quickstart) na svom lokalnom računalu, zatim u korijenskoj mapi ovog repozitorija upišite `docsify serve`. Web stranica bit će dostupna na portu 3000 na vašem localhostu: `localhost:3000`.
> Napomena, bilježnice se neće prikazivati putem Docsify-ja, pa kada trebate pokrenuti bilježnicu, učinite to zasebno u VS Code-u koji koristi Python kernel.
> Napomena, bilježnice se neće prikazivati preko Docsifyja, pa kada trebate pokrenuti bilježnicu, učinite to zasebno u VS Codeu koji pokreće Python kernel.
## Ostali kurikulumi
@ -195,53 +205,53 @@ Naš tim proizvodi i druge kurikulume! Pogledajte:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Agenti
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
### Azure / Edge / MCP / Agent
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Serija Generativne AI
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
### Serija generativne umjetne inteligencije
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### Osnovno Učenje
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
### Osnovno učenje
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Serija Copilot
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**Imate problema?** Pogledajte naš [Vodič za Rješavanje Problema](TROUBLESHOOTING.md) za rješenja uobičajenih problema.
**Imate problema?** Pogledajte naš [Vodič za rješavanje problema](TROUBLESHOOTING.md) za rješenja uobičajenih problema.
Ako zapnete ili imate pitanja o izgradnji AI aplikacija, pridružite se ostalim polaznicima i iskusnim programerima u raspravama o MCP-u. To je podržavajuća zajednica gdje su pitanja dobrodošla, a znanje slobodno dijeljeno.
Ako zapnete ili imate pitanja o izgradnji AI aplikacija, pridružite se drugim polaznicima i iskusnim programerima u raspravama o MCP-u. To je podržavajuća zajednica u kojoj su pitanja dobrodošla, a znanje se slobodno dijeli.
@ -249,5 +259,5 @@ Ako imate povratne informacije o proizvodu ili pogreške tijekom izgradnje posje
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Odricanje od odgovornosti**:
Ovaj dokument preveden je pomoću AI usluge prevođenja [Co-op Translator](https://github.com/Azure/co-op-translator). Iako nastojimo postići točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku smatra se službenim i relevantnim izvorom. Za važne informacije preporučuje se profesionalni prijevod od strane stručnog prevoditelja. Ne snosimo odgovornost za bilo kakva nesporazumevanja ili pogrešna tumačenja koja mogu proizaći iz korištenja ovog prijevoda.
Ovaj dokument je preveden koristeći AI prevodilačku uslugu [Co-op Translator](https://github.com/Azure/co-op-translator). Iako se trudimo osigurati točnost, imajte na umu da automatizirani prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na njegovom izvornom jeziku treba se smatrati službenim izvorom. Za važne informacije preporučuje se profesionalni ljudski prijevod. Ne snosimo odgovornost za bilo kakve nesporazume ili kriva tumačenja koja proizlaze iz uporabe ovog prijevoda.
[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
@ -144,7 +144,7 @@ Ko začnemo analizirati rezultate testov z več izbirami, lahko poskusimo ugotov
V tem izzivu bomo poskušali najti koncepte, povezane s področjem podatkovne znanosti, tako da bomo analizirali besedila. Vzeli bomo članek iz Wikipedije o podatkovni znanosti, prenesli in obdelali besedilo ter nato ustvarili oblak besed, kot je ta:


Obiščite [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), da si ogledate kodo. Prav tako lahko zaženete kodo in vidite, kako v realnem času izvaja vse transformacije podatkov.
"# Izziv: Analiza besedila o podatkovni znanosti\n",
"# Izziv: Analiza besedila o znanosti o podatkih\n",
"\n",
"V tem primeru bomo izvedli preprosto vajo, ki zajema vse korake tradicionalnega procesa podatkovne znanosti. Kode ni treba pisati, preprosto kliknite na spodnje celice, da jih izvedete, in opazujte rezultat. Kot izziv pa vas spodbujamo, da to kodo preizkusite z različnimi podatki.\n",
"V tem primeru bomo naredili preprosto vajo, ki zajema vse korake tradicionalnega procesa znanosti o podatkih. Ni vam treba pisati nobene kode, lahko samo kliknete na celice spodaj, da jih izvedete in opazujete rezultat. Kot izziv pa ste vabljeni, da ta koda preizkusite z različnimi podatki.\n",
"\n",
"## Cilj\n",
"\n",
"V tej lekciji smo razpravljali o različnih konceptih, povezanih s podatkovno znanostjo. Poskusimo odkriti več povezanih konceptov z uporabo **rudarjenja besedila**. Začeli bomo z besedilom o podatkovni znanosti, iz njega izluščili ključne besede in nato poskusili vizualizirati rezultat.\n",
"V tej lekciji smo govorili o različnih konceptih, povezanih z znanostjo o podatkih. Poskusimo odkriti več povezanih konceptov z uporabo **rudarjenja besedil**. Začeli bomo z besedilom o znanosti o podatkih, iz njega izvlekli ključne besede in nato poskusili vizualizirati rezultat.\n",
"\n",
"Kot besedilo bomo uporabili stran o podatkovni znanosti iz Wikipedije:\n"
"Kot besedilo bom uporabil stran o znanosti o podatkih iz Wikipedije:\n"
],
"metadata": {}
},
@ -34,7 +34,7 @@
"source": [
"## Korak 1: Pridobivanje podatkov\n",
"\n",
"Prvi korak v vsakem procesu podatkovne znanosti je pridobivanje podatkov. Za to bomo uporabili knjižnico `requests`:\n"
"Prvi korak v vsakem procesu znanosti o podatkih je pridobivanje podatkov. Za to bomo uporabili knjižnico `requests`:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Korak 2: Pretvorba podatkov\n",
"\n",
"Naslednji korak je pretvorba podatkov v obliko, primerno za obdelavo. V našem primeru smo prenesli izvorno kodo HTML s strani, zdaj pa jo moramo pretvoriti v navadno besedilo.\n",
"Naslednji korak je pretvorba podatkov v obliko, primerno za obdelavo. V našem primeru smo prenesli izvorno kodo HTML s strani in jo moramo pretvoriti v navadno besedilo.\n",
"\n",
"Obstaja veliko načinov, kako to doseči. Uporabili bomo najpreprostejši vgrajeni objekt [HTMLParser](https://docs.python.org/3/library/html.parser.html) iz Pythona. Potrebno je podrazrediti razred `HTMLParser` in definirati kodo, ki bo zbirala ves tekst znotraj HTML oznak, razen oznak `<script>` in `<style>`.\n"
"Obstaja veliko načinov, kako to narediti. Uporabili bomo [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), priljubljeno knjižnico Python za razčlenjevanje HTML. BeautifulSoup nam omogoča ciljanje na določene HTML elemente, tako da se lahko osredotočimo na glavno vsebino članka na Wikipediji in zmanjšamo nekatere navigacijske menije, stranske vrstice, noge ter drugo nepomembno vsebino (čeprav lahko nekaj osnovnega besedila še vedno ostane).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Najprej moramo namestiti knjižnico BeautifulSoup za razčlenjevanje HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## Korak 3: Pridobivanje vpogledov\n",
"\n",
"Najpomembnejši korak je, da naše podatke pretvorimo v obliko, iz katere lahko pridobimo vpoglede. V našem primeru želimo iz besedila izluščiti ključne besede in ugotoviti, katere ključne besede so bolj pomembne.\n",
"Najpomembnejši korak je, da naše podatke pretvorimo v neko obliko, iz katere lahko izvlečemo vpoglede. V našem primeru želimo iz besedila izvleči ključne besede in videti, katere ključne besede so bolj pomembne.\n",
"\n",
"Uporabili bomo Python knjižnico, imenovano [RAKE](https://github.com/aneesha/RAKE) za ekstrakcijo ključnih besed. Najprej namestimo to knjižnico, če je še ni:\n"
"Uporabili bomo Python knjižnico imenovano [RAKE](https://github.com/aneesha/RAKE) za izvleček ključnih besed. Najprej namestimo to knjižnico, če ni že prisotna: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Glavna funkcionalnost je na voljo prek objekta `Rake`, ki ga lahko prilagodimo z nekaterimi parametri. V našem primeru bomo nastavili minimalno dolžino ključne besede na 5 znakov, minimalno pogostost ključne besede v dokumentu na 3 in največje število besed v ključni besedi na 2. Po želji lahko eksperimentirate z drugimi vrednostmi in opazujete rezultat.\n"
"Glavna funkcionalnost je na voljo iz objekta `Rake`, ki ga lahko prilagodimo z nekaterimi parametri. V našem primeru bomo nastavili minimalno dolžino ključne besede na 5 znakov, minimalno pogostost ključne besede v dokumentu na 3 in največje število besed v ključni besedi na 2. Kar brez zadržkov poizkusi z drugimi vrednostmi in opazuj rezultat.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Pridobili smo seznam izrazov skupaj z njihovo stopnjo pomembnosti. Kot lahko vidite, so najpomembnejše discipline, kot sta strojno učenje in veliki podatki, na seznamu uvrščene na najvišja mesta.\n",
"Pridobili smo seznam izrazov skupaj z dodeljeno stopnjo pomembnosti. Kot lahko vidite, so najbolj pomembne discipline, kot sta strojno učenje in veliki podatki, na seznamu prisotne na vrhnjih mestih.\n",
"\n",
"## Korak 4: Vizualizacija rezultata\n",
"\n",
"Ljudje podatke najbolje razumejo v vizualni obliki. Zato pogosto smiselno vizualiziramo podatke, da pridobimo določene vpoglede. Za prikaz preproste porazdelitve ključnih besed z njihovo pomembnostjo lahko v Pythonu uporabimo knjižnico `matplotlib`:\n"
"Ljudje najbolje interpretirajo podatke v vizualni obliki. Zato pogosto smiselno prikazati podatke vizualno, da lahko iz njih izluščimo določene vpoglede. Za preprosto prikazovanje porazdelitve ključnih besed glede na njihovo pomembnost lahko uporabimo knjižnico `matplotlib` v Pythonu:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Vendar pa obstaja še boljši način za vizualizacijo pogostosti besed - z uporabo **oblačka besed**. Za prikaz oblačka besed iz našega seznama ključnih besed bomo morali namestiti še eno knjižnico.\n"
"Obstaja pa še boljši način za vizualizacijo pogostosti besed - z uporabo **Word Cloud**. Za risanje oblačka besed iz našega seznama ključnih besed bomo morali namestiti še eno knjižnico.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` objekt je odgovoren za sprejemanje bodisi izvirnega besedila ali vnaprej izračunanega seznama besed z njihovimi frekvencami in vrne sliko, ki jo je nato mogoče prikazati z uporabo `matplotlib`:\n"
"`WordCloud` objekt je odgovoren za sprejemanje bodisi originalnega besedila ali predhodno izračunanega seznama besed z njihovimi pogostostmi in vrne sliko, ki jo je nato mogoče prikazati z uporabo `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Prvotno besedilo lahko posredujemo tudi v `WordCloud` - poglejmo, ali lahko dosežemo podoben rezultat:\n"
"Lahko tudi posredujemo izvirno besedilo v `WordCloud` - poglejmo, ali lahko dobimo podoben rezultat:\n"
],
"metadata": {}
},
@ -372,9 +370,9 @@
{
"cell_type": "markdown",
"source": [
"Zdaj lahko vidite, da je besedni oblak videti bolj impresiven, vendar vsebuje tudi veliko šuma (npr. nepovezane besede, kot je `Retrieved on`). Prav tako dobimo manj ključnih besed, ki so sestavljene iz dveh besed, kot sta *data scientist* ali *computer science*. To je zato, ker algoritem RAKE veliko bolje izbere dobre ključne besede iz besedila. Ta primer ponazarja pomen predobdelave in čiščenja podatkov, saj nam jasna slika na koncu omogoča sprejemanje boljših odločitev.\n",
"Lahko vidite, da besedni oblak zdaj izgleda bolj impresivno, vendar vsebuje tudi veliko šuma (npr. nepovezane besede, kot je `Retrieved on`). Prav tako dobimo manj ključnih besed, ki so sestavljene iz dveh besed, kot so *data scientist* ali *computer science*. To je zato, ker RAKE algoritem veliko bolje izbere dobre ključne besede iz besedila. Ta primer ponazarja pomembnost predhodne obdelave in čiščenja podatkov, saj nam jasna slika na koncu omogoča, da sprejemamo boljše odločitve.\n",
"\n",
"V tej vaji smo šli skozi preprost proces pridobivanja pomena iz besedila na Wikipediji v obliki ključnih besed in besednega oblaka. Ta primer je precej preprost, vendar dobro prikazuje vse tipične korake, ki jih podatkovni znanstvenik opravi pri delu s podatki, od pridobivanja podatkov do vizualizacije.\n",
"V tej vaji smo šli skozi preprost postopek izvlečenja pomena iz besedila Wikipedije, v obliki ključnih besed in besednega oblaka. Ta primer je precej preprost, a dobro prikazuje vse tipične korake, ki jih bo podatkovni znanstvenik izvedel pri delu s podatki, od pridobivanja podatkov do vizualizacije.\n",
"\n",
"Na našem tečaju bomo vse te korake podrobno obravnavali.\n"
],
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Omejitev odgovornosti**: \nTa dokument je bil preveden z uporabo storitve za prevajanje z umetno inteligenco [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem maternem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo profesionalni človeški prevod. Ne prevzemamo odgovornosti za morebitna nesporazumevanja ali napačne razlage, ki bi nastale zaradi uporabe tega prevoda.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Omejitev odgovornosti**:\nTa dokument je bil preveden s pomočjo AI prevajalske storitve [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko samodejni prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovi izvirni jezikovni različici velja za verodostojen vir. Za pomembne informacije priporočamo strokovni človeški prevod. Nismo odgovorni za morebitne nesporazume ali napačne interpretacije, ki izhajajo iz uporabe tega prevoda.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"# Izziv: Analiza besedila o podatkovni znanosti\n",
"\n",
"> *V tej beležnici eksperimentiramo z uporabo različnih URL-jev - Wikipedijskega članka o strojnem učenju. Opazite lahko, da ta članek, za razliko od podatkovne znanosti, vsebuje veliko izrazov, kar analizo otežuje. Moramo najti drug način za čiščenje podatkov po ekstrakciji ključnih besed, da se znebimo nekaterih pogostih, a nepomembnih besednih zvez.*\n",
"> *V tem zvezku preizkušamo uporabo različnih URL - Wikipedije članek o strojnem učenju. Vidite lahko, da ta članek, v nasprotju s podatkovno znanostjo, vsebuje veliko izrazov, zaradi česar je analiza bolj problematična. Potrebujemo drugačen način čiščenja podatkov po izvleku ključnih besed, da se znebimo nekaterih pogostih, a nepomembnih besednih zvez.*\n",
"\n",
"V tem primeru bomo izvedli preprosto vajo, ki zajema vse korake tradicionalnega procesa podatkovne znanosti. Ni vam treba pisati nobene kode, preprosto kliknite na spodnje celice, da jih izvedete in opazujete rezultat. Kot izziv ste spodbujeni, da to kodo preizkusite z različnimi podatki.\n",
"V tem primeru naredimo preprosto vajo, ki pokriva vse korake tradicionalnega procesa podatkovne znanosti. Ni vam treba pisati kode, lahko samo kliknete na celice spodaj, da jih izvedete in opazujete rezultat. Kot izziv ste povabljeni, da poskusite to kodo z različnimi podatki.\n",
"\n",
"## Cilj\n",
"\n",
"V tej lekciji smo razpravljali o različnih konceptih, povezanih s podatkovno znanostjo. Poskusimo odkriti več povezanih konceptov z uporabo **rudarjenja besedila**. Začeli bomo z besedilom o podatkovni znanosti, iz njega izvlekli ključne besede in nato poskusili vizualizirati rezultat.\n",
"V tej lekciji smo razpravljali o različnih konceptih, povezanih s podatkovno znanostjo. Poskusimo odkriti več povezanih konceptov z izvajanjem **rudarjenja besedila**. Začeli bomo z besedilom o podatkovni znanosti, iz njega izvlekli ključne besede in nato poskusili vizualizirati rezultat.\n",
"\n",
"Kot besedilo bom uporabil stran o podatkovni znanosti iz Wikipedije:\n"
"Kot besedilo bom uporabil stran o podatkovni znanosti z Wikipedije:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Korak 1: Pridobivanje podatkov\n",
"## 1. korak: Pridobitev podatkov\n",
"\n",
"Prvi korak v vsakem procesu podatkovne znanosti je pridobivanje podatkov. Za to bomo uporabili knjižnico `requests`:\n"
"Prvi korak v vsakem procesu podatkovne znanosti je pridobitev podatkov. Za to bomo uporabili knjižnico `requests`:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Korak 2: Pretvorba podatkov\n",
"\n",
"Naslednji korak je pretvorba podatkov v obliko, primerno za obdelavo. V našem primeru smo prenesli izvorno kodo HTML s strani,ki jo moramo pretvoriti v navadno besedilo.\n",
"Naslednji korak je pretvorba podatkov v obliko, primerno za obdelavo. V našem primeru smo prenesli izvorno kodo HTML s strani in jo moramo pretvoriti v navadno besedilo.\n",
"\n",
"Obstaja veliko načinov, kako to storiti. Uporabili bomo najpreprostejši vgrajeni objekt [HTMLParser](https://docs.python.org/3/library/html.parser.html) iz Pythona. Potrebno je podrazrediti razred `HTMLParser` in definirati kodo, ki bo zbirala vse besedilo znotraj HTML oznak, razen oznak `<script>` in `<style>`.\n"
"Obstaja veliko načinov, kako to storiti. Uporabili bomo [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), priljubljeno Python knjižnico za razčlenjevanje HTML. BeautifulSoup nam omogoča ciljanje specifičnih HTML elementov, tako da se lahko osredotočimo na glavno vsebino članka iz Wikipedije in zmanjšamo nekatere navigacijske menije, stranske vrstice, noge strani ter druge nepomembne vsebine (čeprav lahko nekateri standardni teksti vseeno ostanejo).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Najprej moramo namestiti knjižnico BeautifulSoup za analiziranje HTML-ja:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -118,9 +116,9 @@
"source": [
"## Korak 3: Pridobivanje vpogledov\n",
"\n",
"Najpomembnejši korak je, da svoje podatke pretvorimo v obliko, iz katere lahko pridobimo vpoglede. V našem primeru želimo iz besedila izluščiti ključne besede in ugotoviti, katere ključne besede so bolj pomembne.\n",
"Najpomembnejši korak je, da naše podatke pretvorimo v obliko, iz katere lahko potegnemo vpoglede. V našem primeru želimo iz besedila izvleči ključne besede in videti, katere ključne besede so bolj pomenljive.\n",
"\n",
"Uporabili bomo Python knjižnico, imenovano [RAKE](https://github.com/aneesha/RAKE), za ekstrakcijo ključnih besed. Najprej namestimo to knjižnico, če je še nimamo:\n"
"Uporabili bomo Pythonovo knjižnico z imenom [RAKE](https://github.com/aneesha/RAKE) za izvleček ključnih besed. Najprej pa namestimo to knjižnico, če še ni prisotna: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Glavna funkcionalnost je na voljo iz objekta `Rake`, ki ga lahko prilagodimo z nekaterimi parametri. V našem primeru bomo nastavili minimalno dolžino ključne besede na 5 znakov, minimalno pogostost ključne besede v dokumentu na 3 in največje število besed v ključni besedi na 2. Prosto eksperimentirajte z drugimi vrednostmi in opazujte rezultat.\n"
"Glavna funkcionalnost je na voljo iz objekta `Rake`, ki ga lahko prilagodimo z nekaterimi parametri. V našem primeru bomo nastavili minimalno dolžino ključne besede na 5 znakov, minimalno pogostost ključne besede v dokumentu na 3 in maksimalno število besed v ključni besedi na 2. Prosto eksperimentirajte z drugimi vrednostmi in opazujte rezultat.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Dobimo seznam izrazov skupaj z ustrezno stopnjo pomembnosti. Kot lahko vidite, so najpomembnejše discipline, kot sta strojno učenje in veliki podatki, na vrhu seznama.\n",
"Pridobili smo seznam izrazov skupaj z njihovo pripadajočo stopnjo pomembnosti. Kot lahko vidite, so najbolj relevantne discipline, kot sta strojno učenje in velika količina podatkov, prisotne na vrhu seznama.\n",
"\n",
"## Korak 4: Vizualizacija rezultata\n",
"\n",
"Ljudje podatke najbolje razumejo v vizualni obliki. Zato pogosto smiselno vizualiziramo podatke, da pridobimo določene vpoglede. Za prikaz preproste porazdelitve ključnih besed z njihovo pomembnostjo lahko uporabimo knjižnico `matplotlib` v Pythonu:\n"
"Ljudje lahko podatke najbolj interpretirajo v vizualni obliki. Zato je pogosto smiselno podatke vizualizirati, da bi lahko pridobili vpoglede. Za preprosto prikazovanje porazdelitve ključnih besed z njihovo relevantnostjo lahko uporabimo knjižnico `matplotlib` v Pythonu:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Vendar pa obstaja še boljši način za vizualizacijo pogostosti besed - z uporabo **oblačka besed**. Za prikaz oblačka besed iz našega seznama ključnih besed bomo morali namestiti še eno knjižnico.\n"
"Obstaja pa še boljši način za vizualizacijo pogostosti besed - z uporabo **Oblaka besed**. Potrebovali bomo namestiti še eno knjižnico, da bomo lahko narišili oblak besed iz našega seznama ključnih besed.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` objekt je odgovoren za sprejemanje bodisi izvirnega besedila ali vnaprej izračunanega seznama besed z njihovimi frekvencami in vrne sliko, ki jo je nato mogoče prikazati z uporabo `matplotlib`:\n"
"Objekt `WordCloud` je odgovoren za sprejem bodisi izvirnega besedila ali vnaprej izračunanega seznama besed z njihovimi pogostostmi, in vrne sliko, ki jo je mogoče nato prikazati z uporabo `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"Prvotno besedilo lahko prav tako posredujemo v `WordCloud` - poglejmo, ali lahko dosežemo podoben rezultat:\n"
"Lahko tudi posredujemo izvirno besedilo v `WordCloud` - poglejmo, ali bomo dobili podoben rezultat:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Zdaj lahko vidimo, da je besedni oblak videti bolj impresiven, vendar vsebuje tudi veliko šuma (npr. nepovezane besede, kot je `Retrieved on`). Prav tako dobimo manj ključnih besed, ki so sestavljene iz dveh besed, kot sta *data scientist* ali *computer science*. To je zato, ker algoritem RAKE veliko bolje izbere dobre ključne besede iz besedila. Ta primer ponazarja pomen predobdelave in čiščenja podatkov, saj nam jasna slika na koncu omogoča sprejemanje boljših odločitev.\n",
"Vidite, da oblak besed zdaj izgleda bolj impresivno, vendar vsebuje tudi veliko šuma (npr. nepovezane besede, kot je `Retrieved on`). Prav tako dobimo manj ključnih besed, ki so sestavljene iz dveh besed, kot so *data scientist* ali *computer science*. To je zato, ker algoritem RAKE veliko bolje izbere dobre ključne besede iz besedila. Ta primer ponazarja pomembnost predhodne obdelave in čiščenja podatkov, saj bo jasna slika na koncu omogočila boljše odločitve.\n",
"\n",
"V tej vaji smo šli skozi preprost proces pridobivanja pomena iz besedila na Wikipediji v obliki ključnih besed in besednega oblaka. Ta primer je precej preprost, vendar dobro prikazuje vse tipične korake, ki jih podatkovni znanstvenik opravi pri delu s podatki, od pridobivanja podatkov do vizualizacije.\n",
"V tem vajah smo prehodili preprost postopek pridobivanja pomena iz Wikipedijinega besedila, v obliki ključnih besed in oblaka besed. Ta primer je precej preprost, vendar dobro prikazuje vse tipične korake, ki jih bo podatkovni znanstvenik izvedel pri delu s podatki, od pridobivanja podatkov do vizualizacije.\n",
"\n",
"V našem tečaju bomo vse te korake podrobno obravnavali.\n"
"Na našem tečaju bomo vse te korake obravnavali podrobneje.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Omejitev odgovornosti**: \nTa dokument je bil preveden z uporabo storitve za strojno prevajanje [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas opozarjamo, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem izvirnem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo strokovno človeško prevajanje. Ne prevzemamo odgovornosti za morebitna nesporazumevanja ali napačne razlage, ki bi izhajale iz uporabe tega prevoda.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Omejitev odgovornosti**: \nTa dokument je bil preveden z uporabo storitve za AI prevajanje [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da avtomatizirani prevodi lahko vsebujejo napake ali netočnosti. Izvirni dokument v izvirnem jeziku velja za avtoritativni vir. Za kritične informacije priporočamo strokovni človeški prevod. Za kakršnekoli nesporazume ali napačne interpretacije, ki izhajajo iz uporabe tega prevoda, ne odgovarjamo.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
Teorija statistike in verjetnosti sta dve tesno povezani področji matematike, ki sta zelo pomembni za podatkovno znanost. Čeprav je mogoče delati s podatki brez poglobljenega matematičnega znanja, je vseeno koristno poznati vsaj osnovne koncepte. Tukaj bomo predstavili kratek uvod, ki vam bo pomagal začeti.
@ -30,7 +30,7 @@ Težje je opisati porazdelitev verjetnosti zvezne spremenljivke, katere vrednost
Lahko govorimo le o verjetnosti, da spremenljivka pade v določen interval vrednosti, npr. P(t<sub>1</sub>≤X<t<sub>2</sub>). V tem primeru je porazdelitev verjetnosti opisana z **gostotno funkcijo verjetnosti** p(x), tako da
Zvezni analog enakomerne porazdelitve se imenuje **zvezna enakomerna porazdelitev**, ki je definirana na končnem intervalu. Verjetnost, da vrednost X pade v interval dolžine l, je sorazmerna z l in se povečuje do 1.
@ -73,11 +73,11 @@ Ko analiziramo podatke iz resničnega življenja, ti pogosto niso naključne spr
Tukaj je škatlasti diagram, ki prikazuje povprečje, mediano in kvartile za naše podatke:
Ker naši podatki vsebujejo informacije o različnih **vlogah** igralcev, lahko naredimo tudi škatlasti diagram po vlogah - to nam omogoča vpogled v to, kako se vrednosti parametrov razlikujejo med vlogami. Tokrat bomo obravnavali višino:


Ta diagram nakazuje, da je povprečna višina igralcev na prvi bazi višja od višine igralcev na drugi bazi. Kasneje v tej lekciji se bomo naučili, kako lahko to hipotezo formalneje preverimo in kako pokažemo, da so naši podatki statistično pomembni za to trditev.
@ -85,7 +85,7 @@ Ta diagram nakazuje, da je povprečna višina igralcev na prvi bazi višja od vi
Da bi videli, kakšna je porazdelitev naših podatkov, lahko narišemo graf, imenovan **histogram**. X-os bo vsebovala število različnih intervalov teže (tako imenovanih **razredov**), Y-os pa bo prikazovala število primerov, ko je vzorec naključne spremenljivke padel v določen interval.


Iz tega histograma lahko vidimo, da so vse vrednosti skoncentrirane okoli določenega povprečja teže, in bolj ko se oddaljujemo od tega povprečja, manj pogosto se pojavljajo teže te vrednosti. To pomeni, da je zelo malo verjetno, da bi bila teža igralca baseballa zelo različna od povprečne teže. Varianca tež prikazuje, v kolikšni meri se teže verjetno razlikujejo od povprečja.
Če narišemo histogram generiranih vzorcev, bomo videli sliko, zelo podobno zgornji. Če povečamo število vzorcev in število razredov, lahko ustvarimo sliko normalne porazdelitve, ki je bližje idealni:


*Normalna porazdelitev s povprečjem=0 in std.odklonom=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
V našem primeru vrednost 0.53 kaže, da obstaja neka korelacija med težo in višino osebe. Prav tako lahko naredimo razpršeni diagram ene vrednosti proti drugi, da vizualno vidimo povezavo:


> Več primerov korelacije in kovariance najdete v [priloženem zvezku](notebook.ipynb).


> Fotografija avtorja <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> na <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
V teh lekcijah boste odkrili, kako je definirana podatkovna znanost, in spoznali etične vidike, ki jih mora upoštevati podatkovni znanstvenik. Prav tako boste izvedeli, kako so podatki definirani, ter se seznanili z osnovami statistike in verjetnosti, ki sta osrednji akademski področji podatkovne znanosti.
Medtem ko baze podatkov ponujajo zelo učinkovite načine za shranjevanje podatkov in njihovo poizvedovanje z uporabo jezikov za poizvedbe, je najbolj prilagodljiv način obdelave podatkov pisanje lastnega programa za manipulacijo podatkov. V mnogih primerih bi bila poizvedba v bazi podatkov bolj učinkovita. Vendar pa v nekaterih primerih, ko je potrebna bolj zapletena obdelava podatkov, tega ni mogoče enostavno doseči z uporabo SQL.
Obdelavo podatkov je mogoče programirati v katerem koli programskem jeziku, vendar obstajajo določeni jeziki, ki so na višji ravni glede dela s podatki. Podatkovni znanstveniki običajno uporabljajo enega od naslednjih jezikov:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
Recimo, da vsak teden organiziramo zabavo za prijatelje in vzamemo dodatnih 10 paketov sladoleda za zabavo. Ustvarimo lahko drugo Series, indeksirano po tednih, da to prikažemo:
```python
@ -75,7 +75,7 @@ Ko seštejemo dve Series, dobimo skupno število:
> **Opomba**: Ne uporabljamo preproste sintakse `total_items+additional_items`. Če bi jo, bi dobili veliko vrednosti `NaN` (*Not a Number*) v rezultatni Series. To je zato, ker manjkajo vrednosti za nekatere točke indeksa v Series `additional_items`, in seštevanje `NaN` z nečim rezultira v `NaN`. Zato moramo med seštevanjem določiti parameter `fill_value`.
@ -84,7 +84,7 @@ Pri časovnih serijah lahko tudi **ponovno vzorčimo** serijo z različnimi čas
@ -210,7 +210,7 @@ Prvi problem, na katerega se bomo osredotočili, je modeliranje širjenja epidem
Ker želimo pokazati, kako ravnati s podatki, vas vabimo, da odprete [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) in ga preberete od začetka do konca. Prav tako lahko zaženete celice in rešite nekaj izzivov, ki smo jih pripravili za vas na koncu.
> Če ne veste, kako zagnati kodo v Jupyter Notebooku, si oglejte [ta članek](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Celoten primer analize tega podatkovnega niza z uporabo kognitivne storitve [Tex
Odprite [`notebook-papers.ipynb`](notebook-papers.ipynb) in ga preberite od začetka do konca. Prav tako lahko zaženete celice in rešite nekaj izzivov, ki smo jih pripravili za vas na koncu.


> Fotografija avtorja <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> na <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
V teh lekcijah boste spoznali nekatere načine, kako je mogoče podatke upravljati, obdelovati in uporabljati v aplikacijah. Spoznali boste relacijske in nerelacijske baze podatkov ter kako se podatki lahko shranjujejo v njih. Naučili se boste osnov dela s Pythonom za upravljanje podatkov in odkrili številne načine, kako lahko s Pythonom upravljate in analizirate podatke.
Sedaj prikažite iste podatke z barvno shemo medu, da pokažete, kako se cena spreminja skozi leta. To lahko storite z dodajanjem parametra 'hue', ki prikazuje spremembe iz leta v leto:
@ -51,7 +51,7 @@ Sedaj prikažite iste podatke z barvno shemo medu, da pokažete, kako se cena sp
S to spremembo barvne sheme lahko jasno vidite močan napredek skozi leta glede cene medu na funt. Če pogledate vzorec podatkov (na primer za določeno državo, recimo Arizono), lahko opazite vzorec naraščanja cen iz leta v leto, z nekaj izjemami:
Je to preprost primer ponudbe in povpraševanja? Zaradi dejavnikov, kot so podnebne spremembe in propad kolonij, je na voljo manj medu za nakup iz leta v leto, zato se cena povečuje?
✅ Ker Seaborn združuje podatke okoli ene črte, prikazuje "več meritev pri vsaki vrednosti x z izrisom povprečja in 95% intervala zaupanja okoli povprečja". [Vir](https://seaborn.pydata.org/tutorial/relational.html). To časovno zahtevno vedenje lahko onemogočite z dodajanjem `ci=None`.
@ -105,7 +105,7 @@ Vprašanje: No, ali lahko leta 2003 opazimo tudi porast zaloge medu? Kaj pa, če
Odgovor: Ne ravno. Če pogledate skupno proizvodnjo, se zdi, da se je v tem letu dejansko povečala, čeprav na splošno količina proizvedenega medu v teh letih upada.
@ -130,7 +130,7 @@ sns.relplot(
```
V tej vizualizaciji lahko primerjate donos na kolonijo in število kolonij iz leta v leto, ena ob drugi, z nastavitvijo razporeditve na 3 za stolpce:
Za to podatkovno zbirko nič posebej ne izstopa glede števila kolonij in njihovega donosa, iz leta v leto in iz države v državo. Ali obstaja drugačen način za iskanje korelacije med tema dvema spremenljivkama?
Čeprav nič ne izstopa okoli leta 2003, nam to omogoča, da zaključimo to lekcijo na nekoliko bolj pozitivni noti: čeprav se število kolonij na splošno zmanjšuje, se število kolonij stabilizira, tudi če njihov donos na kolonijo upada.
Tukaj namestite paket `ggplot2` in ga nato uvozite v delovni prostor z ukazom `library("ggplot2")`. Za risanje grafa v ggplot se uporablja funkcija `ggplot()`, kjer določite nabor podatkov ter spremenljivki x in y kot atribute. V tem primeru uporabimo funkcijo `geom_line()`, saj želimo narisati črtni graf.
Kaj takoj opazite? Zdi se, da obstaja vsaj en odstopajoč podatek - to je kar razpon kril! Razpon kril več kot 2000 centimetrov pomeni več kot 20 metrov - ali v Minnesoti živijo pterodaktili? Raziščimo.
Tudi z rotacijo oznak na 45 stopinj je preveč podatkov za branje. Poskusimo drugačno strategijo: označimo samo odstopajoče podatke in postavimo oznake znotraj grafa. Uporabite razsevni diagram, da ustvarite več prostora za označevanje:
@ -91,7 +91,7 @@ Kaj se tukaj dogaja? Uporabili ste funkcijo `geom_point()` za risanje razsevnih
Ustvarili smo nov podatkovni okvir `birds_filtered` in nato narisali razsevni diagram. Z odstranitvijo odstopajočih podatkov so vaši podatki zdaj bolj skladni in razumljivi.
V naslednjem odlomku namestimo paketa [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) in [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0), da pomagata pri manipulaciji in grupiranju podatkov za risanje zloženega stolpičnega grafa. Najprej grupirate podatke po `Category` ptic in nato povzamete stolpce `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Nato narišete stolpični graf z uporabo paketa `ggplot2` in določite barve za različne kategorije ter oznake.


Ta stolpični graf je neberljiv, ker je preveč nepovezanih podatkov. Izbrati morate samo podatke, ki jih želite prikazati, zato si oglejmo dolžino ptic glede na njihovo kategorijo.
Najprej preštejete unikatne vrednosti v stolpcu `Category` in jih nato razvrstite v nov podatkovni okvir `birds_count`. Te razvrščene podatke nato razvrstite na isti ravni, da so narisani v razvrščenem vrstnem redu. Z uporabo `ggplot2` nato narišete podatke v stolpičnem grafu. Funkcija `coord_flip()` nariše horizontalne stolpce.
Ta stolpični graf prikazuje dober pogled na število ptic v vsaki kategoriji. Na prvi pogled vidite, da je največ ptic v tej regiji v kategoriji Race/Gosi/Vodna ptica. Minnesota je 'dežela 10.000 jezer', zato to ni presenetljivo!


To daje pregled splošne porazdelitve dolžine telesa po redih ptic, vendar to ni optimalen način za prikaz resničnih porazdelitev. Ta naloga se običajno opravi z ustvarjanjem histograma.
@ -48,7 +48,7 @@ To daje pregled splošne porazdelitve dolžine telesa po redih ptic, vendar to n


Kot lahko vidite, večina od 400+ ptic v tem naboru spada v razpon pod 2000 za njihovo največjo telesno maso. Pridobite več vpogleda v podatke tako, da spremenite parameter `bins` na višjo številko, na primer 30:
@ -56,7 +56,7 @@ Kot lahko vidite, večina od 400+ ptic v tem naboru spada v razpon pod 2000 za n
Ta graf prikazuje porazdelitev na nekoliko bolj podroben način. Manj pristranski graf na levo bi lahko ustvarili tako, da izberete samo podatke znotraj določenega razpona:
✅ Preizkusite nekaj drugih filtrov in podatkovnih točk. Če želite videti celotno porazdelitev podatkov, odstranite filter `['MaxBodyMass']`, da prikažete označene porazdelitve.


Zdi se, da ni dobre korelacije med minimalnim razponom kril in stanjem ohranitve. Preizkusite druge elemente nabora podatkov z uporabo te metode. Poskusite tudi različne filtre. Ali najdete kakšno korelacijo?
Vidite lahko, kako graf odraža prejšnjega za podatke o minimalnem razponu kril; le da je nekoliko bolj gladek. Če bi želeli ponovno pregledati tisto nazobčano črto MaxBodyMass v drugem grafu, ki ste ga ustvarili, bi jo lahko zelo dobro zgladili z uporabo te metode:
@ -135,7 +135,7 @@ Vidite lahko, kako graf odraža prejšnjega za podatke o minimalnem razponu kril
Voila, tortni graf, ki prikazuje deleže teh podatkov glede na ti dve kategoriji gob. Zelo pomembno je, da je vrstni red oznak pravilen, še posebej tukaj, zato preverite vrstni red, s katerim je ustvarjen niz oznak!
V tej lekciji ste se naučili treh načinov vizualizacije deležev. Najprej morate razvrstiti svoje podatke v kategorije in nato odločiti, kateri je najboljši način za prikaz podatkov - torta, krof ali vafelj. Vsi so okusni in uporabniku takoj ponudijo vpogled v nabor podatkov.
Zdaj prikažite iste podatke z barvno shemo medu, da pokažete, kako se cena spreminja skozi leta. To lahko storite z dodajanjem parametra 'scale_color_gradientn', ki prikazuje spremembe iz leta v leto:
@ -52,7 +52,7 @@ Zdaj prikažite iste podatke z barvno shemo medu, da pokažete, kako se cena spr
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
S to spremembo barvne sheme lahko vidite, da je očitno močan napredek skozi leta glede cene medu na funt. Če pogledate vzorec podatkov za preverjanje (izberite določeno državo, na primer Arizono), lahko opazite vzorec naraščanja cen iz leta v leto, z nekaj izjemami:
Je to preprost primer ponudbe in povpraševanja? Zaradi dejavnikov, kot so podnebne spremembe in propad kolonij, je na voljo manj medu za nakup iz leta v leto, zato se cena povečuje?
Odgovor: Ne ravno. Če pogledate skupno proizvodnjo, se zdi, da se je v tem letu dejansko povečala, čeprav na splošno količina proizvedenega medu v teh letih upada.
Za to podatkovno zbirko nič posebej ne izstopa glede števila kolonij in njihovega donosa iz leta v leto ter med državami. Ali obstaja drugačen način za iskanje korelacije med tema dvema spremenljivkama?
Čeprav nič ne izstopa okoli leta 2003, nam to omogoča, da zaključimo to lekcijo na nekoliko bolj veseli noti: čeprav je skupno število kolonij v upadu, se število kolonij stabilizira, tudi če njihov donos na kolonijo upada.
@ -38,25 +38,25 @@ V prejšnjih lekcijah ste eksperimentirali z ustvarjanjem različnih zanimivih v
Tudi če podatkovni znanstvenik skrbno izbere pravi graf za prave podatke, obstaja veliko načinov, kako lahko podatke prikažemo tako, da podpirajo določeno točko, pogosto na račun resničnosti podatkov. Obstaja veliko primerov zavajajočih grafov in infografik!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kako grafi lažejo")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kako grafi lažejo")
> 🎥 Kliknite zgornjo sliko za konferenčno predavanje o zavajajočih grafih
Ta graf obrne os X, da prikaže nasprotje resnice, glede na datum:
[Ta graf](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) je še bolj zavajajoč, saj pogled pritegne desno stran, kar daje vtis, da so se primeri COVID-a skozi čas zmanjšali v različnih okrožjih. Če pa natančno pogledate datume, ugotovite, da so bili preurejeni, da bi ustvarili zavajajoč trend navzdol.
Ta zloglasni primer uporablja barvo IN obrnjeno os Y za zavajanje: namesto da bi sklepali, da so se smrti zaradi orožja povečale po sprejetju zakonodaje, prijazne do orožja, je pogled zaveden, da misli, da je resnica nasprotna:
Primerjanje neprimerljivega je še en dvomljiv trik. Obstaja [odlična spletna stran](https://tylervigen.com/spurious-correlations), ki prikazuje 'lažne korelacije', kot so 'dejstva', ki povezujejo stopnjo ločitev v Mainu in porabo margarine. Skupina na Redditu prav tako zbira [grde primere](https://www.reddit.com/r/dataisugly/top/?t=all) uporabe podatkov.
@ -91,13 +91,13 @@ Označite svoje osi, zagotovite legendo, če je potrebno, in ponudite orodja za
Če so vaši podatki besedilni in obsežni na osi X, lahko besedilo nagnite za boljšo berljivost. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) omogoča 3D risanje, če vaši podatki to podpirajo. Z njim je mogoče ustvariti napredne vizualizacije podatkov.
Nekatere najboljše vizualizacije podatkov danes so animirane. Shirley Wu je ustvarila neverjetne vizualizacije z D3, kot je '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kjer vsak cvet predstavlja vizualizacijo filma. Drug primer za Guardian je 'bussed out', interaktivna izkušnja, ki združuje vizualizacije z Greensock in D3 ter format članka za prikaz, kako NYC rešuje problem brezdomcev z njihovim prevozom iz mesta.
> "Bussed Out: How America Moves its Homeless" iz [Guardiana](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Vizualizacije avtorjev Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Nekatere najboljše vizualizacije podatkov danes so animirane. Shirley Wu je ust
Dokončali boste spletno aplikacijo, ki bo prikazala animiran pogled tega socialnega omrežja. Uporablja knjižnico, zasnovano za ustvarjanje [vizualizacije omrežja](https://github.com/emiliorizzo/vue-d3-network) z uporabo Vue.js in D3. Ko aplikacija deluje, lahko premikate vozlišča po zaslonu in premešate podatke.


> Fotografija avtorice <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> na <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Vizualizacija podatkov je ena najpomembnejših nalog podatkovnega znanstvenika. Slike povedo več kot 1000 besed, vizualizacija pa vam lahko pomaga prepoznati različne zanimive vidike vaših podatkov, kot so konice, odstopanja, skupine, tendence in še več, kar vam omogoča, da bolje razumete zgodbo, ki jo vaši podatki pripovedujejo.
> Fotografija avtorja [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Zajemanje
@ -92,7 +92,7 @@ Raziščite [življenjski cikel procesa podatkovne znanosti ekipe](https://docs.
|Proces podatkovne znanosti ekipe (TDSP)|Križnoindustrijski standardni proces za rudarjenje podatkov (CRISP-DM)|
|--|--|
| |  |
| |  |
| Slika avtorja [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Slika avtorja [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Kviz po predavanju](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> Fotografija avtorja [Jelleke Vanooteghem](https://unsplash.com/@ilumire) na [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Ko gre za izvajanje podatkovne znanosti z velikimi podatki, je oblak lahko prava sprememba igre. V naslednjih treh lekcijah bomo raziskali, kaj oblak je in zakaj je lahko zelo koristen. Prav tako bomo preučili podatkovni niz o srčnem popuščanju in zgradili model, ki pomaga oceniti verjetnost, da ima nekdo srčno popuščanje. Uporabili bomo moč oblaka za treniranje, uvajanje in uporabo modela na dva različna načina. En način bo uporaba samo uporabniškega vmesnika v načinu "Low code/No code", drugi način pa bo uporaba Azure Machine Learning Software Developer Kit (Azure ML SDK).
@ -32,7 +32,7 @@ Zaradi demokratizacije umetne inteligence razvijalci zdaj lažje oblikujejo in v
* [Podatkovna znanost v zdravstvu](https://data-flair.training/blogs/data-science-in-healthcare/) - poudarja aplikacije, kot so medicinsko slikanje (npr. MRI, rentgen, CT-skeniranje), genomika (sekvenciranje DNK), razvoj zdravil (ocena tveganja, napoved uspeha), napovedna analitika (oskrba pacientov in logistika oskrbe), sledenje boleznim in preprečevanje itd.
 Vir slike: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Vir slike: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Slika prikazuje druge domene in primere uporabe tehnik podatkovne znanosti. Želite raziskati druge aplikacije? Oglejte si razdelek [Pregled in samostojno učenje](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) spodaj.
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
Zastopniki za Azure Cloud pri Microsoftu z veseljem ponujajo 10-tedenski, 20-urno učni načrt, popolnoma posvečen podatkovni znanosti. Vsaka lekcija vključuje kvize pred in po lekciji, pisna navodila za dokončanje lekcije, rešitev in nalogo. Naša pedagoška metoda temelji na projektih, ki vam omogočajo učenje med ustvarjanjem - dokazan način, da se nove veščine "prilepijo".
Zagovorniki Azure Clouda pri Microsoftu z veseljem ponujajo 10-tedenski učni načrt s 20 lekcijami, ki pokrivajo podatkovno znanost. Vsaka lekcija vključuje kvize pred in po lekciji, pisna navodila za izvedbo lekcije, rešitev in nalogo. Naš pedagoški pristop, ki temelji na projektih, vam omogoča učenje med ustvarjanjem, kar je preizkušena metoda za trdno pridobivanje novih veščin.
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Tako boste imeli vse, kar potrebujete za dokončanje tečaja z veliko hitrejšim prenosom.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Če želite, da so na voljo dodatni prevodni jeziki, so ti našteti [tukaj](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Če želite dodatno podporo za prevode jezikov, so podprti jeziki navedeni [tukaj](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
Imamo tekočo serijo učenja z Discord in AI, izvedite več in se nam pridružite na [Learn with AI Series](https://aka.ms/learnwithai/discord) od 18. do 30. septembra 2025. Dobili boste nasvete in trike za uporabo GitHub Copilot za podatkovno znanost.
Imamo tečaj na Discordu o učenju z AI, izveste več in se pridružite na [Learn with AI Series](https://aka.ms/learnwithai/discord) od 18. do 30. septembra 2025. Dobili boste nasvete in trike za uporabo GitHub Copilot pri podatkovni znanosti.

@ -59,139 +69,139 @@ Imamo tekočo serijo učenja z Discord in AI, izvedite več in se nam pridružit
Začnite z naslednjimi viri:
- [Stran Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Na tej strani boste našli vire za začetnike, pakete za študente in celo načine za pridobitev brezplačnega certifikata. To je ena stran, ki si jo želite dodati med zaznamke in občasno preveriti, saj mesečno osvežujemo vsebine.
- [Stran Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Na tej strani boste našli vire primerne za začetnike, pakete za študente in celo načine, kako pridobiti brezplačen potrdilni kupon. To je stran, ki si jo želite shraniti med zaznamke in jo občasno pregledati, saj vsebino redno osvežujemo.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Pridružite se globalni skupnosti študentskih ambasadorjev, to bi lahko bila vaša pot v Microsoft.
# Začetek
## 📚 Dokumentacija
- **[Namestitveni vodič](INSTALLATION.md)** – Korak za korakom navodila za namestitev za začetnike
- **[Vodnik za uporabo](USAGE.md)** – Primeri in pogosti delovni postopki
- **[Reševanje težav](TROUBLESHOOTING.md)** – Rešitve za pogoste težave
- **[Vodič za prispevanje](CONTRIBUTING.md)** – Kako prispevati k temu projektu
- **[Za učitelje](for-teachers.md)** – Navodila za poučevanje in viri za razrede
- **[Vodnik za namestitev](INSTALLATION.md)** - navodila za korak-po-korak namestitev za začetnike
- **[Vodnik za uporabo](USAGE.md)** - primeri in pogosti poteki dela
- **[Reševanje težav](TROUBLESHOOTING.md)** - rešitve za pogoste težave
- **[Vodnik za prispevanje](CONTRIBUTING.md)** - kako prispevati k temu projektu
- **[Za učitelje](for-teachers.md)** - smernice za poučevanje in učni materiali
## 👨🎓 Za študente
> **Popolni začetniki**: Ste novi v podatkovni znanosti? Začnite z našimi [primeri prijaznimi do začetnikov](examples/README.md)! Ti preprosti, dobro komentirani primeri vam bodo pomagali razumeti osnove, preden se podate v celoten učni načrt.
> **[Študenti](https://aka.ms/student-page)**: da uporabljate ta učni načrt sami, naredite fork celotnega repozitorija in dokončajte vaje sami, začenši s kvizom pred predavanjem. Nato preberite predavanje in dokončajte ostale aktivnosti. Poskusite ustvariti projekte tako, da razumete lekcije, namesto da kopirate kodo rešitve; ta koda je na voljo v mapah /solutions pri vsaki lekciji, usmerjeni v projekt. Druga možnost je, da oblikujete študijsko skupino s prijatelji in skupaj pregledujete vsebino. Za nadaljnje študije priporočamo [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Popolni začetniki**: Nov v podatkovni znanosti? Začnite z našimi [primeri za začetnike](examples/README.md)! Ti preprosti, dobro komentirani primeri vam bodo pomagali razumeti osnove predno se podate v celotni učni načrt.
> **[Študenti](https://aka.ms/student-page)**: za samostojno uporabo tega učnega načrta, vilice celoten repozitorij in opravite vaje sami, začnite s kvizom pred predavanjem. Nato preberite predavanje in dokončajte preostale aktivnosti. Poskusite ustvariti projekte z razumevanjem lekcij in ne samo s kopiranjem kode rešitve; ta koda je na voljo v mapah /solutions v vsaki lekciji, usmerjeni v projekt. Druga ideja je, da oblikujete študijsko skupino s prijatelji in skupaj pregledujete vsebino. Za nadaljnje študije priporočamo [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Hiter začetek:**
1. Preglejte [Namestitveni vodič](INSTALLATION.md) za nastavitev okolja
1. Preverite [Vodnik za namestitev](INSTALLATION.md) za nastavitev vašega okolja
2. Preglejte [Vodnik za uporabo](USAGE.md), da se naučite delati z učnim načrtom
3. Začnite z Lekcijo 1 in delajte zaporedoma
3. Začnite z Lekcijo 1 in nadaljujte zaporedno
4. Pridružite se naši [Discord skupnosti](https://aka.ms/ds4beginners/discord) za podporo
## 👩🏫 Za učitelje
> **Učitelji**: vključili smo [nekaj predlogov](for-teachers.md) o tem, kako uporabljati ta učni načrt. Veseli bomo vaših povratnih informacij [na našem forumu za razpravo](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Učitelji**: vključili smo [nekaj predlogov](for-teachers.md), kako uporabiti ta učni načrt. Z veseljem bomo prejeli vaše povratne informacije [v našem forumu za razprave](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> 🎥 Kliknite na zgornjo sliko za video o projektu in ljudeh, ki so ga ustvarili!
> 🎥 Kliknite zgornjo sliko za video o projektu in ljudeh, ki so ga ustvarili!
## Pedagogika
Pri oblikovanju tega učnega načrta smo izbrali dva pedagoška načela: zagotoviti, da temelji na projektih in vključuje pogoste kvize. Ob koncu te serije bodo študenti osvojili osnovna načela znanosti o podatkih, vključno z etičnimi koncepti, pripravo podatkov, različnimi načini dela s podatki, vizualizacijo podatkov, analizo podatkov, primeri uporabe podatkovne znanosti v resničnem svetu in še več.
Pri izdelavi tega učnega načrta smo izbrali dve pedagoški načeli: zagotoviti, da je učno gradivo osredotočeno na projekte in da vključuje pogoste kvize. Do konca te serije bodo študentje osvojili osnovna načela podatkovne znanosti, vključno z etičnimi koncepti, pripravo podatkov, različnimi načini dela s podatki, vizualizacijo podatkov, analizo podatkov, primeri uporabe podatkovne znanosti v resničnem svetu in več.
Poleg tega nizkorizični kviz pred uro usmerja študenta k učenju teme, medtem ko drugi kviz po uri zagotavlja nadaljnje ohranjanje znanja. Ta učni načrt je zasnovan fleksibilno in zabavno ter ga je mogoče opraviti celovito ali delno. Projekti se začnejo majhni in postajajo vse bolj kompleksni do konca 10-tedenskega cikla.
Poleg tega nizko tvegani kviz pred poukom usmerja študenta k učenju določene teme, medtem ko drugi kviz po pouku zagotavlja nadaljnje pomnjenje. Ta učni načrt je zasnovan tako, da je prilagodljiv in zabaven ter se ga lahko opravi v celoti ali delno. Projekti se začnejo majhni in postajajo vse bolj kompleksni do konca 10-tedenskega cikla.
> Najdete naše [Kodeks ravnanja](CODE_OF_CONDUCT.md), [Navodila za prispevanje](CONTRIBUTING.md), [Navodila za prevajanje](TRANSLATIONS.md). Veseli bomo vaše konstruktivne povratne informacije!
## Vsaka lekcija vključuje:
- Izbirno sketchnote
- Izbirni dodatni video
- Neobvezno skiciranje
- Neobvezni dopolnilni video
- Kviz za ogrevanje pred lekcijo
- Pisna lekcija
- Za lekcije, ki temeljijo na projektih, korak-po-korak vodiče za izdelavo projekta
- Pisno lekcijo
- Pri lekcijah, ki temeljijo na projektih, vodiče korak za korakom za izdelavo projekta
- Preverjanje znanja
- Izziv
- Dodatno branje
- Dopolnilno branje
- Nalogo
- [Kviz po lekciji](https://ff-quizzes.netlify.app/en/)
> **Opomba o kvizih**: Vsi kvizi so shranjeni v mapi Quiz-App, skupaj 40 kvizov s po tremi vprašanji. V povezavi so v lekcijah, a aplikacijo za kvize je mogoče zagnati lokalno ali namestiti v Azure; sledite navodilom v mapi `quiz-app`. Postopoma jih lokaliziramo.
> **Opomba o kvizih**: Vsi kvizi so shranjeni v mapi Quiz-App, skupaj je 40 kvizov s po tremi vprašanji v vsakem. Povezani so iz lekcij, a aplikacijo za kvize lahko zaženete lokalno ali jo namestite na Azure; sledite navodilom v mapi `quiz-app`. Postopoma poteka tudi lokalizacija.
## 🎓 Primeri prijazni do začetnikov
**Ste novi v znanosti o podatkih?** Ustvarili smo poseben [imenik primerov](examples/README.md) s preprosto, dobro komentirano kodo, ki vam pomaga začeti:
**Nov v podatkovni znanosti?** Ustvarili smo posebno [mapo primerov](examples/README.md) z enostavno in dobro komentirano kodo, ki vam bo pomagala začeti:
- 🌟 **Hello World** - vaš prvi program za znanost o podatkih
- 📂 **Nalaganje podatkov** - Naučite se brati in raziskovati nabor podatkov
- 📊 **Preprosta analiza** - Izračun statistike in iskanje vzorcev
- 📈 **Osnovna vizualizacija** - Ustvarjanje grafikonov in diagramov
- 🔬 **Projekt iz resničnega sveta** - Celoten potek dela od začetka do konca
- 🌟 **Pozdravljen svet** - Vaš prvi program podatkovne znanosti
- 📂 **Nalaganje podatkov** - Naučite se brati in raziskovati datasete
- 📊 **Preprosta analiza** - Izračunajte statistiko in poiščite vzorce
- 📈 **Osnovna vizualizacija** - Ustvarite grafikone in diagrame
- 🔬 **Projekt iz resničnega sveta** - Celoten delovni tok od začetka do konca
Vsak primer vsebuje podrobne komentarje, ki razlagajo vsak korak, zato je popoln za popolne začetnike!
Vsak primer vključuje podrobne komentarje, ki pojasnjujejo vsak korak, kar je idealno za popolne začetnike!
| 01 | Določanje podatkovne znanosti | [Uvod](1-Introduction/README.md) | Spoznajte osnovne koncepte podatkovne znanosti in kako je povezana z umetno inteligenco, strojno učenjem in velikimi podatki. | [lekcija](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etika podatkovne znanosti | [Uvod](1-Introduction/README.md) | Koncepti etike podatkov, izzivi in okviri. | [lekcija](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Določanje podatkov | [Uvod](1-Introduction/README.md) | Kako so podatki razvrščeni in njihovi običajni viri. | [lekcija](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 01 | Opredelitev podatkovne znanosti | [Uvod](1-Introduction/README.md) | Spoznajte osnovne koncepte podatkovne znanosti ter kako se povezuje z umetno inteligenco, strojno učenje in velikimi podatki. | [lekcija](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etika podatkovne znanosti | [Uvod](1-Introduction/README.md) | Koncepti, izzivi in okvirji za etiko podatkov. | [lekcija](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Opredelitev podatkov | [Uvod](1-Introduction/README.md) | Kako so podatki razvrščeni in njihovi pogosti viri. | [lekcija](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Uvod v statistiko in verjetnost | [Uvod](1-Introduction/README.md) | Matematične tehnike verjetnosti in statistike za razumevanje podatkov. | [lekcija](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Delo z relacijskimi podatki | [Delo s podatki](2-Working-With-Data/README.md) | Uvod v relacijske podatke in osnove raziskovanja ter analize relacijskih podatkov s strukturiranim poizvedbenim jezikom, znanim kot SQL (izgovarja se "si-kvel"). | [lekcija](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Delo z NoSQL podatki | [Delo s podatki](2-Working-With-Data/README.md) | Uvod v nerelacijske podatke, njihove različne vrste in osnove raziskovanja ter analize dokumentnih zbirk podatkov. | [lekcija](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Delo s Pythonom | [Delo s podatki](2-Working-With-Data/README.md) | Osnove uporabe Pythona za raziskovanje podatkov z knjižnicami, kot je Pandas. Priporočeno osnovno razumevanje programiranja v Pythonu. | [lekcija](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Priprava podatkov | [Delo s podatki](2-Working-With-Data/README.md) | Teme na področju tehnik čiščenja in transformacije podatkov za reševanje izzivov manjkajočih, netočnih ali nepopolnih podatkov. | [lekcija](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 05 | Delo z relacijskimi podatki | [Delo s podatki](2-Working-With-Data/README.md) | Uvod v relacijske podatke in osnove raziskovanja ter analiziranja relacijskih podatkov s pomočjo jezika Structured Query Language, znanega kot SQL (izgovorjava "es-kyu-el"). | [lekcija](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Delo s podatki NoSQL | [Delo s podatki](2-Working-With-Data/README.md) | Uvod v nerelacijske podatke, njihove različne vrste in osnove raziskovanja ter analiziranja dokumentnih baz podatkov. | [lekcija](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Delo s Pythonom | [Delo s podatki](2-Working-With-Data/README.md) | Osnove uporabe Pythona za raziskovanje podatkov z knjižnicami, kot je Pandas. Priporočeno je osnovno znanje programiranja v Pythonu. | [lekcija](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Priprava podatkov | [Delo s podatki](2-Working-With-Data/README.md) | Teme o tehnikah čiščenja in transformacije podatkov za obvladovanje izzivov, kot so manjkajoči, netočni ali nepopolni podatki. | [lekcija](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Vizualizacija količin | [Vizualizacija podatkov](3-Data-Visualization/README.md) | Naučite se uporabljati Matplotlib za vizualizacijo podatkov o pticah 🦆 | [lekcija](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Vizualizacija porazdelitev podatkov | [Vizualizacija podatkov](3-Data-Visualization/README.md) | Vizualizacija opazovanj in trendov znotraj intervala. | [lekcija](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Vizualizacija deležev | [Vizualizacija podatkov](3-Data-Visualization/README.md) | Vizualizacija diskretnih in združenih odstotkov. | [lekcija](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Vizualizacija odnosov | [Vizualizacija podatkov](3-Data-Visualization/README.md) | Vizualizacija povezav in korelacij med sklopi podatkov in njihovimi spremenljivkami. | [lekcija](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Pomenljive vizualizacije | [Vizualizacija podatkov](3-Data-Visualization/README.md) | Tehnike in smernice za ustvarjanje vizualizacij, ki so vredne za učinkovito reševanje problemov in vpoglede. | [lekcija](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Uvod v življenjski cikel podatkovne znanosti | [Življenjski cikel](4-Data-Science-Lifecycle/README.md) | Uvod v življenjski cikel podatkovne znanosti in njegov prvi korak pridobivanja in ekstrakcije podatkov. | [lekcija](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analiza | [Življenjski cikel](4-Data-Science-Lifecycle/README.md) | Ta faza življenjskega cikla podatkovne znanosti se osredotoča na tehnike za analizo podatkov. | [lekcija](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikacija | [Življenjski cikel](4-Data-Science-Lifecycle/README.md) | Ta faza življenjskega cikla podatkovne znanosti se osredotoča na predstavitev vpogledov iz podatkov na način, ki olajša razumevanje odločevalcem. | [lekcija](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Podatkovna znanost v oblaku | [Oblak podatkov](5-Data-Science-In-Cloud/README.md) | Ta serija lekcij uvaja podatkovno znanost v oblaku in njene prednosti. | [lekcija](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) in [Maud](https://twitter.com/maudstweets) |
| 18 | Podatkovna znanost v oblaku | [Oblak podatkov](5-Data-Science-In-Cloud/README.md) | Učenje modelov z uporabo orodij Low Code. |[lekcija](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) in [Maud](https://twitter.com/maudstweets) |
| 19 | Podatkovna znanost v oblaku | [Oblak podatkov](5-Data-Science-In-Cloud/README.md) | Uvajanje modelov z Azure Machine Learning Studio. | [lekcija](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) in [Maud](https://twitter.com/maudstweets) |
| 20 | Podatkovna znanost v praksi | [V praksi](6-Data-Science-In-Wild/README.md) | Projekti podatkovne znanosti v resničnem svetu. | [lekcija](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 12 | Vizualizacija odnosov | [Vizualizacija podatkov](3-Data-Visualization/README.md) | Vizualizacija povezav in korelacij med nabori podatkov in njihovimi spremenljivkami. | [lekcija](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Smiselne vizualizacije | [Vizualizacija podatkov](3-Data-Visualization/README.md) | Tehnike in navodila za ustvarjanje vizualizacij, ki so dragocene za učinkovito reševanje problemov in pridobivanje spoznanj. | [lekcija](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Uvod v življenjski cikel podatkovne znanosti | [Življenjski cikel](4-Data-Science-Lifecycle/README.md) | Uvod v življenjski cikel podatkovne znanosti in njegov prvi korak pridobivanja in izvlečenja podatkov. | [lekcija](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analiziranje | [Življenjski cikel](4-Data-Science-Lifecycle/README.md) | Ta faza življenjskega cikla podatkovne znanosti se osredotoča na tehnike za analizo podatkov. | [lekcija](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikacija | [Življenjski cikel](4-Data-Science-Lifecycle/README.md) | Ta faza življenjskega cikla podatkovne znanosti se osredotoča na predstavitev spoznanj iz podatkov na način, ki olajša razumevanje odločevalcem. | [lekcija](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Podatkovna znanost v oblaku | [Oblačni podatki](5-Data-Science-In-Cloud/README.md) | Ta serija lekcij uvaja podatkovno znanost v oblaku in njene prednosti. | [lekcija](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) in [Maud](https://twitter.com/maudstweets) |
| 18 | Podatkovna znanost v oblaku | [Oblačni podatki](5-Data-Science-In-Cloud/README.md) | Usposabljanje modelov z orodji Low Code. |[lekcija](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) in [Maud](https://twitter.com/maudstweets) |
| 19 | Podatkovna znanost v oblaku | [Oblačni podatki](5-Data-Science-In-Cloud/README.md) | Nameščanje modelov z Azure Machine Learning Studio. | [lekcija](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) in [Maud](https://twitter.com/maudstweets) |
| 20 | Podatkovna znanost v naravi | [V naravi](6-Data-Science-In-Wild/README.md) | Projekti podatkovne znanosti v resničnem svetu. | [lekcija](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Sledite tem korakom, da odprete ta primer v Codespace-u:
1. Kliknite na spustni meni Code in izberite možnost Open with Codespaces.
2. Na dnu okna izberite + New codespace.
Za več informacij poglejte [dokumentacijo GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
Sledite tem korakom, da odprete ta vzorec v Codespace:
1. Kliknite spustni meni Code in izberite možnost Open with Codespaces.
2. Izberite + New codespace na dnu panela.
Za več informacij si oglejte [GitHub dokumentacijo](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Sledite tem korakom, da odprete ta repozitorij v vsebniku na lokalnem računalniku z VSCode in razširitvijo VS Code Remote - Containers:
Sledite tem korakom, da odprete ta repozitorij v vsebniku z uporabo lokalnega računalnika in VSCode z razširitvijo VS Code Remote - Containers:
1. Če je to vaš prvič za uporabo razvojnega vsebnika (development container), preverite, ali vaš sistem izpolnjuje predpogoje (npr. nameščen Docker) v [dokumentaciji za začetek](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Če prvič uporabljate razvojni vsebnik, preverite, da vaš sistem izpolnjuje predpogoje (npr. ima nameščen Docker) v [dokumentaciji za začetek](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Za uporabo tega repozitorija lahko odprete repozitorij v izoliranem Docker volumnu:
Za uporabo tega repozitorija lahko repozitorij odprete v izoliranem Docker volumnu:
**Opomba**: Pod pokrovom bo to uporabilo ukaz Remote-Containers: **Clone Repository in Container Volume...** za kloniranje izvorne kode v Docker volumen namesto na lokalni datotečni sistem. [Volumni](https://docs.docker.com/storage/volumes/) so priporočeni mehanizem za ohranjanje podatkov vsebnika.
**Opomba**: Pod pokrovom bo uporabljena ukaz Remote-Containers: **Clone Repository in Container Volume...** za kloniranje izvorne kode v Docker volumen namesto v lokalni datotečni sistem. [Volumni](https://docs.docker.com/storage/volumes/) so priporočeni mehanizem za trajno shranjevanje podatkov vseh vsebnikov.
Ali odprite lokalno klonirano ali preneseno različico repozitorija:
Ali pa odprite lokalno klonirano ali preneseno različico repozitorija:
- Klonirajte repozitorij na lokalni datotečni sistem.
- Klonirajte ta repozitorij na lokalni datotečni sistem.
- Pritisnite F1 in izberite ukaz **Remote-Containers: Open Folder in Container...**.
- Izberite klonirano kopijo te mape, počakajte, da se vsebnik zažene, in preizkusite stvari.
## Dostop brez povezave
To dokumentacijo lahko poganjate brez povezave z uporabo [Docsify](https://docsify.js.org/#/). Kopirajte ta repozitorij, [namestite Docsify](https://docsify.js.org/#/quickstart) na lokalni računalnik, nato v korenski mapi repozitorija zaženite ukaz `docsify serve`. Spletna stran bo dostopna na vratih 3000 na vašem lokalnem gostitelju: `localhost:3000`.
To dokumentacijo lahko uporabljate brez povezave z uporabo [Docsify](https://docsify.js.org/#/). Razvijte ta repozitorij, [namestite Docsify](https://docsify.js.org/#/quickstart) na vaš lokalni računalnik, nato pa v glavni mapi tega repozitorija vnesite `docsify serve`. Spletna stran bo dostopna na pristanišču 3000 na localhostu: `localhost:3000`.
> Opomba, prenosniki (notebooks) ne bodo prikazani prek Docsify, zato jih po potrebi zaženite posebej v VS Code z zagonom Python jedra.
> Opomba, zvezki (notebooks) ne bodo prikazani preko Docsify, zato ko boste potrebovali zagnati zvezek, to naredite ločeno v VS Code z izvajanjem Pythonovega jedra.
## Drugi učni načrti
Naša ekipa ustvarja tudi druge učne načrte! Oglejte si:
Naša ekipa izdeluje tudi druge učne načrte! Oglejte si:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
@ -200,26 +210,26 @@ Naša ekipa ustvarja tudi druge učne načrte! Oglejte si:
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Agentje
### Azure / Edge / MCP / Agenti
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Serija Generativna AI
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### Serija generativne umetne inteligence
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
@ -228,26 +238,26 @@ Naša ekipa ustvarja tudi druge učne načrte! Oglejte si:
---
### Serija Copilot
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**Se pojavljajo težave?** Preverite naš [vodnik za odpravljanje težav](TROUBLESHOOTING.md) za rešitve pogostih problemov.
**Se soočate s težavami?** Preverite naš [vodnik za odpravljanje težav](TROUBLESHOOTING.md) za rešitve pogostih problemov.
Če se zataknete ali imate kakršnakoli vprašanja glede izdelave AI aplikacij. Pridružite se sošolcem in izkušenim razvijalcem v razpravah o MCP. To je podporna skupnost, kjer so vprašanja dobrodošla in je znanje prosto deljeno.
Če se zataknete ali imate kakršnakoli vprašanja o gradnji AI aplikacij. Pridružite se so-učencem in izkušenim razvijalcem v razpravah o MCP. Je podporna skupnost, kjer so vprašanja dobrodošla in se znanje svobodno deli.
Ta dokument je bil preveden z uporabo storitve za avtomatski prevod AI [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, upoštevajte, da lahko avtomatski prevodi vsebujejo napake ali nepravilnosti. Izvirni dokument v njegovem izvirnem jeziku velja za avtoritativni vir. Za pomembne informacije priporočamo strokovni človeški prevod. Za kakršnekoli nesporazume ali napačne interpretacije, ki izhajajo iz uporabe tega prevoda, ne prevzemamo odgovornosti.
**Opozorilo**:
Ta dokument je bil preveden z uporabo AI prevajalske storitve [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da avtomatizirani prevodi lahko vsebujejo napake ali netočnosti. Izvirni dokument v matičnem jeziku velja za avtoritativni vir. Za pomembne informacije priporočamo strokovni prevod, ki ga opravi človek. Za morebitne nesporazume ali napačne interpretacije, ki izhajajo iz uporabe tega prevoda, ne prevzemamo odgovornosti.
[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [Квиз пре предавања](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -140,7 +140,7 @@
У овом изазову, покушаћемо да пронађемо концепте релевантне за област науке о подацима анализирајући текстове. Узет ћемо Википедијски чланак о науци о подацима, преузети и обрадити текст, а затим направити облак речи попут овог:


Посетите [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') да бисте прочитали код. Такође можете покренути код и видети како у реалном времену врши све трансформације података.
"У овом примеру, урадићемо једноставну вежбу која обухвата све кораке традиционалног процеса науке о подацима. Не морате писати никакав код, можете само кликнути на ћелије испод да их извршите и посматрате резултат. Као изазов, охрабрујемо вас да испробате овај код са различитим подацима.\n",
"У овом примеру, хајде да урадимо једноставну вежбу која покрива све кораке традиционалног процеса науке о подацима. Не морате да пишете никакав код, можете једноставно да кликнете на ћелије испод да их извршите и посматрате резултат. Као изазов, подстиче се да испробате овај код са различитим подацима.\n",
"\n",
"## Циљ\n",
"\n",
"У овом часу, разговарали смоо различитим концептима везаним за науку о подацима. Хајде да покушамо да откријемо више повезаних концепата кроз **рударење текста**. Почећемо са текстом о науци о подацима, извући кључне речи из њега, а затим покушати да визуализујемо резултат.\n",
"У овој лекцији смо разговаралио различитим концептима везаним за науку о подацима. Хајде да покушамо да откријемо још повезаних концепата радећи неку врсту **текст мајнинга**. Почећемо са текстом о науци о подацима, извући кључне речи из њега, а затим покушати да визуелизујемо резултат.\n",
"\n",
"Као текст, користићемо страницу о науци о подацима са Википедије:\n"
"Као текст ћу користити страницу о науци о подацима са Википедије:\n"
],
"metadata": {}
},
@ -34,7 +34,7 @@
"source": [
"## Корак 1: Преузимање података\n",
"\n",
"Први корак у сваком процесу обраде податакаје преузимање података. Користићемо библиотеку `requests` за то:\n"
"Први корак у сваком процесу науке о подацимаје преузимање података. Користићемо библиотеку `requests` за то:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## Корак 2: Трансформисање података\n",
"## Корак 2: Трансформација података\n",
"\n",
"Следећи корак јеконвертовање података у облик погодан за обраду. У нашем случају, преузели смо HTML изворни код са странице и потребно је да га претворимо у обичан текст.\n",
"Следећи корак јепретварање података у облик погодан за обраду. У нашем случају, преузели смо HTML изворни код са странице, и треба да га претворимо у обичан текст.\n",
"\n",
"Постоји много начина да сеово уради. Ми ћемо користити најједноставнији уграђени [HTMLParser](https://docs.python.org/3/library/html.parser.html) објекат из Python-а. Потребно је да наследимо `HTMLParser` класу и дефинишемо код који ће сакупљати сав текст унутар HTML ознака, осим ознака `<script>` и `<style>`.\n"
"Постоји много начина да сето уради. Користићемо [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), популарну Python библиотеку за парсирање HTML-а. BeautifulSoup нам омогућава да циљамо одређене HTML елементе, тако да можемо да се фокусирамо на главни чланак са Википедије и смањимо неке навигационе меније, бочне траке, подножја и други небитни садржај (иако неки шаблонски текст можда и даље остане).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Прво, потребно је да инсталирамо библиотеку BeautifulSoup за парсирање HTML-а:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## Корак 3: Добијање увида\n",
"\n",
"Најважнији корак је претварање наших података у облик из којег можемо извући увиде. У нашем случају, желимо да извучемо кључне речи из текста и видимо које кључне речису значајније.\n",
"Најважнији корак је претворити наше податке у неки облик из којег можемо извући увиде. У нашем случају, желимо да издвојимо кључне речи из текста и видимо које сукључне речи значајније.\n",
"\n",
"Користићемо Python библиотеку звану [RAKE](https://github.com/aneesha/RAKE) за издвајање кључних речи. Прво, хајде да инсталирамо ову библиотеку у случају да није већ присутна:\n"
"Користићемо Python библиотеку која се зове [RAKE](https://github.com/aneesha/RAKE) за издвајање кључних речи. Прво, хајде да инсталирамо ову библиотеку уколико није присутна: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Главна функционалност је доступна из `Rake` објекта, који можемо прилагодити користећи неке параметре. У нашем случају, поставићемо минималну дужину кључне речи на 5 карактера, минималну учесталост кључне речи у документу на 3, и максималан број речи у кључној речи на 2. Слободно експериментишите са другим вредностима и посматрајте резултат.\n"
"Основна функционалност је доступна преко објекта `Rake`, који можемо прилагодити користећи неке параметре. У нашем случају, поставићемо минималну дужину кључне речи на 5 карактера, минималну учесталост кључне речи у документу на 3, и максималан број речи у кључној речи на 2. Слободно експериментишите са другим вредностима и посматрајте резултат.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Добили смо листу термина заједно саодговарајућим степеном важности. Као што можете видети, најрелевантније дисциплине, као што су машинско учење и велики подаци, налазе се на врху листе.\n",
"Добили смо листу термина заједно саповезаним степеном важности. Као што видите, најрелевантније дисциплине, као што су машинско учење и велики подаци, присутне су на врховима листе.\n",
"\n",
"## Корак 4: Визуелизација резултата\n",
"\n",
"Људи најбоље тумаче податке у визуелном облику. Због тога често има смисла визуелизовати податке како бисмо извукли одређене увиде. Можемо користити библиотеку `matplotlib` у Пајтону да прикажемо једноставну дистрибуцију кључних речи са њиховом релевантношћу:\n"
"Људи најбоље тумаче податке у визуелном облику. Стога често има смисла визуелизовати податке да бисмо извукли неке увиде. Можемо користити библиотеку `matplotlib` у Питону за приказ једноставне дистрибуције кључних речи са њиховом релевантношћу:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Међутим, постоји још бољи начин да се визуализују учесталости речи - коришћењем **облака речи**. Биће нам потребно да инсталирамо још једну библиотеку како бисмо нацртали облак речи из наше листе кључних речи.\n"
"Постоји, међутим, још бољи начин да се визуелизују фреквенције речи - коришћењем **Word Cloud**. Биће нам потребно да инсталирамо још једну библиотеку за приказ облака речи из наше листе кључних реченица.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` објекат је одговоран за примање или оригиналног текста, или унапред израчунате листе речи са њиховим фреквенцијама, и враћа слику, која затим може бити приказана користећи `matplotlib`:\n"
"`WordCloud` објекат је одговоран за прихватање или оригиналног текста, или претходно израчунатог списка речи са њиховим учесталостима, и враћа слику, која се затим може приказати коришћењем `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Можемо такође проследити оригинални текст у `WordCloud` - хајде да видимо да ли можемо добити сличан резултат:\n"
"Такође можемо проследити оригинални текст у `WordCloud` - хајде да видимо да ли можемо добити сличан резултат:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"Можете видети да облак речи сада изгледа импресивније, али такође садржи доста шума (нпр. нерелевантне речи као што је `Retrieved on`). Такође добијамо мање кључних речи које се састоје од две речи, као што су *data scientist* или *computer science*. Ово је зато што RAKE алгоритам много боље обавља посао у избору добрих кључних речи из текста. Овај пример илуструје важност претходне обраде и чишћења података, јер јасна слика на крају омогућава доношење бољих одлука.\n",
"Можете видети да речни облак сада изгледа импресивније, али такође садржи много буке (нпр. нерелевантне речи као што је `Retrieved on`). Такође добијамо мање кључних речи које се састоје од две речи, као што су *data scientist* или *computer science*. Тоје зато што RAKE алгоритам много боље ради на одабиру добрих кључних речи из текста. Овај пример илуструје значај претходне обраде и чишћења података, јерће нам јасна слика на крају омогућити боље одлуке.\n",
"\n",
"У овом задатку прошли смо кроз једноставан процес извлачења значења из Википедијског текста, у облику кључних речи и облака речи. Овај пример је прилично једноставан, али добро демонстрира све типичне кораке које ће један научник података предузети када ради са подацима, почевши од прикупљања података па до визуализације.\n",
"У овом задатку смо прошли кроз једноставан процес извлачења значења из Википедијиног текста, у облику кључних речи и речног облака. Овај пример је прилично једноставан, али добро приказује све типичне кораке које ће научник о подацима направити када ради са подацима, почевши од добијања података до визуелизације.\n",
"\n",
"На нашем курсу ћемо детаљно разговарати о свим тим корацима.\n"
"На нашем курсу ћемо детаљно размотрити све те кораке.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Одрицање од одговорности**: \nОвај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако настојимо да обезбедимо тачност, молимо вас да имате у виду да аутоматизовани преводи могу садржати грешке или нетачности. Оригинални документ на изворном језику треба сматрати меродавним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква неспоразумевања или погрешна тумачења која могу произаћи из коришћења овог превода.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Ограничење одговорности**: \nОвај документ је преведен коришћењем AI услуге за превод [Co-op Translator](https://github.com/Azure/co-op-translator). Иако настојимо да обезбедимо тачност, имајте у виду да аутоматски преводи могу садржати грешке или нетачности. Изворни документ на његовом оригиналном језику треба сматрати овлашћеним и ауторитетним извором. За критичне информације препоручује се професионални људски превод. Нисмо одговорни за било каква неспоразума или погрешна тумачења која могу настати коришћењем овог превода.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"> *У овом нотебуку експериментишемо са коришћењем различитих URL-ова - Википедијски чланак о машинском учењу. Можете видети да, за разлику од науке о подацима, овај чланак садржи много термина, што анализу чини проблематичнијом. Морамо смислити други начин за чишћење података након екстракције кључних речи, како бисмо се ослободили неких честих, али не значајних комбинација речи.*\n",
"> *У овом бележнику експериментишемо са коришћењем различитих URL - Википедијски чланак оМашинском учењу. Можете видети да, за разлику од науке о подацима, овај чланак садржи много термина, што чини анализу проблематичнијом. Морамо смислити други начин да очистимо податке након извлачења кључних речи, како бисмо се избавили од неких често понављајућих, али незначајних комбинација речи.*\n",
"\n",
"У овом примеру, урадићемо једноставну вежбу која покрива све кораке традиционалног процеса науке о подацима. Не морате писати никакав код, можете само кликнути на ћелије испод да их извршите и посматрате резултат. Као изазов, охрабрујемо вас да испробате овај код са различитим подацима.\n",
"У овом примеру, хајде да урадимо једноставан задатак који покрива све кораке традиционалног процеса науке о подацима. Не морате писати никакав код, можете једноставно кликнути на ћелије испод да их извршите и посматрате резултат. Као изазов, охрабрени сте да испробате овај код са другачијим подацима.\n",
"\n",
"## Циљ\n",
"\n",
"У овој лекцији разговарали смо о различитим концептима везаним за науку о подацима. Покушајмо да откријемо више повезаних концепата кроз **рударење текста**. Почећемо са текстом о науци о подацима, извући кључне речи из њега, азатим покушати да визуализујемо резултат.\n",
"У овој лекцији смо разговарали о различитим концептима повезаним са науком о подацима. Покушајмо да откријемо још сродних концепата радећи неку врсту **текстуалне анализе**. Почећемо са текстом о науци о подацима, извући кључне речи из њега, апотом покушати да визуелизујемо резултат.\n",
"\n",
"Као текст, користићу страницу о науци о подацима са Википедије:\n"
],
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Корак 1: Преузимање података\n",
"## Step 1: Преузимање података\n",
"\n",
"Први корак у сваком процесу обраде податакаје преузимање података. Користићемо библиотеку `requests` за то:\n"
"Први корак у сваком процесу науке о подацимаје преузимање података. Користићемо библиотеку `requests` за то:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Корак 2: Претварање података\n",
"## Корак 2: Трансформација података\n",
"\n",
"Следећи корак је претварање података у облик погодан за обраду. У нашем случају, преузели смо HTML изворни код са странице и потребно је да га конвертујемо у обичан текст.\n",
"Следећи корак је претварање података у облик погодан за обраду. У нашем случају, преузели смо HTML изворни код са странице, и потребно је да га претворимо у обичан текст.\n",
"\n",
"Постоји много начина да се ово уради. Ми ћемо користити најједноставнији уграђени [HTMLParser](https://docs.python.org/3/library/html.parser.html) објекат из Python-а. Потребно је да наследимо `HTMLParser` класу и дефинишемо код који ће сакупљати сав текст унутар HTML ознака, осим `<script>` и `<style>` ознака.\n"
"Постоји много начина на које се то може урадити. Користићемо [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), популарну Python библиотеку за парсирање HTML-а. BeautifulSoup нам омогућава да циљамо специфичне HTML елементе, тако да можемо да се фокусирамо на главни садржај чланка са Википедије и смањимо неке навигационе меније, бочне траке, футере и други небитни садржај (иако може остати неки шаблонски текст).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Прво, потребно је да инсталирамо библиотеку BeautifulSoup за парсирање HTML-а:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -118,9 +116,9 @@
"source": [
"## Корак 3: Добијање увида\n",
"\n",
"Најважнији корак је претварање наших података у облик из којег можемо извући увиде. У нашем случају, желимо да извучемо кључне речи из текста и видимо које кључне речи су значајније.\n",
"Најважнији корак је претворити наше податке у неки облик из којег можемо извући увиде. У нашем случају, желимо да извадимо кључне речи из текста и видимо које кључне речи имају већу значајност.\n",
"\n",
"Користићемо Python библиотеку под називом [RAKE](https://github.com/aneesha/RAKE) за издвајање кључних речи. Прво, хајде да инсталирамо ову библиотеку у случају да није већ присутна:\n"
"Користићемо Python библиотеку која се зове [RAKE](https://github.com/aneesha/RAKE) за извлачење кључних речи. Прво, хајде да инсталирамо ову библиотеку уколико није присутна: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Главна функционалност је доступна из `Rake` објекта, који можемо прилагодити користећи неке параметре. У нашем случају, подесићемо минималну дужину кључне речи на 5 карактера, минималну учесталост кључне речи у документу на 3, и максималан број речи у кључној речи на 2. Слободно експериментишите са другим вредностима и посматрајте резултат.\n"
"Главна функционалност је доступна кроз `Rake` објекат, који можемо прилагодити коришћењем неких параметара. У нашем случају, подесићемо минималну дужину кључне речи на 5 карактера, минималну учесталост кључне речи у документу на 3, и максималан број речи у кључној речи на 2. Слободно експериментишите са другим вредностима и посматрајте резултате.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Добили смо листу термина заједно са одговарајућим степеном важности. Као што можете видети, најрелевантније дисциплине, као што су машинско учење и велики подаци, налазе се на врху листе.\n",
"\n",
"Добијена је листа појмова заједно са повезаним степеном важности. Као што видите, најрелевантније дисциплине, као што су машинско учење и велики подаци, присутне су на врху листе.\n",
"\n",
"## Корак 4: Визуелизација резултата\n",
"\n",
"Људи најбоље тумаче податке у визуелном облику. Због тога често има смисла визуелизовати податке како бисмо извукли одређене увиде. Можемо користити библиотеку `matplotlib` у Пајтону за креирање једноставне дистрибуције кључних речи са њиховом релевантношћу:\n"
"Људи најбоље могу да интерпретирају податке у визуелном облику. Због тога често има смисла да се подаци визуелизују како би се извукао неки увид. Можемо користити библиотеку `matplotlib` у Пајтону да прикажемо једноставну дистрибуцију кључних речи са њиховом релевантношћу:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"Међутим, постоји још бољи начин за визуелизацију учесталости речи - коришћењем **облака речи**. Биће нам потребно да инсталирамо још једну библиотеку како бисмо приказали облак речи из наше листе кључних речи.\n"
"Постоји, међутим, још бољи начин да се визуализују фреквенције речи - коришћењем **Облака речи**. Биће нам потребно да инсталирамо још једну библиотеку како бисмо приказали облак речи из наше листе кључних речи.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` објекат јеодговоран за примање или оригиналног текста, или унапред израчунате листе речи са њиховим фреквенцијама, и враћа слику, која затим може бити приказана коришћењем `matplotlib`:\n"
"`WordCloud` објекат језадужен за прихватање или оригиналног текста, или претходно израђене листе речи са њиховим фреквенцијама, и враћа слику, која се затим може приказати коришћењем `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"Можемо такође проследити оригинални текст у `WordCloud` - хајде да видимо да ли можемо добити сличан резултат:\n"
"Такође можемо проследити оригинални текст у `WordCloud` - хајде да видимо да ли можемо добити сличан резултат:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"Можете видети да облак речи сада изгледа импресивније, али такође садржи доста \"буке\" (нпр. неповезане речи као што је `Retrieved on`). Такође, добијамо мање кључних речи које се састоје од две речи, као што су *data scientist* или *computer science*. Ово је зато што RAKE алгоритам много боље бира добре кључне речи из текста. Овај пример илуструје важност претходне обраде и чишћења података, јер ће нам јасна слика на крају омогућити да доносимо боље одлуке.\n",
"Видите да речна облака сада изгледа импресивније, али такође садржи доста буке (нпр. неповезане речи као што је `Retrieved on`). Такође, добијамо мање кључних речи које се састоје од две речи, као што су *data scientist* или *computer science*. Тоје зато што RAKE алгоритам много боље обавља посао у избору добрих кључних речи из текста. Овај пример илуструје важност предобраде и чишћења података, јер ће нам коначна јасна слика омогућити доношење бољих одлука.\n",
"\n",
"У овој вежби смо прошли кроз једноставан процес извлачења значења из Википедијиног текста,у облику кључних речи и облакаречи. Овај пример је прилично једноставан, али добро демонстрира све типичне кораке које ће један научник података предузети када ради са подацима, почевши од прикупљања података па све до визуализације.\n",
"У овом задатку смо прошли кроз једноставан процес извлачења значења из Википедијиног текста у облику кључних речи и речне облаке. Овај пример је прилично једноставан, али добро демонстрира све типичне кораке које ће data scientist предузети када ради са подацима, почевши од прикупљања података до визуелизације.\n",
"\n",
"На нашем курсу ћемо детаљно разговарати о свим тим корацима.\n"
"У нашем курсу ћемо детаљно расправљати све те кораке.\n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Одрицање од одговорности**: \nОвај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако настојимо да обезбедимо тачност, молимо вас да имате у виду да аутоматизовани преводи могу садржати грешке или нетачности. Оригинални документ на изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква неспоразумевања или погрешна тумачења која могу произаћи из коришћења овог превода.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Одрицање од одговорности**: \nОвај документ је преведен помоћу услуге за превођење вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако тежимо тачности, молимо имајте у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом матерњем језику треба сматрати ауторитетним извором. За критичне информације препоручује се професионалан људски превод. Не сносимо одговорност за било каква неспоразума или погрешне тумачења која произилазе из употребе овог превода.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
Теорија статистике и вероватноће су две блиско повезане области математике које су веома значајне за науку о подацима. Могуће је радити са подацима без дубоког познавања математике, али је ипак боље знати барем основне концепте. Овде ћемо представити кратак увод који ће вам помоћи да започнете.
## [Квиз пре предавања](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
Можемо говорити само о вероватноћи да променљива падне у дати интервал вредности, нпр. P(t<sub>1</sub>≤X<t<sub>2</sub>). У овом случају, расподела вероватноће описује се**функцијом густине вероватноће** p(x), тако да
Континуални аналог равномерне расподеле назива се**континуална равномерна**, која је дефинисана на коначном интервалу. Вероватноћа да вредност X падне у интервал дужине l је пропорционална l, и расте до 1.
@ -73,11 +73,11 @@
Ево бокс плота који приказује средњу вредност, медијану и квартиле за наше податке:
Пошто наши подаци садрже информације о различитим **улогама** играча, можемо направити бокс плот по улогама - то ће нам омогућити да добијемо идеју о томе како се вредности параметара разликују у зависности од улога. Овог пута ћемо размотрити висину:


Овај дијаграм сугерише да је, у просеку, висина играча на првој бази већа од висине играча на другој бази. Касније у овој лекцији научићемо како можемо формалније тестирати ову хипотезу и како да покажемо да су наши подаци статистички значајни за то.
@ -85,7 +85,7 @@
Да бисмо видели каква је расподела наших података, можемо нацртати график који се назива **хистограм**. Оса X би садржала број различитих интервала тежине (такозваних **бинова**), а вертикална оса би показивала број пута када је узорак наше случајне променљиве био у датом интервалу.


Из овог хистограма можете видети да су све вредности концентрисане око одређене средње тежине, и што се више удаљавамо од те тежине - мање тежина те вредности се сусреће. Односно, веома је мало вероватно да ће тежина бејзбол играча бити веома различита од средње тежине. Варијанса тежина показује степен до којег тежине могу да се разликују од средње вредности.
Ако нацртамо хистограм генерисаних узорака, видећемо слику веома сличну оној приказаној изнад. А ако повећамо број узорака и број бинова, можемо генерисати слику нормалне расподеле која је ближа идеалу:


*Нормална расподела са mean=0 и std.dev=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
У нашем случају, вредност 0.53 указује да постоји нека корелација између тежине и висине особе. Такође можемо направити график расејања једне вредности у односу на другу да бисмо визуелно видели однос:


> Више примера корелације и коваријансе можете пронаћи у [пратећем нотебуку](notebook.ipynb).


> Фотографија од <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Стивена Досона</a> на <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
У овим лекцијама открићете како се наука о подацима дефинише и научићете о етичким аспектима које сваки научник о подацима мора узети у обзир. Такође ћете научити како се подаци дефинишу и добити основно знање о статистици и вероватноћи, кључним академским областима науке о подацима.
Иако базе података нуде веома ефикасне начине за складиштење података и њихово претраживање помоћу језика за упите, најфлексибилнији начин обраде података је писање сопственог програма за манипулацију подацима. У многим случајевима, коришћење упита у бази података би било ефикасније. Међутим, у неким случајевима када је потребна сложенија обрада података, то се не може лако урадити помоћу SQL-а.
Обрада података може се програмирати у било ком програмском језику, али постоје одређени језици који су на вишем нивоу када јеу питању рад са подацима. Научници који се баве подацима обично преферирају један од следећих језика:
@ -66,7 +66,7 @@ print(f"Length of index is {len(idx)}")
Сада претпоставимо да сваке недеље организујемо журку за пријатеље и узимамо додатних 10 пакета сладоледа за журку. Можемо креирати други низ, индексиран по недељама, да то покажемо:
> **Напомена** да не користимо једноставну синтаксу `total_items+additional_items`. Да јесмо, добили бисмо много `NaN` (*Not a Number*) вредности у резултујућем низу. Тоје зато што недостају вредности за неке тачке индекса у низу `additional_items`, а додавање `NaN` било чему резултира у`NaN`. Због тога морамо да наведемо параметар `fill_value` током сабирања.
@ -212,7 +212,7 @@ Data Scientist често мора да истражује податке, па
Пошто желимо да покажемо како се ради са подацима, позивамо вас да отворите [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) и прочитате га од почетка до краја. Такође можете извршавати ћелије и решавати неке изазове које смо оставили за вас на крају.
> Ако не знате како да покренете код у Jupyter Notebook-у, погледајте [овај чланак](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -234,7 +234,7 @@ Data Scientist често мора да истражује податке, па
Отворите [`notebook-papers.ipynb`](notebook-papers.ipynb) и прочитајте га од почетка до краја. Такође можете извршавати ћелије и решавати неке изазове које смо оставили за вас на крају.


> Фотографија од <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Александра Сина</a> на <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
У овим лекцијама ћете научити неке од начина на које се подаци могу управљати, манипулисати и користити у апликацијама. Научићете о релационим и нерелационим базама података и како се подаци могу чувати у њима. Упознаћете основе рада са Python-ом за управљање подацима и открићете неке од многих начина на које можете користити Python за управљање и анализу података.
Сада прикажите исте податке са шемом боја меда како бисте приказали како се цена мењала током година. Ово можете урадити додавањем параметра 'hue' да прикажете промену из године у годину:
Са овом променом шеме боја, можете видети да постоји очигледан снажан напредак током година у погледу цене меда по фунти. Заиста, ако погледате узорак података (на пример, државу Аризону), можете уочити образац повећања цена из године у годину, са неколико изузетака:
Да ли је ово једноставан случај понуде и потражње? Због фактора као што су климатске промене и колапс кошница, да ли је мање меда доступно за куповину из године у годину, па самим тим цена расте?
✅ Пошто Seaborn агрегира податке око једне линије, приказује "више мерења за сваку x вредност тако што приказује просек и 95% интервал поверења око просека". [Извор](https://seaborn.pydata.org/tutorial/relational.html). Ово временски захтевно понашање може се онемогућити додавањем `ci=None`.
Одговор: Не баш. Ако погледате укупну производњу, чини се да је она заправо порасла те године, иако генерално количина произведеног меда опада током ових година.
@ -130,7 +130,7 @@ sns.relplot(
```
У овој визуелизацији можете упоредити принос по кошници и број кошница из године у годину, један поред другог, са wrap подешеним на 3 за колоне:
За овај скуп података, ништа посебно се не издваја у погледу броја кошница и њиховог приноса, из године у годину и из државе у државу. Постоји ли другачији начин да се пронађе корелација између ове две променљиве?
Иако ништа не упада у очи око 2003. године, ово нам омогућава да завршимо лекцију на мало срећнијој ноти: иако укупан број кошница опада, број кошница се стабилизује, чак и ако њихов принос по кошници опада.
Овде инсталирате `ggplot2` пакет и затим га увозите у радни простор користећи команду `library("ggplot2")`. За креирање било ког графикона у ggplot-у користи се функција `ggplot()` и ви одређујете базу података, x и y променљиве као атрибуте. У овом случају, користимо функцију `geom_line()`јер желимо да креирамо линијски графикон.
Шта одмах примећујете? Чини се да постоји бар један изузетак - то је прилично велики распон крила! Распон крила од преко 2000 центиметара је више од 20 метара - да ли Птеродактили лете изнад Минесоте? Хајде да истражимо.
Чак и са ротацијом ознака постављеном на 45 степени, има их превише за читање. Хајде да пробамо другачију стратегију: означимо само те изузетке и поставимо ознаке унутар графикона. Можете користити расејани графикон да бисте направили више простора за означавање:
У следећем исечку, инсталирамо [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) и [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) пакете како бисмо помогли у манипулацији и груписању података ради креирања сложеног стубног графикона. Прво групишете податке по `Category` птица и затим сумирате колоне `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Затим креирате стубни графикон користећи `ggplot2` пакет и одређујете боје за различите категорије и ознаке.


Овај стубни графикон, међутим, није читљив јер има превише неконсолидованих података. Потребно је да изаберете само податке које желите да прикажете, па хајде да погледамо дужину птица на основу њихове категорије.
Прво бројите јединствене вредности у колони `Category` и затим их сортирате у нови датафрејм `birds_count`. Ови сортирани подаци се затим факторизују на истом нивоу како би били приказани у сортираном редоследу. Користећи `ggplot2` затим креирате графикон у облику стубног графикона. `coord_flip()` приказује хоризонталне стубове.
Овај стубни графикон пружа добар приказ броја птица у свакој категорији. На први поглед видите да је највећи број птица у овом региону у категорији Патке/Гуске/Водене птице. Минесота је 'земља 10,000 језера', па то није изненађујуће!


Ово даје преглед опште дистрибуције дужине тела по реду птица, али није оптималан начин за приказивање правих дистрибуција. Тај задатак се обично обавља креирањем хистограма.


Као што видите, већина од 400+ птица у овом скупу података спада у опсег испод 2000 за њихову максималну телесну масу. Стеците више увида у податке променом параметра `bins` на већи број, нешто попут 30:
Овај графикон приказује дистрибуцију на мало детаљнији начин. Мање искривљен графикон могао би се направити тако што бисте осигурали да одаберете само податке унутар датог опсега:
✅ Испробајте неке друге филтере и тачке података. Да бисте видели пуну дистрибуцију података, уклоните филтер `['MaxBodyMass']` да бисте приказали означене дистрибуције.


Чини се да не постоји добра корелација између минималног распона крила и статуса очувања. Тестирајте друге елементе скупа података користећи овај метод. Можете испробати различите филтере. Да ли налазите неку корелацију?
Можете видети како графикон одражава претходни за податке о минималном распону крила; само је мало глаткији. Ако желите да поново погледате ту назубљену линију MaxBodyMass у другом графикону који сте направили, могли бисте је веома добро изгладити поновним креирањем користећи овај метод:
Ево га, пита графикон који приказује пропорције ових података према ове две класе печурака. Веома је важно добити редослед етикета исправно, посебно овде, па обавезно проверите редослед којим је низ етикета направљен!
Користећи вафл графикон, јасно можете видети пропорције боја шешира у овом сету података о печуркама. Интересантно је да постоји много печурака са зеленим шеширима!
У овој лекцији, научили сте три начина за визуализацију пропорција. Прво, потребно је да групишете своје податке у категорије, а затим одлучите који је најбољи начин за приказивање података - пита, крофна или вафл. Сви су укусни и пружају кориснику тренутни увид у сет података.
Сада, прикажите исте податке са шемом боја меда да покажете како се цена развија током година. То можете урадити додавањем параметра 'scale_color_gradientn' да прикажете промену из године у годину:
Са овом променом шеме боја, можете видети да постоји очигледан напредак током година у погледу цене меда по фунти. У ствари, ако погледате узорак података да бисте проверили (на пример, изаберите државу Аризону), можете видети образац повећања цена из године у годину, са неколико изузетака:
Да ли је ово једноставан случај понуде и потражње? Због фактора као што су климатске промене и колапс колонија, да ли је мање меда доступно за куповину из године у годину, па самим тим цена расте?
Одговор: Не баш. Ако погледате укупну производњу, чини се да је она заправо повећана те године, иако генерално количина произведеног меда опада током ових година.
За овај скуп података, ништа посебно не одскаче у погледу броја колонија и њиховог приноса, из године у годину и из државе у државу. Да ли постоји другачији начин да се пронађе корелација између ове две променљиве?
Иако ништа не упада у очи око 2003. године, ово нам омогућава да завршимо лекцију на мало срећнијој ноти: иако је укупан број колонија у опадању, број колонија се стабилизује, чак и ако њихов принос по колонији опада.
Чак и ако дата научник пажљиво одабере прави графикон за праве податке, постоји много начина на које подаци могу бити приказани да би се доказала одређена теза, често на штету самих података. Постоји много примера обмањујућих графикона и инфографика!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Како графикони лажу")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Како графикони лажу")
> 🎥 Кликните на слику изнад за конференцијски говор о обмањујућим графиконима
Овај графикон обрће X осу да би приказао супротно од истине, на основу датума:
[Овај графикон](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) је још обмањујући, јер око прати десну страну и закључује да су током времена случајеви COVID-а опали у различитим окрузима. У ствари, ако пажљиво погледате датуме, открићете да су они преуређени да би се приказао обмањујући тренд опадања.
Овај озлоглашени пример користи боју И обрнуту Y осу да би обмануо: уместо закључка да су смртни случајеви од оружја нагло порасли након усвајања закона који подржава оружје, око је преварено да мисли супротно:
Упоређивање неупоредивог је још један сумњив трик. Постоји [диван веб сајт](https://tylervigen.com/spurious-correlations) посвећен 'лажним корелацијама' који приказује 'чињенице' које корелирају ствари попут стопе развода у Мејну и потрошње маргарина. Реддит група такође сакупља [ружне употребе](https://www.reddit.com/r/dataisugly/top/?t=all) података.
@ -91,13 +91,13 @@
Ако су ваши подаци текстуални и опширни на X оси, можете нагнути текст ради боље читљивости. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) нуди 3Д графиконе, ако ваши подаци то подржавају. Софистициране визуализације података могу се произвести помоћу њега.
Неки од најбољих визуализација података данас су анимирани. Ширли Ву има невероватне примере направљене са D3, као што је '[цветови филма](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', где је сваки цвет визуализација филма. Још један пример за Guardian је 'бусед оут', интерактивно искуство које комбинује визуализације са Greensock и D3 плус формат чланка са скроловањем за приказ како Њујорк решава проблем бескућника тако што их шаље ван града.
> "Бусед Оут: Како Америка премешта своје бескућнике" из [Guardian-а](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Визуализације од Надие Бремер и Ширли Ву
@ -107,7 +107,7 @@
Завршићете веб апликацију која ће приказати анимирани приказ ове друштвене мреже. Користи библиотеку која је направљена за креирање [визуализације мреже](https://github.com/emiliorizzo/vue-d3-network) користећи Vue.js и D3. Када апликација ради, можете померати чворове по екрану да бисте прераспоредили податке.


> Фотографија од <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Џене Ли</a> на <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Визуелизација података је један од најважнијих задатака научника за податке. Слика вреди хиљаду речи, а визуелизација вам може помоћи да уочите све врсте занимљивих аспеката ваших података, као што су врхови, одступања, груписања, тенденције и још много тога, што вам може помоћи да разумете причу коју ваши подаци покушавају да испричају.
Ова лекција се фокусира на 3 дела животног циклуса: прикупљање, обрада и одржавање.


> Фотографија од [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Прикупљање
@ -92,7 +92,7 @@
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
| |  |
| |  |
| Слика од [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Слика од [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Квиз после предавања](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> Фотографија од <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> на <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
У овим лекцијама истражићете неке аспекте животног циклуса науке о подацима, укључујући анализу и комуникацију у вези са подацима.
> Фотографија од [Јелеке Ванутегем](https://unsplash.com/@ilumire) са [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Када је реч о примени науке о подацима на велике скупове података, облак може бити револуционарно решење. У наредне три лекције, видећемо шта је облак и зашто може бити веома користан. Такође ћемо истражити скуп података о срчаној инсуфицијенцији и изградити модел који ће помоћи у процени вероватноће да неко има срчану инсуфицијенцију. Искористићемо моћ облака да обучимо, применимо и користимо модел на два различита начина. Један начин користи само кориснички интерфејс у стилу "Low code/No code", а други начин користи Azure Machine Learning Software Developer Kit (Azure ML SDK).
* [Наука о подацима у здравству](https://data-flair.training/blogs/data-science-in-healthcare/) - истиче апликације као што су медицинска сликања (нпр. MRI, X-Ray, CT-Scan), геномика (секвенцирање ДНК), развој лекова (процена ризика, предвиђање успеха), предиктивна аналитика (нега пацијената и логистика снабдевања), праћење и превенција болести итд.
 Извор слике: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Извор слике: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Слика приказује друге домене и примере примене техника науке о подацима. Желите да истражите друге апликације? Погледајте секцију [Преглед и самостално учење](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) испод.
# Наука о подацима за почетнике - Наставни план и програм
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
Zagovornici Azure Cloud-a u Microsoftu sa zadovoljstvom nude 10-nedeljni, 20-lekturni nastavni plan o Data Science-u. Svaka lekcija uključuje kvizove pre i posle lekcije, pisane instrukcije za završetak lekcije, rešenje i zadatak. Naša pedagoška metoda zasnovana na projektima omogućava vam da učite kroz pravljenje, što je dokazani način da nove veštine "upamte".
Azure Cloud Advocates компаније Microsoft са задовољством нуде програм од 10 недеља и 20 лекција посвећених науци о подацима. Свака лекција укључује квиз пре и после лекције, писане упутства за извршење лекције, решење и задатак. Наша педагогија заснована на пројектима омогућава вам учење кроз практичан рад, доказао се као ефикасан начин за усвајање нових вештина.
> Ovaj repozitorijum uključuje preko 50 prevoda što značajno povećava veličinu preuzimanja. Da biste klonirali bez prevoda, koristite sparse checkout:
> **Већина више воли да клонира локално?**
>
> Овај репозиторијум укључује преводе на више од 50 језика што значајно повећава величину преузимања. Да бисте клонирали без превода, користите sparse checkout:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Ово вам даје све што вам је потребно за завршетак курса уз много брже преузимање.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Ako želite da budu podržani dodatni jezici za prevod, dostupni su na [ovom mestu](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Ако желите додатне преводе подржани језици су наведени [овде](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
Imamo trajnu seriju na Discord-u "Learn with AI", saznajte više i pridružite nam se na [Learn with AI Series](https://aka.ms/learnwithai/discord) od 18 - 30 septembra 2025. godine. Dobićete savete i trikove za korišćenje GitHub Copilot-a za Data Science.
Имамо текућу серију "Учи са AI" на Discord-у, сазнајте више и придружите нам се на [Learn with AI Series](https://aka.ms/learnwithai/discord) од 18. до 30. септембра 2025. године. Добићете савете и трикове за коришћење GitHub Copilot-а за науку о подацима.

# Da li ste student?
# Да ли сте студент?
Počnite sa sledećim resursima:
Започните са следећим ресурсима:
- [Student Hub stranica](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Na ovoj strani ćete pronaći resurse za početnike, studentske pakete pa čak i načine da dobijete besplatan sertifikacioni vaučer. Ovo je stranica koju želite da sačuvate u obeleživačima i da je povremeno proveravate jer menjamo sadržaj bar jednom mesečno.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Pridružite se globalnoj zajednici studentskih ambasadora, to može biti vaš put u Microsoft.
- [Страница студентског центра](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) На овој страници наћи ћете ресурсе за почетнике, студентске пакете па чак и начине да добијете бесплатни сертификат. Ово је страница коју треба да означите обележивачем и проверите с времена на време јер редовно мењамо садржај, најмање једном месечно.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Придружите се глобалној заједници студентских амбасадора, ово може бити ваш улазак у Microsoft.
# Početak
# Почетак рада
## 📚 Dokumentacija
## 📚 Документација
- **[Uputstvo za instalaciju](INSTALLATION.md)** - Korak-po-korak uputstva za početnike
- **[Uputstvo za upotrebu](USAGE.md)** - Primeri i uobičajeni radni tokovi
- **[Otklanjanje problema](TROUBLESHOOTING.md)** - Rešenja za česte probleme
- **[Uputstvo za doprinos](CONTRIBUTING.md)** - Kako doprineti ovom projektu
- **[Za nastavnike](for-teachers.md)** - Vodič za nastavu i resursi za učionicu
- **[Упутство за инсталацију](INSTALLATION.md)** - Корак по корак упутства за постављање за почетнике
- **[Упутство за коришћење](USAGE.md)** - Примери и уобичајени токови рада
- **[Решавање проблема](TROUBLESHOOTING.md)** - Решења за уобичајене проблеме
- **[Упутство за допринос пројекту](CONTRIBUTING.md)** - Како допринети овом пројекту
- **[За наставнике](for-teachers.md)** - Упутства за наставу и ресурси за учионицу
## 👨🎓 Za studente
> **Potpuni početnici**: Novi ste u data science-u? Počnite sa našim [prijateljskim primerima za početnike](examples/README.md)! Ovi jednostavni, dobro komentarisani primeri pomoći će vam da razumete osnove pre nego što započnete ceo nastavnim planom.
> **[Studenti](https://aka.ms/student-page)**: da koristite ovaj nastavni plan sami, napravite fork celog repozitorijuma i samostalno rešavajte vežbe, počevši kvizom pre predavanja. Zatim pročitajte predavanje i završite ostale aktivnosti. Pokušajte da kreirate projekte razumevanjem lekcija, a ne kopiranjem koda rešenja; međutim, taj kod je dostupan u fasciklama /solutions u svakoj lekciji orijentisanoj na projekat. Druga ideja je da formirate studijsku grupu sa prijateljima i zajedno prolazite kroz sadržaj. Za dodatno učenje preporučujemo [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
## 👨🎓 За студенте
> **Потпуно почетници**: Нови сте у науци о подацима? Почните са нашим [примерима прилагођеним почетницима](examples/README.md)! Ови једноставни, добро коментарисани примери помоћи ће вам да разумете основе пре него што пређете на цео наставни програм.
> **[Студенти](https://aka.ms/student-page)**: да бисте користили овај наставни програм самостално, форкујте цео репо и радите вежбе сами, почевши од квиза пре предавања. Затим прочитајте предавање и завршите остатак активности. Покушајте да креирате пројекте тако што ћете разумети лекције, а не само копирати код решења; ипак, тај код је доступан у фасциклама /solutions у свакој лекцији оријентисаној ка пројекту. Још једна идеја је да формирате студијску групу са пријатељима и заједно прођете кроз садржај. За даље учење препоручујемо [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Brzi početak:**
1. Pogledajte [Uputstvo za instalaciju](INSTALLATION.md) za postavljanje okruženja
2. Pregledajte [Uputstvo za upotrebu](USAGE.md) da naučite kako da radite sa nastavnim planom
3. Počnite sa Lekcijom 1 i radite redom
4. Pridružite se našoj [Discord zajednici](https://aka.ms/ds4beginners/discord) za podršku
**Брзи почетак:**
1. Погледајте [Упутство за инсталацију](INSTALLATION.md) за подешавање вашег окружења
2. Прегледајте [Упутство за коришћење](USAGE.md) да бисте научили како радити са наставним програмом
3. Почните са Лекцијом 1 и радите узастопно
4. Придружите се нашој [Discord заједници](https://aka.ms/ds4beginners/discord) за подршку
## 👩🏫 Za nastavnike
## 👩🏫 За наставнике
> **Наставници**: укључили смо [неке предлоге](for-teachers.md) о томе како користити овај наставни план. Волели бисмо ваше повратне информације [на нашем форуму за дискусију](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Nastavnici**: uključili smo [neke predloge](for-teachers.md) o tome kako koristiti ovaj nastavni plan. Voleli bismo vaše povratne informacije [u našem diskusionom forumu](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> 🎥 Кликните на слику изнад за видео о пројекту и људима који суга направили!
> 🎥 Кликните горњу слику за видео о пројекту и људима који суга креирали!
## Педагогија
Одабрали смо два педагошка принципа приликом креирања овог курса: осигурати да је пројектно оријентисан и да садржи честе квизове. До краја ове серије, студенти ће научити основне принципе науке о подацима, укључујући етичке концепте, припрему података, различите начине рада са подацима, визуализацију података, анализу података, стварне примере примене науке о подацима и још много тога.
Приликом израде овог наставног плана изабрали смо два педагошка начела: да буде заснован на пројектима и да укључује честа тестирања (квизове). До краја ове серије, ученици ће научити основне принципе науке о подацима, укључујући етичке концепте, припрему података, различите начине рада са подацима, визуелизацију података, анализу података, примере из стварног света коришћења науке о подацима и још много тога.
Поред тога, квиз са малим утицајем пре часова поставља студенту циљ учења теме, док други квиз после часа обезбеђује боље памћење. Овај програмје дизајниран да буде флексибилан и забаван и може се похађати у целини или делимично. Пројекти почињу од малих и постепено постају све сложенији до краја 10-недељног циклуса.
Поред тога, квиз са мало утицаја пре часа поставља намераваност ученика ка учењу теме, док други квиз након часа осигурава додатно задржавање знања. Овај наставни планје дизајниран да буде флексибилан и забаван и може се пратити у целини или делимично. Пројекти почињу мали и постају све сложенији до краја циклуса од 10 недеља.
> Пронађите наше смернице [Code of Conduct](CODE_OF_CONDUCT.md), [Contributing](CONTRIBUTING.md), [Translation](TRANSLATIONS.md). Добро дошла су ваша конструктивна мишљења!
> Проналазите наш [Кодекс понашања](CODE_OF_CONDUCT.md), упутства за [допринос](CONTRIBUTING.md), [превод](TRANSLATIONS.md). Добродошле су ваше конструктивне повратне информације!
## Свака лекција укључује:
- Опционалну скечнот белешку
- Опционални видеозапис као додатак
- Квиз за загревање пре лекције
- Писану лекцију
- За лекције базиране на пројектима, корак по корак водич за израду пројекта
- Опциони скицнот
- Опциони додатни видео
- Квиз за уводnu припрему пре лекције
- Писана лекција
- За лекције засноване на пројектима, водич корак по корак за израду пројекта
- Провере знања
- Изазов
- Додатно читање
- Додатна литература
- Задатак
- [Квиз после лекције](https://ff-quizzes.netlify.app/en/)
- [Квиз након лекције](https://ff-quizzes.netlify.app/en/)
> **Напомена о квизовима**: Сви квизови се налазе у фолдеру Quiz-App, укупно 40 квизова са по три питања сваки. Линкови су унутар лекција, али квиз апликацију можете покренути локално или објавити на Azure; пратите упутства у фолдеру `quiz-app`. Текуће се постепено преводе.
> **Напомена о квизовима**: Сви квизови налазе сеу фасцикли Quiz-App, укупно 40 квизова са по три питања сваки. Они су повезани из самих лекција, али апликацију за квизове је могуће покренути локално или распоредити на Azure; пратите упутства у фасцикли `quiz-app`. Квизови се постепено локализују.
## 🎓 Примери прилагођени почетницима
**Нови сте уНауци о подацима?** Направили смо посебан [фолдер примера](examples/README.md) са једноставним, добро коментарисаним кодом како бисте лакше почели:
**Нову науци о подацима?** Направили смо посебан [директоријум примера](examples/README.md) са једноставним, добро коментарисаним кодом који ће вам помоћи да започнете:
- 🌟 **Hello World** - Ваш први програм за науку о подацима
- 📂 **Учитавање података** - Научите како читати и истраживати скупове података
- 📊 **Једноставна анализа** - Израчунајте статистику и пронађите обрасце
- 📈 **Основна визуализација** - Креирајте графиконе и дијаграме
- 🔬 **Пројекат из стварног света** - Комплетан ток рада од почетка до краја
- 🌟 **Здраво Свете** - Ваш први програм за науку о подацима
- 📂 **Учитавање података** - Научите како да читате и истражујете скупове података
- 📊 **Једноставна анализа** - Израчунајте статистике и пронађите обрасце
- 📈 **Основна визуализација** - Креирајте дијаграме и графиконе
- 🔬 **Пројекат из стварног света** - Комплетан радни ток од почетка до краја
Сваки пример садржи детаљне коментаре који објашњавају сваки корак, што их чини савршеним за апсолутне почетнике!
Сваки пример укључује детаљне коментаре који објашњавају сваки корак, што га чини савршеним за апсолутне почетнике!
👉 **[Почните са примерима](examples/README.md)** 👈
## Лекције
||
||
|:---:|
| Наука о подацима за почетнике: План - _Скечнот од [@nitya](https://twitter.com/nitya)_ |
| Наука о подацима за почетнике: План - _Скицнот од [@nitya](https://twitter.com/nitya)_ |
| Број лекције | Тема | Груписање лекције | Циљеви учења | Линк ка лекцији | Аутор |
| 01 | Дефинисање науке о подацима | [Увод](1-Introduction/README.md) | Научите основне концепте иза науке о подацима и како је она повезана са вештачком интелигенцијом, машинским учењем и великим подацима. | [лекција](1-Introduction/01-defining-data-science/README.md) [видео](https://youtu.be/beZ7Mb_oz9I) | [Дмитриј](http://soshnikov.com) |
| 02 | Етика у науци о подацима | [Увод](1-Introduction/README.md) | Концепти етике података, изазови и оквири. | [лекција](1-Introduction/02-ethics/README.md) | [Нитија](https://twitter.com/nitya) |
| 01 | Дефинисање науке о подацима | [Увод](1-Introduction/README.md) | Научите основне појмове иза науке о подацима и како је повезана са вештачком интелигенцијом, машинским учењем и великим подацима. | [лекција](1-Introduction/01-defining-data-science/README.md) [видео](https://youtu.be/beZ7Mb_oz9I) | [Дмитриј](http://soshnikov.com) |
| 02 | Етика у науци о подацима | [Увод](1-Introduction/README.md) | Концепти, изазови и оквири етике података. | [лекција](1-Introduction/02-ethics/README.md) | [Нитија](https://twitter.com/nitya) |
| 03 | Дефинисање података | [Увод](1-Introduction/README.md) | Како се подаци класификују и њихови уобичајени извори. | [лекција](1-Introduction/03-defining-data/README.md) | [Јасмин](https://www.twitter.com/paladique) |
| 04 | Увод у статистику и вероватноћу | [Увод](1-Introduction/README.md) | Математичке технике вероватноће и статистике за разумевање података. | [лекција](1-Introduction/04-stats-and-probability/README.md) [видео](https://youtu.be/Z5Zy85g4Yjw) | [Дмитриј](http://soshnikov.com) |
| 05 | Рад са релативним подацима | [Рад са подацима](2-Working-With-Data/README.md) | Увод у релативне податке и основе истраживања и анализе релативних података уз Језик за структуиране упите, познат као SQL (изговара се "си-квел"). | [лекција](2-Working-With-Data/05-relational-databases/README.md) | [Кристофер](https://www.twitter.com/geektrainer) | | |
| 06 | Рад са NoSQL подацима | [Рад са подацима](2-Working-With-Data/README.md) | Увод у нерелативне податке, њихове различите типове и основе истраживања и анализе докумената базе података. | [лекција](2-Working-With-Data/06-non-relational/README.md) | [Јасмин](https://twitter.com/paladique)|
| 07 | Рад са Python-ом | [Рад са подацима](2-Working-With-Data/README.md) | Основе коришћења Питхона за истраживање података уз библиотеке као што је Pandas. Препоручује се основно разумевање програмирања у Python-у. | [лекција](2-Working-With-Data/07-python/README.md) [видео](https://youtu.be/dZjWOGbsN4Y) | [Дмитриј](http://soshnikov.com) |
| 08 | Припрема података | [Рад са подацима](2-Working-With-Data/README.md) | Теме о техникама за чишћење и трансформацију података како би се решили изазови недостајућих, нетачних или непотпуних података. | [лекција](2-Working-With-Data/08-data-preparation/README.md) | [Јасмин](https://www.twitter.com/paladique) |
| 09 | Визуелизација количина | [Визуелизација података](3-Data-Visualization/README.md) | Научите како да користите Matplotlib за визуелизацију података о птицама 🦆 | [лекција](3-Data-Visualization/09-visualization-quantities/README.md) | [Џен](https://twitter.com/jenlooper) |
| 10 | Визуелизација расподела података | [Визуелизација података](3-Data-Visualization/README.md) | Визуелизација посматрања и трендова унутар интервала. | [лекција](3-Data-Visualization/10-visualization-distributions/README.md) | [Џен](https://twitter.com/jenlooper) |
| 12 | Визуелизација односа | [Визуелизација података](3-Data-Visualization/README.md) | Визуелизација веза и корелација између скупова података и њихових променљивих. | [лекција](3-Data-Visualization/12-visualization-relationships/README.md) | [Џен](https://twitter.com/jenlooper) |
| 13 | Смислене визуализације | [Визуелизација података](3-Data-Visualization/README.md) | Технике и смернице за прављење визуализација вредних за ефективно решавање проблема и добијање увида. | [лекција](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Џен](https://twitter.com/jenlooper) |
| 14 | Увод у животни циклус науке о подацима | [Животни циклус](4-Data-Science-Lifecycle/README.md) | Увод у животни циклус науке о подацима и њен први корак - прибављање и екстракцију података. | [лекција](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Јасмин](https://twitter.com/paladique) |
| 05 | Рад са релационим подацима | [Рад са подацима](2-Working-With-Data/README.md) | Увод у релационе податке и основе истраживања и анализе релационих података помоћу структурираног језика за упитник, познатог као SQL (изговара се „си-квел“). | [лекција](2-Working-With-Data/05-relational-databases/README.md) | [Кристофер](https://www.twitter.com/geektrainer) | | |
| 06 | Рад са NoSQL подацима | [Рад са подацима](2-Working-With-Data/README.md) | Увод у нерелационе податке, њихове различите типове и основе истраживања и анализе докумената база података. | [лекција](2-Working-With-Data/06-non-relational/README.md) | [Јасмин](https://twitter.com/paladique)|
| 07 | Рад са Python-ом | [Рад са подацима](2-Working-With-Data/README.md) | Основе коришћења Python-а за истраживање података уз библиотеке као што је Pandas. Препоручује се основно разумевање програмирања у Python-у. | [лекција](2-Working-With-Data/07-python/README.md) [видео](https://youtu.be/dZjWOGbsN4Y) | [Дмитриј](http://soshnikov.com) |
| 08 | Припрема података | [Рад са подацима](2-Working-With-Data/README.md) | Теме о техникама за чишћење и трансформацију података ради решавања проблема са недостајућим, нетачним или непотпуном подацима. | [лекција](2-Working-With-Data/08-data-preparation/README.md) | [Јасмин](https://www.twitter.com/paladique) |
| 09 | Визуализација количина | [Визуелизација података](3-Data-Visualization/README.md) | Научите како користити Matplotlib за визуелизацију података о птицама 🦆 | [лекција](3-Data-Visualization/09-visualization-quantities/README.md) | [Џен](https://twitter.com/jenlooper) |
| 10 | Визуализација расподела података | [Визуелизација података](3-Data-Visualization/README.md) | Визуализација посматрања и трендова у оквиру интервала. | [лекција](3-Data-Visualization/10-visualization-distributions/README.md) | [Џен](https://twitter.com/jenlooper) |
| 12 | Визуализација веза | [Визуелизација података](3-Data-Visualization/README.md) | Визуализација веза и корелација између скупова података и њихових променљивих. | [лекција](3-Data-Visualization/12-visualization-relationships/README.md) | [Џен](https://twitter.com/jenlooper) |
| 13 | Смислене визуализације | [Визуелизација података](3-Data-Visualization/README.md) | Технике и упутства за креирање вредних визуализација за ефикасно решавање проблема и увида. | [лекција](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Џен](https://twitter.com/jenlooper) |
| 14 | Увод у животни циклус науке о подацима | [Животни циклус](4-Data-Science-Lifecycle/README.md) | Увод у животни циклус науке о подацима и први корак - прикупљање и вађење података. | [лекција](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Јасмин](https://twitter.com/paladique) |
| 15 | Анализа | [Животни циклус](4-Data-Science-Lifecycle/README.md) | Ова фаза животног циклуса науке о подацима фокусира се на технике анализе података. | [лекција](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Јасмин](https://twitter.com/paladique) | | |
| 16 | Комуникација | [Животни циклус](4-Data-Science-Lifecycle/README.md) | Ова фаза животног циклуса науке о подацима фокусира се на презентацију увида из података на начин који олакшава разумевање донесеоцима одлука. | [лекција](4-Data-Science-Lifecycle/16-communication/README.md) | [Џален](https://twitter.com/JalenMcG) | | |
| 17 | Наука о подацима у облаку | [Облак](5-Data-Science-In-Cloud/README.md) | Ова серија лекција уводи науку о подацима у облаку и њене предности. | [лекција](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Тифани](https://twitter.com/TiffanySouterre) и [Мауд](https://twitter.com/maudstweets) |
| 18 | Наука о подацима у облаку | [Облак](5-Data-Science-In-Cloud/README.md) | Тренинг модела помоћу Low Code алата. |[лекција](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Тифани](https://twitter.com/TiffanySouterre) и [Мауд](https://twitter.com/maudstweets) |
| 19 | Наука о подацима у облаку | [Облак](5-Data-Science-In-Cloud/README.md) | Покретање модела уз помоћ Azure Machine Learning Studio. | [лекција](5-Data-Science-In-Cloud/19-Azure/README.md)| [Тифани](https://twitter.com/TiffanySouterre) и [Мауд](https://twitter.com/maudstweets) |
| 20 | Наука о подацима устварном свету | [У природи](6-Data-Science-In-Wild/README.md) | Пројекти засновани на науцио подацима у стварном свету. | [лекција](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Нитија](https://twitter.com/nitya) |
| 16 | Комуникација | [Животни циклус](4-Data-Science-Lifecycle/README.md) | Ова фаза животног циклуса науке о подацима фокусира се на представљање увида из података на начин који олакшава разумевање донетиоцима одлука. | [лекција](4-Data-Science-Lifecycle/16-communication/README.md) | [Џејлен](https://twitter.com/JalenMcG) | | |
| 17 | Наука о подацима у облаку | [Облак података](5-Data-Science-In-Cloud/README.md) | Ова серија лекција уводи науку о подацима у облаку и њене предности. | [лекција](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Тифани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 18 | Наука о подацима у облаку | [Облак података](5-Data-Science-In-Cloud/README.md) | Тренирање модела уз алате са мало кода. |[лекција](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Тифани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 19 | Наука о подацима у облаку | [Облак података](5-Data-Science-In-Cloud/README.md) | Распоређивање модела уз Azure Machine Learning Studio. | [лекција](5-Data-Science-In-Cloud/19-Azure/README.md)| [Тифани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 20 | Наука о подацима упракси | [У пракси](6-Data-Science-In-Wild/README.md) | Пројекти наукео подацима у стварном свету. | [лекција](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Нитија](https://twitter.com/nitya) |
## GitHub Codespaces
Пратите ове кораке да бисте отворили пример у Codespace-у:
1. Кликните на мени Code и изаберите опцију Open with Codespaces.
2. Изаберите + New codespace на дну панела.
За више информација, погледајте [GitHub документацију](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Контейнери
Пратите ове кораке да отворите овај пример у Codespace-у:
1. Кликните на падајући мени Code и одаберите опцију Open with Codespaces.
2. На дну панела изаберите + New codespace.
За више информација погледајте [GitHub документацију](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
Пратите ове кораке да бисте отворили овај репо у контејнеру користећи вашу локалну машину и VSCode уз помоћ екстензије VS Code Remote - Containers:
## VSCode Remote - Containers
Пратите ове кораке да отворите овај репо у контејнеру користећи ваш локални рачунар и VSCode са проширењем VS Code Remote - Containers:
1. Ако први пут користите развојни контејнер, уверите се да ваш систем испуњава предуслове (тј. да имате инсталиран Docker) у [документацији за почетак](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Ако први пут користите контејнер за развој, осигурајте да ваш систем испуњава предуслове (тј. да је Docker инсталиран) у [документацији за почетак](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Да бисте користили овај репозиторијум, можете или отворити репо у изолованом Docker волумену:
Да бисте користили овај репозиторијум, можете или отворити репозиторијуму изолованом Docker волумену:
**Напомена**: Испод поклопца ће се користити команда Remote-Containers: **Clone Repository in Container Volume...** да копира изворни код у Docker волумен уместо у локални фајл систем. [Волумени](https://docs.docker.com/storage/volumes/) су пожељан механизам за трајно чување података из контејнера.
**Напомена**: Испод хаубе, ово користи наредбу Remote-Containers: **Clone Repository in Container Volume...** да клонира изворни код у Docker волумен уместо у локални фајл систем. [Волумени](https://docs.docker.com/storage/volumes/) су препоручени механизам за чување података контејнера.
Или отворити локално клонирану или преузету верзију репоа:
Или отворите локално клонирану или скинуту верзију репозиторијума:
- Клонирајте овај репозиторијум на свој локални фајл систем.
- Клонирајте овај репозиторијум на вашем локалном фајл систему.
- Притисните F1 и изаберите команду **Remote-Containers: Open Folder in Container...**.
- Изаберите клонирану копију овог фолдера, сачекајте да се контејнер покрене и испробајте.
- Изаберите копију ове фасцикле коју сте клонирали, сачекајте да се контејнер покрене и испробајте.
## Приступ без интернета
## Оффлине приступ
Можете покренути ову документацију ван мреже користећи [Docsify](https://docsify.js.org/#/). Форкујте овај репо, [инсталирајте Docsify](https://docsify.js.org/#/quickstart) на вашој локалној машини, затим у коренском фолдеру овог репа укуцајте `docsify serve`. Веб сајт ће бити доступан на порту 3000 на вашем локалном хосту: `localhost:3000`.
Ову документацију можете користити оффлајн помоћу [Docsify](https://docsify.js.org/#/). Форкујте овај репо, [инсталирајте Docsify](https://docsify.js.org/#/quickstart) на ваш локални рачунар, па затим у коренском фолдеру овог репо-а укуцајте `docsify serve`. Веб сајт ће бити доступан на порту 3000 на вашем локалхосту: `localhost:3000`.
> Напомена, белешке (notebooks) неће бити приказане преко Docsify-а, тако да ако вам треба да покренете белешку, урадите то одвојено у VS Code-уса покренутим Python кернелом.
> Напомена, нотебоок-ови се не приказују преко Docsify, тако да ако треба да покренете нотебоок, урадите то посебно у VS Code-у покрећући Python kernel.
## Остали курикулуми
## Остали наставни планови
Наш тим производи и друге курикулуме! Погледајте:
Наш тим производи и друге наставне планове! Погледајте:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Агенти
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Серија генеративне вештачке интелигенције
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### Серии Генеративне Вештачке Интелигенције
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### Основно учење
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
### Основно Учење
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Серија Copilot
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**Имате проблеме?** Погледајте наш [Водич за решавање проблема](TROUBLESHOOTING.md) за решења уобичајених проблема.
**Имате проблеме?** Погледајте наш [Водич за решавање проблема](TROUBLESHOOTING.md) за решења за уобичајене проблеме.
Ако запнете или имате било каква питања о изради AI апликација. Придружите се другим ученицима и искусним програмерима у дискусијама о MCP. Тоје подржавајућа заједница у којој су питања добродошла и где сезнање слободно дели.
Ако се заглавите или имате било каквих питања о изради апликација са вештачком интелигенцијом, придружите се осталим ученицима и искусним програмерима у дискусијама о MCP-у. Тоје подржавајућа заједница у којој су питања добродошла и знањесе слободно дели.
Овај документ је преведен коришћењем услуге за аутоматски превод помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако се трудимо да буде што прецизније, молимо имајте у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати ауторитетним извором. За критичне информације препоручује се професионални људски превод. Не сносимо одговорност за било каква неспоразума или погрешна тумачења која произилазе из коришћења овог превода.
**Одрицање од одговорности**:
Овај документ је преведен уз помоћ AI услуге за превођење [Co-op Translator](https://github.com/Azure/co-op-translator). Иако тежимо тачности, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Изворни документ на његовом оригиналном језику треба сматрати ауторитетним извором. За критичне информације препоручује се професионални људски превод. Нисмо одговорни за било каква неспоразума или погрешне интерпретације настале коришћењем овог превода.