chore(i18n): sync translations with latest source changes (chunk 1/1, 65 changes)

update-translations
localizeflow[bot] 17 hours ago
parent b9d03f829a
commit 2a898fda65

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "et"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T10:27:52+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "et"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-10-11T15:34:32+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "et"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T10:28:22+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "et"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-11T15:39:35+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "et"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T10:29:11+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "et"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-10-11T15:21:34+00:00",
@ -360,8 +378,8 @@
"language_code": "et"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T09:25:15+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T10:34:22+00:00",
"source_file": "README.md",
"language_code": "et"
},

@ -6,7 +6,7 @@
---
[![Andmeteaduse määratlemise video](../../../../translated_images/et/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Andmeteaduse määratlemise video](../../../../translated_images/et/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Loengu-eelne viktoriin](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Kui soovime asja veelgi keerulisemaks teha, saame joonistada graafiku, kus on n
Selles väljakutses püüame leida andmeteadusega seotud kontseptsioone, uurides tekste. Võtame Wikipedia artikli andmeteaduse kohta, laadime alla ja töötleme teksti ning loome sõnapilve, mis näeb välja selline:
![Sõnapilv andmeteaduse kohta](../../../../translated_images/et/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Sõnapilv andmeteaduse kohta](../../../../translated_images/et/ds_wordcloud.664a7c07dca57de0.webp)
Külastage [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), et koodi läbi vaadata. Samuti saate koodi käivitada ja näha, kuidas see reaalajas kõiki andmetransformatsioone teostab.

@ -5,11 +5,11 @@
"source": [
"# Väljakutse: Teksti analüüs andmeteaduse kohta\n",
"\n",
"Selles näites teeme lihtsa harjutuse, mis hõlmab kõiki traditsioonilise andmeteaduse protsessi samme. Koodi kirjutamine pole vajalik, saate lihtsalt allolevaid lahtrid klõpsata, et neid käivitada ja tulemust jälgida. Väljakutsena julgustatakse teid proovima seda koodi erinevate andmetega.\n",
"Selles näites teeme lihtsa harjutuse, mis hõlmab kõiki traditsioonilise andmeteaduse protsessi samme. Sul ei ole vaja kirjutada koodi, saad lihtsalt klõpsata allolevatel lahtritel, et need käivitada ja tulemust vaadata. Väljakutsena oled julgustatud proovima seda koodi erinevate andmetega.\n",
"\n",
"## Eesmärk\n",
"\n",
"Selles õppetunnis oleme arutanud erinevaid andmeteadusega seotud mõisteid. Proovime avastada rohkem seotud mõisteid, tehes **teksti kaevandamist**. Alustame andmeteaduse teemalisest tekstist, eraldame sellest märksõnad ja proovime seejärel tulemust visualiseerida.\n",
"Selles õppetükis oleme käsitlenud erinevaid andmeteadusega seotud kontseptsioone. Proovime avastada rohkem seotud mõisteid, tehes **tekstiandmete kaevandamist**. Alustame andmeteaduse teemalisest tekstist, ekstraheerime sellest märksõnad ja seejärel proovime tulemust visualiseerida.\n",
"\n",
"Tekstina kasutan Wikipedia lehte andmeteaduse kohta:\n"
],
@ -34,7 +34,7 @@
"source": [
"## Samm 1: Andmete hankimine\n",
"\n",
"Iga andmeteaduse protsessi esimene samm on andmete hankimine. Selleks kasutame `requests` teeki:\n"
"Iga andmeteaduse protsessi esimene samm on andmete hankimine. Selleks kasutame `requests` raamatukogu:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Samm 2: Andmete teisendamine\n",
"\n",
"Järgmine samm on andmete muutmine töötlemiseks sobivasse vormi. Meie puhul oleme lehelt alla laadinud HTML lähtekoodi ja peame selle teisendama lihttekstiks.\n",
"Järgmine samm on andmete vormingusse, mis sobib töötlemiseks. Meie puhul oleme allalaadinud lehe HTML lähtekoodi ja peame selle teisendama tavalise tekstiks.\n",
"\n",
"Selleks on mitmeid viise. Me kasutame kõige lihtsamat sisseehitatud [HTMLParser](https://docs.python.org/3/library/html.parser.html) objekti Pythonis. Peame looma alamklassi `HTMLParser` klassist ja määratlema koodi, mis kogub kogu teksti HTML-siltide seest, välja arvatud `<script>` ja `<style>` sildid.\n"
"Selle tegemiseks on palju võimalusi. Me kasutame [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), populaarset Python'i raamatukogu HTML-i parsimiseks. BeautifulSoup võimaldab meil sihtida konkreetseid HTML elemente, nii et saame keskenduda peamisele artikli sisule Wikipedias ja vähendada mõningaid navigeerimismenüüsid, küljeribasid, jaluseid ja muud ebaolulist sisu (kuigi osa mallitekstist võib siiski alles jääda).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Esiteks peame installima BeautifulSoup teegi HTML-i töötlemiseks:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Samm 3: Tõlgenduste saamine\n",
"## 3. samm: Arusaamade saamine\n",
"\n",
"Kõige olulisem samm on muuta meie andmed selliseks vormiks, millest saame järeldusi teha. Meie puhul soovime tekstist märksõnu välja võtta ja näha, millised märksõnad on tähenduslikumad.\n",
"Kõige olulisem samm on meie andmed muuta mingiks vormiks, millest saame järeldusi teha. Meie puhul tahame tekstist välja võtta võtmesõnad ja vaadata, millised võtmesõnad on tähenduslikumad.\n",
"\n",
"Kasutame märksõnade eraldamiseks Python'i teeki nimega [RAKE](https://github.com/aneesha/RAKE). Kõigepealt paigaldame selle teegi, kui see pole veel olemas:\n"
"Kasutame võtmesõnade väljavõtmiseks Pythoni teeki nimega [RAKE](https://github.com/aneesha/RAKE). Esiteks paigaldame selle teegi juhuks, kui see pole olemas: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Peamine funktsionaalsus on saadaval `Rake` objekti kaudu, mida saame kohandada mõne parameetri abil. Meie puhul määrame märksõna minimaalse pikkuse 5 tähemärgiks, märksõna minimaalse sageduse dokumendis 3-ks ja märksõna maksimaalse sõnade arvu - 2-ks. Võid vabalt katsetada teiste väärtustega ja jälgida tulemust.\n"
"Peamine funktsionaalsus on saadaval `Rake` objektist, mida saame kohandada mõnede parameetrite abil. Meie puhul määrame võtmesõna miinimumpikkuseks 5 tähte, võtmesõna miinimumsageduseks dokumendis 3 ja võtmesõna maksimaalse sõnade arvuks 2. Julgesti proovige teisi väärtusi ja vaadake tulemust.\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"Saime nimekirja termineid koos nende olulisuse astmega. Nagu näha, on kõige olulisemad valdkonnad, nagu masinõpe ja suurandmed, nimekirja tipus.\n",
"\n",
"## Samm 4: Tulemuste visualiseerimine\n",
"Me saime terminite nimekirja koos nendega seotud tähtsuse astmega. Nagu näete, on nimekirjas kõige asjakohasemad valdkonnad, nagu masinõpe ja suurandmed, esindatud nimekirja ülemistes positsioonides.\n",
"\n",
"Inimesed mõistavad andmeid kõige paremini visuaalsel kujul. Seetõttu on sageli mõistlik andmeid visualiseerida, et saada paremaid teadmisi. Võime kasutada Pythoni `matplotlib` teeki, et kujutada märksõnade ja nende olulisuse lihtsat jaotust:\n"
"## 4. samm: tulemuse visualiseerimine\n",
"\n",
"Inimesed mõistavad andmeid kõige paremini visuaalses vormis. Seetõttu on sageli mõistlik andmeid visualiseerida, et teha mõningaid järeldusi. Me saame kasutada Pythoni `matplotlib` teeki, et joonistada märksõnade lihtne jaotus koos nende asjakohasusega:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"Siiski on veel parem viis sõnade sageduste visualiseerimiseks - kasutades **sõnapilve**. Me peame installima teise teegi, et koostada sõnapilv meie märksõnade loendist.\n"
"Siiski on olemas veelgi parem viis sõnade sageduste visualiseerimiseks kasutades **Word Cloud**i. Peame installima teise teegi, et meie märksõnade loendist sõnapilve joonistada.\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` objekt vastutab kas algse teksti või eelnevalt arvutatud sõnade ja nende sageduste loendi vastuvõtmise eest ning tagastab pildi, mida saab seejärel kuvada, kasutades `matplotlib`:\n"
"`WordCloud` objekt on vastutav kas originaalteksti või eelnevalt arvutatud sõnade koos sagedustega võtmiseks ning tagastab pildi, mida saab seejärel kuvada kasutades `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"Me saame ka algteksti `WordCloud`-ile edastada - vaatame, kas suudame saada sarnase tulemuse:\n"
"Me võime ka algteksti `WordCloud`-ile edasi anda - vaatame, kas suudame saada sarnase tulemuse:\n"
],
"metadata": {}
},
@ -372,11 +371,11 @@
{
"cell_type": "markdown",
"source": [
"Nüüd näete, et sõnapilv näeb muljetavaldavam välja, kuid sisaldab ka palju müra (nt. mitteseotud sõnu nagu `Retrieved on`). Samuti saame vähem kahemõttelisi märksõnu, nagu *andmeteadlane* või *arvutiteadus*. Selle põhjuseks on see, et RAKE algoritm teeb märksõnade valimisel tekstist palju paremat tööd. See näide illustreerib andmete eeltöötluse ja puhastamise olulisust, kuna selge pilt lõpus võimaldab meil teha paremaid otsuseid.\n",
"Nüüd näete, et sõnapilv näeb välja muljetavaldavam, kuid see sisaldab ka palju müra (nt mitteseotud sõnad nagu `Retrieved on`). Samuti saame vähem võtmesõnu, mis koosnevad kahest sõnast, näiteks *data scientist* või *computer science*. See on sellepärast, et RAKE algoritm valib tekstist palju paremini välja head võtmesõnad. See näide illustreerib andmete eeltöötluse ja puhastamise olulisust, sest selge pilt lõpus võimaldab meil teha paremaid otsuseid.\n",
"\n",
"Selles harjutuses läbisime lihtsa protsessi, et Wikipedia tekstist mingit tähendust välja tuua märksõnade ja sõnapilve kujul. See näide on üsna lihtne, kuid demonstreerib hästi kõiki tüüpilisi samme, mida andmeteadlane andmetega töötades teeb, alates andmete hankimisest kuni visualiseerimiseni.\n",
"Selles harjutuses oleme läbinud lihtsa protsessi, kuidas Wikipedia tekstist mingit tähendust saada, võtmesõnade ja sõnapilve kujul. See näide on üsna lihtne, kuid demonstreerib hästi kõiki tüüpilisi samme, mida andmeteadlane andmetega töötades astub, alates andmete kogumisest kuni visualiseerimiseni.\n",
"\n",
"Meie kursusel arutame kõiki neid samme üksikasjalikult.\n"
"Meie kursusel käsitleme kõiki neid samme põhjalikult.\n"
],
"metadata": {}
},
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Lahtiütlus**: \nSee dokument on tõlgitud AI tõlketeenuse [Co-op Translator](https://github.com/Azure/co-op-translator) abil. Kuigi püüame tagada täpsust, palume arvestada, et automaatsed tõlked võivad sisaldada vigu või ebatäpsusi. Algne dokument selle algses keeles tuleks pidada autoriteetseks allikaks. Olulise teabe puhul soovitame kasutada professionaalset inimtõlget. Me ei vastuta selle tõlke kasutamisest tulenevate arusaamatuste või valesti tõlgenduste eest.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Vastutusest loobumine**:\nSee dokument on tõlgitud kasutades tehisintellekti tõlketeenust [Co-op Translator](https://github.com/Azure/co-op-translator). Kuigi püüame tagada täpsust, palun arvestage, et automatiseeritud tõlgetes võib esineda vigu või ebatäpsusi. Originaaldokument selle emakeeles tuleks pidada autoriteetseks allikaks. Olulise teabe puhul soovitatakse kasutada professionaalset inimtõlget. Me ei vastuta mis tahes arusaamatuste või valesti mõistmiste eest, mis võivad tekkida selle tõlke kasutamisest.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +417,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-10-11T16:19:20+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "et"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# Väljakutse: Teksti analüüs andmeteaduse kohta\n",
"# Väljakutse: Teksti analüüsimine andmeteaduse kohta\n",
"\n",
"> *Selles märkmikus katsetame erinevate URL-idega - Wikipedia artikkel masinõppe kohta. Nagu näha, sisaldab see artikkel, erinevalt andmeteadusest, palju termineid, mis muudab analüüsi keerulisemaks. Peame leidma teise viisi andmete puhastamiseks pärast märksõnade eraldamist, et vabaneda mõningatest sagedastest, kuid mitte tähenduslikest sõnakombinatsioonidest.*\n",
"> *Selles märkmikus katsetame erinevate URL-idega Wikipedia artikkel Masinõppest. Nagu näete, erinevalt Andmeteadusest sisaldab see artikkel palju termineid, mis muudab analüüsi keerukamaks. Peame leiutama teise viisi andmete puhastamiseks pärast märksõnade väljavõtmist, et vabaneda mõnest sagedasest, kuid tähenduseta sõnakombinatsioonist.*\n",
"\n",
"Selles näites teeme lihtsa harjutuse, mis hõlmab kõiki traditsioonilise andmeteaduse protsessi samme. Sa ei pea ise koodi kirjutama, võid lihtsalt klõpsata allolevatel lahtritel, et neid käivitada ja tulemust jälgida. Väljakutsena soovitame sul proovida seda koodi erinevate andmetega.\n",
"Selles näites teeme lihtsa harjutuse, mis hõlmab kõiki traditsioonilise andmeteaduse protsessi samme. Sul ei ole vaja koodi kirjutada, võid lihtsalt klõpsata allolevatel lahtritel, et neid käivitada ja tulemust vaadata. Väljakutsena julgustatakse sind seda koodi proovima erinevate andmetega.\n",
"\n",
"## Eesmärk\n",
"\n",
"Selles tunnis oleme arutanud erinevaid andmeteadusega seotud mõisteid. Proovime avastada rohkem seotud mõisteid, tehes **teksti kaevandamist**. Alustame tekstiga andmeteaduse kohta, eraldame sellest märksõnad ja proovime seejärel tulemust visualiseerida.\n",
"Selles õppetükis oleme arutanud mitmesuguseid andmeteadusega seotud mõisteid. Proovime avastada rohkem seotud mõisteid, tehes **tekstiandmete kaevandamist**. Alustame tekstiga andmeteadusest, võtame sellest märksõnad välja ja proovime seejärel tulemust visualiseerida.\n",
"\n",
"Tekstina kasutan Wikipedia lehte andmeteaduse kohta:\n"
"Tekstina kasutan Wikipedia lehte andmeteadusest:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## Samm 1: Andmete hankimine\n",
"\n",
"Esimene samm igas andmeteaduse protsessis on andmete hankimine. Selleks kasutame `requests` teeki:\n"
"Iga andmeteaduse protsessi esimene samm on andmete hankimine. Selle jaoks kasutame `requests` teeki:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Samm 2: Andmete teisendamine\n",
"\n",
"Järgmine samm on andmete muutmine töötlemiseks sobivasse vormi. Meie puhul oleme lehelt alla laadinud HTML lähtekoodi ja peame selle teisendama lihttekstiks.\n",
"Järgmine samm on andmete ümberkujundamine töötlemiseks sobivasse vormi. Meie puhul oleme alla laadinud lehe HTML-allika koodi ja peame selle muutma lihttekstiks.\n",
"\n",
"Selleks on mitmeid viise. Me kasutame kõige lihtsamat Pythonis sisseehitatud objekti [HTMLParser](https://docs.python.org/3/library/html.parser.html). Peame looma alamklassi `HTMLParser` klassist ja määratlema koodi, mis kogub kogu teksti HTML-siltide seest, välja arvatud `<script>` ja `<style>` sildid.\n"
"Seda saab teha mitmel viisil. Me kasutame [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), populaarset Python'i teeki HTML-i parsimiseks. BeautifulSoup võimaldab meil sihtida konkreetseid HTML-elemente, et saaksime keskenduda Wikipedia peamise artikli sisule ja vähendada mõningaid navigeerimismenüüsid, külgribasid, jaluseid ja muud asjakohatut sisu (kuigi mõningane tüüpsisu võib siiski alles jääda).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Esiteks peame paigaldama BeautifulSoupi teegi HTML-i töötlemiseks:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Samm 3: Tõendite saamine\n",
"## Samm 3: Arusaamade saamine\n",
"\n",
"Kõige olulisem samm on muuta meie andmed selliseks vormiks, millest saame järeldusi teha. Meie puhul tahame tekstist märksõnu välja võtta ja näha, millised märksõnad on olulisemad.\n",
"Oluline samm on muuta meie andmed mingisuguseks vormiks, millest saame järeldusi teha. Meie puhul tahame tekstist välja võtta märksõnu ja vaadata, millised märksõnad on tähenduslikumad.\n",
"\n",
"Kasutame märksõnade eraldamiseks Python'i teeki nimega [RAKE](https://github.com/aneesha/RAKE). Kõigepealt paigaldame selle teegi, kui see pole veel olemas:\n"
"Me kasutame märksõnade eraldamiseks Python'i teeki nimega [RAKE](https://github.com/aneesha/RAKE). Esiteks paigaldame selle teegi juhuks, kui see veel puudub:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Peamine funktsionaalsus on saadaval `Rake` objekti kaudu, mida saame kohandada mõne parameetri abil. Meie puhul määrame märksõna minimaalse pikkuse 5 tähemärgiks, märksõna minimaalse sageduse dokumendis 3-ks ja märksõna maksimaalse sõnade arvu - 2-ks. Võid julgelt katsetada teiste väärtustega ja jälgida tulemust.\n"
"Põhifunktsionaalsus on saadaval objektil `Rake`, mida saame kohandada mõnede parameetrite abil. Meie puhul määrame märksõna minimaalpikkuseks 5 märki, märksõna minimaalset sagedust dokumendis 3 ning märksõnas sõnade maksimaalse arvu 2. Võid julgelt mängida teiste väärtustega ja jälgida tulemust.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Saime nimekirja termineid koos nende olulisuse astmega. Nagu näha, on kõige olulisemad valdkonnad, nagu masinõpe ja suurandmed, nimekirjas esimestel kohtadel.\n",
"Saime koos seotud tähtsuse astmega termini nimekirja. Nagu näha, on nimekirjas kõrgetel positsioonidel kõige olulisemad erialad, nagu masinõpe ja suured andmed.\n",
"\n",
"## Samm 4: Tulemuste visualiseerimine\n",
"## 4. samm: Tulemuse visualiseerimine\n",
"\n",
"Inimesed mõistavad andmeid kõige paremini visuaalsel kujul. Seetõttu on sageli mõistlik andmeid visualiseerida, et saada paremaid teadmisi. Võime kasutada Pythoni `matplotlib` teeki, et kujutada märksõnade ja nende olulisuse lihtsat jaotust:\n"
"Inimesed suudavad andmeid kõige paremini tõlgendada visuaalses vormis. Seetõttu on sageli mõistlik andmeid visualiseerida, et saada mõned järeldused. Võime kasutada Pythoni raamatukogu `matplotlib`, et joonistada võtmesõnade lihtne jaotus koos nende seotusega:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Siiski on veel parem viis sõnade sageduste visualiseerimiseks - kasutades **sõnapilve**. Me peame installima teise teegi, et koostada sõnapilv meie märksõnade loendist.\n"
"On olemas siiski veelgi parem viis sõnade sageduste visualiseerimiseks kasutades **Sõnapilve**. Me peame installima teise teegi, et joonistada sõnapilv meie märksõnade loendist.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` objekt vastutab kas algteksti või eelnevalt arvutatud sõnade ja nende sageduste loendi vastuvõtmise eest ning tagastab pildi, mida saab seejärel kuvada `matplotlib` abil:\n"
"`WordCloud` objekt vastutab kas originaalteksti või eelnevalt arvutatud sõnade sageduste nimekirja vastuvõtmise eest ning tagastab pildi, mida saab seejärel kuvada kasutades `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"Me saame ka algteksti `WordCloud`-ile edastada - vaatame, kas suudame saada sarnase tulemuse:\n"
"Saame `WordCloud`-ile edastada ka algse teksti - vaatame, kas suudame saada sarnase tulemuse:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Nagu näha, näeb sõnapilv nüüd muljetavaldavam välja, kuid see sisaldab ka palju müra (nt. ebaolulised sõnad nagu `Retrieved on`). Samuti saame vähem kahemärksõnalisi võtmesõnu, nagu *andmeteadlane* või *arvutiteadus*. See on tingitud sellest, et RAKE algoritm teeb palju paremat tööd heade võtmesõnade valimisel tekstist. See näide illustreerib andmete eeltöötluse ja puhastamise olulisust, sest selge pilt lõpus võimaldab meil teha paremaid otsuseid.\n",
"Nüüd näete, et sõnapilv näeb välja muljetavaldavam, kuid see sisaldab ka palju müra (nt mitteseotud sõnad nagu `Retrieved on`). Samuti saame vähem märksõnu, mis koosnevad kahest sõnast, näiteks *andmeteadlane* või *arvutiteadus*. Selle põhjuseks on see, et RAKE algoritm valib tekstist palju paremini sobivaid märksõnu. See näide toob esile andmete eeltöötluse ja puhastamise tähtsuse, sest lõpuks selge pilt võimaldab meil teha paremaid otsuseid.\n",
"\n",
"Selles harjutuses oleme läbinud lihtsa protsessi, et tuletada Wikipedia tekstist mõtet võtmesõnade ja sõnapilve kujul. See näide on küllaltki lihtne, kuid see näitab hästi kõiki tüüpilisi samme, mida andmeteadlane andmetega töötades ette võtab, alates andmete hankimisest kuni visualiseerimiseni.\n",
"Selles ülesandes oleme läbinud lihtsa protsessi, et Wikipedia tekstist tuletada mingi tähendus märksõnade ja sõnapilve kujul. See näide on üsna lihtne, kuid demonstreerib hästi kõiki tüüpilisi samme, mida andmeteadlane andmetega töötades võtab, alustades andmete hankimisest kuni visualiseerimiseni.\n",
"\n",
"Meie kursusel arutame kõiki neid samme üksikasjalikult.\n"
"Meie kursusel arutleme kõiki neid samme üksikasjalikult.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Lahtiütlus**: \nSee dokument on tõlgitud AI tõlketeenuse [Co-op Translator](https://github.com/Azure/co-op-translator) abil. Kuigi püüame tagada täpsust, palume arvestada, et automaatsed tõlked võivad sisaldada vigu või ebatäpsusi. Algne dokument selle algses keeles tuleks pidada autoriteetseks allikaks. Olulise teabe puhul soovitame kasutada professionaalset inimtõlget. Me ei vastuta selle tõlke kasutamisest tulenevate arusaamatuste või valesti tõlgenduste eest.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Vastutusest vabanemine**:\nSee dokument on tõlgitud kasutades tehisintellektil põhinevat tõlketeenust [Co-op Translator](https://github.com/Azure/co-op-translator). Kuigi püüame täpsust, palun arvestage, et automatiseeritud tõlked võivad sisaldada vigu või ebatäpsusi. Originaaldokument selle algkeeles tuleks pidada õigeks allikaks. Olulise info puhul soovitatakse professionaalset inimtõlget. Me ei vastuta selle tõlke kasutamisest tekkivate arusaamatuste või valesti mõistmiste eest.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-10-11T16:20:14+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "et"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
Statistika ja tõenäosusteooria on kaks tihedalt seotud matemaatika valdkonda, mis on väga olulised andmeteaduse jaoks. Andmetega on võimalik töötada ka ilma sügavate matemaatiliste teadmisteta, kuid siiski on parem omada vähemalt mõningaid põhiteadmisi. Siin anname lühikese sissejuhatuse, mis aitab teil alustada.
[![Sissejuhatav video](../../../../translated_images/et/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Sissejuhatav video](../../../../translated_images/et/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Loengu-eelne viktoriin](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -31,7 +31,7 @@ Pideva muutuja tõenäosusjaotuse kirjeldamine on keerulisem, kui väärtused on
Me saame rääkida ainult muutuja tõenäosusest langeda teatud väärtuste vahemikku, nt P(t<sub>1</sub>&le;X&lt;t<sub>2</sub>). Sel juhul kirjeldatakse tõenäosusjaotust **tõenäosustihedusfunktsiooni** p(x) abil, nii et
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/et/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/et/probability-density.a8aad29f17a14afb.webp)
Pideva ühtlase jaotuse analoog on **pidev ühtlane jaotus**, mis on määratletud lõplikul intervallil. Tõenäosus, et väärtus X langeb pikkusega l intervalli, on proportsionaalne l-ga ja ulatub kuni 1-ni.
@ -56,7 +56,7 @@ Et aidata meil andmete jaotust paremini mõista, on kasulik rääkida **kvartiil
Graafiliselt saame mediaani ja kvartiilide suhet kujutada diagrammil, mida nimetatakse **kastdiagrammiks**:
<img src="../../../../translated_images/et/boxplot_explanation.4039b7de08780fd493ef798b41f7291d753f1f84de8955645f00c586e65f16a3.png" alt="Kastdiagrammi selgitus" width="50%">
<img src="../../../../translated_images/et/boxplot_explanation.4039b7de08780fd4.webp" alt="Kastdiagrammi selgitus" width="50%">
Siin arvutame ka **kvartiilidevahelise ulatuse** IQR=Q3-Q1 ja nn **äärmusväärtused** - väärtused, mis jäävad väljapoole piire [Q1-1.5*IQR,Q3+1.5*IQR].
@ -73,11 +73,11 @@ Kui analüüsime päriselust pärit andmeid, ei ole need sageli otseselt juhusli
Siin on kastdiagramm, mis näitab meie andmete keskmist, mediaani ja kvartiile:
![Kaalude kastdiagramm](../../../../translated_images/et/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Kaalude kastdiagramm](../../../../translated_images/et/weight-boxplot.1dbab1c03af26f8a.webp)
Kuna meie andmed sisaldavad teavet erinevate mängijate **rollide** kohta, saame teha kastdiagrammi ka rolli järgi - see võimaldab meil saada aimu, kuidas parameetrite väärtused rollide lõikes erinevad. Seekord vaatleme pikkust:
![Kastdiagramm rolli järgi](../../../../translated_images/et/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Kastdiagramm rolli järgi](../../../../translated_images/et/boxplot_byrole.036b27a1c3f52d42.webp)
See diagramm viitab sellele, et esimese baasi mängijate keskmine pikkus on suurem kui teise baasi mängijate keskmine pikkus. Hiljem selles õppetükis õpime, kuidas saame seda hüpoteesi formaalsemalt testida ja kuidas näidata, et meie andmed on statistiliselt olulised selle tõestamiseks.
@ -85,7 +85,7 @@ See diagramm viitab sellele, et esimese baasi mängijate keskmine pikkus on suur
Et näha, milline on meie andmete jaotus, saame joonistada graafiku, mida nimetatakse **histogrammiks**. X-telg sisaldab erinevate kaalude vahemikke (nn **binne**) ja vertikaaltelg näitab, mitu korda meie juhusliku muutuja valim oli antud vahemikus.
![Päriselu andmete histogramm](../../../../translated_images/et/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Päriselu andmete histogramm](../../../../translated_images/et/weight-histogram.bfd00caf7fc30b14.webp)
Sellest histogrammist näete, et kõik väärtused koonduvad teatud keskmise kaalu ümber ja mida kaugemale me sellest kaalust läheme, seda vähem esineb selle väärtusega kaale. St, on väga ebatõenäoline, et pesapallimängija kaal erineb oluliselt keskmisest kaalust. Kaalude dispersioon näitab, mil määral kaalud tõenäoliselt keskmisest erinevad.
@ -101,7 +101,7 @@ samples = np.random.normal(mean,std,1000)
Kui joonistame genereeritud valimite histogrammi, näeme pilti, mis on väga sarnane ülaltoodud pildiga. Ja kui suurendame valimite arvu ja binide arvu, saame genereerida normaaljaotuse graafiku, mis on ideaalile lähemal:
![Normaaljaotus keskmisega=0 ja standardhälbega=1](../../../../translated_images/et/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Normaaljaotus keskmisega=0 ja standardhälbega=1](../../../../translated_images/et/normal-histogram.dfae0d67c202137d.webp)
*Normaaljaotus keskmisega=0 ja standardhälbega=1*
@ -220,7 +220,7 @@ array([[1. , 0.52959196],
Meie puhul näitab väärtus 0.53, et kehakaalu ja pikkuse vahel on mingi korrelatsioon. Võime teha ka hajuvusdiagrammi ühe väärtuse kohta teise vastu, et näha seost visuaalselt:
![Seos kehakaalu ja pikkuse vahel](../../../../translated_images/et/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Seos kehakaalu ja pikkuse vahel](../../../../translated_images/et/weight-height-relationship.3f06bde4ca2aba99.webp)
> Rohkem korrelatsiooni ja kovariatsiooni näiteid leiate [kaasnevast märkmikust](notebook.ipynb).

@ -1,6 +1,6 @@
# Sissejuhatus andmeteadusesse
![andmed tegevuses](../../../translated_images/et/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![andmed tegevuses](../../../translated_images/et/data.48e22bb7617d8d92.webp)
> Foto autorilt <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> lehel <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Nendes tundides avastad, kuidas andmeteadust defineeritakse, ning õpid tundma eetilisi kaalutlusi, mida andmeteadlane peab arvesse võtma. Samuti saad teada, kuidas andmeid defineeritakse, ning õpid veidi statistika ja tõenäosusteooria kohta, mis on andmeteaduse põhivaldkonnad.

@ -12,7 +12,7 @@ Andmed ei piirdu ainult relatsiooniliste andmebaasidega. See õppetund keskendub
Tabelarvutused on populaarne viis andmete salvestamiseks ja uurimiseks, kuna nende seadistamine ja kasutuselevõtt nõuab vähem tööd. Selles õppetunnis õpid tabelarvutuse põhikomponente, samuti valemeid ja funktsioone. Näited illustreeritakse Microsoft Exceliga, kuid enamik osasid ja teemasid on sarnaste nimede ja sammudega võrreldavad teiste tabelarvutustarkvaradega.
![Tühi Microsoft Exceli töövihik kahe töölehega](../../../../translated_images/et/parts-of-spreadsheet.120711c82aa18a45c3e62a491a15bba0a31ab0e9db407ec022702fed8ffd89bf.png)
![Tühi Microsoft Exceli töövihik kahe töölehega](../../../../translated_images/et/parts-of-spreadsheet.120711c82aa18a45.webp)
Tabelarvutus on fail, mis on ligipääsetav arvuti, seadme või pilvepõhise failisüsteemi failisüsteemis. Tarkvara ise võib olla brauseripõhine või rakendus, mis tuleb arvutisse installida või rakendusena alla laadida. Excelis nimetatakse neid faile **töövihikuteks** ja seda terminoloogiat kasutatakse kogu õppetunni vältel.
@ -24,11 +24,11 @@ Nende Exceli töövihiku põhielementidega kasutame näidet [Microsofti mallides
Tabelarvutusfail nimega "InventoryExample" on vormindatud inventari esemete tabelarvutus, mis sisaldab kolme töölehte, kus vahekaardid on tähistatud "Inventory List", "Inventory Pick List" ja "Bin Lookup". Inventari loendi töölehe 4. rida on päis, mis kirjeldab iga lahtri väärtust päiseveerus.
![Näide inventari loendi valemist Microsoft Excelis](../../../../translated_images/et/formula-excel.ad1068c220892f5ead570d12f2394897961d31a5043a1dd4e6fc5d7690c7a14e.png)
![Näide inventari loendi valemist Microsoft Excelis](../../../../translated_images/et/formula-excel.ad1068c220892f5e.webp)
On juhtumeid, kus lahtri väärtus sõltub teiste lahtrite väärtustest, et genereerida oma väärtus. Inventari loendi tabelarvutus jälgib iga inventari eseme maksumust, kuid mis siis, kui me peame teadma kogu inventari väärtust? [**Valemid**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) teostavad toiminguid lahtriandmetega ja neid kasutatakse inventari maksumuse arvutamiseks selles näites. See tabelarvutus kasutab valemit inventari väärtuse veerus, et arvutada iga eseme väärtus, korrutades koguse päise QTY all ja selle maksumuse päise COST all olevate lahtritega. Lahtri topeltklõpsamine või esiletõstmine näitab valemit. Näed, et valemid algavad võrdusmärgiga, millele järgneb arvutus või toiming.
![Näide inventari loendi funktsioonist Microsoft Excelis](../../../../translated_images/et/function-excel.be2ae4feddc10ca089f3d4363040d93b7fd046c8d4f83ba975ec46483ee99895.png)
![Näide inventari loendi funktsioonist Microsoft Excelis](../../../../translated_images/et/function-excel.be2ae4feddc10ca0.webp)
Me saame kasutada teist valemit, et liita kõik inventari väärtuse lahtrid kokku ja saada selle koguväärtus. Seda võiks arvutada, liites iga lahtri, et genereerida summa, kuid see võib olla tülikas ülesanne. Excelil on [**funktsioonid**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89), ehk eelmääratud valemid, mis teostavad arvutusi lahtriandmetega. Funktsioonid vajavad argumente, mis on vajalikud väärtused nende arvutuste tegemiseks. Kui funktsioonid vajavad rohkem kui ühte argumenti, tuleb need loetleda kindlas järjekorras, vastasel juhul ei pruugi funktsioon arvutada õiget väärtust. Selles näites kasutatakse SUM-funktsiooni ja inventari väärtuse väärtusi argumendina, et genereerida kogusumma, mis on loetletud rea 3, veeru B all (tuntud ka kui B3).
@ -36,17 +36,17 @@ Me saame kasutada teist valemit, et liita kõik inventari väärtuse lahtrid kok
NoSQL on üldtermin erinevate viiside kohta mitte-relatsiooniliste andmete salvestamiseks ja seda võib tõlgendada kui "mitte-SQL", "mitte-relatsiooniline" või "mitte ainult SQL". Selliseid andmebaasisüsteeme saab kategoriseerida nelja tüüpi.
![Graafiline kujutis võtme-väärtuse andmehoidlast, mis näitab 4 unikaalset numbrilist võtit, mis on seotud 4 erineva väärtusega](../../../../translated_images/et/kv-db.e8f2b75686bbdfcba0c827b9272c10ae0821611ea0fe98429b9d13194383afa6.png)
![Graafiline kujutis võtme-väärtuse andmehoidlast, mis näitab 4 unikaalset numbrilist võtit, mis on seotud 4 erineva väärtusega](../../../../translated_images/et/kv-db.e8f2b75686bbdfcb.webp)
> Allikas: [Michał Białecki Blog](https://www.michalbialecki.com/2018/03/18/azure-cosmos-db-key-value-database-cloud/)
[Võtme-väärtuse](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) andmebaasid seovad unikaalsed võtmed, mis on unikaalsed identifikaatorid, väärtusega. Need paarid salvestatakse [hash-tabelis](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) sobiva hash-funktsiooniga.
![Graafiline kujutis graafi andmehoidlast, mis näitab inimeste, nende huvide ja asukohtade vahelisi seoseid](../../../../translated_images/et/graph-db.d13629152f79a9dac895b20fa7d841d4d4d6f6008b1382227c3bbd200fd4cfa1.png)
![Graafiline kujutis graafi andmehoidlast, mis näitab inimeste, nende huvide ja asukohtade vahelisi seoseid](../../../../translated_images/et/graph-db.d13629152f79a9da.webp)
> Allikas: [Microsoft](https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction#graph-database-by-example)
[Graafi](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) andmebaasid kirjeldavad andmete seoseid ja on esitatud sõlmede ja servade kogumina. Sõlm esindab üksust, midagi, mis eksisteerib pärismaailmas, näiteks õpilane või pangaväljavõte. Servad esindavad kahe üksuse vahelist seost. Igal sõlmel ja serval on omadused, mis annavad täiendavat teavet iga sõlme ja serva kohta.
![Graafiline kujutis veerupõhisest andmehoidlast, mis näitab kliendi andmebaasi kahe veeruperekonnaga nimega Identiteet ja Kontaktinfo](../../../../translated_images/et/columnar-db.ffcfe73c3e9063a8c8f93f8ace85e1200863584b1e324eb5159d8ca10f62ec04.png)
![Graafiline kujutis veerupõhisest andmehoidlast, mis näitab kliendi andmebaasi kahe veeruperekonnaga nimega Identiteet ja Kontaktinfo](../../../../translated_images/et/columnar-db.ffcfe73c3e9063a8.webp)
[Veerupõhised](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) andmehoidlad korraldavad andmeid veergudesse ja ridadesse nagu relatsiooniline andmestruktuur, kuid iga veerg jagatakse gruppidesse, mida nimetatakse veeruperekonnaks, kus kõik ühe veeru andmed on seotud ja neid saab ühes üksuses hankida ja muuta.
@ -79,11 +79,11 @@ Saate emulaatori alla laadida ja installida [Windowsi jaoks siit](https://aka.ms
Emulaator avab brauseriakna, kus Explorer vaade võimaldab dokumente uurida.
![Cosmos DB emulaatori Explorer vaade](../../../../translated_images/et/cosmosdb-emulator-explorer.a1c80b1347206fe2f30f88fc123821636587d04fc5a56a9eb350c7da6b31f361.png)
![Cosmos DB emulaatori Explorer vaade](../../../../translated_images/et/cosmosdb-emulator-explorer.a1c80b1347206fe2.webp)
Kui järgite juhiseid, klõpsake "Start with Sample", et genereerida näidisandmebaas nimega SampleDB. Kui laiendate SampleDB-d, klõpsates noolel, leiate konteineri nimega `Persons`. Konteiner sisaldab esemete kogumit, mis on konteineri dokumendid. Saate uurida nelja individuaalset dokumenti `Items` all.
![Näidisandmete uurimine Cosmos DB emulaatoris](../../../../translated_images/et/cosmosdb-emulator-persons.bf640586a7077c8985dfd3071946465c8e074c722c7c202d6d714de99a93b90a.png)
![Näidisandmete uurimine Cosmos DB emulaatoris](../../../../translated_images/et/cosmosdb-emulator-persons.bf640586a7077c89.webp)
#### Dokumentide andmete pärimine Cosmos DB emulaatoriga
@ -93,7 +93,7 @@ Saame ka näidisandmeid pärida, klõpsates uue SQL Query nupul (teine nupp vasa
`SELECT * FROM c where c.age < 40`
![SELECT päringu käivitamine näidisandmetel Cosmos DB emulaatoris, et leida dokumendid, mille age-väärtus on väiksem kui 40](../../../../translated_images/et/cosmosdb-emulator-persons-query.6905ebb497e3cd047cd96e55a0a03f69ce1b91b2b3d8c147e617b746b22b7e33.png)
![SELECT päringu käivitamine näidisandmetel Cosmos DB emulaatoris, et leida dokumendid, mille age-väärtus on väiksem kui 40](../../../../translated_images/et/cosmosdb-emulator-persons-query.6905ebb497e3cd04.webp)
Päring tagastab kaks dokumenti, märkige, et iga dokumendi age-väärtus on väiksem kui 40.

@ -4,7 +4,7 @@
| :------------------------------------------------------------------------------------------------------------: |
| Töötamine Pythoniga - _Sketchnote autorilt [@nitya](https://twitter.com/nitya)_ |
[![Sissejuhatav video](../../../../translated_images/et/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Sissejuhatav video](../../../../translated_images/et/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Kuigi andmebaasid pakuvad väga tõhusaid viise andmete salvestamiseks ja nende pärimiseks päringukeelte abil, on kõige paindlikum viis andmete töötlemiseks kirjutada oma programm, mis andmeid manipuleerib. Paljudel juhtudel oleks andmebaasi päring tõhusam lahendus. Kuid mõnel juhul, kui on vaja keerukamat andmetöötlust, ei saa seda lihtsalt SQL-i abil teha.
Andmetöötlust saab programmeerida mis tahes programmeerimiskeeles, kuid on teatud keeled, mis on andmetega töötamisel kõrgemal tasemel. Andmeteadlased eelistavad tavaliselt ühte järgmistest keeltest:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Ajaseeria graafik](../../../../translated_images/et/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Ajaseeria graafik](../../../../translated_images/et/timeseries-1.80de678ab1cf727e.webp)
Oletame nüüd, et igal nädalal korraldame sõpradele peo ja võtame peole lisaks 10 pakki jäätist. Saame luua teise Series'i, mis on indekseeritud nädala järgi, et seda näidata:
```python
@ -75,7 +75,7 @@ Kui liidame kaks Series'it, saame koguarvu:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Ajaseeria graafik](../../../../translated_images/et/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Ajaseeria graafik](../../../../translated_images/et/timeseries-2.aae51d575c55181c.webp)
> **Märkus**: Me ei kasuta lihtsat süntaksit `total_items+additional_items`. Kui me seda teeksime, saaksime palju `NaN` (*Not a Number*) väärtusi tulemuseks olevas Series'is. See on tingitud sellest, et `additional_items` Series'is puuduvad väärtused mõne indeksi punkti jaoks ja `NaN` lisamine millelegi annab tulemuseks `NaN`. Seetõttu peame liitmisel määrama `fill_value` parameetri.
@ -84,7 +84,7 @@ Ajaseeriatega saame ka **ümberproovida** seeriat erinevate ajavahemikega. Näit
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Kuulised ajaseeria keskmised](../../../../translated_images/et/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Kuulised ajaseeria keskmised](../../../../translated_images/et/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -210,7 +210,7 @@ Esimene probleem, millele keskendume, on COVID-19 epideemia leviku modelleerimin
Kuna tahame näidata, kuidas andmetega töötada, kutsume teid avama [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) ja lugema seda algusest lõpuni. Võite ka rakke käivitada ja lahendada mõned väljakutsed, mille oleme teile lõppu jätnud.
![COVID levik](../../../../translated_images/et/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID levik](../../../../translated_images/et/covidspread.f3d131c4f1d260ab.webp)
> Kui te ei tea, kuidas Jupyter Notebookis koodi käivitada, vaadake [seda artiklit](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Täielik näide selle andmestiku analüüsimisest, kasutades [Text Analytics for
Avage [`notebook-papers.ipynb`](notebook-papers.ipynb) ja lugege seda algusest lõpuni. Võite ka rakke käivitada ja lahendada mõned väljakutsed, mille oleme teile lõppu jätnud.
![COVID meditsiiniline ravi](../../../../translated_images/et/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![COVID meditsiiniline ravi](../../../../translated_images/et/covidtreat.b2ba59f57ca45fbc.webp)
## Pildiandmete töötlemine

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# Andmetega töötamine
![andmete armastus](../../../translated_images/et/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![andmete armastus](../../../translated_images/et/data-love.a22ef29e6742c852.webp)
> Foto autorilt <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> lehel <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Nendes tundides õpid erinevaid viise, kuidas andmeid hallata, manipuleerida ja rakendustes kasutada. Saad teada relatsiooniliste ja mitte-relatsiooniliste andmebaaside kohta ning kuidas andmeid nendes salvestada. Õpid Pythoniga töötamise põhialuseid andmete haldamiseks ning avastad mitmeid viise, kuidas Pythoniga andmeid hallata ja analüüsida.

@ -51,7 +51,7 @@ Alustame mõne numbrilise andmeosa visualiseerimist, kasutades lihtsat joondiagr
wingspan = birds['MaxWingspan']
wingspan.plot()
```
![Max Tiivaulatus](../../../../translated_images/et/max-wingspan-02.e79fd847b2640b89e21e340a3a9f4c5d4b224c4fcd65f54385e84f1c9ed26d52.png)
![Max Tiivaulatus](../../../../translated_images/et/max-wingspan-02.e79fd847b2640b89.webp)
Mida sa kohe märkad? Tundub, et on vähemalt üks erand - see on päris suur tiivaulatus! 2300 sentimeetri tiivaulatus võrdub 23 meetriga - kas Minnesotas rändavad pterodaktülid? Uurime lähemalt.
@ -71,7 +71,7 @@ plt.plot(x, y)
plt.show()
```
![tiivaulatus koos siltidega](../../../../translated_images/et/max-wingspan-labels-02.aa90e826ca49a9d1dde78075e9755c1849ef56a4e9ec60f7e9f3806daf9283e2.png)
![tiivaulatus koos siltidega](../../../../translated_images/et/max-wingspan-labels-02.aa90e826ca49a9d1.webp)
Isegi kui siltide pööramine on seatud 45 kraadi, on neid liiga palju, et lugeda. Proovime teistsugust strateegiat: märgime ainult erandid ja seame sildid graafiku sisse. Võid kasutada hajusdiagrammi, et siltidele rohkem ruumi teha:
@ -93,7 +93,7 @@ Mis siin toimub? Kasutasid `tick_params`, et peita alumised sildid, ja seejärel
Mida sa avastasid?
![erandid](../../../../translated_images/et/labeled-wingspan-02.6110e2d2401cd5238ccc24dfb6d04a6c19436101f6cec151e3992e719f9f1e1f.png)
![erandid](../../../../translated_images/et/labeled-wingspan-02.6110e2d2401cd523.webp)
## Filtreeri oma andmeid
Nii kiilaskotkas kui ka preeriapistrik, kuigi tõenäoliselt väga suured linnud, tunduvad olevat valesti märgistatud, nende maksimaalse tiivaulatuse juurde on lisatud ekstra `0`. On ebatõenäoline, et kohtad kiilaskotkast 25-meetrise tiivaulatusega, aga kui nii, siis anna meile teada! Loome uue andmekogumi ilma nende kahe erandita:
@ -113,7 +113,7 @@ plt.show()
Erandite filtreerimisega on sinu andmed nüüd ühtsemad ja arusaadavamad.
![hajusdiagramm tiivaulatustest](../../../../translated_images/et/scatterplot-wingspan-02.1c33790094ce36a75f5fb45b25ed2cf27f0356ea609e43c11e97a2cedd7011a4.png)
![hajusdiagramm tiivaulatustest](../../../../translated_images/et/scatterplot-wingspan-02.1c33790094ce36a7.webp)
Nüüd, kui meil on vähemalt tiivaulatuse osas puhtam andmekogum, uurime rohkem nende lindude kohta.
@ -139,7 +139,7 @@ birds.plot(x='Category',
title='Birds of Minnesota')
```
![kogu andmed tulpdiagrammina](../../../../translated_images/et/full-data-bar-02.aaa3fda71c63ed564b917841a1886c177dd9a26424142e510c0c0498fd6ca160.png)
![kogu andmed tulpdiagrammina](../../../../translated_images/et/full-data-bar-02.aaa3fda71c63ed56.webp)
See tulpdiagramm on aga loetamatu, kuna seal on liiga palju rühmitamata andmeid. Pead valima ainult andmed, mida soovid kuvada, nii et vaatame lindude pikkust nende kategooria põhjal.
@ -154,7 +154,7 @@ category_count = birds.value_counts(birds['Category'].values, sort=True)
plt.rcParams['figure.figsize'] = [6, 12]
category_count.plot.barh()
```
![kategooria ja pikkus](../../../../translated_images/et/category-counts-02.0b9a0a4de42275ae5096d0f8da590d8bf520d9e7e40aad5cc4fc8d276480cc32.png)
![kategooria ja pikkus](../../../../translated_images/et/category-counts-02.0b9a0a4de42275ae.webp)
See tulpdiagramm näitab head ülevaadet lindude arvust igas kategoorias. Ühe pilguga näed, et suurim arv linde selles piirkonnas kuulub Pardid/Haned/Vesilinnud kategooriasse. Minnesota on '10 000 järve maa', nii et see pole üllatav!
@ -170,7 +170,7 @@ plt.barh(y=birds['Category'], width=maxlength)
plt.rcParams['figure.figsize'] = [6, 12]
plt.show()
```
![andmete võrdlemine](../../../../translated_images/et/category-length-02.7304bf519375c9807d8165cc7ec60dd2a60f7b365b23098538e287d89adb7d76.png)
![andmete võrdlemine](../../../../translated_images/et/category-length-02.7304bf519375c980.webp)
Siin pole midagi üllatavat: koolibrid on kõige väiksema MaxPikkusega võrreldes pelikani või hanega. On hea, kui andmed on loogilised!
@ -188,7 +188,7 @@ plt.show()
```
Selles graafikus näed iga linnukategooria Minimaalne Pikkus ja Maksimaalne Pikkus vahemikku. Võid kindlalt öelda, et nende andmete põhjal, mida suurem lind, seda suurem on selle pikkuse vahemik. Põnev!
![superimposeeritud väärtused](../../../../translated_images/et/superimposed-02.f03058536baeb2ed7864f01102538464d4c2fd7ade881ddd7d5ba74dc5d2fdae.png)
![superimposeeritud väärtused](../../../../translated_images/et/superimposed-02.f03058536baeb2ed.webp)
## 🚀 Väljakutse

@ -39,7 +39,7 @@ plt.xlabel('Max Length')
plt.show()
```
![maksimaalne pikkus seltsi kohta](../../../../translated_images/et/scatter-wb.9d98b0ed7f0388af979441853361a11df5f518f5307938a503ca7913e986111b.png)
![maksimaalne pikkus seltsi kohta](../../../../translated_images/et/scatter-wb.9d98b0ed7f0388af.webp)
See annab ülevaate kehapikkuse üldisest jaotusest lindude seltsi kohta, kuid see ei ole kõige optimaalsem viis tõeliste jaotuste kuvamiseks. Selle ülesande jaoks kasutatakse tavaliselt histogrammi.
## Töötamine histogrammidega
@ -50,7 +50,7 @@ Matplotlib pakub väga häid viise andmete jaotuse visualiseerimiseks histogramm
birds['MaxBodyMass'].plot(kind = 'hist', bins = 10, figsize = (12,12))
plt.show()
```
![jaotus kogu andmestikus](../../../../translated_images/et/dist1-wb.0d0cac82e2974fbbec635826fefead401af795f82e2279e2e2678bf2c117d827.png)
![jaotus kogu andmestikus](../../../../translated_images/et/dist1-wb.0d0cac82e2974fbb.webp)
Nagu näete, jääb enamik selle andmestiku 400+ linnust oma maksimaalse kehamassi osas alla 2000. Saate andmetest rohkem aimu, muutes `bins` parameetri suuremaks, näiteks 30:
@ -58,7 +58,7 @@ Nagu näete, jääb enamik selle andmestiku 400+ linnust oma maksimaalse kehamas
birds['MaxBodyMass'].plot(kind = 'hist', bins = 30, figsize = (12,12))
plt.show()
```
![jaotus kogu andmestikus suuremate bin-parameetritega](../../../../translated_images/et/dist2-wb.2c0a7a3499b2fbf561e9f93b69f265dfc538dc78f6de15088ba84a88152e26ba.png)
![jaotus kogu andmestikus suuremate bin-parameetritega](../../../../translated_images/et/dist2-wb.2c0a7a3499b2fbf5.webp)
See diagramm näitab jaotust veidi detailsemalt. Vähem vasakule kalduvat diagrammi saab luua, kui valida andmed ainult teatud vahemikus:
@ -69,7 +69,7 @@ filteredBirds = birds[(birds['MaxBodyMass'] > 1) & (birds['MaxBodyMass'] < 60)]
filteredBirds['MaxBodyMass'].plot(kind = 'hist',bins = 40,figsize = (12,12))
plt.show()
```
![filtreeritud histogramm](../../../../translated_images/et/dist3-wb.64b88db7f9780200bd486a2c2a3252548dd439672dbd3f778193db7f654b100c.png)
![filtreeritud histogramm](../../../../translated_images/et/dist3-wb.64b88db7f9780200.webp)
✅ Proovige teisi filtreid ja andmepunkte. Andmete täieliku jaotuse nägemiseks eemaldage `['MaxBodyMass']` filter, et kuvada märgistatud jaotusi.
@ -86,7 +86,7 @@ hist = ax.hist2d(x, y)
```
Tundub, et nende kahe elemendi vahel on oodatud telje ulatuses korrelatsioon, kusjuures üks eriti tugev koondumispunkt paistab silma:
![2D diagramm](../../../../translated_images/et/2D-wb.ae22fdd33936507a41e3af22e11e4903b04a9be973b23a4e05214efaccfd66c8.png)
![2D diagramm](../../../../translated_images/et/2D-wb.ae22fdd33936507a.webp)
Histogrammid töötavad vaikimisi hästi numbriliste andmetega. Aga mis siis, kui peate nägema jaotusi tekstiliste andmete järgi?
## Uurime andmestikku jaotuste osas tekstiliste andmete abil
@ -125,7 +125,7 @@ plt.gca().set(title='Conservation Status', ylabel='Min Wingspan')
plt.legend();
```
![tiivaulatus ja kaitsestaatuse koondamine](../../../../translated_images/et/histogram-conservation-wb.3c40450eb072c14de7a1a3ec5c0fcba4995531024760741b392911b567fd8b70.png)
![tiivaulatus ja kaitsestaatuse koondamine](../../../../translated_images/et/histogram-conservation-wb.3c40450eb072c14d.webp)
Tundub, et minimaalne tiivaulatus ja kaitsestaatus ei ole omavahel hästi korrelatsioonis. Testige selle meetodiga andmestiku teisi elemente. Võite proovida ka erinevaid filtreid. Kas leiate mingeid korrelatsioone?
@ -143,7 +143,7 @@ import matplotlib.pyplot as plt
sns.kdeplot(filteredBirds['MinWingspan'])
plt.show()
```
![Tiheduse graafik](../../../../translated_images/et/density1.8801043bd4af2567b0f706332b5853c7614e5e4b81b457acc27eb4e092a65cbd.png)
![Tiheduse graafik](../../../../translated_images/et/density1.8801043bd4af2567.webp)
Näete, kuidas graafik kordab eelmist minimaalsete tiivaulatuste andmete graafikut; see on lihtsalt veidi sujuvam. Seaborni dokumentatsiooni kohaselt "võrreldes histogrammiga võib KDE (tuuma tiheduse hinnang) toota graafiku, mis on vähem segane ja kergemini tõlgendatav, eriti mitme jaotuse joonistamisel. Kuid see võib põhjustada moonutusi, kui aluseks olev jaotus on piiratud või mitte sujuv. Nagu histogrammi puhul, sõltub ka esitluse kvaliteet heade silumisseadete valikust." [allikas](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) Teisisõnu, kõrvalekalded, nagu alati, võivad teie graafikuid halvasti mõjutada.
@ -153,7 +153,7 @@ Kui soovite uuesti vaadata seda sakilist MaxBodyMass joont teises loodud graafik
sns.kdeplot(filteredBirds['MaxBodyMass'])
plt.show()
```
![sile kehamassi joon](../../../../translated_images/et/density2.8e7647257060ff544a1aaded57e8dd1887586bfe340139e9b77ac1e5287f7977.png)
![sile kehamassi joon](../../../../translated_images/et/density2.8e7647257060ff54.webp)
Kui soovite sujuvat, kuid mitte liiga sujuvat joont, muutke `bw_adjust` parameetrit:
@ -161,7 +161,7 @@ Kui soovite sujuvat, kuid mitte liiga sujuvat joont, muutke `bw_adjust` parameet
sns.kdeplot(filteredBirds['MaxBodyMass'], bw_adjust=.2)
plt.show()
```
![vähem sile kehamassi joon](../../../../translated_images/et/density3.84ae27da82f31e6b83ad977646f029a1d21186574d7581facd70123b3eb257ee.png)
![vähem sile kehamassi joon](../../../../translated_images/et/density3.84ae27da82f31e6b.webp)
✅ Lugege selle tüüpi graafiku jaoks saadaolevate parameetrite kohta ja katsetage!
@ -175,7 +175,7 @@ sns.kdeplot(
)
```
![kehamass seltsi kohta](../../../../translated_images/et/density4.e9d6c033f15c500fd33df94cb592b9f5cf1ed2a3d213c448a3f9e97ba39573ce.png)
![kehamass seltsi kohta](../../../../translated_images/et/density4.e9d6c033f15c500f.webp)
Samuti saate ühes graafikus kaardistada mitme muutuja tiheduse. Võrrelge linnu MaxLength ja MinLength nende kaitsestaatusega:
@ -183,7 +183,7 @@ Samuti saate ühes graafikus kaardistada mitme muutuja tiheduse. Võrrelge linnu
sns.kdeplot(data=filteredBirds, x="MinLength", y="MaxLength", hue="ConservationStatus")
```
![mitu tihedust, üksteise peal](../../../../translated_images/et/multi.56548caa9eae8d0fd9012a8586295538c7f4f426e2abc714ba070e2e4b1fc2c1.png)
![mitu tihedust, üksteise peal](../../../../translated_images/et/multi.56548caa9eae8d0f.webp)
Võib-olla tasub uurida, kas 'Haavatavate' lindude klaster nende pikkuste järgi on tähendusrikas või mitte.

@ -84,7 +84,7 @@ plt.show()
```
Voila, pirukadiagramm, mis näitab andmete proportsioone vastavalt nendele kahele seente klassile. On üsna oluline saada siltide järjekord õigeks, eriti siin, seega kontrolli kindlasti järjekorda, millega siltide massiiv on koostatud!
![pirukadiagramm](../../../../translated_images/et/pie1-wb.e201f2fcc335413143ce37650fb7f5f0bb21358e7823a327ed8644dfb84be9db.png)
![pirukadiagramm](../../../../translated_images/et/pie1-wb.e201f2fcc3354131.webp)
## Sõõrikud!
@ -114,7 +114,7 @@ plt.title('Mushroom Habitats')
plt.show()
```
![sõõrikdiagramm](../../../../translated_images/et/donut-wb.be3c12a22712302b5d10c40014d5389d4a1ae4412fe1655b3cf4af57b64f799a.png)
![sõõrikdiagramm](../../../../translated_images/et/donut-wb.be3c12a22712302b.webp)
See kood joonistab diagrammi ja keskse ringi, seejärel lisab selle keskse ringi diagrammi. Muuda keskse ringi laiust, muutes `0.40` mõneks teiseks väärtuseks.
@ -161,7 +161,7 @@ fig = plt.figure(
Vahvlidiagrammi abil näed selgelt seente kübara värvide proportsioone selles andmestikus. Huvitaval kombel on palju rohelise kübaraga seeni!
![vahvlidiagramm](../../../../translated_images/et/waffle.5455dbae4ccf17d53bb40ff0a657ecef7b8aa967e27a19cc96325bd81598f65e.png)
![vahvlidiagramm](../../../../translated_images/et/waffle.5455dbae4ccf17d5.webp)
✅ PyWaffle toetab ikoone diagrammides, mis kasutavad kõiki ikoone, mis on saadaval [Font Awesome](https://fontawesome.com/) lehel. Katseta, et luua veelgi huvitavam vahvlidiagramm, kasutades ruutude asemel ikoone.

@ -42,7 +42,7 @@ Looge lihtne hajuvusdiagramm, et näidata suhet mee hinna naela kohta ja selle p
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![hajuvusdiagramm 1](../../../../translated_images/et/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![hajuvusdiagramm 1](../../../../translated_images/et/scatter1.5e1aa5fd6706c5d1.webp)
Nüüd näidake samu andmeid mee värviskeemiga, et näidata, kuidas hind aastate jooksul muutub. Seda saate teha, lisades 'hue' parameetri, et näidata muutust aastate lõikes:
@ -51,7 +51,7 @@ Nüüd näidake samu andmeid mee värviskeemiga, et näidata, kuidas hind aastat
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![hajuvusdiagramm 2](../../../../translated_images/et/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![hajuvusdiagramm 2](../../../../translated_images/et/scatter2.c0041a58621ca702.webp)
Selle värviskeemi muutusega näete selgelt tugevat arengut aastate jooksul mee hinna osas naela kohta. Tõepoolest, kui vaatate andmestikus valimit, näiteks Arizona osariiki, näete aastate lõikes hinnatõusu mustrit, kus on vähe erandeid:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Näete, et punktide suurus suureneb järk-järgult.
![hajuvusdiagramm 3](../../../../translated_images/et/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![hajuvusdiagramm 3](../../../../translated_images/et/scatter3.3c160a3d1dcb36b3.webp)
Kas see on lihtne pakkumise ja nõudluse juhtum? Kas kliimamuutuste ja kolooniate kokkuvarisemise tõttu on aastate jooksul vähem mett saadaval, mistõttu hind tõuseb?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Vastus: Jah, mõningate eranditega umbes 2003. aasta paiku:
![joondiagramm 1](../../../../translated_images/et/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![joondiagramm 1](../../../../translated_images/et/line1.f36eb465229a3b1f.webp)
✅ Kuna Seaborn koondab andmeid ühe joone ümber, kuvab see "mitu mõõtmist iga x väärtuse juures, joonistades keskmise ja 95% usaldusvahemiku keskmise ümber". [Allikas](https://seaborn.pydata.org/tutorial/relational.html). Selle ajamahuka käitumise saab keelata, lisades `ci=None`.
@ -105,7 +105,7 @@ Küsimus: Noh, kas 2003. aastal näeme ka mee pakkumise kasvu? Mis siis, kui vaa
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![joondiagramm 2](../../../../translated_images/et/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![joondiagramm 2](../../../../translated_images/et/line2.a5b3493dc01058af.webp)
Vastus: Mitte päris. Kui vaatate kogutoodangut, tundub, et see tegelikult suurenes sel konkreetsel aastal, kuigi üldiselt mee tootmise kogus väheneb nendel aastatel.
@ -130,7 +130,7 @@ sns.relplot(
```
Selles visualiseerimises saate võrrelda saagikust koloonia kohta ja kolooniate arvu aastate lõikes kõrvuti, veergude wrap'iga 3:
![facet grid](../../../../translated_images/et/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/et/facet.6a34851dcd540050.webp)
Selle andmestiku puhul ei paista kolooniate arvu ja nende saagikuse osas aastate lõikes ja osariikide lõikes midagi erilist silma. Kas on olemas teine viis, kuidas leida korrelatsiooni nende kahe muutuja vahel?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/et/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/et/dual-line.a4c28ce659603fab.webp)
Kuigi 2003. aasta paiku ei paista midagi silma, võimaldab see meil lõpetada selle tunni veidi rõõmsama noodiga: kuigi kolooniate arv on üldiselt vähenemas, stabiliseerub kolooniate arv isegi siis, kui nende saagikus koloonia kohta väheneb.

@ -38,25 +38,25 @@ Eelnevates tundides katsetasid erinevate huvitavate andmevisualisatsioonide loom
Isegi kui andmeteadlane valib hoolikalt õige diagrammi õige andmestiku jaoks, on palju viise, kuidas andmeid saab esitada viisil, mis tõestab mingit seisukohta, sageli andmete enda arvelt. Eksitavate diagrammide ja infograafikate näiteid on palju!
[![Kuidas diagrammid valetavad, autor Alberto Cairo](../../../../translated_images/et/tornado.9f42168791208f970d6faefc11d1226d7ca89518013b14aa66b1c9edcd7678d2.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kuidas diagrammid valetavad")
[![Kuidas diagrammid valetavad, autor Alberto Cairo](../../../../translated_images/et/tornado.9f42168791208f97.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kuidas diagrammid valetavad")
> 🎥 Klõpsa ülaloleval pildil, et vaadata konverentsiettekannet eksitavate diagrammide kohta
See diagramm pöörab X-telje ümber, et näidata tõe vastandit, tuginedes kuupäevadele:
![halb diagramm 1](../../../../translated_images/et/bad-chart-1.93130f495b748bedfb3423d91b1e754d9026e17f94ad967aecdc9ca7203373bf.png)
![halb diagramm 1](../../../../translated_images/et/bad-chart-1.93130f495b748bed.webp)
[See diagramm](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) on veelgi eksitavam, kuna pilk tõmmatakse paremale, et järeldada, et aja jooksul on COVID-juhtumid erinevates maakondades vähenenud. Tegelikult, kui vaatad kuupäevi lähemalt, leiad, et need on ümber paigutatud, et anda eksitav langustrend.
![halb diagramm 2](../../../../translated_images/et/bad-chart-2.c20e36dd4e6f617c0c325878dd421a563885bbf30a394884c147438827254e0e.jpg)
![halb diagramm 2](../../../../translated_images/et/bad-chart-2.c20e36dd4e6f617c.webp)
See kurikuulus näide kasutab värvi JA ümberpööratud Y-telge eksitamiseks: selle asemel, et järeldada, et relvadega seotud surmad kasvasid pärast relvasõbraliku seadusandluse vastuvõtmist, petab diagramm silma, et arvata vastupidist:
![halb diagramm 3](../../../../translated_images/et/bad-chart-3.6865d0afac4108d737558d90a61547d23a8722896397ec792264ee51a1be4be5.jpg)
![halb diagramm 3](../../../../translated_images/et/bad-chart-3.6865d0afac4108d7.webp)
See kummaline diagramm näitab, kuidas proportsioone saab manipuleerida, naljakal moel:
![halb diagramm 4](../../../../translated_images/et/bad-chart-4.68cfdf4011b454471053ee1231172747e1fbec2403b4443567f1dc678134f4f2.jpg)
![halb diagramm 4](../../../../translated_images/et/bad-chart-4.68cfdf4011b45447.webp)
Võrdlemine, mis pole võrreldav, on veel üks kahtlane trikk. On olemas [suurepärane veebisait](https://tylervigen.com/spurious-correlations), mis näitab 'juhuslikke korrelatsioone', kuvades 'fakte', mis korreleerivad näiteks Maine'i lahutuste määra ja margariini tarbimist. Redditi grupp kogub samuti [andmete koledaid kasutusviise](https://www.reddit.com/r/dataisugly/top/?t=all).
@ -91,13 +91,13 @@ Märgi oma teljed, lisa legend vajadusel ja paku tööriistavihjeid andmete pare
Kui sinu andmed on tekstilised ja X-teljel pikad, saad teksti nurga alla keerata, et parandada loetavust. [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) pakub 3D-plotimist, kui sinu andmed seda toetavad. Täiustatud andmevisualisatsioone saab luua `mpl_toolkits.mplot3d` abil.
![3D diagrammid](../../../../translated_images/et/3d.0cec12bcc60f0ce7284c63baed1411a843e24716f7d7425de878715ebad54a15.png)
![3D diagrammid](../../../../translated_images/et/3d.0cec12bcc60f0ce7.webp)
## Animatsioon ja 3D-diagrammide kuvamine
Mõned parimad tänapäeva andmevisualisatsioonid on animeeritud. Shirley Wu on loonud hämmastavaid visualisatsioone D3-ga, näiteks '[filmililled](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kus iga lill on filmi visualisatsioon. Teine näide Guardianile on 'bussed out', interaktiivne kogemus, mis ühendab visualisatsioone Greensocki ja D3-ga ning jutustava artikli formaati, et näidata, kuidas NYC lahendab kodutute probleemi, saates inimesi linnast välja.
![busing](../../../../translated_images/et/busing.7b9e3b41cd4b981c6d63922cd82004cc1cf18895155536c1d98fcc0999bdd23e.png)
![busing](../../../../translated_images/et/busing.7b9e3b41cd4b981c.webp)
> "Bussed Out: Kuidas Ameerika liigutab oma kodutuid" Guardianist [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualisatsioonid: Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Kuigi see tund ei ole piisav, et süvitsi õpetada neid võimsaid visualiseerimi
Sa lõpetad veebirakenduse, mis kuvab animeeritud vaate sellest sotsiaalsest võrgustikust. See kasutab teeki, mis on loodud [võrgustiku visualiseerimiseks](https://github.com/emiliorizzo/vue-d3-network) Vue.js ja D3 abil. Kui rakendus töötab, saad ekraanil sõlmi ümber tõmmata, et andmeid ümber paigutada.
![liaisons](../../../../translated_images/et/liaisons.7b440b28f6d07ea430244fdf1fc4c64ff48f473f143b8e921846eda1c302aeba.png)
![liaisons](../../../../translated_images/et/liaisons.7b440b28f6d07ea4.webp)
## Projekt: Loo diagramm, mis näitab võrgustikku D3.js abil

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Siin installid `ggplot2` paketi ja impordid selle tööruumi, kasutades käsku `library("ggplot2")`. Graafiku loomiseks ggplotis kasutatakse funktsiooni `ggplot()`, kus määrad andmestiku, x- ja y-muutujad atribuutidena. Antud juhul kasutame funktsiooni `geom_line()`, kuna eesmärk on luua joongraafik.
![MaxWingspan-lineplot](../../../../../translated_images/et/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/et/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
Mida märkad kohe? Tundub, et on vähemalt üks kõrvalekalle - see on päris suur tiivaulatus! 2000+ sentimeetrine tiivaulatus võrdub rohkem kui 20 meetriga - kas Minnesotas rändavad pterodaktülid? Uurime lähemalt.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Määrame nurga `theme` sees ja määrame x- ja y-telje sildid `xlab()` ja `ylab()` abil. `ggtitle()` annab graafikule/diagrammile nime.
![MaxWingspan-lineplot-improved](../../../../../translated_images/et/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/et/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
Isegi kui siltide pööramine on seatud 45 kraadi, on neid liiga palju, et lugeda. Proovime teistsugust strateegiat: märgistame ainult kõrvalekalded ja määrame sildid graafiku sisse. Võid kasutada hajusdiagrammi, et siltidele rohkem ruumi teha:
@ -91,7 +91,7 @@ Mis siin toimub? Kasutasid funktsiooni `geom_point()`, et graafikule hajuspunkte
Mida avastad?
![MaxWingspan-scatterplot](../../../../../translated_images/et/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/et/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## Filtreeri oma andmeid
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Lõime uue andmestiku `birds_filtered` ja seejärel joonistasime hajusdiagrammi. Kõrvalekallete filtreerimisega on sinu andmed nüüd ühtsemad ja arusaadavamad.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/et/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/et/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
Nüüd, kui meil on vähemalt tiivaulatuse osas puhtam andmestik, avastame rohkem nende lindude kohta.
@ -151,7 +151,7 @@ birds_filtered %>% group_by(Category) %>%
```
Järgmises koodilõigus installime [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) ja [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) paketid, et aidata andmeid manipuleerida ja rühmitada, et joonistada virnastatud tulpdiagramm. Kõigepealt rühmitad andmed linnu `Category` järgi ja seejärel summeerid `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` veerud. Seejärel joonistad tulpdiagrammi, kasutades `ggplot2` paketti, määrates erinevate kategooriate värvid ja sildid.
![Virnastatud tulpdiagramm](../../../../../translated_images/et/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Virnastatud tulpdiagramm](../../../../../translated_images/et/stacked-bar-chart.0c92264e89da7b39.webp)
See tulpdiagramm on aga loetamatu, kuna seal on liiga palju rühmitamata andmeid. Pead valima ainult andmed, mida soovid graafikule kanda, seega vaatame lindude pikkust nende kategooria põhjal.
@ -166,7 +166,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Kõigepealt loendad unikaalsed väärtused `Category` veerus ja seejärel sorteerid need uude andmestikku `birds_count`. See sorteeritud andmestik on seejärel samal tasemel faktoreeritud, et see graafikul sorteeritud kujul kuvataks. Kasutades `ggplot2`, joonistad andmed tulpdiagrammi. `coord_flip()` kuvab horisontaalsed tulbad.
![kategooria-pikkus](../../../../../translated_images/et/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![kategooria-pikkus](../../../../../translated_images/et/category-length.7e34c296690e85d6.webp)
See tulpdiagramm annab hea ülevaate lindude arvust igas kategoorias. Ühe pilguga näed, et suurim arv linde selles piirkonnas kuulub Pardid/Haned/Vesilinnud kategooriasse. Minnesota on "10 000 järve maa", seega pole see üllatav!
@ -189,7 +189,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
Rühmitame `birds_filtered` andmed `Category` järgi ja seejärel joonistame tulpdiagrammi.
![andmete võrdlemine](../../../../../translated_images/et/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![andmete võrdlemine](../../../../../translated_images/et/comparingdata.f486a450d61c7ca5.webp)
Siin pole midagi üllatavat: koolibrid on maksimaalse pikkuse poolest kõige väiksemad võrreldes pelikani või hanega. On hea, kui andmed on loogilised!
@ -201,7 +201,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![superimposeeritud väärtused](../../../../../translated_images/et/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![superimposeeritud väärtused](../../../../../translated_images/et/superimposed-values.5363f0705a1da416.webp)
## 🚀 Väljakutse

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![maksimaalne pikkus seltsi järgi](../../../../../translated_images/et/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![maksimaalne pikkus seltsi järgi](../../../../../translated_images/et/max-length-per-order.e5b283d952c78c12.webp)
See annab ülevaate lindude pikkuse jaotusest seltsi järgi, kuid see pole parim viis tõeliste jaotuste kuvamiseks. Selle ülesande jaoks kasutatakse tavaliselt histogrammi.
## Töötamine histogrammidega
@ -47,7 +47,7 @@ See annab ülevaate lindude pikkuse jaotusest seltsi järgi, kuid see pole parim
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![jaotus kogu andmestikus](../../../../../translated_images/et/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![jaotus kogu andmestikus](../../../../../translated_images/et/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
Nagu näete, kuulub enamik 400+ linnust selles andmestikus Max Body Mass väärtusega alla 2000. Saate andmetest rohkem aru, kui muudate `bins` parameetri kõrgemaks, näiteks 30:
@ -55,7 +55,7 @@ Nagu näete, kuulub enamik 400+ linnust selles andmestikus Max Body Mass väärt
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![jaotus-30bins](../../../../../translated_images/et/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![jaotus-30bins](../../../../../translated_images/et/distribution-30bins.6a3921ea7a421bf7.webp)
See diagramm näitab jaotust veidi detailsemalt. Vähem vasakule kaldu diagrammi saab luua, kui valite andmed ainult teatud vahemikus:
@ -67,7 +67,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![filtreeritud histogramm](../../../../../translated_images/et/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![filtreeritud histogramm](../../../../../translated_images/et/filtered-histogram.6bf5d2bfd8253322.webp)
✅ Proovige mõnda muud filtrit ja andmepunkti. Andmete täieliku jaotuse nägemiseks eemaldage `['MaxBodyMass']` filter, et kuvada märgistatud jaotused.
@ -81,7 +81,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Tundub, et nende kahe elemendi vahel on oodatud korrelatsioon mööda oodatud telge, kus üks kokkulangevuse punkt on eriti tugev:
![2d diagramm](../../../../../translated_images/et/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2d diagramm](../../../../../translated_images/et/2d-plot.c504786f439bd7eb.webp)
Histogrammid töötavad vaikimisi hästi numbriliste andmetega. Aga mis siis, kui peate nägema jaotusi tekstiliste andmete järgi?
## Uurime andmestikku jaotuste leidmiseks tekstiliste andmete abil
@ -112,7 +112,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![tiivaulatus ja kaitsestaatuse seos](../../../../../translated_images/et/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![tiivaulatus ja kaitsestaatuse seos](../../../../../translated_images/et/wingspan-conservation-collation.4024e9aa6910866a.webp)
Tundub, et minimaalse tiivaulatuse ja kaitsestaatuse vahel pole head korrelatsiooni. Testige selle meetodiga andmestiku teisi elemente. Võite proovida ka erinevaid filtreid. Kas leiate korrelatsiooni?
@ -126,7 +126,7 @@ Töötame nüüd tiheduse diagrammidega!
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![tiheduse diagramm](../../../../../translated_images/et/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![tiheduse diagramm](../../../../../translated_images/et/density-plot.675ccf865b76c690.webp)
Näete, kuidas diagramm kajastab varasemat minimaalse tiivaulatuse diagrammi; see on lihtsalt veidi sujuvam. Kui soovite uuesti vaadata seda sakilist MaxBodyMass joont teises loodud diagrammis, saate selle väga hästi siluda, luues selle uuesti selle meetodiga:
@ -134,7 +134,7 @@ Näete, kuidas diagramm kajastab varasemat minimaalse tiivaulatuse diagrammi; se
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![kehamassi tihedus](../../../../../translated_images/et/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![kehamassi tihedus](../../../../../translated_images/et/bodymass-smooth.d31ce526d82b0a1f.webp)
Kui soovite sujuvat, kuid mitte liiga sujuvat joont, muutke `adjust` parameetrit:
@ -142,7 +142,7 @@ Kui soovite sujuvat, kuid mitte liiga sujuvat joont, muutke `adjust` parameetrit
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![vähem sujuv kehamass](../../../../../translated_images/et/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![vähem sujuv kehamass](../../../../../translated_images/et/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ Lugege selle diagrammitüübi jaoks saadaolevate parameetrite kohta ja katsetage!
@ -152,7 +152,7 @@ See diagrammitüüp pakub kaunilt selgitavaid visualiseeringuid. Näiteks mõne
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![kehamass seltsi järgi](../../../../../translated_images/et/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![kehamass seltsi järgi](../../../../../translated_images/et/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 Väljakutse

@ -88,7 +88,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Voila, pirukadiagramm, mis näitab nende kahe seeneklassi andmete proportsioone. On üsna oluline saada siltide järjekord õigeks, eriti siin, seega kontrolli kindlasti, kuidas siltide massiiv on koostatud!
![pirukadiagramm](../../../../../translated_images/et/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![pirukadiagramm](../../../../../translated_images/et/pie1-wb.685df063673751f4.webp)
## Sõõrikud!
@ -123,7 +123,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![sõõrikdiagramm](../../../../../translated_images/et/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![sõõrikdiagramm](../../../../../translated_images/et/donut-wb.34e6fb275da9d834.webp)
See kood kasutab kahte teeki - ggplot2 ja webr. Kasutades webr teegi PieDonut funktsiooni, saame hõlpsasti luua sõõrikdiagrammi!
@ -160,7 +160,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
Vahvlidiagrammi abil näed selgelt seente kübara värvide proportsioone selles andmestikus. Huvitaval kombel on palju rohelise kübaraga seeni!
![vahvlidiagramm](../../../../../translated_images/et/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![vahvlidiagramm](../../../../../translated_images/et/waffle.aaa75c5337735a6e.webp)
Selles õppetükis õppisid kolme viisi proportsioonide visualiseerimiseks. Kõigepealt pead oma andmed rühmitama kategooriatesse ja seejärel otsustama, milline on parim viis andmete kuvamiseks - pirukas, sõõrik või vahvel. Kõik on maitsvad ja pakuvad kasutajale kohest ülevaadet andmestikust.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![hajuvusdiagramm 1](../../../../../translated_images/et/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![hajuvusdiagramm 1](../../../../../translated_images/et/scatter1.86b8900674d88b26.webp)
Nüüd näidake samu andmeid mee värviskeemiga, et näidata, kuidas hind aastate jooksul muutub. Seda saate teha, lisades 'scale_color_gradientn' parameetri, et näidata muutust aastate lõikes:
@ -52,7 +52,7 @@ Nüüd näidake samu andmeid mee värviskeemiga, et näidata, kuidas hind aastat
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![hajuvusdiagramm 2](../../../../../translated_images/et/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![hajuvusdiagramm 2](../../../../../translated_images/et/scatter2.4d1cbc693bad20e2.webp)
Selle värviskeemi muutusega näete selgelt tugevat arengut aastate jooksul mee hinna osas naela kohta. Kui vaatate andmestiku näidisosa, näiteks Arizona osariiki, näete aastate lõikes hinnatõusu mustrit, kus on vähe erandeid:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Näete, et punktide suurus suureneb järk-järgult.
![hajuvusdiagramm 3](../../../../../translated_images/et/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![hajuvusdiagramm 3](../../../../../translated_images/et/scatter3.722d21e6f20b3ea2.webp)
Kas see on lihtne pakkumise ja nõudluse juhtum? Kas kliimamuutuste ja kolooniate kokkuvarisemise tõttu on aastate jooksul vähem mett saadaval, mistõttu hind tõuseb?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Vastus: Jah, mõningate eranditega umbes 2003. aasta paiku:
![joondiagramm 1](../../../../../translated_images/et/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![joondiagramm 1](../../../../../translated_images/et/line1.299b576fbb2a59e6.webp)
Küsimus: Kas 2003. aastal näeme ka mee pakkumise kasvu? Mis juhtub, kui vaatate kogutoodangut aastate lõikes?
@ -106,7 +106,7 @@ Küsimus: Kas 2003. aastal näeme ka mee pakkumise kasvu? Mis juhtub, kui vaatat
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![joondiagramm 2](../../../../../translated_images/et/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![joondiagramm 2](../../../../../translated_images/et/line2.3b18fcda7176ceba.webp)
Vastus: Mitte päris. Kui vaatate kogutoodangut, tundub, et see tegelikult suurenes sel konkreetsel aastal, kuigi üldiselt mee tootmise kogus väheneb nendel aastatel.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
Selles visualiseerimises saate võrrelda koloonia saagikust ja kolooniate arvu aastate lõikes kõrvuti, kus veergude wrap on seatud 3-le:
![facet grid](../../../../../translated_images/et/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/et/facet.491ad90d61c2a7cc.webp)
Selle andmestiku puhul ei paista kolooniate arv ja nende saagikus aastate lõikes ja osariikide lõikes millegi erilisega silma. Kas on olemas teine viis, kuidas leida korrelatsiooni nende kahe muutuja vahel?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![kahe joonega graafik](../../../../../translated_images/et/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![kahe joonega graafik](../../../../../translated_images/et/dual-line.fc4665f360a54018.webp)
Kuigi 2003. aasta paiku ei paista midagi silma, võimaldab see meil lõpetada õppetund veidi rõõmsama noodiga: kuigi kolooniate arv on üldiselt vähenemas, stabiliseerub kolooniate arv isegi siis, kui nende saagikus koloonia kohta väheneb.

@ -38,25 +38,25 @@ Eelnevates tundides katsetasite erinevate huvitavate andmevisualisatsioonide loo
Isegi kui andmeteadlane valib õige diagrammi õigete andmete jaoks, on palju viise, kuidas andmeid saab esitada viisil, mis tõestab teatud seisukohta, sageli andmete enda arvelt. Eksitavate diagrammide ja infograafikate näiteid on palju!
[![Kuidas diagrammid valetavad, autor Alberto Cairo](../../../../../translated_images/et/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kuidas diagrammid valetavad")
[![Kuidas diagrammid valetavad, autor Alberto Cairo](../../../../../translated_images/et/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kuidas diagrammid valetavad")
> 🎥 Klõpsake ülaltoodud pildil, et vaadata konverentsi ettekannet eksitavate diagrammide kohta
See diagramm pöörab X-telje ümber, et näidata tõe vastandit, tuginedes kuupäevadele:
![halb diagramm 1](../../../../../translated_images/et/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![halb diagramm 1](../../../../../translated_images/et/bad-chart-1.596bc93425a8ac30.webp)
[See diagramm](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) on veelgi eksitavam, kuna silm tõmmatakse paremale, et järeldada, et aja jooksul on COVID-i juhtumid erinevates maakondades vähenenud. Tegelikult, kui vaatate kuupäevi lähemalt, leiate, et need on ümber korraldatud, et anda eksitav langustrend.
![halb diagramm 2](../../../../../translated_images/et/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![halb diagramm 2](../../../../../translated_images/et/bad-chart-2.62edf4d2f30f4e51.webp)
See kurikuulus näide kasutab värvi JA pööratud Y-telge eksitamiseks: selle asemel, et järeldada, et relvadega seotud surmad kasvasid pärast relvasõbraliku seadusandluse vastuvõtmist, petab silm, et arvata vastupidist:
![halb diagramm 3](../../../../../translated_images/et/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![halb diagramm 3](../../../../../translated_images/et/bad-chart-3.e201e2e915a230bc.webp)
See kummaline diagramm näitab, kuidas proportsioone saab manipuleerida, naljakal moel:
![halb diagramm 4](../../../../../translated_images/et/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![halb diagramm 4](../../../../../translated_images/et/bad-chart-4.8872b2b881ffa96c.webp)
Võrdlemine, mis ei ole võrreldav, on veel üks kahtlane trikk. On olemas [suurepärane veebisait](https://tylervigen.com/spurious-correlations), mis käsitleb 'juhuslikke korrelatsioone', näidates 'fakte', mis seostavad näiteks Maine'i lahutuste määra ja margariini tarbimist. Redditi grupp kogub ka [andmete koledaid kasutusviise](https://www.reddit.com/r/dataisugly/top/?t=all).
@ -91,13 +91,13 @@ Märgistage oma teljed, lisage vajadusel legend ja pakkuge tööriistavihjeid an
Kui teie andmed on tekstilised ja X-teljel pikad, saate teksti nurga alla pöörata, et parandada loetavust. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) pakub 3D-plotimist, kui teie andmed seda toetavad. Selle abil saab luua keerukaid andmevisualisatsioone.
![3D diagrammid](../../../../../translated_images/et/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3D diagrammid](../../../../../translated_images/et/3d.db1734c151eee87d.webp)
## Animatsioon ja 3D diagrammi kuvamine
Mõned parimad tänapäeva andmevisualisatsioonid on animeeritud. Shirley Wu on loonud hämmastavaid visualisatsioone D3 abil, näiteks '[filmililled](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kus iga lill on filmi visualisatsioon. Teine näide Guardianile on 'bussed out', interaktiivne kogemus, mis ühendab visualisatsioone Greensocki ja D3-ga ning scrollytelling artikli formaati, et näidata, kuidas NYC lahendab kodutute probleemi, saates inimesi linnast välja.
![busing](../../../../../translated_images/et/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/et/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: Kuidas Ameerika liigutab oma kodutuid" [Guardianist](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualisatsioonid: Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Kuigi see tund ei ole piisav, et süvitsi õpetada neid võimsaid visualiseerimi
Te lõpetate veebirakenduse, mis kuvab animeeritud vaate sellest sotsiaalvõrgustikust. See kasutab raamatukogu, mis loodi [võrgustiku visualiseerimiseks](https://github.com/emiliorizzo/vue-d3-network) Vue.js ja D3 abil. Kui rakendus töötab, saate ekraanil sõlmi liigutada, et andmeid ümber paigutada.
![liaisons](../../../../../translated_images/et/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/et/liaisons.90ce7360bcf84765.webp)
## Projekt: Looge diagramm, mis näitab võrgustikku D3.js abil

@ -1,6 +1,6 @@
# Visualisatsioonid
![mesilane lavendlil](../../../translated_images/et/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![mesilane lavendlil](../../../translated_images/et/bee.0aa1d91132b12e3a.webp)
> Foto autorilt <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> lehel <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Andmete visualiseerimine on üks olulisemaid ülesandeid andmeteadlase töös. Pilt on väärt tuhat sõna ning visualiseerimine aitab tuvastada mitmesuguseid huvitavaid andmete aspekte, nagu tipud, kõrvalekalded, rühmitused, suundumused ja palju muud, mis aitavad mõista, millist lugu andmed räägivad.

@ -16,7 +16,7 @@ Praeguseks olete ilmselt mõistnud, et andmeteadus on protsess. Seda protsessi s
See õppetund keskendub elutsükli kolmele osale: andmete kogumine, töötlemine ja hooldus.
![Andmeteaduse elutsükli diagramm](../../../../translated_images/et/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Andmeteaduse elutsükli diagramm](../../../../translated_images/et/data-science-lifecycle.a1e362637503c4fb.webp)
> Foto autor [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Andmete kogumine
@ -91,7 +91,7 @@ Uurige [Team Data Science Process elutsüklit](https://docs.microsoft.com/en-us/
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
|![Team Data Science Lifecycle](../../../../translated_images/et/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Data Science Process Alliance Image](../../../../translated_images/et/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Team Data Science Lifecycle](../../../../translated_images/et/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Data Science Process Alliance Image](../../../../translated_images/et/CRISP-DM.8bad2b4c66e62aa7.webp) |
| Pilt autorilt [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Pilt autorilt [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Järelloengu viktoriin](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# Andmeteaduse elutsükkel
![kommunikatsioon](../../../translated_images/et/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![kommunikatsioon](../../../translated_images/et/communication.06d8e2a88d30d168.webp)
> Foto autorilt <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> lehel <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Nendes tundides uurid mõningaid andmeteaduse elutsükli aspekte, sealhulgas andmete analüüsi ja kommunikatsiooni.

@ -52,7 +52,7 @@ Azure ML pakub kõiki tööriistu, mida arendajad ja andmeteadlased vajavad oma
Pole kahtlust, et projektide loomine ja ehitamine on parim viis oma oskuste ja teadmiste proovile panemiseks. Selles õppetunnis uurime kahte erinevat viisi südamepuudulikkuse rünnakute ennustamise andmeteaduse projekti loomiseks Azure ML Studios: vähe koodi/ilma koodita meetodil ja Azure ML SDK abil, nagu on näidatud järgmisel skeemil:
![project-schema](../../../../translated_images/et/project-schema.736f6e403f321eb48d10242b3f4334dc6ccf0eabef8ff87daf52b89781389fcb.png)
![project-schema](../../../../translated_images/et/project-schema.736f6e403f321eb4.webp)
Igal meetodil on oma plussid ja miinused. Vähe koodi/ilma koodita meetod on lihtsam alustada, kuna see hõlmab graafilise kasutajaliidese (GUI) kasutamist, ilma et oleks vaja eelnevaid teadmisi koodist. See meetod võimaldab projekti elujõulisust kiiresti testida ja luua POC (Proof Of Concept). Kuid kui projekt kasvab ja asjad peavad olema tootmisvalmis, ei ole GUI kaudu ressursside loomine teostatav. Siin muutub Azure ML SDK kasutamise oskus hädavajalikuks.
@ -105,15 +105,15 @@ Azure Machine Learningi kasutamiseks looge tööruum oma Azure'i tellimuses. See
1. Logige sisse [Azure portaali](https://ms.portal.azure.com/) Microsofti mandaatidega, mis on seotud teie Azure'i tellimusega.
2. Valige **Loo ressurss**
![workspace-1](../../../../translated_images/et/workspace-1.ac8694d60b073ed1ae8333d71244dc8a9b3e439d54593724f98f1beefdd27b08.png)
![workspace-1](../../../../translated_images/et/workspace-1.ac8694d60b073ed1.webp)
Otsige Machine Learning ja valige Machine Learningi plaat
![workspace-2](../../../../translated_images/et/workspace-2.ae7c486db8796147075e4a56566aa819827dd6c4c8d18d64590317c3be625f17.png)
![workspace-2](../../../../translated_images/et/workspace-2.ae7c486db8796147.webp)
Klõpsake nuppu "Loo"
![workspace-3](../../../../translated_images/et/workspace-3.398ca4a5858132cce584db9df10c5a011cd9075eb182e647a77d5cac01771eea.png)
![workspace-3](../../../../translated_images/et/workspace-3.398ca4a5858132cc.webp)
Täitke seaded järgmiselt:
- Tellimus: Teie Azure'i tellimus
@ -125,17 +125,17 @@ Azure Machine Learningi kasutamiseks looge tööruum oma Azure'i tellimuses. See
- Rakenduse ülevaated: Märkige vaikimisi uus rakenduse ülevaate ressurss, mis luuakse teie tööruumi jaoks
- Konteineriregister: Puudub (üks luuakse automaatselt esimesel korral, kui juurutate mudeli konteinerisse)
![workspace-4](../../../../translated_images/et/workspace-4.bac87f6599c4df63e624fc2608990f965887bee551d9dedc71c687b43b986b6a.png)
![workspace-4](../../../../translated_images/et/workspace-4.bac87f6599c4df63.webp)
- Klõpsake nuppu "Loo + ülevaade" ja seejärel nuppu "Loo"
3. Oodake, kuni teie tööruum luuakse (see võib võtta paar minutit). Seejärel minge portaali. Leiate selle Machine Learning Azure'i teenuse kaudu.
4. Tööruumi ülevaate lehel käivitage Azure Machine Learning studio (või avage uus brauseri vahekaart ja navigeerige aadressile https://ml.azure.com) ning logige sisse Azure Machine Learning studio kasutades oma Microsofti kontot. Kui küsitakse, valige oma Azure'i kataloog ja tellimus ning Azure Machine Learningi tööruum.
![workspace-5](../../../../translated_images/et/workspace-5.a6eb17e0a5e6420018b08bdaf3755ce977f96f1df3ea363d2476a9dce7e15adb.png)
![workspace-5](../../../../translated_images/et/workspace-5.a6eb17e0a5e64200.webp)
5. Azure Machine Learning studios lülitage ☰ ikooni ülaosas, et vaadata erinevaid lehti liideses. Saate neid lehti kasutada oma tööruumi ressursside haldamiseks.
![workspace-6](../../../../translated_images/et/workspace-6.8dd81fe841797ee17f8f73916769576260b16c4e17e850d277a49db35fd74a15.png)
![workspace-6](../../../../translated_images/et/workspace-6.8dd81fe841797ee1.webp)
Tööruumi saate hallata Azure'i portaali kaudu, kuid andmeteadlaste ja masinõppe operatsioonide inseneride jaoks pakub Azure Machine Learning Studio rohkem keskendunud kasutajaliidest tööruumi ressursside haldamiseks.
@ -180,18 +180,18 @@ Madala prioriteediga instants tähendab, et see on katkestatav: Microsoft Azure
[Azure ML tööruumis](https://ml.azure.com/), mille me varem lõime, minge arvutuse sektsiooni ja näete erinevaid arvutusressursse, mida me just arutasime (st arvutusinstantsid, arvutusklastrid, ennustusklastrid ja seotud arvutus). Selle projekti jaoks vajame mudeli treenimiseks arvutusklastrit. Studios klõpsake menüül "Compute", seejärel vahekaardil "Compute cluster" ja klõpsake nuppu "+ New", et luua arvutusklaster.
![22](../../../../translated_images/et/cluster-1.b78cb630bb543729b11f60c34d97110a263f8c27b516ba4dc47807b3cee5579f.png)
![22](../../../../translated_images/et/cluster-1.b78cb630bb543729.webp)
1. Valige oma valikud: Dedikeeritud vs Madala prioriteediga, CPU või GPU, VM suurus ja tuumade arv (võite selle projekti jaoks jätta vaikeseaded).
2. Klõpsake nupul Next.
![23](../../../../translated_images/et/cluster-2.ea30cdbc9f926bb9e05af3fdbc1f679811c796dc2a6847f935290aec15526e88.png)
![23](../../../../translated_images/et/cluster-2.ea30cdbc9f926bb9.webp)
3. Andke klastrile arvutusnimi.
4. Valige oma valikud: Minimaalne/maksimaalne sõlmede arv, tühikäigu sekundid enne vähendamist, SSH-juurdepääs. Pange tähele, et kui minimaalne sõlmede arv on 0, säästate raha, kui klaster on tühikäigul. Pange tähele, et mida suurem on maksimaalne sõlmede arv, seda lühem on treenimisaeg. Maksimaalne soovitatav sõlmede arv on 3.
5. Klõpsake nupul "Create". See samm võib võtta paar minutit.
![29](../../../../translated_images/et/cluster-3.8a334bc070ec173a329ce5abd2a9d727542e83eb2347676c9af20f2c8870b3e7.png)
![29](../../../../translated_images/et/cluster-3.8a334bc070ec173a.webp)
Suurepärane! Nüüd, kui meil on arvutusklaster, peame andmed Azure ML Studiosse laadima.
@ -199,15 +199,15 @@ Suurepärane! Nüüd, kui meil on arvutusklaster, peame andmed Azure ML Studioss
1. [Azure ML tööruumis](https://ml.azure.com/), mille me varem lõime, klõpsake vasakpoolses menüüs "Datasets" ja klõpsake nuppu "+ Create dataset", et luua andmestik. Valige "From local files" ja valige varem alla laaditud Kaggle'i andmestik.
![24](../../../../translated_images/et/dataset-1.e86ab4e10907a6e9c2a72577b51db35f13689cb33702337b8b7032f2ef76dac2.png)
![24](../../../../translated_images/et/dataset-1.e86ab4e10907a6e9.webp)
2. Andke oma andmestikule nimi, tüüp ja kirjeldus. Klõpsake Next. Laadige andmed failidest. Klõpsake Next.
![25](../../../../translated_images/et/dataset-2.f58de1c435d5bf9ccb16ccc5f5d4380eb2b50affca85cfbf4f97562bdab99f77.png)
![25](../../../../translated_images/et/dataset-2.f58de1c435d5bf9c.webp)
3. Skeemis muutke andmetüüp Boolean järgnevate tunnuste jaoks: anaemia, diabeet, kõrge vererõhk, sugu, suitsetamine ja DEATH_EVENT. Klõpsake Next ja seejärel Create.
![26](../../../../translated_images/et/dataset-3.58db8c0eb783e89236a02bbce5bb4ba808d081a87d994d5284b1ae59928c95bf.png)
![26](../../../../translated_images/et/dataset-3.58db8c0eb783e892.webp)
Suurepärane! Nüüd, kui andmestik on paigas ja arvutusklaster loodud, saame alustada mudeli treenimist!
@ -217,19 +217,19 @@ Traditsiooniline masinõppe mudeli arendamine on ressursimahukas, nõuab märkim
1. [Azure ML tööruumis](https://ml.azure.com/), mille me varem lõime, klõpsake vasakpoolses menüüs "Automated ML" ja valige just üles laaditud andmestik. Klõpsake Next.
![27](../../../../translated_images/et/aml-1.67281a85d3a1e2f34eb367b2d0f74e1039d13396e510f363cd8766632106d1ec.png)
![27](../../../../translated_images/et/aml-1.67281a85d3a1e2f3.webp)
2. Sisestage uue eksperimendi nimi, sihtveerg (DEATH_EVENT) ja loodud arvutusklaster. Klõpsake Next.
![28](../../../../translated_images/et/aml-2.c9fb9cffb39ccbbe21ab9810ae937195d41a489744e15cff2b8477ed4dcae1ec.png)
![28](../../../../translated_images/et/aml-2.c9fb9cffb39ccbbe.webp)
3. Valige "Classification" ja klõpsake Finish. See samm võib võtta 30 minutist kuni 1 tunnini, sõltuvalt teie arvutusklastri suurusest.
![30](../../../../translated_images/et/aml-3.a7952e4295f38cc6cdb0c7ed6dc71ea756b7fb5697ec126bc1220f87c5fa9231.png)
![30](../../../../translated_images/et/aml-3.a7952e4295f38cc6.webp)
4. Kui jooks on lõpetatud, klõpsake vahekaardil "Automated ML", klõpsake oma jooksul ja seejärel klõpsake "Best model summary" kaardil algoritmil.
![31](../../../../translated_images/et/aml-4.7a627e09cb6f16d0aa246059d9faee3d1725cc4258d0c8df15e801f73afc7e2c.png)
![31](../../../../translated_images/et/aml-4.7a627e09cb6f16d0.webp)
Siin näete üksikasjalikku kirjeldust parimast mudelist, mille AutoML genereeris. Samuti saate uurida teisi mudeleid vahekaardil Models. Võtke paar minutit, et uurida mudeleid selgituste (preview) nupul. Kui olete valinud mudeli, mida soovite kasutada (siin valime AutoML-i poolt valitud parima mudeli), näeme, kuidas seda juurutada.
@ -240,15 +240,15 @@ Automatiseeritud masinõppe liides võimaldab teil parima mudeli veebiteenusena
Parima mudeli kirjelduses klõpsake nuppu "Deploy".
![deploy-1](../../../../translated_images/et/deploy-1.ddad725acadc84e34553c3d09e727160faeb32527a9fb8b904c0f99235a34bb6.png)
![deploy-1](../../../../translated_images/et/deploy-1.ddad725acadc84e3.webp)
15. Andke sellele nimi, kirjeldus, arvutustüüp (Azure Container Instance), lubage autentimine ja klõpsake Deploy. See samm võib võtta umbes 20 minutit. Juurutamisprotsess hõlmab mitmeid samme, sealhulgas mudeli registreerimist, ressursside loomist ja nende konfigureerimist veebiteenuse jaoks. Juurutamise olek ilmub Deploy status all. Valige Refresh perioodiliselt, et kontrollida juurutamise olekut. Kui olek on "Healthy", on see juurutatud ja töötab.
![deploy-2](../../../../translated_images/et/deploy-2.94dbb13f239086473aa4bf814342fd40483d136849b080f02bafbb995383940e.png)
![deploy-2](../../../../translated_images/et/deploy-2.94dbb13f23908647.webp)
16. Kui see on juurutatud, klõpsake vahekaardil Endpoint ja klõpsake just juurutatud lõpp-punkti. Siit leiate kõik üksikasjad, mida peate lõpp-punkti kohta teadma.
![deploy-3](../../../../translated_images/et/deploy-3.fecefef070e8ef3b28e802326d107f61ac4e672d20bf82d05f78d025f9e6c611.png)
![deploy-3](../../../../translated_images/et/deploy-3.fecefef070e8ef3b.webp)
Vinge! Nüüd, kui meil on mudel juurutatud, saame alustada lõpp-punkti tarbimist.
@ -258,7 +258,7 @@ Klõpsake vahekaardil "Consume". Siit leiate REST-lõpp-punkti ja Python-skripti
Seda skripti saab otse teie kohalikust masinast käivitada ja see tarbib teie lõpp-punkti.
![35](../../../../translated_images/et/consumption-1.700abd196452842a020c7d745908637a6e4c5c50494ad1217be80e283e0de154.png)
![35](../../../../translated_images/et/consumption-1.700abd196452842a.webp)
Võtke hetk, et vaadata neid kahte koodirida:

@ -48,7 +48,7 @@ SDK peamised valdkonnad:
[Varasemas õppetunnis](../18-Low-Code/README.md) nägime, kuidas treenida, juurutada ja tarbida mudelit madala koodi/ilma koodita meetodil. Kasutasime südamepuudulikkuse andmestikku, et luua südamepuudulikkuse ennustusmudel. Selles õppetunnis teeme täpselt sama, kuid kasutades Azure Machine Learning SDK-d.
![projekti skeem](../../../../translated_images/et/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![projekti skeem](../../../../translated_images/et/project-schema.420e56d495624541.webp)
### 1.2 Südamepuudulikkuse ennustusprojekti ja andmestiku tutvustus
@ -65,7 +65,7 @@ Kui ei, järgige juhiseid jaotises **2.1 Azure ML tööruumi loomine** [varasema
[Azure ML tööruumis](https://ml.azure.com/), mille me varem lõime, minge menüüsse Compute ja näete erinevaid arvutusressursse.
![compute-instance-1](../../../../translated_images/et/compute-instance-1.dba347cb199ca4996b3e3d649295ed95626ba481479d3986557b9b98e76d8816.png)
![compute-instance-1](../../../../translated_images/et/compute-instance-1.dba347cb199ca499.webp)
Loome arvutusressursi Jupyter märkmiku jaoks.
1. Klõpsake nupul + New.
@ -88,10 +88,10 @@ Märkmiku loomiseks vajame arvutusressurssi, mis teenindab Jupyter märkmiku ins
1. Rakenduste jaotises klõpsake Jupyter valikul.
2. Märkige ruut "Yes, I understand" ja klõpsake nupul Continue.
![notebook-1](../../../../translated_images/et/notebook-1.12998af7b02c83f536c11b3aeba561be16e0f05e94146600728ec64270ce1105.png)
![notebook-1](../../../../translated_images/et/notebook-1.12998af7b02c83f5.webp)
3. See avab uue brauseri vahekaardi teie Jupyter märkmiku instantsiga. Klõpsake nupul "New", et luua märkmik.
![notebook-2](../../../../translated_images/et/notebook-2.9a657c037e34f1cf26c0212f5ee9e2da8545b3e107c7682c55114e494167a8aa.png)
![notebook-2](../../../../translated_images/et/notebook-2.9a657c037e34f1cf.webp)
Nüüd, kui meil on märkmik, saame alustada mudeli treenimist Azure ML SDK-ga.

@ -1,12 +1,12 @@
# Andmeteadus pilves
![cloud-picture](../../../translated_images/et/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/et/cloud-picture.f5526de3c6c6387b.webp)
> Foto autorilt [Jelleke Vanooteghem](https://unsplash.com/@ilumire) lehelt [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Kui tegemist on suurte andmetega andmeteadusega, võib pilv olla tõeline mängumuutja. Järgmise kolme õppetunni jooksul vaatame, mis on pilv ja miks see võib olla väga kasulik. Uurime ka südamepuudulikkuse andmestikku ja loome mudeli, mis aitab hinnata südamepuudulikkuse tõenäosust. Kasutame pilve võimsust mudeli treenimiseks, juurutamiseks ja kasutamiseks kahel erineval viisil. Üks viis on kasutada ainult kasutajaliidest madala koodi/ilma koodita lähenemisviisil, teine viis on kasutada Azure Machine Learning Software Developer Kit'i (Azure ML SDK).
![project-schema](../../../translated_images/et/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/et/project-schema.420e56d495624541.webp)
### Teemad

@ -32,7 +32,7 @@ Tänu tehisintellekti demokratiseerimisele on arendajatel nüüd lihtsam kujunda
* [Andmeteadus tervishoius](https://data-flair.training/blogs/data-science-in-healthcare/) - toob esile rakendusi nagu meditsiiniline pildistamine (nt MRI, röntgen, CT-skaneerimine), genoomika (DNA järjestamine), ravimite arendamine (riskihindamine, edu prognoosimine), ennustav analüütika (patsiendihooldus ja tarne logistika), haiguste jälgimine ja ennetamine jne.
![Andmeteaduse rakendused päriselus](../../../../translated_images/et/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Pildi krediit: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Andmeteaduse rakendused päriselus](../../../../translated_images/et/data-science-applications.4e5019cd8790ebac.webp) Pildi krediit: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Joonis näitab teisi valdkondi ja näiteid andmeteaduse tehnikate rakendamiseks. Kas soovite uurida teisi rakendusi? Vaadake [Ülevaade ja iseseisev õpe](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) sektsiooni allpool.

@ -13,7 +13,7 @@ Explorer-liides (näidatud alloleval ekraanipildil) võimaldab valida andmehulga
2. Uuri andmehulkade [kataloogi](https://planetarycomputer.microsoft.com/catalog) saa teada iga andmehulgaga seotud eesmärk.
3. Kasuta Explorerit vali huvipakkuv andmehulk, sobiv päring ja renderdamisvõimalus.
![Planetary Computer Explorer](../../../../translated_images/et/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![Planetary Computer Explorer](../../../../translated_images/et/planetary-computer-explorer.c1e95a9b053167d6.webp)
`Sinu ülesanne:`
Uuri nüüd brauseris loodud visualiseerimist ja vasta järgmistele küsimustele:

@ -1,197 +1,207 @@
# Andmeteadus algajatele - õppekava
[![Ava GitHub Codespaces'is](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![Ava GitHub Codespacesis](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub litsents](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub panustajad](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub probleemid](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub tõmbepäringud](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRid on teretulnud](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub pull-taotlused](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PR-id on teretulnud](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub jälgijad](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub kahvlid](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub tähed](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![GitHub fork-id](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub staarid](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![Microsoft Foundry arendajate foorum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Microsofti Azure Cloud Advocates on rõõmus pakkuda 10-nädalast, 20-õppetunnist koosnevat õppekava, mis keskendub täielikult andmeteadusele. Iga õppetund sisaldab eelmise ja järgneva viktoriini, kirjalikke juhiseid, lahendust ja ülesannet. Meie projektipõhine pedagoogika võimaldab õppimist ehitamise käigus, mis on tõestatud viis uute oskuste kinnistamiseks.
Microsofti Azure'i Cloud Advocates pakub 10-nädalast, 20-õppetunni pikkust õppekava, mis keskendub täielikult andmeteadusele. Iga õppetund sisaldab eelkatsel ja järellõputesti, kirjalikke juhiseid õppetunni läbiviimiseks, lahendust ja ülesannet. Meie projektipõhine õpetamisviis võimaldab sul õppida ehitamise käigus tõestatud meetod uute oskuste kinnistamiseks.
**Südamlikud tänud meie autoritele:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**Sügavad tänud meie autoritele:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Eriline tänu 🙏 meie [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) autoritele, arvustajatele ja sisuloojatele,** nimelt Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Eriline tänu meie [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) autoritele, ülevaatajaile ja sisukontribuutoritele,** eriti Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/et/00-Title.8af36cd35da1ac55.webp)|
|![Sketchnote autor @sketchthedocs https://sketchthedocs.dev](../../translated_images/et/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Andmeteadus algajatele - _sketchnote autor [@nitya](https://twitter.com/nitya)_ |
| Andmeteadus algajatele - _Sketchnote autor [@nitya](https://twitter.com/nitya)_ |
### 🌐 Mitmekeelne tugi
### 🌐 Mitmekeelsuse tugi
#### Toetatud GitHub Action abil (automatiseeritud ja alati ajakohane)
#### Toetatud GitHub Actioni kaudu (automaatne ja alati ajakohane)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](./README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
[Araabia](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgaaria](../bg/README.md) | [Burma (Myanmar)](../my/README.md) | [Hiina (lihtsustatud)](../zh-CN/README.md) | [Hiina (traditsiooniline, Hongkong)](../zh-HK/README.md) | [Hiina (traditsiooniline, Macau)](../zh-MO/README.md) | [Hiina (traditsiooniline, Taiwan)](../zh-TW/README.md) | [Horvaadi](../hr/README.md) | [Tšehhi](../cs/README.md) | [Taani](../da/README.md) | [Hollandi](../nl/README.md) | [Eesti](./README.md) | [Soome](../fi/README.md) | [Prantsuse](../fr/README.md) | [Saksa](../de/README.md) | [Kreeka](../el/README.md) | [Heebrea](../he/README.md) | [Hindi](../hi/README.md) | [Ungari](../hu/README.md) | [Indoneesia](../id/README.md) | [Itaalia](../it/README.md) | [Jaapani](../ja/README.md) | [Kannada](../kn/README.md) | [Korea](../ko/README.md) | [Leedu](../lt/README.md) | [Malai](../ms/README.md) | [Malajalami](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigeeria pidžin](../pcm/README.md) | [Norra](../no/README.md) | [Pärsia (Farsi)](../fa/README.md) | [Poola](../pl/README.md) | [Portugali (Brasiilia)](../pt-BR/README.md) | [Portugali (Portugal)](../pt-PT/README.md) | [Pandžabi (Gurmukhi)](../pa/README.md) | [Rumeenia](../ro/README.md) | [Vene](../ru/README.md) | [Serbia (kirilitsas)](../sr/README.md) | [Slovaki](../sk/README.md) | [Sloveeni](../sl/README.md) | [Hispaania](../es/README.md) | [Suahiili](../sw/README.md) | [Rootsi](../sv/README.md) | [Tagalogi (filipiinid)](../tl/README.md) | [Tamili](../ta/README.md) | [Telugu](../te/README.md) | [Tai](../th/README.md) | [Türgi](../tr/README.md) | [Ukraiina](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnam](../vi/README.md)
> **Eelistad kloonida kohapeal?**
> See hoidla sisaldab 50+ keele tõlkeid, mis suurendab oluliselt allalaadimissuurust. Tõlgeteta kloonimiseks kasuta sparse checkouti:
> **Eelistad kohalikku kloonimist?**
>
> See hoidla sisaldab 50+ keele tõlked, mis suurendavad oluliselt allalaadimismahu. Kui soovid kloonida ilma tõlgeteta, kasuta sparse checkouti:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> See annab sulle vajaliku kogu kursuse läbimiseks palju kiiremalt.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> See annab sulle kõik vajaliku kursuse lõpetamiseks oluliselt kiiremalt.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Kui soovid toetada täiendavaid tõlkeid, on toetatavad keeled loetletud [siin](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Kui soovid, et toetataks täiendavaid tõlkekeeli, on need loetletud [siin](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Liitu meie kogukonnaga
#### Liitu meie kogukonnaga
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Meil on käimas Discordi "Learn with AI" sari, õpi rohkem ja liitu meiega aadressil [Learn with AI Series](https://aka.ms/learnwithai/discord) 18.-30. septembrini 2025. Saad nippe ja trikke GitHub Copiloti kasutamiseks andmeteaduses.
Meil töötab Discordis õppesari AI-ga, saa rohkem teada ja liitu meiega aadressil [Õpi koos AI-ga sari](https://aka.ms/learnwithai/discord) 18.-30. septembrini 2025. Saad nõuandeid ja nippe GitHub Copiloti kasutamiseks andmeteaduses.
![Learn with AI series](../../translated_images/et/1.2b28cdc6205e26fe.webp)
![Õpi koos AI-ga sari](../../translated_images/et/1.2b28cdc6205e26fe.webp)
# Kas oled õpilane?
# Kas oled tudeng?
Alusta järgmiste ressurssidega:
- [Õpilaste keskuse leht](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Sellel lehel leiad algajatele mõeldud ressursid, õpilaspakid ja ka võimalused saada tasuta sertifikaadi vautšer. See on leht, mille tahad järjehoidjasse panna ja aeg-ajalt kontrollida, sest sisu uuendatakse vähemalt kord kuus.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Liitu üleriigilise õpilasesindajate kogukonnaga, see võib olla sinu tee Microsofti.
- [Tudengi keskus](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Selles lehel leiad algajatele mõeldud ressursse, tudengipakette ja isegi võimalusi saada tasuta sertifikaadikuponk. See on üks leht, mille peaksid järjehoidjatesse panema ja aeg-ajalt vaatama, sest sisu uuendatakse vähemalt kord kuus.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Liitu ülemaailmse tudengisaadikute kogukonnaga, see võib olla sinu tee Microsofti.
# Alustamine
## 📚 Dokumentatsioon
- **[Paigaldusjuhend](INSTALLATION.md)** - samm-sammult juhised algajatele
- **[Kasutusjuhend](USAGE.md)** - näited ja tavalised töövood
- **[Veaotsing](TROUBLESHOOTING.md)** - lahendused sagedastele probleemidele
- **[Panustamise juhend](CONTRIBUTING.md)** - kuidas panustada sellesse projekti
- **[Õpetajatele](for-teachers.md)** - juhendid ja klassiruumi materjalid
- **[Kasutusjuhend](USAGE.md)** - näited ja levinud töövood
- **[Probleemilahendus](TROUBLESHOOTING.md)** - lahendused sagedastele probleemidele
- **[Panustamisjuhend](CONTRIBUTING.md)** - kuidas sellesse projekti panustada
- **[Õpetajatele](for-teachers.md)** - õpetamisjuhised ja klassiruumi ressursid
## 👨‍🎓 Õpilastele
> **Täielikud algajad**: oled andmeteadusega alles alguses? Alusta meie [algajasõbralike näidetega](examples/README.md)! Need lihtsad, hästi kommenteeritud näited aitavad sul mõista põhialuseid enne täismahus õppekavasse sukeldumist.
> **[Õpilased](https://aka.ms/student-page)**: selle õppekava iseseisvaks kasutamiseks tee repositooriumist oma haru ja täida harjutused ise, alustades eelloengu viktoriiniga. Seejärel loe loeng ja täida ülejäänud tegevused. Püüa projekte luua õppetundidest arusaades, mitte lahenduskoodi kopeerides, kuid see kood on kättesaadav iga projektipõhise õppetunni /solutions kaustas. Teine mõte on moodustada sõpradega õpperühm ja uurida sisu koos. Täiendavaks õppimiseks soovitame [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
## 👨‍🎓 Tudengitele
> **Täielikud algajad**: Uus andmeteaduses? Alusta meie [algajasõbralike näidete](examples/README.md) juurest! Need lihtsad, hästi kommenteeritud näited aitavad sul mõista põhialuseid enne täisõppekava läbimist.
> **[Tudengid](https://aka.ms/student-page)**: selle õppekava iseseisvaks kasutamiseks tee kogu repo fork ja tee harjutused ise läbi, alustades eelkatsest. Seejärel loe õppetund läbi ja tee ülejäänud tegevused. Proovi projekte luua läbi õppetundide mõistmise, mitte kopeerides lahenduse koodi; siiski on see kood saadaval iga projektipõhise õppetunni /solutions kaustas. Teine võimalus on moodustada õpirühm sõpradega ja läbida sisu koos. Täiendavaks õppimiseks soovitame [Microsoft Learn'i](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Kiire algus:**
1. Tutvu [Paigaldusjuhendiga](INSTALLATION.md), et seadistada oma keskkond
2. Vaata üle [Kasutusjuhend](USAGE.md), et õppida, kuidas õppekavaga töötada
3. Alusta õppetunnist 1 ja tegutse järjestikku
4. Liitu meie [Discordi kogukonnaga](https://aka.ms/ds4beginners/discord) toe saamiseks
**Kiirstart:**
1. Vaata üle [Paigaldusjuhend](INSTALLATION.md), et keskkond seadistada
2. Uuri [Kasutusjuhendit](USAGE.md), kuidas õppekavaga töötada
3. Alusta 1. õppetunnist ja tee järjest edasi
4. Liitu meie [Discord kogukonnaga](https://aka.ms/ds4beginners/discord) toe saamiseks
## 👩‍🏫 Õpetajatele
> **Õpetajatele**: oleme lisanud [mõningaid soovitusi](for-teachers.md), kuidas seda õppekava kasutada. Ootame teie tagasisidet [meie arutelufoorumis](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Õpetajad**: oleme [lisaks lisanud soovitusi](for-teachers.md) selle õppekava kasutamiseks. Hindame väga teie tagasisidet [arutelufoorumis](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Tutvuge meeskonnaga
[![Reklaamvideo](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Reklaamvideo")
**Gif autor:** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
**Gif autor** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Klõpsake ülaloleval pildil, et vaadata videot projektist ja inimestest, kes selle lõid!
## Pedagoogika
Selle õppekava loomisel oleme valinud kaks pedagoogilist põhimõtet: tagada, et see põhineb projektidel, ja et see sisaldab sagedasi viktoriine. Selle sarja lõpuks on õpilased õppinud andmeteaduse põhiprintsiipe, sealhulgas eetilisi kontseptsioone, andmete ettevalmistamist, erinevaid andmetöötlusviise, andmete visualiseerimist, andmete analüüsi, andmeteaduse reaalse maailma kasutusjuhtumeid ja palju muud.
Selle õppekava koostamisel oleme valinud kaks pedagoogilist põhimõtet: tagada, et õpe baseeruks projektidel, ning et see sisaldaks tihedaid viktoriine. Selle sarja lõpuks on õpilased omandanud andmeteaduse põhialused, sh eetilised kontseptsioonid, andmete ettevalmistamise, erinevad viisid andmetega töötamiseks, andmete visualiseerimise, andmete analüüsi, andmeteaduse reaalse maailma kasutusjuhtumid ja palju muud.
Lisaks seab madala panusega viktoriin enne tundi õpilasele eesmärgi õppida teemat, samas kui teine viktoriin pärast tundi tagab teadmiste kinnistamise. See õppekava on kujundatud olema paindlik ja lõbus ning seda saab võtta tervikuna või osadena. Projektid algavad väikestena ja muutuvad 10-nädalase tsükli jooksul järjest keerukamaks.
Lisaks seab madala panusega viktoriin enne tundi õpilase kavatsuse konkreetset õppeainet omandada, samas kui teine viktoriin pärast tundi aitab teadmiste kinnistamisel. See õppekava on koostatud nii, et see oleks paindlik ja lõbus ning seda saab läbida kas terviklikult või osaliselt. Projektid algavad väikestest ja muutuvad 10-nädalase tsükli lõpuks järjest keerukamaks.
> Leidke meie [käitumiskoodeks](CODE_OF_CONDUCT.md), [panustamise](CONTRIBUTING.md), [tõlke](TRANSLATIONS.md) juhised. Ootame teie konstruktiivset tagasisidet!
> Leiake meie [käitumiskoodeks](CODE_OF_CONDUCT.md), [panustamise juhised](CONTRIBUTING.md), [tõlke juhised](TRANSLATIONS.md). Ootame teie konstruktiivset tagasisidet!
## Igas õppetükis on kaasas:
## Igas õppetükis on:
- Valikuline skeemimärkus
- Valikuline täiendav video
- Enne tundi soojendusviktoriin
- Vabatahtlik visandmärkmed
- Vabatahtlik lisa-video
- Soojendav viktoriin enne õppetundi
- Kirjalik õppetükk
- Projektipõhiste õppetükkide puhul samm-sammult juhendid projekti loomise kohta
- Teadmiste kontrollid
- Projektipõhiste õppetükkide puhul samm-sammult juhised projekti loomiseks
- Teadmiste kontroll
- Väljakutse
- Täiendav lugemine
- Lisa-lugemine
- Kodune ülesanne
- [Pärast tundi viktoriin](https://ff-quizzes.netlify.app/en/)
- [Õppetunnijärgne viktoriin](https://ff-quizzes.netlify.app/en/)
> **Märkused viktoriinide kohta**: Kõik viktoriinid on paigutatud Quiz-App kausta, kokku 40 viktoriini, igaühes kolm küsimust. Need on seotud õppetükkide sees, kuid viktoriinirakendust saab käivitada lokaalselt või juurutada Azure'i; järgige juhiseid `quiz-app` kaustas. Neid lokaliseeritakse järk-järgult.
> **Märkus viktoriinide kohta**: Kõik viktoriinid on koos Quiz-App kaustas, kokku 40 viktoriini, igas kolm küsimust. Neid on linkitud õppetöö sees, kuid viktoriinirakendust saab käivitada kohapeal või juurutada Azure'i; järgige juhiseid kaustas `quiz-app`. Viktoriine lokaliseeritakse järk-järgult.
## 🎓 Algajale sobivad näited
## 🎓 Algajatele sobivad näited
**Oled uus andmeteaduses?** Oleme loonud spetsiaalse [näidiste kataloogi](examples/README.md) lihtsa ja hästi kommenteeritud koodiga, mis aitab sul alustada:
**Uus andmeteaduses?** Oleme loonud eraldi [näidiskataloogi](examples/README.md) lihtsa ja hästi kommenteeritud koodiga, mis aitab teil alustada:
- 🌟 **Tere, maailm!** - Sinu esimene andmeteaduse programm
- 📂 **Andmete laadimine** - Õpi andmekogumite lugemist ja uurimist
- 📊 **Lihtne analüüs** - Arvuta statistikat ja leia mustreid
- 📈 **Põhiline visualiseerimine** - Loo diagramme ja graafikuid
- 🌟 **Hello World** - Teie esimene andmeteaduse programm
- 📂 **Andmete laadimine** - Õppige, kuidas lugeda ja uurida andmekogumeid
- 📊 **Lihtne analüüs** - Arvutage statistikat ja leidke mustreid
- 📈 **Põhiline visualiseerimine** - Looge diagramme ja graafikuid
- 🔬 **Reaalmaailma projekt** - Täielik töövoog algusest lõpuni
Iga näide sisaldab üksikasjalikke kommentaare, mis selgitavad iga sammu, muutes selle ideaalseks absoluutselt algajatele!
Iga näide sisaldab üksikasjalikke kommentaare, mis selgitavad igat sammu, mis teeb need täiuslikuks täiesti algajatele!
👉 **[Alusta näidetest](examples/README.md)** 👈
👉 **[Alustage näidetest](examples/README.md)** 👈
## Õppetükid
|![ Skeemimärkus autorilt @sketchthedocs https://sketchthedocs.dev](../../translated_images/et/00-Roadmap.4905d6567dff4753.webp)|
|![ Visandmärkmed autor @sketchthedocs https://sketchthedocs.dev](../../translated_images/et/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Andmeteadus algajatele: teekaart - _Skeemimärkus autorilt [@nitya](https://twitter.com/nitya)_ |
| Andmeteaduse algajatele teejuht - _visandmärkmed autorilt [@nitya](https://twitter.com/nitya)_ |
| Õppetüki Number | Teema | Õppetükkide grupp | Õpieesmärgid | Lingitud õppetükk | Autor |
| Õppetüki number | Teema | Õppetüki rühm | Õpieesmärgid | Lingitud õppetükk | Autor |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Andmeteaduse määratlemine | [Sissejuhatus](1-Introduction/README.md) | Õpi andmeteaduse põhimõisted ja kuidas see on seotud tehisintellekti, masinõppe ja suurandmetega. | [õppetükk](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Andmeteaduse eetika | [Sissejuhatus](1-Introduction/README.md) | Andmete eetika kontseptsioonid, väljakutsed ja raamistikud. | [õppetükk](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Andmete määratlemine | [Sissejuhatus](1-Introduction/README.md) | Kuidas andmeid klassifitseeritakse ja nende levinumad allikad. | [õppetükk](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Statistika ja tõenäosuse sissejuhatus | [Sissejuhatus](1-Introduction/README.md) | Matemaatilised meetodid tõenäosuse ja statistika valdkonnas andmete mõistmiseks. | [õppetükk](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Töötamine relaandmetega | [Andmetega töötamine](2-Working-With-Data/README.md) | Sissejuhatus relaandmetesse ja andmete uurimise ning analüüsi põhialused struktureeritud päringukeelt (SQL) kasutades. | [õppetükk](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Töötamine NoSQL andmetega | [Andmetega töötamine](2-Working-With-Data/README.md) | Sissejuhatus mitte-relatsioonilistele andmetele, nende erinevatele tüüpidele ning dokumentandmebaaside uurimise ja analüüsi alustele. | [õppetükk](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Töötamine Pythoni keelega | [Andmetega töötamine](2-Working-With-Data/README.md) | Pythoni kasutamise põhialused andmete uurimiseks selliste teekidega nagu Pandas. Soovitatav on põhiline arusaam Python programmeerimisest. | [õppetükk](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Andmete ettevalmistamine | [Andmetega töötamine](2-Working-With-Data/README.md) | Andmetöötlusmeetodid andmete puhastamiseks ja teisendamiseks, et toime tulla puuduvate, ebatäpsete või mittetäielike andmetega seotud väljakutsetega. | [õppetükk](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Koguste visualiseerimine | [Andmete visualiseerimine](3-Data-Visualization/README.md) | Õpi kasutama Matplotlib'i lindude andmete visualiseerimiseks 🦆 | [õppetükk](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Andmete jaotuste visualiseerimine | [Andmete visualiseerimine](3-Data-Visualization/README.md) | Visualiseeri vaatlusi ja trende teatud intervallis. | [õppetükk](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Suhete visualiseerimine | [Andmete visualiseerimine](3-Data-Visualization/README.md) | Diskreetsete ja rühmitatud protsentide visualiseerimine. | [õppetükk](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Suhete visualiseerimine | [Andmete visualiseerimine](3-Data-Visualization/README.md) | Visualiseeri andmekogumi elementide vahelisi seoseid ja korrelatsioone ning nende muutujaid. | [õppetükk](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Tähenduslikud visualiseeringud | [Andmete visualiseerimine](3-Data-Visualization/README.md) | Tehnikad ja juhised, kuidas teha visualiseeringuid väärtuslikuks tõhusa probleemilahenduse ja teadmiste saamise jaoks. | [õppetükk](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Sissejuhatus andmeteaduse elutsüklisse | [Elutsükkel](4-Data-Science-Lifecycle/README.md) | Sissejuhatus andmeteaduse elutsüklisse ja selle esimene samm, andmete hankimine ja eraldamine. | [õppetükk](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analüüs | [Elutsükkel](4-Data-Science-Lifecycle/README.md) | See andmeteaduse elutsükli faas keskendub andmete analüüsi tehnikatele. | [õppetükk](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Kommunikatsioon | [Elutsükkel](4-Data-Science-Lifecycle/README.md) | See faas keskendub andmetest saadud teadmiste esitamisele viisil, mis muudab otsustajate jaoks lihtsamaks nende mõistmise. | [õppetükk](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Andmeteadus pilves | [Pilveandmed](5-Data-Science-In-Cloud/README.md) | See õppetükkide sari tutvustab andmeteadust pilves ja selle eeliseid. | [õppetükk](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ja [Maud](https://twitter.com/maudstweets) |
| 18 | Andmeteadus pilves | [Pilveandmed](5-Data-Science-In-Cloud/README.md) | Mudelite treenimine madala koodiga tööriistade abil. |[õppetükk](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ja [Maud](https://twitter.com/maudstweets) |
| 19 | Andmeteadus pilves | [Pilveandmed](5-Data-Science-In-Cloud/README.md) | Mudelite juurutamine Azure Machine Learning Studio abil. | [õppetükk](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) ja [Maud](https://twitter.com/maudstweets) |
| 20 | Andmeteadus looduses | [Looduses](6-Data-Science-In-Wild/README.md) | Andmeteadusel põhinevad projektid reaalses maailmas. | [õppetükk](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 01 | Andmeteaduse määratlus | [Sissejuhatus](1-Introduction/README.md) | Õppida andmeteaduse põhikontseptsioone ja selle seoseid tehisintellekti, masinõppe ja suurandmetega. | [õppetükk](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Andmeteaduse eetika | [Sissejuhatus](1-Introduction/README.md) | Andmete eetika mõisted, väljakutsed ja raamistikud. | [õppetükk](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Andmete määratlus | [Sissejuhatus](1-Introduction/README.md) | Kuidas andmeid klassifitseeritakse ja nende tavapärased allikad. | [õppetükk](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Sissejuhatus statistika ja tõenäosusesse | [Sissejuhatus](1-Introduction/README.md) | Matemaatilised meetodid tõenäosuse ja statistika alal andmete mõistmiseks. | [õppetükk](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Töötamine relatsioonandmetega | [Andmetega töötamine](2-Working-With-Data/README.md) | Sissejuhatus relatsioonandmetesse ning andmete uurimise ja analüüsi põhialused relatsioonandmebaaside keelt kasutades, tuntud ka kui SQL (hääldatakse "sii-kwell"). | [õppetükk](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Töötamine NoSQL andmetega | [Andmetega töötamine](2-Working-With-Data/README.md) | Sissejuhatus mitte-relatsioonandmetesse, nende erinevatesse tüüpidesse ja dokumentandmebaaside uurimise ning analüüsi põhialustesse. | [õppetükk](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Töö Pythoniga | [Andmetega töötamine](2-Working-With-Data/README.md) | Pythoni kasutamise alused andmete uurimiseks, sh teekide nagu Pandas kasutamine. Soovitatav on omada põhiteadmisi Python programmeerimisest. | [õppetükk](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Andmete ettevalmistamine | [Andmetega töötamine](2-Working-With-Data/README.md) | Teemad andmetöötluse tehnikatest andmete puhastamiseks ja ümberkujundamiseks, et toime tulla puuduvate, ebatäpsete või mittetäielike andmetega. | [õppetükk](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Kvantitatiivsete andmete visualiseerimine | [Andmete visualiseerimine](3-Data-Visualization/README.md) | Õppige kasutama Matplotlibi lindude andmete visualiseerimiseks 🦆 | [õppetükk](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Andmete jaotuste visualiseerimine | [Andmete visualiseerimine](3-Data-Visualization/README.md) | Täheldamiste ja trendide visualiseerimine kindlas vahemikus. | [õppetükk](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Proportsioonide visualiseerimine | [Andmete visualiseerimine](3-Data-Visualization/README.md) | Diskreetsete ja rühmitatud protsentide visualiseerimine. | [õppetükk](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Suhete visualiseerimine | [Andmete visualiseerimine](3-Data-Visualization/README.md) | Andmekogumite ja nende muutujate vaheliste seoste ja korrelatsioonide visualiseerimine. | [õppetükk](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Mõtestatud visualiseerimised | [Andmete visualiseerimine](3-Data-Visualization/README.md) | Tehnikad ja juhised, kuidas muuta oma visualiseeringud väärtuslikeks efektiivse probleemi lahendamise ja teadmiste saamiseks. | [õppetükk](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Sissejuhatus andmeteaduse elutsüklisse | [Elutsükkel](4-Data-Science-Lifecycle/README.md) | Sissejuhatus andmeteaduse elutsüklisse ja selle esimese sammu andmete hankimisse ja töötlemisse. | [õppetükk](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analüüs | [Elutsükkel](4-Data-Science-Lifecycle/README.md) | Andmeteaduse elutsükli faas, mis keskendub andmete analüüsimeetoditele. | [õppetükk](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Kommunikatsioon | [Elutsükkel](4-Data-Science-Lifecycle/README.md) | Andmeteaduse elutsükli faas, mis keskendub andmetest saadud teadmiste esitamisele viisil, mis hõlbustab otsustajate mõistmist. | [õppetükk](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Andmeteadus pilves | [Pilvandmed](5-Data-Science-In-Cloud/README.md) | See õppetükkide sari tutvustab andmeteadust pilves ja selle eeliseid. | [õppetükk](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ja [Maud](https://twitter.com/maudstweets) |
| 18 | Andmeteadus pilves | [Pilvandmed](5-Data-Science-In-Cloud/README.md) | Mudelite treenimine madala koodi tööriistadega. |[õppetükk](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ja [Maud](https://twitter.com/maudstweets) |
| 19 | Andmeteadus pilves | [Pilvandmed](5-Data-Science-In-Cloud/README.md) | Mudelite juurutamine Azure Machine Learning Studio abil. | [õppetükk](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) ja [Maud](https://twitter.com/maudstweets) |
| 20 | Andmeteadus looduses | [Looduses](6-Data-Science-In-Wild/README.md) | Andmeteaduse-põhised projektid reaalses maailmas. | [õppetükk](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Järgige neid samme, et avada see näidis Codespaces'is:
1. Klõpsake koodi ripploendil ja valige suvand Open with Codespaces.
2. Valige riba allosas + New codespace.
Rohkem teavet leiate [GitHubi dokumentatsioonist](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
Avage see näide Codespaces'is järgides neid samme:
1. Klõpsake koodimenüüd ja valige valik Open with Codespaces.
2. Valige paneeli allosas + New codespace.
Rohkem info saamiseks vaadake [GitHub dokumentatsiooni](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Järgige neid samme, et avada see hoidla konteineris, kasutades oma kohalikku masinat ja VSCode'i koos VS Code Remote - Containers laiendiga:
## VSCode Remote - konteinerid
Avage see hoidla konteineris oma kohalikus masinas VSCode'i ja VS Code Remote - Containers laienduse abil:
1. Kui kasutate arenduskonteinerit esimest korda, veenduge, et teie süsteem vastab nõuetele (nt Docker on installitud), vt [algdokumenti](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Kui kasutate arenduskonteinerit esimest korda, veenduge, et teie süsteem vastab eeltingimustele (nt Docker on paigaldatud), vt [algusjuhendit](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Selle hoidla kasutamiseks saate kas avada hoidla isoleeritud Docker mahus:
Selle hoidla kasutamiseks saate kas avada hoidla isoleeritud Docker mahu sees:
**Märkus**: Varjatult kasutatakse Remote-Containers: **Clone Repository in Container Volume...** käsku lähtekoodi kloonimiseks Docker mahuga lokaalse failisüsteemi asemel. [Mahud](https://docs.docker.com/storage/volumes/) on soovitatav mehhanism konteineri andmete säilitamiseks.
**Märkus**: Sisuliselt kasutab see käsku Remote-Containers: **Clone Repository in Container Volume...** lähtekoodi kloonimiseks Docker mahu asemel kohalikule failisüsteemile. [Mahud](https://docs.docker.com/storage/volumes/) on eelistatud mehhanism konteineri andmete säilitamiseks.
Või avada lokaalselt kloonitud või alla laaditud versiooni hoidlast:
Või avage kohalikult kloonitud või alla laetud hoidla koopia:
- Klooni see hoidla oma kohalikule failisüsteemile.
- Kloonige see hoidla oma kohalikule failisüsteemile.
- Vajutage F1 ja valige käsk **Remote-Containers: Open Folder in Container...**.
- Valige selle kausta kloonitud koopia, oodake konteineri käivitumist ja proovige asju välja.
- Valige selle kausta kloonitud koopia, oodake konteineri käivitamist ja testige.
## Võrguühenduseta juurdepääs
## Offline juurdepääs
Seda dokumentatsiooni saate võrguühenduseta käivitada, kasutades [Docsify](https://docsify.js.org/#/). Hargnege see hoidla, [installige Docsify](https://docsify.js.org/#/quickstart) oma kohalikule masinale, siis käivitage hoidla juurkaustas käsk `docsify serve`. Veebileht serveeritakse porti 3000 aadressil localhost: `localhost:3000`.
Seda dokumentatsiooni saab kasutada ka offline režiimis Docsify abil: [Docsify](https://docsify.js.org/#/). Tehke selle hoidla fork, paigaldage kohalikus masinas [Docsify](https://docsify.js.org/#/quickstart) ja seejärel juurkaustas tippige `docsify serve`. Veebileht töötab aadressil localhost:3000.
> Märkus, märkmikud ei renderdu Docsify abil, seega kui peate käivitama märkmiku, tehke seda eraldi VS Code'is, kasutades Python kernelit.
> Märkus, et märkmikud ei ilmu Docsify abil, seega kui peate käivitama märkmiku, tehke seda eraldi VS Code'is Python kernelit kasutades.
## Teised õppekavad
Meie meeskond koostab ka teisi õppekavu! Vaadake:
Meie meeskond toodab ka teisi õppekavasid! Vaadake:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
@ -204,50 +214,50 @@ Meie meeskond koostab ka teisi õppekavu! Vaadake:
[![AZD algajatele](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI algajatele](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP algajatele](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI Agendid algajatele](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI agendid algajatele](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Generatiivse tehisintellekti sari
[![Generatiivne tehisintellekt algajatele](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Generatiivne tehisintellekt (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Generatiivne tehisintellekt (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![Generatiivne tehisintellekt (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
[![Generatiivne AI algajatele](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Generatiivne AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Generatiivne AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![Generatiivne AI (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### Põhiline õppimine
[![Masinõpe algajatele](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
### Põhialane õppimine
[![ML algajatele](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Andmeteadus algajatele](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![Tehisintellekt algajatele](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![AI algajatele](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Küberjulgeolek algajatele](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Veebiarendus algajatele](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![Asjade internet algajatele](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT algajatele](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![XR arendus algajatele](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Copiloti sari
[![Copilot AI paarisprogrammeerimiseks](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot tehisintellektiga paarisprogrammeerimiseks](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot C#/.NET jaoks](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copiloti seiklused](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## Abi saamine
**Kas teil on probleeme?** Vaadake meie [Tõrkeotsingu juhendit](TROUBLESHOOTING.md) levinud probleemide lahendamiseks.
**Tekkinud probleemid?** Vaadake meie [Tõrkeotsingu juhendit](TROUBLESHOOTING.md), et leida lahendusi tavapärastele probleemidele.
Kui jääte kinni või teil on küsimusi AI rakenduste loomise kohta, liituge teiste õppijate ja kogenud arendajatega MCP aruteludes. See on toetav kogukond, kus küsimused on teretulnud ja teadmisi jagatakse vabalt.
Kui jääte hätta või on küsimusi AI rakenduste loomise kohta, liituge teiste õppijate ja kogenud arendajatega MCP aruteludes. See on toetav kogukond, kus küsimused on teretulnud ja teadmisi jagatakse vabalt.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Kui teil on toote tagasisidet või ehitamisel esineb vigu, külastage:
Kui teil on toote tagasisidet või ilmnevad vead arendamise ajal, külastage:
[![Microsoft Foundry arendajate foorum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Loaavaldus**:
See dokument on tõlgitud kasutades tehisintellekti tõlketeenust [Co-op Translator](https://github.com/Azure/co-op-translator). Kuigi püüame täpsust, palun arvestage, et automaatsed tõlked võivad sisaldada vigu või ebatäpsusi. Originaaldokument oma emakeeles tuleks pidada autoriteetseks allikaks. Olulise info puhul on soovitatav kasutada professionaalset inimtõlget. Me ei vastuta selle tõlke kasutamisest tingitud arusaamatuste või valesti mõistmiste eest.
**Vastutusest loobumine**:
See dokument on tõlgitud AI tõlke teenuse [Co-op Translator](https://github.com/Azure/co-op-translator) abil. Kuigi püüame täpsust, palun pidage meeles, et automatiseeritud tõlgetes võib esineda vigu või ebatäpsusi. Originaaldokument selle algkeeles tuleks pidada autoriteetseks allikaks. Kriitilise teabe puhul soovitatakse kasutada professionaalset inimtõlget. Me ei vastuta selle tõlkega seotud arusaamatuste või valesti mõistmiste eest.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@ Leia kõik visandmärkmed siit!
Nitya Narasimhan, kunstnik
![teekaardi visandmärge](../../../translated_images/et/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![teekaardi visandmärge](../../../translated_images/et/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "pcm"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T10:29:39+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "pcm"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-11-18T18:31:02+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "pcm"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T10:30:08+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "pcm"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-11-18T18:32:37+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "pcm"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T10:30:57+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "pcm"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-11-18T18:20:18+00:00",
@ -360,8 +378,8 @@
"language_code": "pcm"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T09:27:14+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T10:35:59+00:00",
"source_file": "README.md",
"language_code": "pcm"
},

@ -5,13 +5,13 @@
"source": [
"# Challenge: Analyzing Text about Data Science\n",
"\n",
"For dis example, make we do one simple exercise wey go cover all di steps wey dey for traditional data science process. You no need write any code, you fit just click di cells wey dey below to run dem and see wetin e go show. As challenge, e good make you try dis code with different data.\n",
"For dis example, make we do one simple exercise wey cover all di steps of traditional data science process. You no need write any code, you fit just click di cells wey dey below to run dem and see di result. As challenge, you fit try dis code with different data. \n",
"\n",
"## Goal\n",
"\n",
"For dis lesson, we don dey talk about different concepts wey relate to Data Science. Make we try find more related concepts by doing **text mining**. We go start with one text about Data Science, extract keywords from am, and then try show di result.\n",
"For dis lesson, we don dey talk about different concepts wey relate to Data Science. Make we try discover more related concepts by doing some **text mining**. We go start with one text about Data Science, extract keywords from am, then try visualize di result.\n",
"\n",
"Di text wey we go use na di page about Data Science wey dey Wikipedia:\n"
"As text, I go use di page on Data Science wey dey Wikipedia:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Step 1: How to Collect Data\n",
"## Step 1: Getting the Data\n",
"\n",
"Di first step for any data science process na to collect di data. We go use `requests` library do am:\n"
"First step for every data science process na to get the data. We go use `requests` library do that:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## Step 2: Change di Data\n",
"## Step 2: Transforming di Data\n",
"\n",
"Di next step na to change di data to di form wey go fit work for processing. For our case, we don download HTML source code from di page, and we need to change am to plain text.\n",
"Di next step na to change di data make e fit for processing. For our case, we don load HTML source code from di page, and we need change am go plain text.\n",
"\n",
"Plenty ways dey to do dis one. We go use di simplest built-in [HTMLParser](https://docs.python.org/3/library/html.parser.html) object from Python. We need to subclass di `HTMLParser` class and write di code wey go collect all di text wey dey inside HTML tags, but e no go collect text wey dey inside `<script>` and `<style>` tags.\n"
"Plenty ways dey wey person fit do dis. We go use [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), one popular Python library for parsing HTML. BeautifulSoup dey allow us target specific HTML elements, so we fit focus on di main article content from Wikipedia and reduce some navigation menus, sidebars, footers, and other irrelevant content (even though some boilerplate text fit still remain).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"First, we need to install the BeautifulSoup library for HTML parsing:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Step 3: How to Get Insight\n",
"## Step 3: Getting Insights\n",
"\n",
"Di most important step na to turn di data wey we get into something wey go help us sabi better. For our own case, we wan comot keywords from di text, and check which keywords dey make sense pass.\n",
"Di most important step na to turn our data into some form wey we fit use draw insights. For our case, we want to extract keywords from di text, and see which keywords dey more meaningful.\n",
"\n",
"We go use Python library wey dem dey call [RAKE](https://github.com/aneesha/RAKE) to comot keywords. First, make we install di library if e no dey already:\n"
"We go use Python library wey dem dey call [RAKE](https://github.com/aneesha/RAKE) for keyword extraction. First, make we install dis library if e no dey:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Di main functionality dey available from `Rake` object, wey we fit customize using some parameters. For our case, we go set di minimum length of keyword to 5 characters, minimum frequency of keyword for di document to 3, and maximum number of words for one keyword - to 2. Feel free to play around with other values and observe di result.\n"
"Di main functionality dey available from `Rake` object, we fit customize am using some parameters. For our case, we go set di minimum length of keyword to 5 characters, minimum frequency of keyword for the document to 3, and maximum number of words for keyword - to 2. Make you feel free to play around wit oda values and observe di result.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"We don get list of terms wey get di level of importance wey dem carry. As you fit see, di most important areas, like machine learning and big data, dey di top for di list.\n",
"We don comot list terms plus how important dem be. As you fit see, di most important disciplines, like machine learning and big data, dey for di top position inside di list. \n",
"\n",
"## Step 4: How to See Di Result\n",
"## Step 4: Visualizing di Result \n",
"\n",
"Pipo dey sabi understand data well well if dem see am for visual form. So e dey make sense to show di data for graph or chart so we fit see wetin e mean. We fit use `matplotlib` library for Python to draw simple graph wey go show how di keywords and dia importance take dey:\n"
"People fit understand data beta when e dey for visual form. So e dey make sense to visualize di data to fit get some insight. We fit use `matplotlib` library for Python to draw simple distribution of di keywords with their relevance:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Dere dey, however, beta way to take see word frequencies - na to use **Word Cloud**. We go need install anoda library to fit plot di word cloud from our keyword list.\n"
"E get, however, beta way to see word frequencies - using **Word Cloud**. We go need install another library to plot the word cloud from our keyword list.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` object na im dey responsible to collect original text or list of words wey dem don already calculate dia frequency, and e go return image wey fit show wit `matplotlib`:\n"
"`WordCloud` object na im dey responsible to take either original text, or pre-computed list of words with their frequencies, and e go return image, we fit then show with `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"We fit pass di original text give `WordCloud` - make we see if we go fit get similar result:\n"
"We fit also put di original text for `WordCloud` - mek we see if we fit get similar result:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"You fit see say di word cloud now dey look more fine, but e still get plenty noise (like words wey no relate like `Retrieved on`). Plus, we dey get less keywords wey be two words, like *data scientist* or *computer science*. Dis na because RAKE algorithm dey do beta work to select correct keywords from text. Dis example dey show why e dey important to clean and process data well, because clear picture for di end go help us make beta decisions.\n",
"You fit see say word cloud don dey look beta now, but e still get plenty noise (eg. unrelated words like `Retrieved on`). Also, we dey get fewer keywords wey get two words, like *data scientist*, or *computer science*. Na because RAKE algorithm dey do beta work for selecting correct keywords from text. This example show how data pre-processing and cleaning dey important, because clear picture for the end go allow us make beta decisions.\n",
"\n",
"For dis exercise, we don waka through simple process to comot meaning from Wikipedia text, as keywords and word cloud. Dis example dey simple, but e show well di normal steps wey data scientist dey follow when dem dey work with data, from di time wey dem collect di data reach di time wey dem go show am for graph.\n",
"For this exercise we don waka through simple process to extract some meaning from Wikipedia text, for the form of keywords and word cloud. This example simple, but e show well all the normal steps wey data scientist go take when e dey work with data, start from data acquisition, reach visualization.\n",
"\n",
"For our course, we go talk about all dis steps well-well.\n"
"For our course we go discuss all these steps well well.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Disclaimer**: \nDis dokyument don use AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator) do di translation. Even though we dey try make am accurate, abeg sabi say automated translations fit get mistake or no dey correct well. Di original dokyument for im native language na di main source wey you go fit trust. For important information, e better make professional human translation dey use. We no go fit take blame for any misunderstanding or wrong interpretation wey fit happen because you use dis translation.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Disclaimer**: \nDis document don translate wit AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). Even tho we dey try make am correct, abeg make you sabi say automated translations fit get errors or mistakes. Di original document wey dey im own language na im be di correct source. For important tori, e better make person wey sabi translate am humanly do am. We no go responsible for any wahala or wrong understanding wey fit happen because of dis translation.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-11-18T19:07:59+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "pcm"
}
},
"nbformat": 4,

@ -5,15 +5,15 @@
"source": [
"# Challenge: Analyzing Text about Data Science\n",
"\n",
"> *For dis notebook, we go try use different URL - wikipedia article wey talk about Machine Learning. You fit see say, unlike Data Science, dis article get plenty terms, wey make di analysis more wahala. We need find another way to clean di data after we don do keyword extraction, so we fit commot some frequent but no-meaningful word combinations.*\n",
"> *For dis notebook, we dey experiment with different URL - wikipedia article on Machine Learning. You fit see say, unlike Data Science, dis article get plenti terms, dis one make the analysis harder. We need find another way to clean up the data after we don do keyword extraction, so we fit commot some frequent, but no meanin word combinations.*\n",
"\n",
"For dis example, make we do one simple exercise wey go cover all di steps for traditional data science process. You no need write any code, just click di cells wey dey below to run dem and see wetin e go give you. As challenge, we dey encourage you to try dis code with different data.\n",
"For dis example, mek we do one simple exercise wey cover all steps of traditional data science process. You no need to write any code, you fit just click on di cells wey dey below to run them and observe di result. As challenge, you fit try run dis code with different data.\n",
"\n",
"## Goal\n",
"\n",
"For dis lesson, we don dey talk about different concepts wey relate to Data Science. Make we try find more related concepts by doing **text mining**. We go start with text about Data Science, extract keywords from am, and then try visualize di result.\n",
"For dis lesson, we don dey discuss different concepts wey relate to Data Science. Mek we try find more related concepts by doing some **text mining**. We go start with text about Data Science, extract keywords from am, then try to visualize the result.\n",
"\n",
"As di text, I go use di page about Data Science from Wikipedia:\n"
"As text, I go use di page on Data Science from Wikipedia:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Step 1: How to Collect Data\n",
"\n",
"Di first step for any data science process na to collect di data. We go use `requests` library do am:\n"
"## Step 1: Getting the Data\r\n",
"\r\n",
"First step for every data science process na to get the data. We go use `requests` library to do am:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Step 2: How to Change Di Data\n",
"## Step 2: Changing Di Data\n",
"\n",
"Di next step na to change di data to di form wey go fit work for processing. For our case, we don download HTML source code from di page, and we need to change am to plain text.\n",
"Di next step na to change di data make e fit for processing. For our case, we don download HTML source code from di page, and we need to change am to plain text.\n",
"\n",
"Plenty ways dey to do dis one. We go use di simplest built-in [HTMLParser](https://docs.python.org/3/library/html.parser.html) object from Python. We need to subclass di `HTMLParser` class and write di code wey go gather all di text wey dey inside HTML tags, but e no go include `<script>` and `<style>` tags.\n"
"Plenty ways dey wey dis one fit be done. We go use [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), one popular Python library wey dem dey use to parse HTML. BeautifulSoup dey allow us to focus on specific HTML elements, so we fit concentrate on di main article content from Wikipedia and reduce some navigation menus, sidebars, footers, and other irrelevant content (although some boilerplate text fit still remain).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Fos, we need to install di BeautifulSoup library for HTML parsing:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Step 3: How to Get Insight\n",
"## Step 3: Getting Insights\n",
"\n",
"Di most important step na to turn di data wey we get into sometin wey go help us sabi beta tins. For our own case, we wan comot keywords from di text, and check which keywords dey make sense pass.\n",
"Di most important step na to turn our data into some form wey we fit draw insights from. For our case, we want to extract keywords from di text, and see which keywords get more meaning.\n",
"\n",
"We go use Python library wey dem dey call [RAKE](https://github.com/aneesha/RAKE) to comot keywords. First, make we install di library if e no dey already:\n"
"We go use Python library wey dem dey call [RAKE](https://github.com/aneesha/RAKE) for keyword extraction. First, make we install dis library in case e never dey: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Di main functionality dey available from `Rake` object, wey we fit customize using some parameters. For our case, we go set di minimum length of one keyword to 5 characters, minimum frequency of one keyword for di document to 3, and maximum number of words for one keyword - to 2. Feel free to play around with other values and observe di result.\n"
"Di main functionality dey available from `Rake` object, we fit customize am using some parameters. For our case, we go set di minimum length of keyword to 5 characters, minimum frequency of keyword for di document to 3, and maximum number of words wey fit dey for keyword - to 2. Feel free to play around wit oda values and observe di result.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"We don get list of terms wey get di level of importance wey dem carry. As you fit see, di most important areas like machine learning and big data dey di top positions for di list.\n",
"We gather list terms plus the level wey dem important. As you fit see, di most important disciplines, like machine learning and big data, dey for di list top position.\n",
"\n",
"## Step 4: How to See Di Result Well Well\n",
"## Step 4: Visualizing the Result\n",
"\n",
"People dey understand data pass when dem see am for visual form. So e dey make sense to show di data for visual way so we fit get some better insight. We fit use `matplotlib` library for Python to draw simple graph wey go show how di keywords and di importance dem get dey:\n"
"People fit understand data well well when e dey visual form. So e dey often make sense to visualize di data make person fit see better insight. We fit use `matplotlib` library for Python take plot simple distribution of di keywords plus how dem relevant:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Dere dey, however, beta way to take see word frequencies - na to use **Word Cloud**. We go need install anoda library to fit plot di word cloud from our keyword list.\n"
"Dere dey, how e be, beta way to show word frequencies - wey be **Word Cloud**. We go need to install anoda library to fit plot di word cloud from our keyword list.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` object na im dey responsible to collect original text or list of words wey dem don already calculate dia frequency, and e go return image wey fit show wit `matplotlib`:\n"
"`WordCloud` object na e dey responsible to take either original text, or pre-computed list of words wey get their frequencies, and e go return image, we fit then use `matplotlib` show am:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"We fit pass di original text give `WordCloud` - make we see if we go fit get similar result:\n"
"We fit also put the original text inside `WordCloud` - make we see if we fit get similar result:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"You fit see say di word cloud now dey look more fine, but e still get plenty noise (like words wey no relate like `Retrieved on`). Plus, we no dey get plenty keywords wey be two words, like *data scientist* or *computer science*. Dis na because RAKE algorithm dey do better work to select correct keywords from text. Dis example dey show why e dey important to clean and process data well, because if di picture clear for di end, e go help us make better decisions.\n",
"You fit see sey the word cloud don dey look better now, but e still get plenty noise (like unrelated words like `Retrieved on`). Also, we dey get fewer keywords wey get two words, like *data scientist*, or *computer science*. Na because RAKE algorithm dey do better job to choose good keywords from text. This example show how important data pre-processing and cleaning be, because clear picture for the end go allow us make better decisions.\n",
"\n",
"For dis exercise, we don waka through one simple process to take find meaning from Wikipedia text, as keywords and word cloud. Dis example dey simple, but e show well di normal steps wey data scientist dey follow when dem dey work with data, from di time dem collect di data reach di time dem go show am for graph.\n",
"For this exercise, we don follow simple process to get some meaning from Wikipedia text, as keywords and word cloud. This example simple, but e show well the typical steps wey data scientist go take when dem dey work with data, from data acquisition reach visualization.\n",
"\n",
"For our course, we go talk about all dis steps well well.\n"
"For our course, we go discuss all those steps well well.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Disclaimer**: \nDis dokyument don translate wit AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). Even though we dey try make am accurate, abeg sabi say automatic translation fit get mistake or no dey correct well. Di original dokyument for im native language na di main source wey you go trust. For important information, e better make professional human translation dey use. We no go fit take blame for any misunderstanding or wrong interpretation wey fit happen because you use dis translation.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Disclaimer**: \nDis document don translate wit AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). Even tho we dey try make am correct, abeg sabi say automated translation fit get mistakes or no too correct. The original document wey dem write for im own language na di correct one wey you suppose rely on. For important matter, better make professional human translation do am. We no go take responsibility if any misunderstanding or wrong meaning show from dis translation.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-11-18T19:08:44+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "pcm"
}
},
"nbformat": 4,

File diff suppressed because one or more lines are too long

@ -17,11 +17,11 @@
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Azure Cloud Advocates for Microsoft dey happy to offer 10-week, 20-lesson curriculum wey dey all about Data Science. Each lesson get pre-lesson and post-lesson quizzes, written instructions to complete the lesson, solution, and assignment. Our project-based way of teaching go allow you learn while you build, na correct way for new skills to "stick".
Azure Cloud Advocates for Microsoft happy to offer 10-week, 20-lesson curriculum wey dey all about Data Science. Each lesson get pre-lesson and post-lesson quizzes, written instructions to complete lesson, solution, plus assignment. Our project-based way to teach dey allow you learn as you dey build, dat na correct way for new skills to 'stick'.
**Big thanks to our authors:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Special thanks 🙏 go to our [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) authors, reviewers and content contributors,** especially Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Special thanks 🙏 to our [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) authors, reviewers and content contributors,** notably Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/pcm/00-Title.8af36cd35da1ac55.webp)|
@ -36,22 +36,32 @@ Azure Cloud Advocates for Microsoft dey happy to offer 10-week, 20-lesson curric
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](./README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **Prefer to Clone Locally?**
> This repository get 50+ language translations wey dey make di download size big well-well. To clone without translations, use sparse checkout:
>
> This repository get 50+ language translations wey go increase di download size well well. To clone without di translations, use sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> Dis one go give you everything wey you need to complete di course with fast download.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Dis one go give you everytin you need to finish di course with much faster download.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**If you want more translations wey dem dey support dey listed [here](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**If you want make dem add more translation languages, di ones wey dem dey support dey listed [here](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Join Our Community
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
We get Discord learn with AI series wey dey go now, learn more and join us for [Learn with AI Series](https://aka.ms/learnwithai/discord) from 18 - 30 September, 2025. You go get correct tips and tricks to use GitHub Copilot for Data Science.
We get Discord learn with AI series wey dey go on, learn more and join us for [Learn with AI Series](https://aka.ms/learnwithai/discord) from 18 - 30 September, 2025. You go fit get tips and tricks on how to use GitHub Copilot for Data Science.
![Learn with AI series](../../translated_images/pcm/1.2b28cdc6205e26fe.webp)
@ -59,47 +69,47 @@ We get Discord learn with AI series wey dey go now, learn more and join us for [
Start with these resources:
- [Student Hub page](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) For this page, you go find beginner resources, Student packs and even ways wey you fit get free cert voucher. This one na page wey you go like bookmark and dey check from time to time as we dey change content every month.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Join global student ambassadors community, dis fit be your way enter Microsoft.
- [Student Hub page](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) For dis page, you go find beginner resources, Student packs plus ways to get free cert voucher. Dis na one page wey you for bookmark and come check sometimes as we dey change di content at least every month.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Join one global community of student ambassadors, dis fit be your way enter Microsoft.
# How to Start
# How to start
## 📚 Documentation
- **[Installation Guide](INSTALLATION.md)** - Step-by-step setup instructions for beginners
- **[Usage Guide](USAGE.md)** - Examples and common workflows
- **[Troubleshooting](TROUBLESHOOTING.md)** - Solutions to common wahala
- **[Contributing Guide](CONTRIBUTING.md)** - How to add your own work for this project
- **[Contributing Guide](CONTRIBUTING.md)** - How to contribute to dis project
- **[For Teachers](for-teachers.md)** - Teaching guidance and classroom resources
## 👨‍🎓 For Students
> **Complete Beginners**: You never sabi Data Science before? Start with our [beginner-friendly examples](examples/README.md)! These simple examples wey fine-commented go help you understand the basics before you jump for the full curriculum.
> **[Students](https://aka.ms/student-page)**: to use this curriculum by yourself, fork the whole repo and do the exercises by yourself, start with the pre-lecture quiz. Then read the lecture and do the rest of the activities. Try create the projects by understanding the lessons instead of just copying solution code; but that code dey for the /solutions folders for each project-oriented lesson. Another way na to form study group with your friends and go through the content together. If you want study more, we recommend [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Complete Beginners**: You be new for data science? Start from our [beginner-friendly examples](examples/README.md)! These simple, well-commented examples go help you understand basics before you enter full curriculum.
> **[Students](https://aka.ms/student-page)**: To use this curriculum by yourself, fork di full repo and finish all di exercises on your own, start with pre-lecture quiz. Then read di lecture and finish di rest activities. Try create di projects by understanding di lessons not just copy di solution code; but di code still dey for the /solutions folders for each project-oriented lesson. Another idea na to form study group with friends make una go through di content together. For more study, we recommend [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Quick Start:**
1. Check the [Installation Guide](INSTALLATION.md) to set up your environment
2. Review the [Usage Guide](USAGE.md) make you sabi how to wok with the curriculum
3. Start with Lesson 1 and continue sequentially
1. Check di [Installation Guide](INSTALLATION.md) make you set up your environment
2. Review di [Usage Guide](USAGE.md) to sabi how to take work with di curriculum
3. Start with Lesson 1 and waka through am step by step
4. Join our [Discord community](https://aka.ms/ds4beginners/discord) for support
## 👩‍🏫 For Teachers
> **Teachers**: we don [included some suggestions](for-teachers.md) on how to use dis curriculum. We go like make una give feedback [for our discussion forum](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Teachers**: we don put some suggestions for [how to use this curriculum](for-teachers.md). We go like hear your feedback [inside our discussion forum](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Meet di Team
[![Promo video](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Promo video")
**Gif by** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Click di image wey dey above for video about di project an di people wey create am!
> 🎥 Click di image wey dey top for see video about di project and di people wey create am!
## Pedagogy
We don choose two pedagogical tenets as we dey build dis curriculum: make sure say e dey project-based an e get frequent quizzes. By di time dis series end, students go don sabi basic principles of data science, including ethical concepts, data preparation, different ways to work with data, data visualization, data analysis, real-world use cases of data science, an more.
We don choose two main tings for how we go teach dis curriculum: to make sure say e get project-based learning and sey e get plenty quizzes. By di time we finish dis series, students go don sabi di basic principles of data science, including ethical concepts, how to prepare data, different ways to work with data, how to do data visualization, data analysis, real-world use cases of data science, plus more.
Plus, low-stakes quiz before class dey set di intention of di student to learn one topic, while second quiz after class dey make sure say dem still remember well. Dis curriculum e design to be flexible an fun, an you fit do am fully or partly. Di projects start small an dem go get more complex by di end of di 10 week cycle.
Plus, one low-stakes quiz wey de happen before class go set di student mind for learning di topic, and the second quiz after class go make sure dem remember well-well. Dis curriculum design make am flexible and fun, and you fit do am all or just part. Di projects start small-small then dem go hard as you near di 10 week period.
> Find our [Code of Conduct](CODE_OF_CONDUCT.md), [Contributing](CONTRIBUTING.md), [Translation](TRANSLATIONS.md) guidelines dem. We welcome your constructive feedback!
> Find our [Code of Conduct](CODE_OF_CONDUCT.md), [Contributing](CONTRIBUTING.md), [Translation](TRANSLATIONS.md) guidelines. We dey welcome una constructive feedback!
## Each lesson get:
@ -107,26 +117,26 @@ Plus, low-stakes quiz before class dey set di intention of di student to learn o
- Optional supplemental video
- Pre-lesson warmup quiz
- Written lesson
- For project-based lessons, step-by-step guides on how to build di project
- For project-based lessons, step-by-step guides on how to build the project
- Knowledge checks
- Challenge
- One challenge
- Supplemental reading
- Assignment
- [Post-lesson quiz](https://ff-quizzes.netlify.app/en/)
> **Note about quizzes**: All quizzes dey inside Quiz-App folder, total na 40 quizzes with three questions each. Dem dey linked from inside lessons, but you fit run quiz app locally or deploy am for Azure; follow di instruction inside `quiz-app` folder. Dem dey slowly dey localize.
> **About quizzes:** All di quizzes dey inside di Quiz-App folder, total of 40 quizzes with three questions each. Dem linked from inside di lessons, but you fit run di quiz app locally or deploy am for Azure; follow di instruction for di `quiz-app` folder. Dem dey localize am small-small.
## 🎓 Beginner-Friendly Examples
**New to Data Science?** We don create special [examples directory](examples/README.md) with simple, well-commented code to help you start:
**New for Data Science?** We create special [examples directory](examples/README.md) with simple, well-commented code wey go help you start:
- 🌟 **Hello World** - Your first data science program
- 📂 **Loading Data** - Learn how to read and explore datasets
- 📊 **Simple Analysis** - Calculate statistics an find patterns
- 📈 **Basic Visualization** - Create charts an graphs
- 📊 **Simple Analysis** - Calculate statistics and find patterns
- 📈 **Basic Visualization** - Create charts and graphs
- 🔬 **Real-World Project** - Complete workflow from start to finish
Each example get detailed comments wey explain every step, e perfect for absolute beginners!
Every example get detailed comments to explain every step, so e perfect for total beginners!
👉 **[Start with the examples](examples/README.md)** 👈
@ -140,54 +150,54 @@ Each example get detailed comments wey explain every step, e perfect for absolut
| Lesson Number | Topic | Lesson Grouping | Learning Objectives | Linked Lesson | Author |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Defining Data Science | [Introduction](1-Introduction/README.md) | Learn di basic concepts behind data science an how e relate to artificial intelligence, machine learning, an big data. | [lesson](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 01 | Defining Data Science | [Introduction](1-Introduction/README.md) | Learn the basic concepts behind data science and how e relate to artificial intelligence, machine learning, and big data. | [lesson](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Data Science Ethics | [Introduction](1-Introduction/README.md) | Data Ethics Concepts, Challenges & Frameworks. | [lesson](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Defining Data | [Introduction](1-Introduction/README.md) | How data dey classified an di common sources. | [lesson](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introduction to Statistics & Probability | [Introduction](1-Introduction/README.md) | Di mathematical techniques of probability an statistics to understand data. | [lesson](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Working with Relational Data | [Working With Data](2-Working-With-Data/README.md) | Introduction to relational data an di basics of exploring an analyzing relational data with di Structured Query Language, wey dem also sabi as SQL (wey dem dey pronounce “see-quell”). | [lesson](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Working with NoSQL Data | [Working With Data](2-Working-With-Data/README.md) | Introduction to non-relational data, di different types an basics of exploring an analyzing document databases. | [lesson](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Working with Python | [Working With Data](2-Working-With-Data/README.md) | Basics of using Python for data exploration with libraries like Pandas. Foundational understanding of Python programming dey recommended. | [lesson](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Data Preparation | [Working With Data](2-Working-With-Data/README.md) | Topics on data techniques for cleaning and transforming data to handle challenges of missing, inaccurate, or incomplete data. | [lesson](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 03 | Defining Data | [Introduction](1-Introduction/README.md) | How data dey classified and di common sources. | [lesson](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introduction to Statistics & Probability | [Introduction](1-Introduction/README.md) | Di mathematical techniques of probability and statistics to understand data. | [lesson](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Working with Relational Data | [Working With Data](2-Working-With-Data/README.md) | Introduction to relational data and basics of exploring and analyzing relational data with Structured Query Language, wey dem call SQL (pronounced “see-quell”). | [lesson](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Working with NoSQL Data | [Working With Data](2-Working-With-Data/README.md) | Introduction to non-relational data, wetin different types and basics of exploring and analyzing document databases. | [lesson](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Working with Python | [Working With Data](2-Working-With-Data/README.md) | Basics of using Python for data exploration with libraries like Pandas. E good if you sabi Python programming first. | [lesson](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Data Preparation | [Working With Data](2-Working-With-Data/README.md) | Topics on data techniques for cleaning and transforming data to handle missing, inaccurate, or incomplete data. | [lesson](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualizing Quantities | [Data Visualization](3-Data-Visualization/README.md) | Learn how to use Matplotlib to visualize bird data 🦆 | [lesson](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualizing Distributions of Data | [Data Visualization](3-Data-Visualization/README.md) | Visualizing observations and trends inside interval. | [lesson](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualizing Proportions | [Data Visualization](3-Data-Visualization/README.md) | Visualizing discrete an grouped percentages. | [lesson](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualizing Relationships | [Data Visualization](3-Data-Visualization/README.md) | Visualizing connections and correlations between sets of data an their variables. | [lesson](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Meaningful Visualizations | [Data Visualization](3-Data-Visualization/README.md) | Techniques and guidance to make your visualizations valuable for effective problem solving and insights. | [lesson](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualizing Proportions | [Data Visualization](3-Data-Visualization/README.md) | Visualizing discrete and grouped percentages. | [lesson](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualizing Relationships | [Data Visualization](3-Data-Visualization/README.md) | Visualizing connections and correlations between sets of data and their variables. | [lesson](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Meaningful Visualizations | [Data Visualization](3-Data-Visualization/README.md) | Techniques and guidance for making your visualizations valuable for effective problem solving and insights. | [lesson](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introduction to the Data Science lifecycle | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Introduction to di data science lifecycle and di first step of acquiring and extracting data. | [lesson](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analyzing | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Dis phase of di data science lifecycle focus on techniques to analyze data. | [lesson](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Communication | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Dis phase of di data science lifecycle focus on presenting di insights from data in way wey go make am easy for decision makers to understand. | [lesson](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Data Science in the Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Dis series of lessons introduce data science in the cloud and di benefits. | [lesson](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 15 | Analyzing | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Dis phase of di data science lifecycle dey focus on techniques to analyze data. | [lesson](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Communication | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Dis phase of di data science lifecycle dey focus on presenting di insights from data in a way wey go make am easy for decision makers to understand. | [lesson](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Data Science in the Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Dis series of lessons introduce data science for cloud and di benefits. | [lesson](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 18 | Data Science in the Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Training models using Low Code tools. |[lesson](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 19 | Data Science in the Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Deploying models with Azure Machine Learning Studio. | [lesson](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 20 | Data Science in the Wild | [In the Wild](6-Data-Science-In-Wild/README.md) | Data science driven projects for di real world. | [lesson](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 20 | Data Science in the Wild | [In the Wild](6-Data-Science-In-Wild/README.md) | Data science driven projects for real world. | [lesson](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Follow dis steps to open dis sample inside Codespace:
1. Click di Code drop-down menu an select Open with Codespaces option.
2. Select + New codespace for di bottom of di pane.
1. Click Code drop-down menu and select di Open with Codespaces option.
2. Select + New codespace for di bottom for di pane.
For more info, check di [GitHub documentation](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Follow dis steps to open dis repo inside container using your local machine an VSCode with di VS Code Remote - Containers extension:
Follow dis steps to open dis repo in container using your local machine and VSCode with di VS Code Remote - Containers extension:
1. If e be your first time to use developer container, make sure your system get di pre-reqs (like say Docker dey installed) for [di getting started documentation](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. If na your first time to use development container, make sure say your system get all wetin e need (like Docker) by checking [di getting started documentation](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
To use dis repository, you fit open di repo inside isolated Docker volume:
To use dis repository, you fit either open di repo in isolated Docker volume:
**Note**: Under di hood, dis go use Remote-Containers: **Clone Repository in Container Volume...** command to clone di source code into Docker volume instead of local filesystem. [Volumes](https://docs.docker.com/storage/volumes/) na preferred way to store container data.
**Note**: Under di hood, dis one go use Remote-Containers: **Clone Repository in Container Volume...** command to clone di source code to Docker volume instead of local filesystem. [Volumes](https://docs.docker.com/storage/volumes/) na di preferred way to keep container data.
Or open locally cloned or downloaded version of di repo:
Or open locally cloned or downloaded version of di repository:
- Clone dis repository to your local filesystem.
- Press F1 an select **Remote-Containers: Open Folder in Container...** command.
- Select di cloned copy of dis folder, wait for container to start, an try am.
- Clone dis repo to your local filesystem.
- Press F1 and select **Remote-Containers: Open Folder in Container...** command.
- Select di cloned copy of dis folder, wait make container start, then try am out.
## Offline access
You fit run dis documentation offline by using [Docsify](https://docsify.js.org/#/). Fork dis repo, [install Docsify](https://docsify.js.org/#/quickstart) for your local machine, then inside di root folder of dis repo, type `docsify serve`. Website go run for port 3000 for your localhost: `localhost:3000`.
You fit run dis documentation offline by using [Docsify](https://docsify.js.org/#/). Fork dis repo, [install Docsify](https://docsify.js.org/#/quickstart) for your local machine, then for di root folder of dis repo, type `docsify serve`. Di website go dey served on port 3000 on your localhost: `localhost:3000`.
> Note, notebooks no go render via Docsify, so if you need run notebook, make you do am separately inside VS Code running Python kernel.
> Note, notebooks no go render with Docsify, so if you need run notebook, do am separately in VS Code with Python kernel.
## Other Curricula
@ -235,19 +245,19 @@ Our team dey produce other curricula! Check am out:
## Getting Help
**You dey get wahala?** Check our [Troubleshooting Guide](TROUBLESHOOTING.md) for how you fit solve common problems.
**You dey get wahala?** Check our [Troubleshooting Guide](TROUBLESHOOTING.md) for solutions to common problems.
If you jam gbege or get any question about how to build AI apps. Join other people wey dey learn and programmers wey sabi for talks about MCP. E be like one supportive community wey you fit ask question anytime and dem dey share knowledge freely.
If you jam stuck or get any question about how to build AI apps. Join other learners plus experienced developers for discussions about MCP. Na community wey dey support, where questions dey welcome and knowledge dey share freely.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
If you get product feedback or you see error while you dey build, com visit:
If you get product feedback or errors wen you dey build, visit:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Disclaimer**:
Dis dokument dem don translate am wit AI translation service wey dem dey call [Co-op Translator](https://github.com/Azure/co-op-translator). Even we dey try make everything correct, abeg make you sabi say machine translation fit get some mistake or wahala. Di original dokumentwey talk for e own language na di correct one. For important tins, e beta make person wey sabi do human translation do am. We no go responsible if pesin no understand well or if mistakes happen because of dis translation.
**Disclaimer**:
Dis document na AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator) wey translate am. Even though we try make e correct, abeg sabi say automated translation fit get some mistake or no correct. Di original document wey dey im own language na di correct one. If na serious tin you dey check, better make professional human translate am. We no go responsible for any wahala or misunderstanding wey fit happen because of this translation.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "ta"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T10:25:41+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "ta"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-10-11T15:34:20+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "ta"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T10:26:20+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "ta"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-11T15:37:09+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "ta"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T10:27:22+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "ta"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-10-11T15:20:48+00:00",
@ -360,8 +378,8 @@
"language_code": "ta"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T09:23:14+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T10:33:02+00:00",
"source_file": "README.md",
"language_code": "ta"
},

@ -6,7 +6,7 @@
---
[![தரவியல் அறிவியல் வீடியோ வரையறை](../../../../translated_images/ta/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![தரவியல் அறிவியல் வீடியோ வரையறை](../../../../translated_images/ta/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [முன்-வகுப்பு வினாடி வினா](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -132,7 +132,7 @@
இந்த சவாலில், டேட்டா சயின்ஸ் துறைக்கு தொடர்புடைய கருத்துக்களை உரைகளைக் கொண்டு கண்டறிய முயற்சிக்கிறோம். டேட்டா சயின்ஸ் பற்றிய விக்கிபீடியா கட்டுரையை எடுத்து, உரையை பதிவிறக்கம் செய்து செயல்படுத்தி, பின்னர் கீழே உள்ளதைப் போன்ற ஒரு வார்த்தை மேகத்தை உருவாக்குவோம்:
![டேட்டா சயின்ஸ் வார்த்தை மேகம்](../../../../translated_images/ta/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![டேட்டா சயின்ஸ் வார்த்தை மேகம்](../../../../translated_images/ta/ds_wordcloud.664a7c07dca57de0.webp)
குறியீட்டை படிக்க [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') ஐ பார்வையிடவும். நீங்கள் குறியீட்டை இயக்கி, அது நேரடி தரவுப் பரிமாற்றங்களை எவ்வாறு செயல்படுத்துகிறது என்பதைப் பார்க்கலாம்.

@ -3,15 +3,13 @@
{
"cell_type": "markdown",
"source": [
"# சவால்: தரவியல் அறிவியல் குறித்த உரையை பகுப்பாய்வு செய்வது\n",
"# சவால்: தரவுத்துறை பற்றிய உரையை பகுப்பாய்வு செய்தல்\n",
"\n",
"இந்த எடுத்துக்காட்டில், பாரம்பரியமான தரவியல் அறிவியல் செயல்முறையின் அனைத்து படிகளையும் உள்ளடக்கிய ஒரு எளிய பயிற்சியை செய்யலாம். நீங்கள் எந்தக் குறியீடும் எழுத வேண்டியதில்லை, கீழே உள்ள செறிவுகளை கிளிக் செய்து அவற்றை இயக்கி முடிவுகளை கவனிக்கலாம். சவாலாக, இந்தக் குறியீட்டை வேறு தரவுகளுடன் முயற்சிக்க உங்களை ஊக்குவிக்கிறோம்.\n",
"இந்த எடுத்துக் காட்டில், பாரம்பரியத் தரவுத்துறை செயல்முறையின் அனைத்து படிகளையும் உள்ளடக்கிய ஒரு எளிய பயிற்சியை செய்வோம். நீங்கள் எந்தக் கோډையும் எழுத வேண்டியதில்லை, கீழுள்ள செல்களை கிளிக் செய்து அவற்றை இயக்கி முடிவை கவனிக்கலாம். ஒரு சவாலாக, நீங்கள் வேறுபட்ட தரவுகளுடன் இந்தக் கோட்டை முயற்சி செய்ய ஊக்கமிடப்படுகிறீர்கள்.\n",
"\n",
"## இலக்கு\n",
"## குறிக்கோள்\n",
"\n",
"இந்த பாடத்தில், தரவியல் அறிவியலுடன் தொடர்புடைய பல்வேறு கருத்துகளைப் பற்றி விவாதித்தோம். **உரைக் குவாரி** செய்வதன் மூலம் மேலும் தொடர்புடைய கருத்துகளை கண்டறிய முயலுவோம். தரவியல் அறிவியலின் குறித்த ஒரு உரையுடன் தொடங்கி, அதிலிருந்து முக்கிய வார்த்தைகளை எடுத்து, அதன் முடிவுகளை காட்சிப்படுத்த முயலுவோம்.\n",
"\n",
"உரையாக, நான் விக்கிப்பீடியாவில் உள்ள தரவியல் அறிவியல் பக்கத்தைப் பயன்படுத்துவேன்:\n"
"இந்த பாடத்தில், நாம் தரவுத்துறைக்கு தொடர்புடைய பல கருத்துக்களைப் பற்றி பேசியுள்ளோம். **உரை கைப்பாற்றுதல்** (text mining) மூலம் மேலும் தொடர்புடைய கருத்துக்களை கண்டுபிடிப்போம். ஒரு உரையாக, தரவுத்துறை பற்றிய விக்கிப்பீடியா பக்கத்தை பயன்படுத்தி, அதிலிருந்து முக்கிய வார்த்தைகளை எடுக்க, பின்னர் முடிவை காட்சிப்படுத்த முயற்சிப்போம்.\n"
],
"metadata": {}
},
@ -32,9 +30,9 @@
{
"cell_type": "markdown",
"source": [
"## படி 1: தரவுகளை பெறுதல்\n",
"## Step 1: தரவைப் பெறுதல்\n",
"\n",
"ஒவ்வொரு தரவியல் அறிவியல் செயல்முறையிலும் முதல் படி தரவுகளை பெறுவதுதான். இதற்காக `requests` நூலகத்தை பயன்படுத்துவோம்:\n"
"ஒவ்வொரு தரவு விஞ்ஞான செயல்முறையின் முதல் படி தரவைப் பெறுதல். அதற்காக நாம் `requests` நூலகத்தை பயன்படுத்தப் போகிறோம்:\n"
],
"metadata": {}
},
@ -66,45 +64,43 @@
{
"cell_type": "markdown",
"source": [
"## படி 2: தரவுகளை மாற்றுதல்\n",
"## படி 2: தரவை மாற்றுதல்\n",
"\n",
"அடுத்த படியாக, தரவுகளை செயலாக்கத்திற்குத் தகுந்த வடிவமாக மாற்ற வேண்டும். எங்கள் நிலைமையில், நாங்கள் பக்கத்திலிருந்து HTML மூலக் குறியீட்டை பதிவிறக்கம் செய்துள்ளோம், அதை சாதாரண உரையாக மாற்ற வேண்டும்.\n",
"அடுத்த படி தரவை செயலாக்கத்துக்கு பொருத்தமான வடிவமாற்றுவது ஆகும். எங்கள் நிலைமை에서는, பக்கத்திலிருந்து HTML மூல குறியீட்டை பதிவிறக்கம் செய்துள்ளோம், அதை எளிய உரையாக மாற்ற வேண்டியுள்ளது.\n",
"\n",
"இதற்கான பல வழிகள் உள்ளன. Python இல் உள்ள எளிய [HTMLParser](https://docs.python.org/3/library/html.parser.html) பொருளைப் பயன்படுத்துவோம். `HTMLParser` வகுப்பை subclass செய்து, `<script>` மற்றும் `<style>` குறியீட்டுகளைத் தவிர HTML குறியீட்டுக்குள் உள்ள அனைத்து உரைகளையும் சேகரிக்கும் குறியீட்டை வரையறுக்க வேண்டும்.\n"
"இதனை செய்ய பல வழிகள் உள்ளன. நாங்கள் [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) என்ற புகழ்பெற்ற பைதான் நூலகத்தை பயன்படுத்துவோம், இது HTML ஐ பகுப்பாய்வு செய்வதற்கு உதவுகிறது. BeautifulSoup மூலம் குறிப்பிட்ட HTML கூறுகளை இலக்குநீக்க முடியும், இதனால் விக்கிபீடியாவின் முக்கிய கட்டுரைக் கருத்தில் கவனம் செலுத்தி, சில வழிசெலுத்தும் பட்டிகள், பக்கவாசிகள், காலடிக்கோடுகள் மற்றும் பிற பொருத்தமில்லாத உள்ளடக்கங்களை குறைக்க முடியும் (என்றாலும் சில பொதுவான உரை இச்சென்றே இருக்கலாம்).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"முதலில், HTML பகுப்பாய்வுக்காக BeautifulSoup நூலகத்தை நிறுவ வேண்டும்:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +109,11 @@
{
"cell_type": "markdown",
"source": [
"## படி 3: நுண்ணறிவுகளை பெறுதல்\n",
"## படி 3:洞察ங்களை பெறுதல்\n",
"\n",
"எங்கள் தரவிலிருந்து நுண்ணறிவுகளை பெறுவதற்கான மிக முக்கியமான படி இதை ஒரு பயனுள்ள வடிவமாக மாற்றுவதாகும். எங்கள் நிலைமையில், உரையிலிருந்து முக்கிய வார்த்தைகளை எடுத்து, எந்த வார்த்தைகள் அதிக அர்த்தமுள்ளதாக உள்ளன என்பதை பார்க்க வேண்டும்.\n",
"மிக முக்கியமான படி எங்களுடைய தரவுகளை洞察ங்களை பெறக்கூடிய வடிவமாக மாற்றுவது. எங்களுடைய பட்சத்தில், நாங்கள் உரையில் இருந்து முக்கிய வார்தைகளைக் கண்டறிந்து, எந்த வார்த்தைகள் கூடுதலாக அர்த்தமுள்ளன என்பதை காண விரும்புகிறோம்.\n",
"\n",
"முக்கிய வார்த்தைகளை எடுக்க Python நூலகமான [RAKE](https://github.com/aneesha/RAKE) ஐ பயன்படுத்துவோம். முதலில், இந்த நூலகம் நிறுவப்படவில்லை என்றால் அதை நிறுவுவோம்:\n"
"நாங்கள் Python நூலகமான [RAKE](https://github.com/aneesha/RAKE) ஐ keyword extraction க்காக பயன்படுத்தப் போகிறோம். முதலில், இந்த நூலகம் இருந்திருப்பதற்காக இல்லையென்றால், அதை நிறுவுவோம்:\n"
],
"metadata": {}
},
@ -162,7 +158,7 @@
{
"cell_type": "markdown",
"source": [
"முக்கிய செயல்பாடு `Rake` பொருளிலிருந்து கிடைக்கிறது, இதை சில அளவுருக்களை பயன்படுத்தி நாங்கள் தனிப்பயனாக்கலாம். எங்கள் நிலைமையில், ஒரு முக்கிய வார்த்தையின் குறைந்தபட்ச நீளத்தை 5 எழுத்துகளாக அமைப்போம், ஆவணத்தில் ஒரு முக்கிய வார்த்தையின் குறைந்தபட்ச அடிக்கடி தோன்றும் எண்ணிக்கையை 3 ஆக அமைப்போம், மற்றும் ஒரு முக்கிய வார்த்தையில் அதிகபட்ச வார்த்தைகளின் எண்ணிக்கையை 2 ஆக அமைப்போம். பிற மதிப்புகளை மாற்றி விளையாடவும் மற்றும் முடிவுகளை கவனிக்கவும்.\n"
"முக்கிய செயல்பாடு `Rake` பொருளிலிருந்து கிடைக்கிறது, அதை நாங்கள் சில பரிமாணங்களைப் பயன்படுத்தி தனிப்பயனாக்க முடியும். எங்கள் நிலைமையில், ஒரு விசைநுட்ப வார்த்தையின் குறைந்தபட்ச நீளத்தை 5 எழுத்துகள் என அமைக்கப்போவோம், ஆவணத்தில் ஒரு விசைநுட்ப வார்த்தையின் குறைந்தபட்ச அதிர்வெண்ணிக்கையை 3 எனவும், ஒரு விசைநுட்ப வார்த்தையில் அதிகபட்ச வார்த்தைகள் எண்ணிக்கையை 2 எனவும் அமைப்போம். மற்ற மதிப்புகளுடன் விளையாடி முடிவுகளை கவனிக்க சுதந்திரமாக இருக்கவும்.\n"
],
"metadata": {}
},
@ -211,11 +207,12 @@
{
"cell_type": "markdown",
"source": [
"நாங்கள் முக்கியத்துவத்தின் அளவுடன் தொடர்புடைய சொற்களின் பட்டியலை பெற்றோம். நீங்கள் காணக்கூடியபடி, இயந்திரக் கற்றல் மற்றும் பெரிய தரவுகள் போன்ற மிகவும் தொடர்புடைய துறைகள் பட்டியலின் மேல் இடங்களில் உள்ளன.\n",
"\n",
"## படி 4: முடிவை காட்சிப்படுத்துதல்\n",
"\n",
"மக்கள் தரவுகளை காட்சிப்படுத்தும் வடிவத்தில் சிறப்பாக புரிந்துகொள்ள முடியும். எனவே, சில தகவல்களை பெறுவதற்காக தரவுகளை காட்சிப்படுத்துவது பல நேரங்களில் பொருத்தமாக இருக்கும். Python இல் `matplotlib` நூலகத்தை பயன்படுத்தி முக்கியத்துவத்துடன் கூடிய முக்கிய வார்த்தைகளின் எளிய விநியோகத்தை வரைபடமாக்கலாம்:\n"
"\r\n",
"நாங்கள் முக்கியத்துவ அளவுடன் இணைக்கப்பட்ட சொற்களின் பட்டியலை பெற்றோம். நீங்கள் பார்க்கும் போல், இயந்திர கற்றல் மற்றும் பெரிய தரவு போன்ற மிகவும் தொடர்புடைய பாடங்கள் பட்டியலில் शीर्ष இடங்களில் உள்ளன.\r\n",
"\r\n",
"## படி 4: முடிவை காட்சி படுத்துதல்\r\n",
"\r\n",
"மக்கள் தரவுகளை காட்சி வடிவில் சிறந்த முறையில் பொருள் படுத்த முடியும். எனவே சில洞ிகைகளை பிடிப்பதற்காக தரவுகளை காட்சி வடிவில் காட்டுவது பொதுவாக பொருத்தமாக இருக்கும். அவர்களின் தொடர்பு அளவுடன் முக்கிய சொற்களின் எளிய பகிர்வை வரைபடமாக காண்பிக்க Python இல் `matplotlib` நூலகத்தை பயன்படுத்தலாம்:\n"
],
"metadata": {}
},
@ -252,7 +249,7 @@
{
"cell_type": "markdown",
"source": [
"அவ்வாறே, வார்த்தை அடர்த்திகளை காட்சிப்படுத்த இன்னும் சிறந்த வழி உள்ளது - **வார்த்தை மேகம்** பயன்படுத்துவது. நமது முக்கிய வார்த்தை பட்டியலிலிருந்து வார்த்தை மேகத்தை வரைபடம் செய்ய மற்றொரு நூலகத்தை நிறுவ வேண்டும்.\n"
"என்றாலும், சொல்லின்頻率ஐ காட்சிப்படுத்த இன்னும் சிறந்த வழி ஒன்று உள்ளது - **Word Cloud** பயன்படுத்துவது. எங்கள் முக்கிய சொல் பட்டியலில் இருந்து word cloud வரைய மற்றொரு நூலகத்தை நிறுவவும் தேவையாகும்.\n"
],
"metadata": {}
},
@ -268,7 +265,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` பொருள் முதன்முதலில் மூல உரை அல்லது முன்கணிக்கப்பட்ட வார்த்தைகளின் பட்டியலை அவற்றின் அதிர்வெண்களுடன் ஏற்றுக்கொண்டு, ஒரு படத்தை திருப்பி அளிக்கிறது, அதை பின்னர் `matplotlib` பயன்படுத்தி காட்சிப்படுத்தலாம்:\n"
"`WordCloud` பொருள் மூலம் அசல் உரை அல்லது உருவாக்கப்பட்ட வார்த்தைகளின் பட்டியலுடன் அவற்றின் அடிக்கடி எழுத்துகளைப் பெறுகிறது, மற்றும் பின்னர் `matplotlib` பயன்படுத்தி காட்டக்கூடிய படத்தை வழங்குகிறது:\n"
],
"metadata": {}
},
@ -312,7 +309,7 @@
{
"cell_type": "markdown",
"source": [
"நாம் `WordCloud`-க்கு மூல உரையைவும் அனுப்பலாம் - நாம் ஒத்த முடிவை பெற முடிகிறதா என்று பார்ப்போம்:\n"
"நாம் அசல் உரையையும் `WordCloud` க்கு அனுப்பலாம் - நாம் ஒத்த முடிவைக் கிடைக்கும் என்பதை பார்க்கலாம்:\n"
],
"metadata": {}
},
@ -372,11 +369,11 @@
{
"cell_type": "markdown",
"source": [
"நீங்கள் பார்க்கலாம், வார்த்தை மேகம் இப்போது மிகவும் கவர்ச்சியாக உள்ளது, ஆனால் அதில் நிறைய சத்தங்கள் (உதாரணமாக, `Retrieved on` போன்ற தொடர்பில்லாத வார்த்தைகள்) உள்ளன. மேலும், இரண்டு வார்த்தைகளைக் கொண்ட முக்கிய வார்த்தைகள், உதாரணமாக *data scientist* அல்லது *computer science* போன்றவை குறைவாக கிடைக்கின்றன. இதற்கு காரணம் RAKE அல்காரிதம் உரையிலிருந்து நல்ல முக்கிய வார்த்தைகளை தேர்ந்தெடுப்பதில் மிகவும் சிறப்பாக செயல்படுகிறது. இந்த எடுத்துக்காட்டு தரவுகளை முன் செயலாக்கம் மற்றும் சுத்தம் செய்வதன் முக்கியத்துவத்தை விளக்குகிறது, ஏனெனில் இறுதியில் தெளிவான படம் நமக்கு சிறந்த முடிவுகளை எடுக்க உதவும்.\n",
"இப்போது நீங்கள் சொல்ல ஒரு வார்த்தை மேகத்தைக் காணலாம், அது இன்னும் கவர்ச்சியாகத் தெரிகிறது, ஆனால் அதில் கூட அதிகமான சத்தம் உள்ளது (எ.கா. `Retrieved on` போன்ற தொடர்பில்லாத வார்த்தைகள்). மேலும், இரண்டு வார்த்தைகள் கொண்ட குறைந்த எண்ணிக்கையிலான முக்கிய சொற்கள் கிடைக்கும், உதாரணமாக *data scientist*, அல்லது *computer science*. இதன் காரணம் RAKE ஆல்காரிதம் எழுத்துக்களில் இருந்து நல்ல முக்கிய சொற்களை தேர்வு செய்வதில் சிறந்த வேலை செய்கிறது. இந்த எடுத்துக்காட்டு தரவு முன்னேற்பாடு மற்றும் சுத்திகரிப்பின் முக்கியத்துவத்தை விளக்குகிறது, ஏனெனில் இறுதியில் தெளிவான படம் நமக்கு சிறந்த முடிவுகளை எடுக்க உதவும்.\n",
"\n",
"இந்த பயிற்சியில், நாங்கள் விக்கிப்பீடியா உரையிலிருந்து முக்கிய வார்த்தைகள் மற்றும் வார்த்தை மேகத்தின் வடிவத்தில் சில அர்த்தங்களை எடுக்கும் ஒரு எளிய செயல்முறையை கடந்து வந்தோம். இந்த எடுத்துக்காட்டு மிகவும் எளிமையானது, ஆனால் இது ஒரு தரவியல் விஞ்ஞானி தரவுடன் வேலை செய்யும்போது எடுத்துக்கொள்ளும் வழக்கமான அனைத்து படிகளையும் நன்றாக விளக்குகிறது, தரவுகளைப் பெறுவதிலிருந்து வரைபடம் வரை.\n",
"இந்த பயிற்சியில் நாம் விக்கிப்பீடியா உரையிலிருந்து முக்கிய சொற்கள் மற்றும் வார்த்தை மேகத்தின் வடிவில் சில பொருள் எடுக்க ஒரு எளிய செயல்முறையை பார்த்தோம். இந்த எடுத்துக்காட்டு மிகவும் எளிமையாக இருந்தாலும், தரவுடனான பணியில் டேட்டா விஞ்ஞானி எடுக்கப்போகும் அனைத்து பொதுவான படிகளை நன்கு காண்பிக்கிறது, தரவு சேகரிப்பிலிருந்து தொடங்கி காட்சியமைப்புவரை.\n",
"\n",
"எங்கள் பாடத்தில், அந்த அனைத்து படிகளையும் விரிவாக விவாதிப்போம்.\n"
"எங்கள் பாடத்திட்டத்தில் நாம் அந்த அனைத்து படிகளையும் விரிவாக விவாதிக்கவுள்ளோம்.\n"
],
"metadata": {}
},
@ -394,7 +391,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**குறிப்பு**: \nஇந்த ஆவணம் [Co-op Translator](https://github.com/Azure/co-op-translator) என்ற AI மொழிபெயர்ப்பு சேவையைப் பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கிறோம், ஆனால் தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறான தகவல்கள் இருக்கக்கூடும் என்பதை தயவுசெய்து கவனத்தில் கொள்ளுங்கள். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**கவனிக்கவும்**:\nஇந்த ஆவணம் AI மொழிபெயர்ப்பு சேவை [Co-op Translator](https://github.com/Azure/co-op-translator) பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சித்தாலும், தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறகள் இருக்கக்கூடும் என்பதை தயவுசெய்து கருத்தில் கொள்ளவும். தொன்மையான மொழியில் உள்ள மூல ஆவணம் அதிகாரபூர்வ ஆதாரமாகக் கருதப்பட வேண்டும். முக்கிய தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பை பரிந்துரைக்கின்றோம். இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்பட் எந்தவொரு தவறான புரிதல் அல்லது தவறான விளக்கத்திற்கும் எங்களால் பொறுப்பாக இல்லை.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +415,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-10-11T16:18:55+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "ta"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# சவால்: தரவியல் அறிவியல் பற்றிய உரையை பகுப்பாய்வு செய்வது\n",
"# சவால்: தரவுத்தமிழியல் பற்றிய உரையை பகுப்பாய்வு செய்வது\n",
"\n",
"> *இந்த நோட்புக்கில், நாங்கள் வெவ்வேறு URL-களை பயன்படுத்தி பரிசோதிக்கிறோம் - மெஷின் லெர்னிங் பற்றிய விக்கிபீடியா கட்டுரை. நீங்கள் காணலாம், தரவியல் அறிவியலுடன் ஒப்பிடும்போது, இந்த கட்டுரையில் பல சொற்கள் உள்ளன, இது பகுப்பாய்வை சிக்கலாக்குகிறது. முக்கியத்துவமற்ற, ஆனால் அடிக்கடி தோன்றும் சொற்கள் மற்றும் சொற்தொகுப்புகளை நீக்குவதற்கான மற்றொரு முறையை உருவாக்க வேண்டும்.*\n",
"> *இந்த நோட்புக்கில், விக்கிப்பீடியாவின் மெஷின் லர்னிங் கட்டுரையைக் கொண்டு பல URL களை பயன்படுத்திக் கற்றலுக்கான முயற்சியை செய்துள்ளோம். தரவுத்தமிழியியைக் காட்டிலும், இந்தக் கட்டுரையில் பல பொது சொற்கள் உள்ளன, இது பகுப்பாய்வை கடினமாக்குகிறது. முக்கியமான வார்த்தை சேர்க்கை முடிந்த பிறகு, சில அடிக்கடி வரும் ஆனால் அர்த்தமற்ற வார்த்தை தொகுப்புகளை அகற்ற புதிய முறையை உருவாக்க வேண்டும்.*\n",
"\n",
"இந்த எடுத்துக்காட்டில், பாரம்பரிய தரவியல் அறிவியல் செயல்முறையின் அனைத்து படிகளையும் உள்ளடக்கிய ஒரு எளிய பயிற்சியை செய்யலாம். நீங்கள் எந்த குறியீடும் எழுத வேண்டியதில்லை, கீழே உள்ள செல்களை கிளிக் செய்து அவற்றை செயல்படுத்தி முடிவுகளை கவனிக்கலாம். சவாலாக, இந்த குறியீட்டை வேறு தரவுகளுடன் முயற்சிக்க உங்களை ஊக்குவிக்கிறோம்.\n",
"இந்த உதாரணத்தில், பாரம்பரியமான ஒரு தரவுத்தமிழியல் செயல்முறை அடங்கிய அனைத்து படிகளையும் செய்ய ஒரு எளிய பயிற்சியை மேற்கொண்டோம். நீங்கள் எந்தக் குறிமுறையையும் எழுத தேவையில்லை, கீழே உள்ள செற்களை கிளிக் செய்து அவற்றை இயக்கு மற்றும் முடிவை கவனிக்கலாம். ஒரு சவால் போன்று, நீங்கள் வேறு தரவுடன் இந்தக் குறிமுறையைக் கடக்க ஊக்கப்படுகிறீர்கள்.\n",
"\n",
"## இலக்கு\n",
"\n",
"இந்த பாடத்தில், தரவியல் அறிவியலுடன் தொடர்புடைய பல கருத்துகளை நாம் விவாதித்தோம். **உரையிலிருந்து தகவல் சுரக்க** முயற்சிப்பதன் மூலம் மேலும் தொடர்புடைய கருத்துகளை கண்டறிய முயற்சிக்கலாம். தரவியல் அறிவியல் பற்றிய ஒரு உரையை எடுத்துக்கொண்டு, அதிலிருந்து முக்கிய சொற்களை சுரக்கிறோம், பின்னர் முடிவுகளை காட்சிப்படுத்த முயற்சிக்கிறோம்.\n",
"இந்த பாடத்தில், நாங்கள் தரவுத்தமிழியல் தொடர்புடைய பலக் கருத்துக்களைப் பற்றி பேசிக் கொண்டு இருக்கிறோம். **உரை உற்பத்தி** செய்வதன் மூலம் மேலும் பல தொடர்புடைய கருத்துக்களை கண்டுபிடிக்க முயற்சிப்போம். தரவுத்தமிழியல் பற்றிய உரையை எடுத்துக் கொண்டு அதிலிருந்து முக்கிய வார்த்தைகளை நவீனமாகக் கூடுத்து பின்னர் முடிவை காட்சி படுத்த முயற்சிப்போம்.\n",
"\n",
"உரையாக, நான் விக்கிபீடியாவில் தரவியல் அறிவியல் பற்றிய பக்கத்தை பயன்படுத்துகிறேன்:\n"
"உரையாக, விக்கிப்பீடியாவின் தரவுத்தமிழியல் பக்கம் பயன்படுத்தப்படும்:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## படி 1: தரவுகளை பெறுதல்\n",
"## படி 1: தரவைப் பெறுதல்\n",
"\n",
"ஒவ்வொரு தரவியல் அறிவியல் செயல்முறையிலும் முதல் படி தரவுகளை பெறுவதுதான். இதற்காக `requests` நூலகத்தை பயன்படுத்துவோம்:\n"
"ஒவ்வொரு தரவு அறிவியல் செயல்முறையிலும் முதற்கட்டம் தரவைப் பெறுதலாகும். அதை செய்ய `requests` நூலகத்தை நாம் பயன்படுத்துவோம்:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## படி 2: தரவுகளை மாற்றுதல்\n",
"## படி 2: தரவை மாற்றுதல்\n",
"\n",
"அடுத்த படியாக, தரவுகளை செயலாக்கத்திற்குத் தகுந்த வடிவமாக மாற்ற வேண்டும். எங்கள் நிலைமையில், நாங்கள் பக்கத்திலிருந்து HTML மூலக் குறியீட்டை பதிவிறக்கம் செய்துள்ளோம், அதை சாதாரண உரையாக மாற்ற வேண்டும்.\n",
"அடுத்த படி, செயற்படுத்தத் தகுந்த வடிவத்திற்கு தரவை மாற்றுவது ஆகும். எங்கள் கருத்தில், பக்கத்திலிருந்து HTML மூலக் குறியீட்டை பதிவிறக்கம் செய்துள்ளோம், மற்றும் அதை சாதாரண உரையாக மாற்ற வேண்டியிருக்கு.\n",
"\n",
"இதற்கான பல வழிகள் உள்ளன. Python-இன் எளிய [HTMLParser](https://docs.python.org/3/library/html.parser.html) பொருளைப் பயன்படுத்துவோம். `HTMLParser` வகுப்பை subclass செய்து, `<script>` மற்றும் `<style>` குறியீட்டுகளைத் தவிர HTML குறியீட்டுக்குள் உள்ள அனைத்து உரைகளையும் சேகரிக்கும் குறியீட்டை வரையறுக்க வேண்டும்.\n"
"இது செய்ய பல வழிகள் உள்ளன. நாங்கள் [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)ஐ பயன்படுத்தப்போகிறோம், இது HTML பகுப்பாய்வுக்கு பிரபலமான Python நூலகம். BeautifulSoup நமக்கு குறிப்பிட்ட HTML கூறுகளை நோக்குவதற்கு அனுமதிக்கும், ஆகையால் நாம் விக்கிப்பீடியாவின் முக்கிய கட்டுரை உள்ளடக்கத்தைக் கவனித்து, சில பக்க நோக்கிகள், பக்கவிளக்கங்கள், அடிக்கோடுகள் மற்றும் பிற பொருந்தாத உள்ளடக்கங்களை குறைக்க முடியும் (சில பொதுவான உரை இன்னும் இருப்பின்).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"முதலில், HTML பதிப்பதற்காக BeautifulSoup நூலகத்தை நிறுவ வேண்டும்:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## படி 3: தகவல்களைப் பெறுதல்\n",
"## படி 3: உள்ளடக்கங்களைப் பெறுதல்\n",
"\n",
"மிக முக்கியமான படி, எங்கள் தரவுகளைப் பயன்படுத்தி பயனுள்ள தகவல்களை பெறுவது. எங்கள் நிலைமையில், உரையிலிருந்து முக்கிய வார்த்தைகளை எடுக்க வேண்டும், மேலும் எந்த வார்த்தைகள் அதிக அர்த்தமுள்ளவை என்பதை பார்க்க வேண்டும்.\n",
"மிக முக்கியமான படி என்பது எங்கள் தரவுகளைத் திரட்டுவதற்கான வடிவத்தில் மாற்றுவதே ஆகும், அதனால் நாம் உள்ளடக்கங்களைப் பெற முடியும். நமது கட்டத்தில், எழுத்திலிருந்து முக்கிய சொற்களை எடுக்க விரும்புகிறோம், மற்றும் எந்த முக்கியச் சொற்கள் அதிக பொருட்படுத்தப்படுகின்றன என்பதை பார்க்க விரும்புகிறோம்.\n",
"\n",
"முக்கிய வார்த்தைகளை எடுக்க Python நூலகமான [RAKE](https://github.com/aneesha/RAKE) ஐ பயன்படுத்துவோம். முதலில், இந்த நூலகம் இல்லையெனில் அதை நிறுவுவோம்:\n"
"முக்கிய சொற்களை எடுக்க Python நூலகம் [RAKE](https://github.com/aneesha/RAKE) பயன்படுத்துவோம். முதலில், இந்த நூலகம் இல்லையெனில் அதை நிறுவுவோம்:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"முக்கிய செயல்பாடு `Rake` பொருளில் கிடைக்கிறது, இதை சில அளவுருக்களைப் பயன்படுத்தி நாமே தனிப்பயனாக்கலாம். எங்கள் நிலைமையில், ஒரு முக்கிய வார்த்தையின் குறைந்தபட்ச நீளத்தை 5 எழுத்துகளாக அமைப்போம், ஆவணத்தில் ஒரு முக்கிய வார்த்தையின் குறைந்தபட்ச அடிக்கடி தோன்றும் எண்ணிக்கையை 3 ஆகவும், ஒரு முக்கிய வார்த்தையில் அதிகபட்ச வார்த்தைகளின் எண்ணிக்கையை 2 ஆகவும் அமைப்போம். பிற மதிப்புகளுடன் விளையாடி முடிவுகளை கவனிக்கவும்.\n"
"முக்கிய செயல்பாடு `Rake` பொருளில் கிடைக்கிறது, அதனை நாம் சில அளவுருக்களைப் பயன்படுத்தி விருப்பமாய் மாற்றிக்கொள்ளலாம். எங்கள் உதாரணத்தில், ஒரு முக்கிய வார்த்தையின் குறைந்தபட்ச நீளத்தை 5 எழுத்துகளாக, ஆவணத்தில் ஒரு முக்கிய வார்த்தையின் குறைந்தபட்ச அதிர்ச்சியை 3 ஆக, மற்றும் ஒரு முக்கிய வார்த்தையில் அதிவாய்ந்த சொற்களின் எண்ணிக்கையை 2 ஆக அமைக்கப்பോறோம். பிற மதிப்புகளோடு விளையாட 자유மாக இருக்கவும் மற்றும் முடிவினை கவனிக்கவும்.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"நாங்கள் முக்கியத்துவத்தின் அளவுடன் தொடர்புடைய சொற்களின் பட்டியலை பெற்றோம். நீங்கள் காணக்கூடியபடி, இயந்திரக் கற்றல் மற்றும் பெரிய தரவுகள் போன்ற மிகவும் தொடர்புடைய துறைகள் பட்டியலில் மேல் இடங்களில் உள்ளன.\n",
"நாங்கள் முக்கியத்துவத் தரம் இணைக்கப்பட்ட சொற்களின் பட்டியலைப் பெற்றோம். நீங்கள் பார்க்கும்போது, இயந்திரக் கற்றல் மற்றும் பெரிய தரவு போன்ற மிகவும் சம்பந்தப்பட்ட மொழிகள், பட்டியலின் மேல் நிலைகளில் உள்ளன.\n",
"\n",
"## படி 4: முடிவுகளை காட்சிப்படுத்துதல்\n",
"## படி 4: முடிவை காட்சி வடிவில் காட்டுதல்\n",
"\n",
"மக்கள் தரவுகளை காட்சிப்படுத்தும் வடிவத்தில் சிறந்த முறையில் புரிந்துகொள்ள முடியும். எனவே, சில தகவல்களை பெறுவதற்காக தரவுகளை காட்சிப்படுத்துவது பல நேரங்களில் பொருத்தமாக இருக்கும். Python இல் `matplotlib` நூலகத்தை பயன்படுத்தி முக்கியத்துவத்துடன் கூடிய முக்கிய வார்த்தைகளின் எளிய விநியோகத்தை வரைபடமாக்கலாம்:\n"
"மக்கள் தரவை காட்சி வடிவில் இருக்கும்போது சிறந்த வகையில் புரிந்து கொள்ள முடியும். ஆகையால் சில கண்டுபிடிப்புகளை பெற தரவை காட்சி வடிவில் காட்டுவது பெரும்பாலும் அறிவானது. அவர்களுடைய சம்பந்தத்துடன் சொற்களின் எளிய பகிர்வை வரைபடமாக காட்ட Python இல் உள்ள `matplotlib` நூலகத்தை பயன்படுத்தலாம்:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"அதனால், சொல் அதிர்வெண் காட்சிப்படுத்துவதற்கான இன்னும் சிறந்த வழி உள்ளது - **வார்த்தை மேகம்** பயன்படுத்துவது. நமது முக்கிய சொற்களின் பட்டியலிலிருந்து வார்த்தை மேகத்தை வரைபடம் செய்ய மற்றொரு நூலகத்தை நிறுவ வேண்டும்.\n"
"எனினும், வார்த்தை நிகழ்வுகளைக் காட்சிப்படுத்த மிகவும் சிறந்த மற்றொரு வழி உள்ளது - **Word Cloud** பயன்படுத்துவது. எங்கள் முக்கிய வார்த்தை பட்டியலில் இருந்து வார்த்தை மேகத்தை வரைய மற்றொரு நூலகத்தை நிறுவ வேண்டியுள்ளது.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` பொருள் முதன்முதலில் மூல உரை அல்லது முன்கணிக்கப்பட்ட வார்த்தைகளின் பட்டியலை அவற்றின் அதிர்வெண்களுடன் ஏற்றுக்கொண்டு, ஒரு படத்தை திருப்பி அளிக்கிறது, அதை பின்னர் `matplotlib` பயன்படுத்தி காட்சிப்படுத்தலாம்:\n"
"`WordCloud` பொருள் முதன்மை உரை அல்லது வார்த்தைகளின் அவற்றின் அடர்த்திகளுடன் கூடிய முன்கூட்டியே கணக்கிடப்பட்ட பட்டியலை எடுத்துக்கொள்ளும் பொறுப்பு கொண்டது, பின்னர் ஒரு படத்தை திரும்பத் தருகிறது, அதை `matplotlib` பயன்படுத்தி காட்டு முடியும்:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"நாம் `WordCloud`-க்கு முதன்மை உரையை அனுப்பவும் முடியும் - இதனால் நம்மால் ஒரே மாதிரியான முடிவை பெற முடியுமா என்று பார்க்கலாம்:\n"
"நாங்கள் `WordCloud` க்கு மூல உரையையும் வழங்கலாம் - நாம் ஒரே மாதிரியான முடிவை பெற முடிகிறதா பார்க்கலாம்:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"நீங்கள் பார்க்கலாம், வார்த்தை மேகம் இப்போது மிகவும் கவர்ச்சியாக உள்ளது, ஆனால் அதில் பல தேவையற்ற வார்த்தைகள் (எ.கா. `Retrieved on` போன்ற தொடர்பற்ற வார்த்தைகள்) உள்ளன. மேலும், இரண்டு வார்த்தைகளைக் கொண்ட முக்கிய வார்த்தைகள், *data scientist* அல்லது *computer science* போன்றவை குறைவாக கிடைக்கின்றன. இதற்குக் காரணம் RAKE الگورிதம் உரையிலிருந்து நல்ல முக்கிய வார்த்தைகளை தேர்ந்தெடுப்பதில் சிறப்பாக செயல்படுகிறது. இந்த உதாரணம் தரவுகளை முன்-செயலாக்கம் மற்றும் சுத்தம் செய்வதின் முக்கியத்துவத்தை விளக்குகிறது, ஏனெனில் இறுதியில் தெளிவான படம் எடுக்க முடிந்தால், நம்மால் சிறந்த முடிவுகளை எடுக்க முடியும்.\n",
"நீங்கள் கவனிக்கலாம், வார்த்தை மேகமானது இப்போது மிகவும் பிரமிக்கத்தக்கதாக தெரிகிறது, ஆனால் அதில் பல இடர்களும் உள்ளன (எ.கா. `Retrieved on` போன்ற தொடர்பில்லாத வார்த்தைகள்). மேலும், இரண்டு வார்த்தைகளைக் கொண்ட குறைந்த எண்ணிக்கையான முக்கிய வார்த்தைகள் கிடைக்கின்றன, உதாரணத்திற்கு *data scientist*, அல்லது *computer science* போன்றவை. இதன் காரணம் RAKE அல்காரிதம் உரையிலிருந்து நல்ல முக்கிய வார்த்தைகளைத் தேர்ந்தெடுக்க 훨씬 சிறந்த செயல்திறன் காட்டுகிறது. இந்த உதாரணம் தரவு முன்னேற்றம் மற்றும் சுத்திகரிப்பின் முக்கியத்துவத்தை விளக்குகிறது, ஏனென்றால் இறுதியில் தெளிவான படம் நமக்கு சிறந்த முடிவுகளை எடுக்க உதவும்.\n",
"\n",
"இந்த பயிற்சியில், Wikipedia உரையிலிருந்து சில அர்த்தங்களை முக்கிய வார்த்தைகள் மற்றும் வார்த்தை மேகமாக எடுக்கும் ஒரு எளிய செயல்முறையை நாங்கள் கடந்து வந்தோம். இந்த உதாரணம் மிகவும் எளிமையானது, ஆனால் தரவுடன் வேலை செய்யும் போது ஒரு தரவியல் விஞ்ஞானி எடுக்கும் அனைத்து வழக்கமான படிகளையும் நன்றாக விளக்குகிறது, தரவுகளைப் பெறுவதிலிருந்து வரைபடம் வரை.\n",
"இந்த பயிற்சியில், நாங்கள் விக்கிபீடியா உரையிலிருந்து சில பொருள் எடுத்து வரும் எளிய செயல்முறையை பின்பற்றினோம், அது முக்கிய வார்த்தைகள் மற்றும் வார்த்தை மேகம் வடிவத்தில் உள்ளது. இந்த எடுத்துக்காட்டு மிகவும் எளிதானது, ஆனால் தரவு விஞ்ஞானி தரவுடன் வேலை செய்வதில் கொள்ள தேவையான அனைத்து சாதாரண படிகளை நன்றாக விளக்குகிறது, தரவு பெறுவதிலிருந்து தொடங்கி, காட்சிப்படுத்தலுவரை.\n",
"\n",
"எங்கள் பாடத்தில், அந்த அனைத்து படிகளையும் விரிவாக விவாதிக்கப் போகிறோம்.\n"
"எங்கள் பாடநெறியில், நாங்கள் அந்த அனைத்து படிகளையும் விரிவாக விவாதிக்க போகிறோமாக.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**குறிப்பு**: \nஇந்த ஆவணம் [Co-op Translator](https://github.com/Azure/co-op-translator) என்ற AI மொழிபெயர்ப்பு சேவையைப் பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கின்றோம், ஆனால் தானியக்க மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறான தகவல்கள் இருக்கக்கூடும் என்பதை தயவுசெய்து கவனத்தில் கொள்ளுங்கள். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**அறிவிப்பு**: \nஇந்த ஆவணம் AI மொழி மாற்ற சேவை [Co-op Translator](https://github.com/Azure/co-op-translator) பயன்படுத்தி மொழிமாற்றம் செய்யப்பட்டதாகும். நாங்கள் துல்லியத்திற்கான முயற்சிகளை மேற்கொண்டாலும், தானாக செய்யப்பட்ட மொழி மாற்றங்களில் பிழைகள் அல்லது தவறான தகவல்கள் இருக்க வாய்ப்பு உள்ளது என்பதை கவனத்தில் கொள்ளவும். உள்ளூர் மொழியில் உள்ள முதன்மை ஆவணம் அதிகாரப்பூர்வமான ஆதாரமாகக் கருதப்பட வேண்டும். முக்கிய தகவல்களுக்கு, தொழில்நுட்ப மனித மொழி மாற்றம் பரிந்துரைக்கப்படுகிறது. இந்த மொழி மாற்றத்தை பயன்படுத்துவதில் ஏற்பட்ட எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கும் நாங்கள் பொறுப்பானவரில் இருக்கமாட்டோம்.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-10-11T16:19:48+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "ta"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
புள்ளியியல் மற்றும் சாத்தியக்கூறு கோட்பாடு என்பது கணிதத்தின் இரண்டு தொடர்புடைய பகுதிகள் ஆகும், மேலும் அவை தரவியல் அறிவியலில் மிகவும் முக்கியமானவை. கணிதத்தை ஆழமாக அறியாமல் தரவுடன் செயல்படுவது சாத்தியமானது, ஆனால் குறைந்தபட்சம் சில அடிப்படை கருத்துகளை அறிந்திருப்பது நல்லது. இங்கு உங்களைத் தொடங்க உதவும் ஒரு சுருக்கமான அறிமுகத்தை வழங்குகிறோம்.
[![அறிமுக வீடியோ](../../../../translated_images/ta/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![அறிமுக வீடியோ](../../../../translated_images/ta/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [முன்-வகுப்பு வினாடி வினா](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
நாம் ஒரு மாறி ஒரு குறிப்பிட்ட மதிப்புகளின் இடைவெளியில் விழும் சாத்தியக்கூறைப் பற்றி மட்டுமே பேச முடியும், உதாரணமாக P(t<sub>1</sub>&le;X&lt;t<sub>2</sub>). இந்த சந்தர்ப்பத்தில், சாத்தியக்கூறு பகிர்மானம் **சாத்தியக்கூறு அடர்த்தி செயல்பாடு** p(x) மூலம் விவரிக்கப்படுகிறது, இது:
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ta/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ta/probability-density.a8aad29f17a14afb.webp)
ஒரேபோன்ற பகிர்மானத்தின் தொடர்ச்சியான இணையானது **தொடர்ச்சியான ஒரேபோன்ற** என்று அழைக்கப்படுகிறது, இது ஒரு முடிவான இடைவெளியில் வரையறுக்கப்பட்டுள்ளது. X மதிப்பு l நீளத்திற்குள் விழும் சாத்தியக்கூறு l-க்கு நிகராக இருக்கும், மேலும் 1 வரை உயர்கிறது.
@ -143,7 +143,7 @@ array([[1. , 0.52959196],
நமது நிலைமையில், 0.53 என்ற மதிப்பு ஒரு நபரின் எடை மற்றும் உயரத்திற்கு இடையிலான தொடர்பு இருப்பதை சுட்டிக்காட்டுகிறது. மேலும், ஒரு மதிப்பை மற்றொன்றுக்கு எதிராக சிதறல் வரைபடத்தை உருவாக்கி தொடர்பை காட்சிப்படுத்தலாம்:
![எடை மற்றும் உயரத்திற்கு இடையிலான தொடர்பு](../../../../translated_images/ta/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![எடை மற்றும் உயரத்திற்கு இடையிலான தொடர்பு](../../../../translated_images/ta/weight-height-relationship.3f06bde4ca2aba99.webp)
> தொடர்பு மற்றும் Covariance பற்றிய மேலும் உதாரணங்கள் [இணைக்கப்பட்ட நோட்புக்கில்](notebook.ipynb) காணலாம்.

@ -1,6 +1,6 @@
# தரவியல் அறிவியலுக்கான அறிமுகம்
![தரவு செயல்பாட்டில்](../../../translated_images/ta/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![தரவு செயல்பாட்டில்](../../../translated_images/ta/data.48e22bb7617d8d92.webp)
> புகைப்படம் <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> மூலம் <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> இல்
இந்த பாடங்களில், தரவியல் அறிவியல் எப்படி வரையறுக்கப்படுகிறது என்பதை நீங்கள் கண்டறிந்து, ஒரு தரவியல் விஞ்ஞானி கவனிக்க வேண்டிய நெறிமுறைகள் பற்றிய அறிமுகத்தை பெறுவீர்கள். மேலும், தரவு எப்படி வரையறுக்கப்படுகிறது என்பதைப் பற்றி அறிந்து, தரவியல் அறிவியலின் முக்கிய கல்வி துறைகள் ஆகிய புள்ளியியல் மற்றும் சாத்தியக்கூறுகள் பற்றிய அடிப்படைகளைப் பற்றி சில தகவல்களைப் பெறுவீர்கள்.

@ -12,7 +12,7 @@
ஸ்பிரெட்ஷீட்கள் தரவுகளை சேமிக்கவும், ஆராயவும் பிரபலமான வழியாகும், ஏனெனில் இதை அமைக்கவும் தொடங்கவும் குறைவான வேலை தேவைப்படும். இந்த பாடத்தில் நீங்கள் ஒரு ஸ்பிரெட்ஷீட்டின் அடிப்படை கூறுகள், சூத்திரங்கள் மற்றும் செயல்பாடுகள் ஆகியவற்றைப் பற்றி கற்றுக்கொள்வீர்கள். எடுத்துக்காட்டுகள் Microsoft Excel மூலம் விளக்கப்படும், ஆனால் பிற ஸ்பிரெட்ஷீட் மென்பொருட்களுடன் ஒப்பிடும்போது பெரும்பாலான பகுதிகளுக்கும் தலைப்புகளுக்கும் ஒரே மாதிரியான பெயர்கள் மற்றும் படிகள் இருக்கும்.
![இரண்டு வேலைத் தாள்களுடன் ஒரு காலியான Microsoft Excel வேலைப்புத்தகம்](../../../../translated_images/ta/parts-of-spreadsheet.120711c82aa18a45c3e62a491a15bba0a31ab0e9db407ec022702fed8ffd89bf.png)
![இரண்டு வேலைத் தாள்களுடன் ஒரு காலியான Microsoft Excel வேலைப்புத்தகம்](../../../../translated_images/ta/parts-of-spreadsheet.120711c82aa18a45.webp)
ஒரு ஸ்பிரெட்ஷீட் ஒரு கோப்பாகும் மற்றும் கணினி, சாதனம் அல்லது மேக அடிப்படையிலான கோப்பு அமைப்பில் அணுகக்கூடியதாக இருக்கும். மென்பொருள் தானாகவே உலாவியில் அடிப்படையாகவோ அல்லது கணினியில் நிறுவப்பட வேண்டிய பயன்பாடாகவோ இருக்கலாம். Excel இல் இந்த கோப்புகள் **வேலைப்புத்தகங்கள்** என்று வரையறுக்கப்படுகின்றன, மேலும் இந்த பாடத்தின் மீதமுள்ள பகுதிகளில் இந்த சொல் பயன்படுத்தப்படும்.
@ -24,11 +24,11 @@ Excel வேலைப்புத்தகத்தின் இந்த அட
"InventoryExample" எனும் ஸ்பிரெட்ஷீட் கோப்பு, ஒரு சரக்கில் உள்ள பொருட்களின் வடிவமைக்கப்பட்ட ஸ்பிரெட்ஷீட் ஆகும், இதில் மூன்று வேலைத் தாள்கள் உள்ளன, அவற்றின் தாவல்கள் "Inventory List", "Inventory Pick List" மற்றும் "Bin Lookup" என குறிக்கப்படுகின்றன. Inventory List வேலைத் தாளத்தின் வரி 4 தலைப்பு ஆகும், இது தலைப்பு நெடுவரிசையில் உள்ள ஒவ்வொரு செலின் மதிப்பையும் விவரிக்கிறது.
![Microsoft Excel இல் ஒரு எடுத்துக்காட்டு சரக்கு பட்டியலிலிருந்து ஒரு ஹைலைட்டான சூத்திரம்](../../../../translated_images/ta/formula-excel.ad1068c220892f5ead570d12f2394897961d31a5043a1dd4e6fc5d7690c7a14e.png)
![Microsoft Excel இல் ஒரு எடுத்துக்காட்டு சரக்கு பட்டியலிலிருந்து ஒரு ஹைலைட்டான சூத்திரம்](../../../../translated_images/ta/formula-excel.ad1068c220892f5e.webp)
சில நேரங்களில், ஒரு செலின் மதிப்பு, அதன் மதிப்பை உருவாக்க மற்ற செல்களின் மதிப்புகளின் மீது சார்ந்திருக்கும். Inventory List ஸ்பிரெட்ஷீட் அதன் சரக்கில் உள்ள ஒவ்வொரு பொருளின் செலவை கண்காணிக்கிறது, ஆனால் சரக்கில் உள்ள அனைத்திற்கும் செலவை எவ்வாறு கண்டறிவது? [**சூத்திரங்கள்**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) செலின் தரவுகளில் செயல்பாடுகளைச் செய்ய பயன்படுகிறது, மேலும் இந்த எடுத்துக்காட்டில் சரக்கின் செலவை கணக்கிட பயன்படுத்தப்படுகிறது. Inventory Value நெடுவரிசையில் உள்ள ஒவ்வொரு பொருளின் மதிப்பையும் கணக்கிட இந்த ஸ்பிரெட்ஷீட் QTY தலைப்பின் கீழ் உள்ள அளவை அதன் செலவுடன் (COST தலைப்பின் கீழ் உள்ள செல்கள்) பெருக்கி ஒரு சூத்திரத்தைப் பயன்படுத்தியது. ஒரு செலின் மீது இரட்டை கிளிக் செய்தால் அல்லது அதை ஹைலைட் செய்தால், அந்த சூத்திரத்தை காணலாம். சூத்திரங்கள் சமன்பாடு குறியீட்டுடன் தொடங்கும், அதன் பிறகு கணக்கீடு அல்லது செயல்பாடு வரும்.
![Microsoft Excel இல் ஒரு எடுத்துக்காட்டு சரக்கு பட்டியலிலிருந்து ஒரு ஹைலைட்டான செயல்பாடு](../../../../translated_images/ta/function-excel.be2ae4feddc10ca089f3d4363040d93b7fd046c8d4f83ba975ec46483ee99895.png)
![Microsoft Excel இல் ஒரு எடுத்துக்காட்டு சரக்கு பட்டியலிலிருந்து ஒரு ஹைலைட்டான செயல்பாடு](../../../../translated_images/ta/function-excel.be2ae4feddc10ca0.webp)
சரக்கின் மொத்த மதிப்பை பெற, Inventory Value இன் அனைத்து மதிப்புகளையும் சேர்க்க மற்றொரு சூத்திரத்தைப் பயன்படுத்தலாம். ஒவ்வொரு செலையும் சேர்த்து மொத்தத்தை உருவாக்க இது கணக்கிடப்படலாம், ஆனால் இது ஒரு சிரமமான பணி. Excel இல் [**செயல்பாடுகள்**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89) அல்லது செல்களின் மதிப்புகளில் கணக்கீடுகளைச் செய்ய முன்பே வரையறுக்கப்பட்ட சூத்திரங்கள் உள்ளன. செயல்பாடுகள் வாதங்களை தேவைப்படும், அவை இந்த கணக்கீடுகளைச் செய்ய தேவையான மதிப்புகள். செயல்பாடுகள் ஒன்றுக்கு மேற்பட்ட வாதங்களைத் தேவைப்படுத்தும் போது, அவை ஒரு குறிப்பிட்ட வரிசையில் பட்டியலிடப்பட வேண்டும், இல்லையெனில் செயல்பாடு சரியான மதிப்பை கணக்கிடாது. இந்த எடுத்துக்காட்டில் SUM செயல்பாடு பயன்படுத்தப்படுகிறது, மேலும் Inventory Value இன் மதிப்புகளை மொத்தமாக சேர்க்க வாதமாக பயன்படுத்துகிறது, இது வரி 3, நெடுவரிசை B (B3 என்றும் குறிப்பிடப்படுகிறது) கீழ் பட்டியலிடப்பட்டுள்ளது.
@ -36,17 +36,17 @@ Excel வேலைப்புத்தகத்தின் இந்த அட
NoSQL என்பது தொடர்பற்ற தரவுகளை சேமிக்க பல்வேறு வழிகளை குறிக்கும் ஒரு பொதுப்பெயர் ஆகும், மேலும் இது "non-SQL", "non-relational" அல்லது "not only SQL" என பொருள்படும். இந்த வகை தரவுத்தொகுப்பு அமைப்புகள் 4 வகைகளாக வகைப்படுத்தப்படலாம்.
![ஒரு முக்கிய-மதிப்பு தரவுத்தொகுப்பின் கிராஃபிகல் பிரதிநிதித்துவம், 4 தனித்துவமான எண்குறிகள் மற்றும் 4 பல்வேறு மதிப்புகளுடன் இணைக்கப்பட்டுள்ளன](../../../../translated_images/ta/kv-db.e8f2b75686bbdfcba0c827b9272c10ae0821611ea0fe98429b9d13194383afa6.png)
![ஒரு முக்கிய-மதிப்பு தரவுத்தொகுப்பின் கிராஃபிகல் பிரதிநிதித்துவம், 4 தனித்துவமான எண்குறிகள் மற்றும் 4 பல்வேறு மதிப்புகளுடன் இணைக்கப்பட்டுள்ளன](../../../../translated_images/ta/kv-db.e8f2b75686bbdfcb.webp)
> [Michał Białecki Blog](https://www.michalbialecki.com/2018/03/18/azure-cosmos-db-key-value-database-cloud/) மூலம்
[Key-value](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) தரவுத்தொகுப்புகள் தனித்துவமான முக்கியங்களைப் பொருத்துகின்றன, அவை ஒரு மதிப்புடன் இணைக்கப்பட்ட தனித்துவமான அடையாளமாகும். இந்த ஜோடிகள் ஒரு [ஹாஷ் அட்டவணை](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) மற்றும் பொருத்தமான ஹாஷிங் செயல்பாட்டைப் பயன்படுத்தி சேமிக்கப்படுகின்றன.
![மக்கள், அவர்களின் விருப்பங்கள் மற்றும் இடங்களுக்கிடையிலான உறவுகளை காட்டும் ஒரு கிராஃப்தின் கிராஃபிகல் பிரதிநிதித்துவம்](../../../../translated_images/ta/graph-db.d13629152f79a9dac895b20fa7d841d4d4d6f6008b1382227c3bbd200fd4cfa1.png)
![மக்கள், அவர்களின் விருப்பங்கள் மற்றும் இடங்களுக்கிடையிலான உறவுகளை காட்டும் ஒரு கிராஃப்தின் கிராஃபிகல் பிரதிநிதித்துவம்](../../../../translated_images/ta/graph-db.d13629152f79a9da.webp)
> [Microsoft](https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction#graph-database-by-example) மூலம்
[Graph](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) தரவுத்தொகுப்புகள் தரவுகளில் உள்ள உறவுகளை விவரிக்கின்றன, மேலும் அவை நொடுகள் மற்றும் விளிம்புகளின் தொகுப்பாக பிரதிநிதித்துவம் செய்யப்படுகின்றன. ஒரு நோடு ஒரு நிறுவலைக் குறிக்கிறது, இது ஒரு மாணவர் அல்லது வங்கி அறிக்கை போன்ற உண்மையான உலகில் உள்ள ஏதாவது ஒன்றாக இருக்கலாம். விளிம்புகள் இரண்டு நிறுவனங்களுக்கிடையிலான உறவுகளை பிரதிநிதித்துவம் செய்கின்றன. ஒவ்வொரு நோடு மற்றும் விளிம்புகளுக்கும் கூடுதல் தகவல்களை வழங்கும் பண்புகள் உள்ளன.
![ஒரு வாடிக்கையாளர் தரவுத்தொகுப்புடன் இரண்டு நெடுவரிசை குடும்பங்களை காட்டும் ஒரு நெடுவரிசை தரவுத்தொகுப்பின் கிராஃபிகல் பிரதிநிதித்துவம், அவை Identity மற்றும் Contact Info என அழைக்கப்படுகின்றன](../../../../translated_images/ta/columnar-db.ffcfe73c3e9063a8c8f93f8ace85e1200863584b1e324eb5159d8ca10f62ec04.png)
![ஒரு வாடிக்கையாளர் தரவுத்தொகுப்புடன் இரண்டு நெடுவரிசை குடும்பங்களை காட்டும் ஒரு நெடுவரிசை தரவுத்தொகுப்பின் கிராஃபிகல் பிரதிநிதித்துவம், அவை Identity மற்றும் Contact Info என அழைக்கப்படுகின்றன](../../../../translated_images/ta/columnar-db.ffcfe73c3e9063a8.webp)
[Columnar](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) தரவுத்தொகுப்புகள் தரவுகளை நெடுவரிசைகள் மற்றும் வரிசைகளாக ஒழுங்குபடுத்துகின்றன, ஆனால் ஒவ்வொரு நெடுவரிசையும் நெடுவரிசை குடும்பம் எனப்படும் குழுக்களாகப் பிரிக்கப்படுகிறது, அங்கு ஒரு நெடுவரிசையின் கீழ் உள்ள அனைத்து தரவுகளும் தொடர்புடையவை மற்றும் ஒரு அலகில் மீட்டெடுக்கப்படலாம் மற்றும் மாற்றப்படலாம்.
@ -79,11 +79,11 @@ Cosmos DB தரவுத்தொகுப்பு "Not Only SQL" என வ
எமுலேட்டர் ஒரு உலாவி சாளரத்தைத் தொடங்குகிறது, அங்கு எக்ஸ்ப்ளோரர் பார்வை ஆவணங்களை ஆராய அனுமதிக்கிறது.
![Cosmos DB Emulator இன் எக்ஸ்ப்ளோரர் பார்வை](../../../../translated_images/ta/cosmosdb-emulator-explorer.a1c80b1347206fe2f30f88fc123821636587d04fc5a56a9eb350c7da6b31f361.png)
![Cosmos DB Emulator இன் எக்ஸ்ப்ளோரர் பார்வை](../../../../translated_images/ta/cosmosdb-emulator-explorer.a1c80b1347206fe2.webp)
நீங்கள் தொடர்ந்தால், "Start with Sample" என்பதைக் கிளிக் செய்து SampleDB எனும் மாதிரி தரவுத்தொகுப்பை உருவாக்கவும். நீங்கள் அம்பை கிளிக் செய்வதன் மூலம் SampleDB ஐ விரிவாக்கினால், `Persons` எனும் ஒரு கொண்டெய்னரை காணலாம். ஒரு கொண்டெய்னர் ஒரு தொகுப்பிலுள்ள உருப்படிகளின் தொகுப்பைக் கொண்டுள்ளது, அவை கொண்டெய்னருக்குள் உள்ள ஆவணங்கள். `Items` கீழ் உள்ள நான்கு தனித்துவமான ஆவணங்களை நீங்கள் ஆராயலாம்.
![Cosmos DB Emulator இல் மாதிரி தரவுகளை ஆராய்தல்](../../../../translated_images/ta/cosmosdb-emulator-persons.bf640586a7077c8985dfd3071946465c8e074c722c7c202d6d714de99a93b90a.png)
![Cosmos DB Emulator இல் மாதிரி தரவுகளை ஆராய்தல்](../../../../translated_images/ta/cosmosdb-emulator-persons.bf640586a7077c89.webp)
#### Cosmos DB Emulator உடன் ஆவண தரவுகளை கேட்குதல்
@ -93,7 +93,7 @@ Cosmos DB தரவுத்தொகுப்பு "Not Only SQL" என வ
`SELECT * FROM c where c.age < 40`
![Cosmos DB Emulator இல் மாதிரி தரவுகளில் 40 க்கும் குறைவான வயதுடைய ஆவணங்களை கண்டறிய ஒரு SELECT கேள்வியை இயக்குதல்](../../../../translated_images/ta/cosmosdb-emulator-persons-query.6905ebb497e3cd047cd96e55a0a03f69ce1b91b2b3d8c147e617b746b22b7e33.png)
![Cosmos DB Emulator இல் மாதிரி தரவுகளில் 40 க்கும் குறைவான வயதுடைய ஆவணங்களை கண்டறிய ஒரு SELECT கேள்வியை இயக்குதல்](../../../../translated_images/ta/cosmosdb-emulator-persons-query.6905ebb497e3cd04.webp)
இந்த கேள்வி இரண்டு ஆவணங்களை திரும்பக் கொடுக்கும், ஒவ்வொரு ஆவணத்திற்கும் வயது மதிப்பு 40 க்கும் குறைவாக உள்ளது என்பதை கவனிக்கவும்.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Python உடன் வேலை செய்வது - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
[![அறிமுக வீடியோ](../../../../translated_images/ta/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![அறிமுக வீடியோ](../../../../translated_images/ta/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
தரவுகளை சேமிக்கவும், கேள்வி மொழிகளைப் பயன்படுத்தி அவற்றை கேள்வி கேட்கவும் தரவுத்தொகுப்புகள் மிகவும் திறமையான வழிகளை வழங்குகின்றன. ஆனால், தரவுகளை செயலாக்குவதற்கான மிகவும் நெகிழ்வான வழி, உங்கள் சொந்த நிரல்களை எழுதுவதுதான். பல சந்தர்ப்பங்களில், தரவுத்தொகுப்பில் கேள்வி கேட்பது மிகவும் பயனுள்ளதாக இருக்கும். ஆனால் சில நேரங்களில், SQL மூலம் எளிதாக செய்ய முடியாத சிக்கலான தரவுச் செயலாக்கம் தேவைப்படும் போது, உங்கள் சொந்த நிரல்களை எழுதுவது சிறந்த தேர்வாக இருக்கும்.
@ -65,7 +65,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Time Series Plot](../../../../translated_images/ta/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Time Series Plot](../../../../translated_images/ta/timeseries-1.80de678ab1cf727e.webp)
இப்போது ஒவ்வொரு வாரமும் நாங்கள் நண்பர்களுக்காக ஒரு பார்ட்டி ஏற்பாடு செய்கிறோம், மேலும் ஒரு பார்ட்டிக்காக கூடுதல் 10 ice-cream பாக்ஸ் எடுக்கிறோம். இதை காட்ட மற்றொரு series உருவாக்கலாம்:
```python
@ -76,7 +76,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Time Series Plot](../../../../translated_images/ta/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Time Series Plot](../../../../translated_images/ta/timeseries-2.aae51d575c55181c.webp)
> **குறிப்பு**: எளிய syntax `total_items+additional_items`-ஐப் பயன்படுத்தவில்லை. அதைச் செய்திருந்தால், resulting series-ல் பல `NaN` (*Not a Number*) மதிப்புகளைப் பெற்றிருப்போம். இது `additional_items` series-ல் சில index புள்ளிகளுக்கு missing values உள்ளதால், மேலும் `NaN`-ஐ எதற்கும் சேர்த்தால் `NaN` ஆகிறது. எனவே addition செய்யும்போது `fill_value` parameter-ஐ குறிப்பிட வேண்டும்.
@ -85,7 +85,7 @@ Time series-களுடன், நாம் **resample** செய்யலா
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Monthly Time Series Averages](../../../../translated_images/ta/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Monthly Time Series Averages](../../../../translated_images/ta/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -210,7 +210,7 @@ df = pd.read_csv('file.csv')
தரவுகளை எப்படி கையாள வேண்டும் என்பதை விளக்க, [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) ஐ திறந்து மேலிருந்து கீழ்வரை படிக்குமாறு உங்களை அழைக்கிறோம். நீங்கள் செல்களை இயக்கவும், இறுதியில் நாம் விட்டுச் சென்ற சில சவால்களைச் செய்யவும் முடியும்.
![COVID Spread](../../../../translated_images/ta/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/ta/covidspread.f3d131c4f1d260ab.webp)
> Jupyter Notebook-ல் குறியீட்டை இயக்குவது எப்படி என்று தெரியவில்லை என்றால், [இந்த கட்டுரை](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) பார்க்கவும்.
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) ஐ திறந்து மேலிருந்து கீழ்வரை படிக்கவும். நீங்கள் செல்களை இயக்கவும், இறுதியில் நாம் விட்டுச் சென்ற சில சவால்களைச் செய்யவும் முடியும்.
![Covid Medical Treatment](../../../../translated_images/ta/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/ta/covidtreat.b2ba59f57ca45fbc.webp)
## பட தரவுகளை செயலாக்குதல்

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# தரவுடன் வேலை செய்வது
![data love](../../../translated_images/ta/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/ta/data-love.a22ef29e6742c852.webp)
> புகைப்படம் <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">அலெக்சாண்டர் சின்</a> மூலம், <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> இல் இருந்து
இந்த பாடங்களில், தரவுகளை எவ்வாறு மேலாண்மை செய்யலாம், மாற்றலாம் மற்றும் பயன்பாட்டில் பயன்படுத்தலாம் என்பதை நீங்கள் கற்றுக்கொள்வீர்கள். தொடர்புடைய மற்றும் தொடர்பில்லாத தரவுத்தொகுப்புகள் மற்றும் அவற்றில் தரவுகளை எவ்வாறு சேமிக்கலாம் என்பதையும் நீங்கள் கற்றுக்கொள்வீர்கள். Python பயன்படுத்தி தரவுகளை மேலாண்மை செய்வதற்கான அடிப்படைகளை நீங்கள் கற்றுக்கொள்வீர்கள், மேலும் Python பயன்படுத்தி தரவுகளை மேலாண்மை செய்யவும், சுரங்கம் செய்யவும் பல வழிகளை நீங்கள் கண்டறிவீர்கள்.

@ -51,7 +51,7 @@ birds.head()
wingspan = birds['MaxWingspan']
wingspan.plot()
```
![Max Wingspan](../../../../translated_images/ta/max-wingspan-02.e79fd847b2640b89e21e340a3a9f4c5d4b224c4fcd65f54385e84f1c9ed26d52.png)
![Max Wingspan](../../../../translated_images/ta/max-wingspan-02.e79fd847b2640b89.webp)
உடனடியாக நீங்கள் என்ன கவனிக்கிறீர்கள்? குறைந்தது ஒரு outlier உள்ளது போல தெரிகிறது - இது மிகவும் பெரிய இறகுகளின் அகலமாக இருக்கிறது! 2300 செ.மீ. அகலம் 23 மீட்டர் ஆகும் - மினசோட்டாவில் ப்டெரோடாக்டில்கள் சுற்றி வருகிறதா? இதை ஆராய்வோம்.
@ -71,7 +71,7 @@ plt.plot(x, y)
plt.show()
```
![wingspan with labels](../../../../translated_images/ta/max-wingspan-labels-02.aa90e826ca49a9d1dde78075e9755c1849ef56a4e9ec60f7e9f3806daf9283e2.png)
![wingspan with labels](../../../../translated_images/ta/max-wingspan-labels-02.aa90e826ca49a9d1.webp)
லேபிள்களை 45 டிகிரிகளுக்கு சுழற்சியுடன் அமைத்தாலும், அவற்றை படிக்க மிகவும் அதிகமாக உள்ளது. ஒரு வேறு உத்தியை முயற்சிப்போம்: outliers க்கு மட்டும் லேபிள் அமைத்து, லேபிள்களை வரைபடத்திற்குள் அமைக்கவும். லேபிள் இடமளிக்க அதிக இடம் பெற ஒரு சிதறல் வரைபடத்தைப் பயன்படுத்தலாம்:
@ -93,7 +93,7 @@ plt.show()
நீங்கள் என்ன கண்டறிந்தீர்கள்?
![outliers](../../../../translated_images/ta/labeled-wingspan-02.6110e2d2401cd5238ccc24dfb6d04a6c19436101f6cec151e3992e719f9f1e1f.png)
![outliers](../../../../translated_images/ta/labeled-wingspan-02.6110e2d2401cd523.webp)
## உங்கள் தரவுகளை வடிகட்டவும்
Bald Eagle மற்றும் Prairie Falcon, மிகப்பெரிய பறவைகள் ஆக இருக்கலாம், ஆனால் அவற்றின் அதிகபட்ச இறகுகளின் அகலத்தில் கூடுதல் `0` சேர்க்கப்பட்டுள்ளது. 25 மீட்டர் அகலமுள்ள Bald Eagle ஐ நீங்கள் சந்திக்க வாய்ப்பு இல்லை, ஆனால் சந்திக்கிறீர்கள் என்றால், தயவுசெய்து எங்களுக்கு தெரிவிக்கவும்! இந்த இரண்டு outliers இல்லாமல் ஒரு புதிய dataframe ஐ உருவாக்குவோம்:
@ -113,7 +113,7 @@ plt.show()
Outliers ஐ வடிகட்டுவதன் மூலம், உங்கள் தரவுகள் இப்போது மேலும் ஒருங்கிணைந்த மற்றும் புரிந்துகொள்ளக்கூடியதாக உள்ளது.
![scatterplot of wingspans](../../../../translated_images/ta/scatterplot-wingspan-02.1c33790094ce36a75f5fb45b25ed2cf27f0356ea609e43c11e97a2cedd7011a4.png)
![scatterplot of wingspans](../../../../translated_images/ta/scatterplot-wingspan-02.1c33790094ce36a7.webp)
இறகுகளின் அகலத்தின் அடிப்படையில் குறைந்தபட்சம் சுத்தமான தரவுத்தொகுப்பு கிடைத்த பிறகு, இந்த பறவைகள் பற்றிய மேலும் தகவல்களை கண்டறிவோம்.
@ -139,7 +139,7 @@ birds.plot(x='Category',
title='Birds of Minnesota')
```
![full data as a bar chart](../../../../translated_images/ta/full-data-bar-02.aaa3fda71c63ed564b917841a1886c177dd9a26424142e510c0c0498fd6ca160.png)
![full data as a bar chart](../../../../translated_images/ta/full-data-bar-02.aaa3fda71c63ed56.webp)
இந்த பட்டை வரைபடம், எனினும், வாசிக்க முடியாதது, ஏனெனில் குழு செய்யப்படாத தரவுகள் மிகவும் அதிகமாக உள்ளன. நீங்கள் வரைபடத்தில் காட்ட விரும்பும் தரவுகளை மட்டும் தேர்ந்தெடுக்க வேண்டும், எனவே பறவையின் வகையின் அடிப்படையில் பறவையின் நீளத்தைப் பார்ப்போம்.
@ -154,7 +154,7 @@ category_count = birds.value_counts(birds['Category'].values, sort=True)
plt.rcParams['figure.figsize'] = [6, 12]
category_count.plot.barh()
```
![category and length](../../../../translated_images/ta/category-counts-02.0b9a0a4de42275ae5096d0f8da590d8bf520d9e7e40aad5cc4fc8d276480cc32.png)
![category and length](../../../../translated_images/ta/category-counts-02.0b9a0a4de42275ae.webp)
இந்த பட்டை வரைபடம் ஒவ்வொரு வகையில் உள்ள பறவைகளின் எண்ணிக்கையை நல்ல பார்வையை வழங்குகிறது. ஒரு கணத்தில், இந்த பிராந்தியத்தில் உள்ள பறவைகளின் மிகப்பெரிய எண்ணிக்கை Ducks/Geese/Waterfowl வகையில் உள்ளன என்பதை நீங்கள் காணலாம். மினசோட்டா '10,000 ஏரிகளின் நிலம்' என்பதால் இது ஆச்சரியமாக இல்லை!
@ -170,7 +170,7 @@ plt.barh(y=birds['Category'], width=maxlength)
plt.rcParams['figure.figsize'] = [6, 12]
plt.show()
```
![comparing data](../../../../translated_images/ta/category-length-02.7304bf519375c9807d8165cc7ec60dd2a60f7b365b23098538e287d89adb7d76.png)
![comparing data](../../../../translated_images/ta/category-length-02.7304bf519375c980.webp)
இங்கே எந்த ஆச்சரியமும் இல்லை: Pelicans அல்லது Geese உடன் ஒப்பிடும்போது hummingbirds க்கு குறைந்த MaxLength உள்ளது. தரவுகள் தர்க்கரீதியாக பொருந்தும்போது நல்லது!
@ -188,7 +188,7 @@ plt.show()
```
இந்த வரைபடத்தில், ஒரு பறவையின் வகையின் அடிப்படையில் குறைந்தபட்ச நீளம் மற்றும் அதிகபட்ச நீளத்தின் வரம்பை நீங்கள் காணலாம். இந்த தரவுகளைப் பார்த்து, பறவை பெரியதாக இருந்தால், அதன் நீள வரம்பும் பெரியதாக இருக்கும் என்று நீங்கள் நம்பிக்கையுடன் கூறலாம். இது மிகவும் சுவாரஸ்யமாக உள்ளது!
![superimposed values](../../../../translated_images/ta/superimposed-02.f03058536baeb2ed7864f01102538464d4c2fd7ade881ddd7d5ba74dc5d2fdae.png)
![superimposed values](../../../../translated_images/ta/superimposed-02.f03058536baeb2ed.webp)
## 🚀 சவால்

@ -39,7 +39,7 @@ plt.xlabel('Max Length')
plt.show()
```
![max length per order](../../../../translated_images/ta/scatter-wb.9d98b0ed7f0388af979441853361a11df5f518f5307938a503ca7913e986111b.png)
![max length per order](../../../../translated_images/ta/scatter-wb.9d98b0ed7f0388af.webp)
இது ஒவ்வொரு பறவையின் வரிசையின் உடல் நீளத்தின் பொது விநியோகத்தை ஒரு பார்வையில் காட்டுகிறது, ஆனால் உண்மையான விநியோகங்களை காட்சிப்படுத்த இது சிறந்த வழி அல்ல. இந்த பணியை சாதாரணமாக ஹிஸ்டோகிராம் உருவாக்குவதன் மூலம் செய்யலாம்.
## ஹிஸ்டோகிராம்களுடன் வேலை செய்வது
@ -50,7 +50,7 @@ Matplotlib ஹிஸ்டோகிராம்களைப் பயன்ப
birds['MaxBodyMass'].plot(kind = 'hist', bins = 10, figsize = (12,12))
plt.show()
```
![distribution over the entire dataset](../../../../translated_images/ta/dist1-wb.0d0cac82e2974fbbec635826fefead401af795f82e2279e2e2678bf2c117d827.png)
![distribution over the entire dataset](../../../../translated_images/ta/dist1-wb.0d0cac82e2974fbb.webp)
நீங்கள் காணக்கூடியது போல, இந்த தரவுத்தொகுப்பில் உள்ள 400+ பறவைகளில் பெரும்பாலானவை Max Body Mass 2000 க்கும் குறைவாக உள்ள வரம்பில் உள்ளன. `bins` அளவுருவை 30 போன்ற அதிக எண்ணிக்கைக்கு மாற்றுவதன் மூலம் தரவின் மீது மேலும் தெளிவான பார்வையைப் பெறுங்கள்:
@ -58,7 +58,7 @@ plt.show()
birds['MaxBodyMass'].plot(kind = 'hist', bins = 30, figsize = (12,12))
plt.show()
```
![distribution over the entire dataset with larger bins param](../../../../translated_images/ta/dist2-wb.2c0a7a3499b2fbf561e9f93b69f265dfc538dc78f6de15088ba84a88152e26ba.png)
![distribution over the entire dataset with larger bins param](../../../../translated_images/ta/dist2-wb.2c0a7a3499b2fbf5.webp)
இந்த வரைபடம் விநியோகத்தை மேலும் நுணுக்கமாக காட்டுகிறது. இடது பக்கம் குறைவாக சாய்ந்த ஒரு வரைபடத்தை நீங்கள் ஒரு குறிப்பிட்ட வரம்பில் உள்ள தரவை மட்டும் தேர்ந்தெடுப்பதன் மூலம் உருவாக்கலாம்:
@ -69,7 +69,7 @@ filteredBirds = birds[(birds['MaxBodyMass'] > 1) & (birds['MaxBodyMass'] < 60)]
filteredBirds['MaxBodyMass'].plot(kind = 'hist',bins = 40,figsize = (12,12))
plt.show()
```
![filtered histogram](../../../../translated_images/ta/dist3-wb.64b88db7f9780200bd486a2c2a3252548dd439672dbd3f778193db7f654b100c.png)
![filtered histogram](../../../../translated_images/ta/dist3-wb.64b88db7f9780200.webp)
✅ மற்ற வடிகட்டல்கள் மற்றும் தரவுப் புள்ளிகளை முயற்சிக்கவும். தரவின் முழு விநியோகத்தைப் பார்க்க, `['MaxBodyMass']` வடிகட்டலை நீக்கி லேபிள் செய்யப்பட்ட விநியோகங்களை காட்சிப்படுத்தவும்.
@ -86,7 +86,7 @@ hist = ax.hist2d(x, y)
```
இந்த இரண்டு கூறுகளின் இடையே எதிர்பார்க்கப்பட்ட அச்சில் ஒரு எதிர்பார்க்கப்பட்ட தொடர்பு உள்ளது, குறிப்பாக ஒரு வலுவான ஒருங்கிணைப்பு புள்ளியுடன்:
![2D plot](../../../../translated_images/ta/2D-wb.ae22fdd33936507a41e3af22e11e4903b04a9be973b23a4e05214efaccfd66c8.png)
![2D plot](../../../../translated_images/ta/2D-wb.ae22fdd33936507a.webp)
ஹிஸ்டோகிராம்கள் இயல்பாக எண்ணியல் தரவுகளுக்கு நன்றாக வேலை செய்கின்றன. உரை தரவுகளின் அடிப்படையில் விநியோகங்களை நீங்கள் பார்க்க வேண்டியிருந்தால் என்ன செய்வீர்கள்?
## உரை தரவுகளைப் பயன்படுத்தி விநியோகங்களை ஆராயுங்கள்
@ -125,7 +125,7 @@ plt.gca().set(title='Conservation Status', ylabel='Min Wingspan')
plt.legend();
```
![wingspan and conservation collation](../../../../translated_images/ta/histogram-conservation-wb.3c40450eb072c14de7a1a3ec5c0fcba4995531024760741b392911b567fd8b70.png)
![wingspan and conservation collation](../../../../translated_images/ta/histogram-conservation-wb.3c40450eb072c14d.webp)
குறைந்தபட்ச இறகளவு மற்றும் பாதுகாப்பு நிலைக்கு இடையில் நல்ல தொடர்பு இல்லை என்று தோன்றுகிறது. இந்த முறையைப் பயன்படுத்தி தரவுத்தொகுப்பின் பிற கூறுகளைச் சோதிக்கவும். நீங்கள் வேறு தொடர்புகளை கண்டுபிடிக்கிறீர்களா?
@ -143,7 +143,7 @@ import matplotlib.pyplot as plt
sns.kdeplot(filteredBirds['MinWingspan'])
plt.show()
```
![Density plot](../../../../translated_images/ta/density1.8801043bd4af2567b0f706332b5853c7614e5e4b81b457acc27eb4e092a65cbd.png)
![Density plot](../../../../translated_images/ta/density1.8801043bd4af2567.webp)
குறைந்தபட்ச இறகளவு தரவுக்கான முந்தைய வரைபடத்தை இது எவ்வாறு பிரதிபலிக்கிறது என்பதை நீங்கள் காணலாம்; இது கொஞ்சம் மென்மையாக உள்ளது. Seaborn இன் ஆவணங்களின் படி, "ஹிஸ்டோகிராமுடன் ஒப்பிடும்போது, KDE ஒரு குறைவாக குழப்பமான மற்றும் அதிகமாக விளக்கக்கூடிய வரைபடத்தை உருவாக்க முடியும், குறிப்பாக பல விநியோகங்களை வரையும்போது. ஆனால் அடிப்படை விநியோகம் கட்டுப்படுத்தப்பட்ட அல்லது மென்மையானதாக இல்லாவிட்டால், இது விகிதாச்சித்ரங்களை அறிமுகப்படுத்தும் சாத்தியம் உள்ளது. ஹிஸ்டோகிராமைப் போலவே, நல்ல மென்மையான அளவுருக்களைத் தேர்ந்தெடுப்பது பிரதிநிதித்துவத்தின் தரத்தைப் பாதிக்கிறது." [source](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) மற்ற வார்த்தைகளில், எப்போதும் போல புறம்பானவை உங்கள் வரைபடங்களை தவறாக நடக்கச் செய்யும்.
@ -153,7 +153,7 @@ plt.show()
sns.kdeplot(filteredBirds['MaxBodyMass'])
plt.show()
```
![smooth bodymass line](../../../../translated_images/ta/density2.8e7647257060ff544a1aaded57e8dd1887586bfe340139e9b77ac1e5287f7977.png)
![smooth bodymass line](../../../../translated_images/ta/density2.8e7647257060ff54.webp)
மிகவும் மென்மையான, ஆனால் மிக மென்மையான கோடு வேண்டுமெனில், `bw_adjust` அளவுருவைத் திருத்தவும்:
@ -161,7 +161,7 @@ plt.show()
sns.kdeplot(filteredBirds['MaxBodyMass'], bw_adjust=.2)
plt.show()
```
![less smooth bodymass line](../../../../translated_images/ta/density3.84ae27da82f31e6b83ad977646f029a1d21186574d7581facd70123b3eb257ee.png)
![less smooth bodymass line](../../../../translated_images/ta/density3.84ae27da82f31e6b.webp)
✅ இந்த வகை வரைபடத்திற்கான அளவுருக்களைப் பற்றி படிக்கவும் மற்றும் பரிசோதிக்கவும்!
@ -175,7 +175,7 @@ sns.kdeplot(
)
```
![bodymass per order](../../../../translated_images/ta/density4.e9d6c033f15c500fd33df94cb592b9f5cf1ed2a3d213c448a3f9e97ba39573ce.png)
![bodymass per order](../../../../translated_images/ta/density4.e9d6c033f15c500f.webp)
ஒரே வரைபடத்தில் பல மாறிகளின் அடர்த்தியை நீங்கள் வரைபடமாக்கலாம். ஒரு பறவையின் MaxLength மற்றும் MinLength ஐ அதன் பாதுகாப்பு நிலைக்கு ஒப்பிடுங்கள்:
@ -183,7 +183,7 @@ sns.kdeplot(
sns.kdeplot(data=filteredBirds, x="MinLength", y="MaxLength", hue="ConservationStatus")
```
![multiple densities, superimposed](../../../../translated_images/ta/multi.56548caa9eae8d0fd9012a8586295538c7f4f426e2abc714ba070e2e4b1fc2c1.png)
![multiple densities, superimposed](../../../../translated_images/ta/multi.56548caa9eae8d0f.webp)
'பாதிக்கப்படக்கூடிய' பறவைகள் அதன் நீளத்தின் அடிப்படையில் உள்ள குழு பொருத்தமானதா என்பதை ஆராய்வது மதிப்புமிக்கதா என்பதை ஆராய்வது பொருத்தமாக இருக்கலாம்.

@ -84,7 +84,7 @@ plt.show()
```
வோலா, இந்த இரண்டு வகுப்புகளின் படி தரவின் விகிதங்களை காட்டும் ஒரு பை வரைபடம். குறிப்பாக இங்கு லேபிள் வரிசையின் சரியான ஒழுங்கை பெறுவது மிகவும் முக்கியம், எனவே லேபிள் வரிசை உருவாக்கப்படும் ஒழுங்கை சரிபார்க்க உறுதியாக இருங்கள்!
![பை வரைபடம்](../../../../translated_images/ta/pie1-wb.e201f2fcc335413143ce37650fb7f5f0bb21358e7823a327ed8644dfb84be9db.png)
![பை வரைபடம்](../../../../translated_images/ta/pie1-wb.e201f2fcc3354131.webp)
## டோனட்கள்!
@ -114,7 +114,7 @@ plt.title('Mushroom Habitats')
plt.show()
```
![டோனட் வரைபடம்](../../../../translated_images/ta/donut-wb.be3c12a22712302b5d10c40014d5389d4a1ae4412fe1655b3cf4af57b64f799a.png)
![டோனட் வரைபடம்](../../../../translated_images/ta/donut-wb.be3c12a22712302b.webp)
இந்த குறியீடு ஒரு வரைபடத்தையும் ஒரு மைய வட்டத்தையும் வரைகிறது, பின்னர் அந்த மைய வட்டத்தை வரைபடத்தில் சேர்க்கிறது. மைய வட்டத்தின் அகலத்தை `0.40` ஐ மற்றொரு மதிப்பாக மாற்றுவதன் மூலம் திருத்துங்கள்.
@ -161,7 +161,7 @@ fig = plt.figure(
வாஃபிள் வரைபடத்தைப் பயன்படுத்தி, இந்த காளான் தரவுத்தொகுப்பின் தொப்பி நிறங்களின் விகிதங்களை தெளிவாகக் காணலாம். 흥미க்கூடாக, பல பச்சை-தொப்பி காளான்கள் உள்ளன!
![வாஃபிள் வரைபடம்](../../../../translated_images/ta/waffle.5455dbae4ccf17d53bb40ff0a657ecef7b8aa967e27a19cc96325bd81598f65e.png)
![வாஃபிள் வரைபடம்](../../../../translated_images/ta/waffle.5455dbae4ccf17d5.webp)
✅ Pywaffle [Font Awesome](https://fontawesome.com/) இல் கிடைக்கும் எந்த ஐகானையும் பயன்படுத்தும் வரைபடங்களில் ஐகான்களை ஆதரிக்கிறது. சதுரங்களுக்குப் பதிலாக ஐகான்களைப் பயன்படுத்தி மேலும் 흥미க்கூடிய வாஃபிள் வரைபடத்தை உருவாக்க சில பரிசோதனைகளைச் செய்யுங்கள்.

@ -42,7 +42,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/ta/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/ta/scatter1.5e1aa5fd6706c5d1.webp)
இப்போது, ஆண்டுதோறும் தேனின் விலை எப்படி மாறுகிறது என்பதை காட்ட தேன் நிறத்துடன் கூடிய ஒரு வண்ணத் திட்டத்தை பயன்படுத்துங்கள். இதை ஆண்டுதோறும் மாற்றத்தை காட்ட 'hue' அளவுருவைச் சேர்த்தால் செய்யலாம்:
@ -51,7 +51,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/ta/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/ta/scatter2.c0041a58621ca702.webp)
இந்த வண்ணத் திட்ட மாற்றத்துடன், ஆண்டுகளின் போக்கில் தேனின் ஒரு பவுனுக்கு விலை அதிகரித்துள்ளது என்பது தெளிவாக தெரிகிறது. உண்மையில், தரவுகளில் ஒரு மாதிரியைப் பார்த்தால் (உதாரணமாக, அரிசோனா மாநிலத்தை எடுத்துக்கொள்ளுங்கள்), சில விதிவிலக்குகளைத் தவிர, ஆண்டுதோறும் விலை அதிகரிக்கும் முறைபாட்டை நீங்கள் காணலாம்:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
புள்ளிகளின் அளவு تدريجமாக அதிகரிப்பதை நீங்கள் காணலாம்.
![scatterplot 3](../../../../translated_images/ta/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/ta/scatter3.3c160a3d1dcb36b3.webp)
இது ஒரு எளிய வழங்கல் மற்றும் தேவைச் சூழல் ஆக இருக்கிறதா? காலநிலை மாற்றம் மற்றும் தேன்கூட்ட அழிவு போன்ற காரணங்களால், ஆண்டுதோறும் வாங்குவதற்கு குறைவான தேன் கிடைக்கிறதா, எனவே விலை அதிகரிக்கிறதா?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
பதில்: ஆம், 2003 ஆம் ஆண்டின் சுற்றியுள்ள சில விதிவிலக்குகளுடன்:
![line chart 1](../../../../translated_images/ta/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/ta/line1.f36eb465229a3b1f.webp)
✅ Seaborn தரவுகளை ஒரு கோட்டில் தொகுத்து, "ஒவ்வொரு x மதிப்பில் பல அளவீடுகளை சராசரியாகக் காட்டுகிறது மற்றும் சராசரியின் 95% நம்பகத்தன்மை இடைவெளியை வரைபடத்தில் காட்டுகிறது". [மூலம்](https://seaborn.pydata.org/tutorial/relational.html). இந்த நேரம் எடுத்துக்கொள்ளும் செயல்பாட்டை `ci=None` சேர்த்து முடக்கலாம்.
@ -105,7 +105,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/ta/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/ta/line2.a5b3493dc01058af.webp)
பதில்: அவ்வளவாக இல்லை. மொத்த உற்பத்தியைப் பார்த்தால், அந்த குறிப்பிட்ட ஆண்டில் அது அதிகரித்தது போல் தெரிகிறது, ஆனால் பொதுவாக, இந்த ஆண்டுகளில் உற்பத்தி குறைந்து கொண்டிருக்கிறது.
@ -130,7 +130,7 @@ sns.relplot(
```
இந்த காட்சிப்படுத்தலில், ஒவ்வொரு ஆண்டும் ஒவ்வொரு மாநிலத்திலும் ஒவ்வொரு தேன்கூட்டத்திற்கான விளைச்சல் மற்றும் தேன்கூட்டங்களின் எண்ணிக்கையை ஒப்பிடலாம், 3 க்கான நெடுவரிசை அமைப்புடன்:
![facet grid](../../../../translated_images/ta/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/ta/facet.6a34851dcd540050.webp)
இந்த தரவுத்தொகுப்பில், ஆண்டுதோறும் மற்றும் மாநிலத்திற்கும் தேன்கூட்டங்களின் எண்ணிக்கை மற்றும் அவற்றின் விளைச்சலுடன் தொடர்புடைய எந்தவொரு விஷயமும் குறிப்பிடத்தக்கதாகத் தெரியவில்லை. இந்த இரண்டு மாறிகளுக்கு இடையேயான தொடர்பை கண்டறிய வேறு வழி இருக்கிறதா?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/ta/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/ta/dual-line.a4c28ce659603fab.webp)
2003 ஆம் ஆண்டின் சுற்றியுள்ள எந்தவொரு விஷயமும் கண்களுக்கு தெளிவாகத் தெரியவில்லை, ஆனால் இது இந்த பாடத்தை ஒரு சிறிய மகிழ்ச்சியான குறிப்பில் முடிக்க அனுமதிக்கிறது: தேன்கூட்டங்களின் எண்ணிக்கை குறைந்து கொண்டிருப்பதுடன், அவற்றின் விளைச்சல் குறைந்தாலும், தேன்கூட்டங்களின் எண்ணிக்கை நிலைத்திருக்கிறது.

@ -38,25 +38,25 @@
ஒரு தரவியல் விஞ்ஞானி சரியான தரவுக்கான சரியான வரைபடத்தைத் தேர்ந்தெடுப்பதில் கவனமாக இருந்தாலும், ஒரு கருத்தை நிரூபிக்க, பெரும்பாலும் தரவின் அடிப்படையை பாதிக்கக்கூடிய வகையில், தரவை காட்சிப்படுத்த பல வழிகள் உள்ளன. மோசமான வரைபடங்கள் மற்றும் தகவல்படங்களின் பல உதாரணங்கள் உள்ளன!
[![How Charts Lie by Alberto Cairo](../../../../translated_images/ta/tornado.9f42168791208f970d6faefc11d1226d7ca89518013b14aa66b1c9edcd7678d2.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[![How Charts Lie by Alberto Cairo](../../../../translated_images/ta/tornado.9f42168791208f97.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 மோசமான வரைபடங்கள் பற்றிய கருத்தரங்க உரையைப் பார்க்க மேலே உள்ள படத்தை கிளிக் செய்யவும்
இந்த வரைபடம் X அச்சை மாற்றி, தேதியின் அடிப்படையில் உண்மையின் எதிர்மறையை காட்டுகிறது:
![bad chart 1](../../../../translated_images/ta/bad-chart-1.93130f495b748bedfb3423d91b1e754d9026e17f94ad967aecdc9ca7203373bf.png)
![bad chart 1](../../../../translated_images/ta/bad-chart-1.93130f495b748bed.webp)
[இந்த வரைபடம்](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) இன்னும் மோசமானது, ஏனெனில் கண்கள் வலதுபுறமாக இழுக்கப்பட்டு, காலப்போக்கில் COVID வழக்குகள் குறைந்துவிட்டதாக முடிவு செய்யப்படுகிறது. உண்மையில், தேதிகளை நெருக்கமாகப் பார்த்தால், அவை அந்த மோசமான இறக்குமுகத்தை வழங்குவதற்காக மறுசீரமைக்கப்பட்டுள்ளன.
![bad chart 2](../../../../translated_images/ta/bad-chart-2.c20e36dd4e6f617c0c325878dd421a563885bbf30a394884c147438827254e0e.jpg)
![bad chart 2](../../../../translated_images/ta/bad-chart-2.c20e36dd4e6f617c.webp)
இந்த பிரபலமான உதாரணம் நிறம் மற்றும் Y அச்சை மாற்றி மோசமாக்குகிறது: துப்பாக்கி-friendly சட்டம் நிறைவேற்றப்பட்ட பிறகு துப்பாக்கி மரணங்கள் அதிகரித்தன என்பதை முடிவெடுக்காமல், கண்கள் எதிர்மறையானது உண்மையாக உள்ளது என்று முடிவு செய்ய ஏமாற்றப்படுகிறது:
![bad chart 3](../../../../translated_images/ta/bad-chart-3.6865d0afac4108d737558d90a61547d23a8722896397ec792264ee51a1be4be5.jpg)
![bad chart 3](../../../../translated_images/ta/bad-chart-3.6865d0afac4108d7.webp)
இந்த விசித்திரமான வரைபடம் விகிதத்தை எப்படி மாற்றி அமைக்க முடியும் என்பதை நகைச்சுவையான விளைவாகக் காட்டுகிறது:
![bad chart 4](../../../../translated_images/ta/bad-chart-4.68cfdf4011b454471053ee1231172747e1fbec2403b4443567f1dc678134f4f2.jpg)
![bad chart 4](../../../../translated_images/ta/bad-chart-4.68cfdf4011b45447.webp)
ஒப்பிட முடியாதவற்றை ஒப்பிடுவது இன்னொரு shady யுக்தியாகும். 'spurious correlations' பற்றிய [அற்புதமான இணையதளம்](https://tylervigen.com/spurious-correlations) உள்ளது, இது மெய்நிகர் 'facts' களை Maine இல் விவாகரத்து விகிதம் மற்றும் மார்ஜரின் நுகர்வு போன்றவற்றை ஒப்பிடுகிறது. ஒரு Reddit குழு [தரவை மோசமாகப் பயன்படுத்தும்](https://www.reddit.com/r/dataisugly/top/?t=all) உதாரணங்களைச் சேகரிக்கிறது.
@ -91,13 +91,13 @@
உங்கள் தரவு உரை வடிவிலிருந்தும் X அச்சில் verbose ஆக இருந்தாலும், வாசிக்க எளிதாக உரையை சாய்க்கலாம். [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) உங்கள் தரவை ஆதரிக்குமானால் 3D வரைபடங்களை வழங்குகிறது. `mpl_toolkits.mplot3d` ஐப் பயன்படுத்தி நவீன தரவுக் காட்சிப்படுத்தல்களை உருவாக்கலாம்.
![3d plots](../../../../translated_images/ta/3d.0cec12bcc60f0ce7284c63baed1411a843e24716f7d7425de878715ebad54a15.png)
![3d plots](../../../../translated_images/ta/3d.0cec12bcc60f0ce7.webp)
## அனிமேஷன் மற்றும் 3D வரைபட காட்சி
இன்றைய சிறந்த தரவுக் காட்சிப்படுத்தல்கள் சில அனிமேஷன்களாக உள்ளன. Shirley Wu D3 ஐப் பயன்படுத்தி '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)' போன்ற அற்புதமானவற்றை உருவாக்கியுள்ளார், இதில் ஒவ்வொரு பூவும் ஒரு திரைப்படத்தின் காட்சிப்படுத்தலாக உள்ளது. Guardian க்கான மற்றொரு உதாரணம் 'bussed out', Greensock மற்றும் D3 உடன் காட்சிப்படுத்தல்களை இணைக்கும் ஒரு இன்டர்ஆக்டிவ் அனுபவம், மேலும் NYC தனது வீடற்ற பிரச்சினையை நகரத்திலிருந்து மக்களை வெளியேற்றுவதன் மூலம் எப்படி கையாளுகிறது என்பதை காட்ட ஒரு scrollytelling கட்டுரை வடிவத்தை வழங்குகிறது.
![busing](../../../../translated_images/ta/busing.7b9e3b41cd4b981c6d63922cd82004cc1cf18895155536c1d98fcc0999bdd23e.png)
![busing](../../../../translated_images/ta/busing.7b9e3b41cd4b981c.webp)
> "Bussed Out: How America Moves its Homeless" from [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizations by Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@
நீங்கள் இந்த சமூக வலையத்தின் அனிமேஷன் காட்சியை காட்டும் ஒரு வலை பயன்பாட்டை முடிக்க வேண்டும். இது Vue.js மற்றும் D3 ஐப் பயன்படுத்தி ஒரு [வலையத்தின் காட்சியை](https://github.com/emiliorizzo/vue-d3-network) உருவாக்க ஒரு நூலகத்தை உருவாக்கியது. பயன்பாடு இயங்கும்போது, நீங்கள் திரையில் nodes ஐ இழுத்து தரவைச் சுழற்றலாம்.
![liaisons](../../../../translated_images/ta/liaisons.7b440b28f6d07ea430244fdf1fc4c64ff48f473f143b8e921846eda1c302aeba.png)
![liaisons](../../../../translated_images/ta/liaisons.7b440b28f6d07ea4.webp)
## திட்டம்: D3.js ஐப் பயன்படுத்தி ஒரு வலையத்தை காட்டும் வரைபடத்தை உருவாக்கவும்

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
இங்கே, நீங்கள் `ggplot2` தொகுப்பை நிறுவி, `library("ggplot2")` கட்டளையைப் பயன்படுத்தி அதை workspace இல் இறக்குமதி செய்கிறீர்கள். ggplot இல் எந்தவொரு வரைபடத்தையும் வரைபடமாக்க `ggplot()` செயல்பாடு பயன்படுத்தப்படுகிறது, மேலும் நீங்கள் dataset, x மற்றும் y மாறிகளை பண்புகளாக குறிப்பிடுகிறீர்கள். இந்தக் கட்டத்தில், நாம் line plot ஐ வரைபடமாக்க `geom_line()` செயல்பாட்டைப் பயன்படுத்துகிறோம்.
![MaxWingspan-lineplot](../../../../../translated_images/ta/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/ta/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
உடனடியாக நீங்கள் என்ன கவனிக்கிறீர்கள்? குறைந்தது ஒரு outlier இருப்பது போல தெரிகிறது - அது ஒரு பெரிய இறகுகளின் அகலமாக இருக்கிறது! 2000+ சென்டிமீட்டர் அகலம் என்பது 20 மீட்டருக்கு மேல் சமமாகும் - மினசோட்டாவில் ப்டெரோடாக்டில்கள் சுற்றி வருகிறதா? ஆராய்வோம்.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
நாம் `theme` இல் கோணத்தை குறிப்பிடுகிறோம் மற்றும் `xlab()` மற்றும் `ylab()` இல் x மற்றும் y அச்சு labels ஐ குறிப்பிடுகிறோம். `ggtitle()` வரைபடத்திற்கு ஒரு பெயரை வழங்குகிறது.
![MaxWingspan-lineplot-improved](../../../../../translated_images/ta/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/ta/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
labels ஐ 45 degree கோணத்தில் சுழற்றியிருந்தாலும், அவற்றை படிக்க மிகவும் அதிகமாக உள்ளது. வேறொரு உத்தியை முயற்சிப்போம்: outliers ஐ மட்டும் label செய்யவும் மற்றும் labels ஐ chart இல் அமைக்கவும். நீங்கள் labeling க்கு இடம் செய்ய scatter chart ஐ பயன்படுத்தலாம்:
@ -91,7 +91,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
நீங்கள் என்ன கண்டுபிடிக்கிறீர்கள்?
![MaxWingspan-scatterplot](../../../../../translated_images/ta/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/ta/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## உங்கள் தரவுகளை வடிகட்டவும்
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
நாம் ஒரு புதிய dataframe `birds_filtered` ஐ உருவாக்கி, பின்னர் scatter plot ஐ வரைபடமாக்கினோம். outliers ஐ வடிகட்டுவதன் மூலம், உங்கள் தரவுகள் இப்போது cohesive மற்றும் புரிந்துகொள்ளக்கூடியதாக உள்ளது.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ta/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ta/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
இப்போது, குறைந்தது wingspan அடிப்படையில் சுத்தமான dataset உள்ளது, இந்த பறவைகள் பற்றிய மேலும் பல விஷயங்களை கண்டறிவோம்.
@ -151,7 +151,7 @@ birds_filtered %>% group_by(Category) %>%
```
கீழே உள்ள snippet இல், [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) மற்றும் [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) தொகுப்புகளை நிறுவி, தரவுகளை manipulate மற்றும் group செய்ய உதவுகிறது, பின்னர் stacked bar chart ஐ plot செய்ய உதவுகிறது. முதலில், நீங்கள் பறவையின் `Category` மூலம் தரவுகளை குழுவாக்கி, பின்னர் `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` களங்களை சுருக்குகிறீர்கள். பின்னர், `ggplot2` தொகுப்பைப் பயன்படுத்தி bar chart ஐ plot செய்து, வெவ்வேறு category க்கான நிறங்களை மற்றும் labels ஐ குறிப்பிடுகிறீர்கள்.
![Stacked bar chart](../../../../../translated_images/ta/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/ta/stacked-bar-chart.0c92264e89da7b39.webp)
இந்த bar chart, எனினும், படிக்க முடியாதது, ஏனெனில் குழுவாக்கப்படாத தரவுகள் மிகவும் அதிகமாக உள்ளன. நீங்கள் plot செய்ய விரும்பும் தரவுகளை மட்டும் தேர்ந்தெடுக்க வேண்டும், எனவே பறவையின் category அடிப்படையில் length ஐப் பார்ப்போம்.
@ -166,7 +166,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
முதலில், `Category` column இல் unique values ஐ count செய்து, பின்னர் அவற்றை ஒரு புதிய dataframe `birds_count` இல் sort செய்கிறீர்கள். இந்த sort செய்யப்பட்ட தரவுகள் அதே அளவில் factor செய்யப்படுகிறது, எனவே அது sort செய்யப்பட்ட முறையில் plot செய்யப்படுகிறது. `ggplot2` ஐப் பயன்படுத்தி, பின்னர் bar chart இல் தரவுகளை plot செய்கிறீர்கள். `coord_flip()` horizontal bars ஐ plot செய்கிறது.
![category-length](../../../../../translated_images/ta/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/ta/category-length.7e34c296690e85d6.webp)
இந்த bar chart, ஒவ்வொரு category இல் உள்ள பறவைகளின் எண்ணிக்கையை ஒரு நல்ல பார்வையை வழங்குகிறது. ஒரு கணத்தில், இந்த பகுதியில் உள்ள மிகப்பெரிய பறவைகள் Ducks/Geese/Waterfowl category இல் உள்ளன என்பதை நீங்கள் காணலாம். மினசோட்டா '10,000 ஏரிகளின் நிலம்' என்பதால் இது ஆச்சரியமாக இல்லை!
@ -189,7 +189,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
நாம் `birds_filtered` தரவுகளை `Category` மூலம் குழுவாக்கி, பின்னர் bar graph ஐ plot செய்கிறோம்.
![comparing data](../../../../../translated_images/ta/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/ta/comparingdata.f486a450d61c7ca5.webp)
இங்கே எந்த ஆச்சரியமும் இல்லை: hummingbirds க்கு Pelicans அல்லது Geese க்கு ஒப்பிட MaxLength மிகவும் குறைவாக உள்ளது. தரவு தர்க்கரீதியாக பொருந்தும் போது நல்லது!
@ -201,7 +201,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/ta/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/ta/superimposed-values.5363f0705a1da416.webp)
## 🚀 சவால்

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![வரிசை ஒன்றுக்கு அதிகபட்ச நீளம்](../../../../../translated_images/ta/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![வரிசை ஒன்றுக்கு அதிகபட்ச நீளம்](../../../../../translated_images/ta/max-length-per-order.e5b283d952c78c12.webp)
இது ஒவ்வொரு பறவையின் வரிசைக்கு உடல் நீளத்தின் பொது விநியோகத்தை ஒரு பார்வையில் காட்டுகிறது, ஆனால் உண்மையான விநியோகங்களை காட்சிப்படுத்த இது சிறந்த வழி அல்ல. இந்த பணியை சாதாரணமாக ஒரு ஹிஸ்டோகிராம் உருவாக்குவதன் மூலம் கையாளலாம்.
## ஹிஸ்டோகிராம்களுடன் வேலை செய்வது
@ -47,7 +47,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![முழு தரவுத்தொகுப்பில் விநியோகம்](../../../../../translated_images/ta/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![முழு தரவுத்தொகுப்பில் விநியோகம்](../../../../../translated_images/ta/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
நீங்கள் காணக்கூடியது போல, இந்த தரவுத்தொகுப்பில் உள்ள 400+ பறவைகளில் பெரும்பாலானவை Max Body Mass 2000 க்கும் குறைவாக உள்ளன. `bins` அளவுருவை 30 போன்ற அதிக எண்ணிக்கைக்கு மாற்றுவதன் மூலம் தரவின் மீது மேலும் உள்ளுணர்வு பெறுங்கள்:
@ -55,7 +55,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![distribution-30bins](../../../../../translated_images/ta/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![distribution-30bins](../../../../../translated_images/ta/distribution-30bins.6a3921ea7a421bf7.webp)
இந்த வரைபடம் விநியோகத்தை மேலும் நுணுக்கமாகக் காட்டுகிறது. இடது பக்கம் குறைவாக சாய்ந்த ஒரு வரைபடத்தை, நீங்கள் குறிப்பிட்ட வரம்பிற்குள் உள்ள தரவுகளை மட்டும் தேர்ந்தெடுப்பதன் மூலம் உருவாக்க முடியும்:
@ -67,7 +67,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![filtered histogram](../../../../../translated_images/ta/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![filtered histogram](../../../../../translated_images/ta/filtered-histogram.6bf5d2bfd8253322.webp)
✅ மற்ற வடிகட்டல்கள் மற்றும் தரவுப் புள்ளிகளை முயற்சிக்கவும். தரவின் முழு விநியோகத்தைப் பார்க்க, `['MaxBodyMass']` வடிகட்டலை நீக்கி, லேபிள் செய்யப்பட்ட விநியோகங்களை காட்சிப்படுத்தவும்.
@ -81,7 +81,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
இந்த இரண்டு கூறுகளின் எதிர்பார்க்கப்பட்ட அச்சில் ஒரு எதிர்பார்க்கப்பட்ட தொடர்பு உள்ளது, குறிப்பாக ஒரு வலுவான இணைப்பு புள்ளியுடன்:
![2d plot](../../../../../translated_images/ta/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2d plot](../../../../../translated_images/ta/2d-plot.c504786f439bd7eb.webp)
ஹிஸ்டோகிராம்கள் எண் தரவுகளுக்கு இயல்பாகவே நன்றாக வேலை செய்கின்றன. உரை தரவுகளின் படி விநியோகங்களைப் பார்க்க வேண்டுமென்றால் என்ன செய்ய வேண்டும்?
## உரை தரவுகளைப் பயன்படுத்தி விநியோகங்களை ஆராயுங்கள்
@ -112,7 +112,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![wingspan and conservation collation](../../../../../translated_images/ta/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![wingspan and conservation collation](../../../../../translated_images/ta/wingspan-conservation-collation.4024e9aa6910866a.webp)
குறைந்தபட்ச இறகின் அகலம் மற்றும் பாதுகாப்பு நிலைக்கு இடையில் நல்ல தொடர்பு இல்லை என்று தெரிகிறது. இந்த முறை பயன்படுத்தி தரவுத்தொகுப்பின் பிற கூறுகளை சோதிக்கவும். நீங்கள் எந்த தொடர்பையும் கண்டுபிடிக்கிறீர்களா?
@ -126,7 +126,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![அடர்த்தி வரைபடம்](../../../../../translated_images/ta/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![அடர்த்தி வரைபடம்](../../../../../translated_images/ta/density-plot.675ccf865b76c690.webp)
குறைந்தபட்ச இறகின் அகல தரவுகளுக்கான முந்தைய வரைபடத்தை இது எவ்வாறு பிரதிபலிக்கிறது என்பதை நீங்கள் காணலாம்; இது கொஞ்சம் மிருதுவாக உள்ளது. நீங்கள் இரண்டாவது வரைபடத்தில் உள்ள மிருதுவற்ற MaxBodyMass வரியை மீண்டும் பார்க்க விரும்பினால், இந்த முறையைப் பயன்படுத்தி அதை மிகவும் நன்றாக மிருதுவாக்கலாம்:
@ -134,7 +134,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![உடல் எடை அடர்த்தி](../../../../../translated_images/ta/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![உடல் எடை அடர்த்தி](../../../../../translated_images/ta/bodymass-smooth.d31ce526d82b0a1f.webp)
மிகவும் மிருதுவான, ஆனால் மிக மிருதுவாக இல்லாத ஒரு வரியை நீங்கள் விரும்பினால், `adjust` அளவுருவைத் திருத்தவும்:
@ -142,7 +142,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![குறைந்த மிருதுவான உடல் எடை](../../../../../translated_images/ta/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![குறைந்த மிருதுவான உடல் எடை](../../../../../translated_images/ta/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ இந்த வகை வரைபடத்திற்கான அளவுருக்களைப் பற்றி படித்து, பரிசோதிக்கவும்!
@ -152,7 +152,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![வரிசைக்கு உடல் எடை](../../../../../translated_images/ta/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![வரிசைக்கு உடல் எடை](../../../../../translated_images/ta/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 சவால்

@ -86,7 +86,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
வோலா, இந்த இரண்டு வகுப்புகளின் அடிப்படையில் தரவின் விகிதங்களை காட்டும் ஒரு பை வரைபடம். குறிப்பாக இங்கு லேபிள் வரிசை சரியாக இருக்க வேண்டும் என்பதால், லேபிள் வரிசை சரிபார்க்க உறுதியாக இருக்கவும்!
![பை வரைபடம்](../../../../../translated_images/ta/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![பை வரைபடம்](../../../../../translated_images/ta/pie1-wb.685df063673751f4.webp)
## டோனட்!
@ -120,7 +120,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![டோனட் வரைபடம்](../../../../../translated_images/ta/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![டோனட் வரைபடம்](../../../../../translated_images/ta/donut-wb.34e6fb275da9d834.webp)
இந்த குறியீடு இரண்டு நூலகங்களைப் பயன்படுத்துகிறது - ggplot2 மற்றும் webr. webr நூலகத்தின் PieDonut செயல்பாட்டைப் பயன்படுத்தி, டோனட் வரைபடத்தை எளிதாக உருவாக்கலாம்!
@ -158,7 +158,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
வாஃபிள் வரைபடத்தைப் பயன்படுத்தி, இந்த காளான் தரவுத்தொகுப்பின் தொப்பி நிறங்களின் விகிதங்களை தெளிவாகக் காணலாம். சுவாரஸ்யமாக, பச்சை தொப்பி கொண்ட காளான்கள் அதிகமாக உள்ளன!
![வாஃபிள் வரைபடம்](../../../../../translated_images/ta/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![வாஃபிள் வரைபடம்](../../../../../translated_images/ta/waffle.aaa75c5337735a6e.webp)
இந்த பாடத்தில், நீங்கள் விகிதங்களை காட்சிப்படுத்த மூன்று வழிகளை கற்றுக்கொண்டீர்கள். முதலில், உங்கள் தரவுகளை வகைகளாக குழுவாக்க வேண்டும், பின்னர் தரவுகளை காட்சிப்படுத்த சிறந்த வழி எது என்பதைத் தேர்ந்தெடுக்க வேண்டும் - பை, டோனட் அல்லது வாஃபிள். அனைத்தும் சுவையானவை மற்றும் தரவுத்தொகுப்பின் உடனடி கண்ணோட்டத்தை வழங்க பயனரை மகிழ்விக்கின்றன.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/ta/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/ta/scatter1.86b8900674d88b26.webp)
இப்போது, ஆண்டுதோறும் தேனின் விலை எப்படி மாறுகிறது என்பதை தேன் நிறத்துடன் காட்டுங்கள். இதை 'scale_color_gradientn' பராமeter-ஐ சேர்த்து, ஆண்டுதோறும் மாற்றத்தை காட்சிப்படுத்தலாம்:
@ -52,7 +52,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/ta/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/ta/scatter2.4d1cbc693bad20e2.webp)
இந்த நிறத்திட்ட மாற்றத்துடன், ஆண்டுதோறும் தேனின் விலை ஒரு பவுண்டுக்கு அதிகரித்திருப்பது தெளிவாக தெரிகிறது. உண்மையில், தரவுகளில் ஒரு மாதிரியைப் பாருங்கள் (அரிசோனா மாநிலத்தை எடுத்துக்கொள்ளுங்கள்), சில விதிவிலக்குகளைத் தவிர, ஆண்டுதோறும் விலை அதிகரிக்கும் முறைபாட்டை நீங்கள் காணலாம்:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
புள்ளிகளின் அளவு تدريجமாக அதிகரிப்பதை நீங்கள் காணலாம்.
![scatterplot 3](../../../../../translated_images/ta/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/ta/scatter3.722d21e6f20b3ea2.webp)
இது ஒரு எளிய தேவைக்கும் வழங்கலுக்கும் இடையேயான உறவா? காலநிலை மாற்றம் மற்றும் கொள்கலன்களின் அழிவு போன்ற காரணங்களால், ஆண்டுதோறும் வாங்குவதற்கு தேன் குறைவாக உள்ளதா, அதனால் விலை அதிகரிக்கிறதா?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
பதில்: ஆம், 2003 ஆம் ஆண்டைச் சுற்றியுள்ள சில விதிவிலக்குகளுடன்:
![line chart 1](../../../../../translated_images/ta/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/ta/line1.299b576fbb2a59e6.webp)
கேள்வி: 2003 ஆம் ஆண்டில் தேன் வழங்கலில் ஒரு உச்சம் காண முடியுமா? ஆண்டுதோறும் மொத்த உற்பத்தியைப் பாருங்கள்:
@ -106,7 +106,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/ta/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/ta/line2.3b18fcda7176ceba.webp)
பதில்: அவ்வாறு இல்லை. மொத்த உற்பத்தியைப் பாருங்கள், குறிப்பிட்ட ஆண்டில் அது அதிகரித்திருப்பது போலவே தெரிகிறது, ஆனால் பொதுவாக இந்த ஆண்டுகளில் தேன் உற்பத்தி குறைந்து கொண்டிருக்கிறது.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
இந்த காட்சிப்படுத்தலில், ஒவ்வொரு ஆண்டும் ஒவ்வொரு மாநிலமும் கொள்கலனின் உற்பத்தி மற்றும் எண்ணிக்கையை ஒப்பிடலாம், 3 க்கான நெடுவரிசை அமைப்புடன்:
![facet grid](../../../../../translated_images/ta/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/ta/facet.491ad90d61c2a7cc.webp)
இந்த தரவுத்தொகுப்பில், ஒவ்வொரு ஆண்டும் ஒவ்வொரு மாநிலமும் கொள்கலன்களின் எண்ணிக்கை மற்றும் அவற்றின் உற்பத்தியில் குறிப்பிடத்தக்க மாற்றம் எதுவும் இல்லை. இந்த இரண்டு மாறிகளுக்கு இடையேயான தொடர்பை கண்டறிய வேறொரு வழி இருக்கிறதா?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/ta/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/ta/dual-line.fc4665f360a54018.webp)
2003 ஆம் ஆண்டைச் சுற்றி கண்களுக்கு எதுவும் தெரியவில்லை, ஆனால் இது இந்த பாடத்தை ஒரு சிறிய மகிழ்ச்சியான குறிப்பில் முடிக்க அனுமதிக்கிறது: கொள்கலன்களின் எண்ணிக்கை குறைந்து கொண்டிருப்பதுடன், அவற்றின் உற்பத்தி குறைந்தாலும், கொள்கலன்களின் எண்ணிக்கை நிலைத்திருக்கிறது.

@ -38,25 +38,25 @@
ஒரு தரவியல் விஞ்ஞானி சரியான தரவுக்கான சரியான வரைபடத்தை தேர்ந்தெடுக்க கவனமாக இருந்தாலும், ஒரு கருத்தை நிரூபிக்க, பெரும்பாலும் தரவின் உண்மையை பாதிக்கக்கூடிய வகையில், தரவுகளை காட்ட பல வழிகள் உள்ளன. மோசடி வரைபடங்கள் மற்றும் தகவல்படங்களின் பல உதாரணங்கள் உள்ளன!
[![அல்பெர்டோ கெய்ரோவின் "How Charts Lie"](../../../../../translated_images/ta/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[![அல்பெர்டோ கெய்ரோவின் "How Charts Lie"](../../../../../translated_images/ta/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 மோசடி வரைபடங்கள் பற்றிய கருத்தரங்க உரையைப் பார்க்க மேலே உள்ள படத்தை கிளிக் செய்யவும்
இந்த வரைபடம் X அச்சை மாற்றி, தேதியின் அடிப்படையில் உண்மைக்கு மாறாக காட்டுகிறது:
![தவறான வரைபடம் 1](../../../../../translated_images/ta/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![தவறான வரைபடம் 1](../../../../../translated_images/ta/bad-chart-1.596bc93425a8ac30.webp)
[இந்த வரைபடம்](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) இன்னும் மோசமாக உள்ளது, ஏனெனில் பார்வை வலப்புறமாக ஈர்க்கப்படுகிறது, இது காலப்போக்கில் COVID வழக்குகள் குறைந்துவிட்டன என்று முடிவு செய்யும். உண்மையில், தேதிகளை நெருங்கிப் பார்த்தால், அந்த மோசமான இறக்குமுகப் போக்கை உருவாக்க அவற்றை மறுசீரமைத்துள்ளீர்கள் என்பதை நீங்கள் காணலாம்.
![தவறான வரைபடம் 2](../../../../../translated_images/ta/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![தவறான வரைபடம் 2](../../../../../translated_images/ta/bad-chart-2.62edf4d2f30f4e51.webp)
இந்த பிரபலமான உதாரணம் நிறத்தையும் ஒரு மாறிய Y அச்சையும் பயன்படுத்தி மோசடியில் ஈடுபடுகிறது: துப்பாக்கி மரணங்கள் திடீரென அதிகரித்தன என்பதை விட, கண் மாறாக உணர்த்தப்படுகிறது:
![தவறான வரைபடம் 3](../../../../../translated_images/ta/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![தவறான வரைபடம் 3](../../../../../translated_images/ta/bad-chart-3.e201e2e915a230bc.webp)
இந்த விசித்திரமான வரைபடம் விகிதத்தை எப்படி மாற்றி அமைக்க முடியும் என்பதை காட்டுகிறது, அது நகைச்சுவையான விளைவாக உள்ளது:
![தவறான வரைபடம் 4](../../../../../translated_images/ta/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![தவறான வரைபடம் 4](../../../../../translated_images/ta/bad-chart-4.8872b2b881ffa96c.webp)
ஒப்பிட முடியாதவற்றை ஒப்பிடுவது இன்னொரு சந்தேகத்திற்குரிய தந்திரமாகும். மெய்னில் விவாகரத்து விகிதம் மற்றும் மார்ஜரின் நுகர்வு போன்றவற்றை ஒப்பிடும் 'தவறான தொடர்புகள்' பற்றிய [அற்புதமான இணையதளம்](https://tylervigen.com/spurious-correlations) உள்ளது. ஒரு Reddit குழு கூட தரவின் [அழகற்ற பயன்பாடுகளை](https://www.reddit.com/r/dataisugly/top/?t=all) சேகரிக்கிறது.
@ -91,13 +91,13 @@
உங்கள் தரவு உரை மற்றும் விரிவானதாக இருந்தால், X அச்சில் உரையை சிறந்த வாசிப்புக்காக சாய்க்கலாம். [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) உங்கள் தரவை ஆதரித்தால், 3D வரைபடங்களை வழங்குகிறது. அதிநவீன தரவுக் காட்சிப்படுத்தல்களை இதைப் பயன்படுத்தி உருவாக்கலாம்.
![3D வரைபடங்கள்](../../../../../translated_images/ta/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3D வரைபடங்கள்](../../../../../translated_images/ta/3d.db1734c151eee87d.webp)
## அனிமேஷன் மற்றும் 3D வரைபட காட்சி
இன்றைய சிறந்த தரவுக் காட்சிப்படுத்தல்களில் சில அனிமேஷன்களாக உள்ளன. D3 உடன் ஷிர்லி வூ உருவாக்கிய அற்புதமானவை உள்ளன, உதாரணமாக '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', இதில் ஒவ்வொரு பூவும் ஒரு திரைப்படத்தின் காட்சிப்படுத்தலாக உள்ளது. 'தி கார்டியன்'க்காக மற்றொரு உதாரணம் 'bussed out', இது காட்சிப்படுத்தல்களுடன் கூடிய ஒரு இடைமுக அனுபவமாகும், இது கிரீன்சாக் மற்றும் D3 உடன் இணைந்து, நியூயார்க் நகரம் தனது வீடற்ற பிரச்சனையை எவ்வாறு கையாளுகிறது என்பதை காட்டுகிறது.
![busing](../../../../../translated_images/ta/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/ta/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: How America Moves its Homeless" [தி கார்டியன்](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) மூலம். காட்சிப்படுத்தல்கள்: நதீஹ் பிரெமர் & ஷிர்லி வூ
@ -107,7 +107,7 @@
இந்த சமூக வலையமைப்பின் அனிமேஷன் காட்சியை காட்டும் ஒரு வலை பயன்பாட்டை நீங்கள் முடிக்க வேண்டும். இது Vue.js மற்றும் D3 ஐப் பயன்படுத்தி ஒரு [வலையமைப்பின் காட்சியை](https://github.com/emiliorizzo/vue-d3-network) உருவாக்க ஒரு நூலகத்தைப் பயன்படுத்தி உருவாக்கப்பட்டது. பயன்பாடு இயங்கும்போது, நீங்கள் திரையில் உள்ள நொடுகளை இழுத்து தரவுகளைச் சீரமைக்கலாம்.
![liaisons](../../../../../translated_images/ta/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/ta/liaisons.90ce7360bcf84765.webp)
## திட்டம்: D3.js ஐப் பயன்படுத்தி ஒரு வலையமைப்பை காட்ட ஒரு வரைபடத்தை உருவாக்கவும்

@ -1,6 +1,6 @@
# காட்சிப்படுத்தல்கள்
![ஒரு லாவெண்டர் மலரின் மீது ஒரு தேனீ](../../../translated_images/ta/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![ஒரு லாவெண்டர் மலரின் மீது ஒரு தேனீ](../../../translated_images/ta/bee.0aa1d91132b12e3a.webp)
> புகைப்படம் <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ஜென்னா லீ</a> மூலம் <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> இல்
தரவை காட்சிப்படுத்துவது ஒரு தரவியல் விஞ்ஞானியின் மிக முக்கியமான பணிகளில் ஒன்றாகும். ஒரு படம் 1000 வார்த்தைகளுக்கு சமம், மேலும் ஒரு காட்சிப்படுத்தல் உங்கள் தரவின் பல்வேறு சுவாரஸ்யமான பகுதிகளை, உதாரணமாக உச்சங்கள், விலகல்கள், குழுக்கள், போக்குகள் மற்றும் பலவற்றை அடையாளம் காண உதவுகிறது, இது உங்கள் தரவு சொல்ல முயற்சிக்கும் கதையை நீங்கள் புரிந்துகொள்ள உதவும்.

@ -16,7 +16,7 @@
இந்த பாடம் வாழ்க்கைச் சுழற்சியின் 3 பகுதிகளை மையமாகக் கொண்டுள்ளது: தரவுகளைப் பெறுதல், செயலாக்கம் மற்றும் பராமரிப்பு.
![தரவியல் அறிவியல் வாழ்க்கைச் சுழற்சியின் வரைபடம்](../../../../translated_images/ta/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![தரவியல் அறிவியல் வாழ்க்கைச் சுழற்சியின் வரைபடம்](../../../../translated_images/ta/data-science-lifecycle.a1e362637503c4fb.webp)
> [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) எடுத்த படம்
## தரவுகளைப் பெறுதல்
@ -89,7 +89,7 @@ Heres some things that a team may do with security in mind:
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
|![Team Data Science Lifecycle](../../../../translated_images/ta/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Data Science Process Alliance Image](../../../../translated_images/ta/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Team Data Science Lifecycle](../../../../translated_images/ta/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Data Science Process Alliance Image](../../../../translated_images/ta/CRISP-DM.8bad2b4c66e62aa7.webp) |
| Image by [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Image by [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [பாடத்திற்குப் பின் வினாடி வினா](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# தரவியல் அறிவியல் வாழ்க்கைச் சுழற்சி
![communication](../../../translated_images/ta/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/ta/communication.06d8e2a88d30d168.webp)
> புகைப்படம் <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> மூலம் <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> இல்
இந்த பாடங்களில், தரவின் பகுப்பாய்வு மற்றும் தொடர்பு ஆகியவற்றை உள்ளடக்கிய தரவியல் அறிவியல் வாழ்க்கைச் சுழற்சியின் சில அம்சங்களை நீங்கள் ஆராய்வீர்கள்.

@ -53,7 +53,7 @@ Azure ML தரவியல் விஞ்ஞானிகள் மற்று
திறன்கள் மற்றும் அறிவை சோதிக்க திட்டங்களை உருவாக்குவது மற்றும் கட்டுவது சிறந்த வழி என்பதில் சந்தேகமில்லை. இந்த பாடத்தில், Azure ML Studio-வில் இதய செயலிழப்பு தாக்குதல்களை கணிக்க ஒரு தரவியல் அறிவியல் திட்டத்தை உருவாக்க இரண்டு விதமான வழிகளை ஆராயப்போகிறோம்: குறைந்த குறியீடு/குறியீடு இல்லாமல் மற்றும் Azure ML SDK மூலம், கீழே உள்ள வரைபடத்தில் காட்டப்பட்டுள்ளபடி:
![project-schema](../../../../translated_images/ta/project-schema.736f6e403f321eb48d10242b3f4334dc6ccf0eabef8ff87daf52b89781389fcb.png)
![project-schema](../../../../translated_images/ta/project-schema.736f6e403f321eb4.webp)
ஒவ்வொரு முறையும் அதன் சொந்த நன்மைகள் மற்றும் குறைகள் உள்ளன. குறைந்த குறியீடு/குறியீடு இல்லாமல் வழி தொடங்க எளிதானது, ஏனெனில் இது GUI (Graphical User Interface) உடன் தொடர்பு கொள்ளும், குறியீடு பற்றிய முன்னோட்ட அறிவு தேவையில்லை. இந்த முறை திட்டத்தின் செயல்திறனை விரைவாக சோதிக்க மற்றும் POC (Proof Of Concept) உருவாக்க அனுமதிக்கிறது. ஆனால், திட்டம் வளரும்போது மற்றும் விஷயங்கள் உற்பத்தி தயாராக இருக்க வேண்டும், GUI மூலம் வளங்களை உருவாக்குவது சாத்தியமில்லை. எல்லாவற்றையும், வளங்களை உருவாக்குதல் முதல் மாதிரியை பிரசுரம் செய்வது வரை, நிரலாக்க முறையில் தானியக்கமாக்க வேண்டும். இதுதான் Azure ML SDK-ஐ பயன்படுத்துவது எப்படி என்பதை அறிந்து கொள்ள முக்கியமாகிறது.
@ -106,15 +106,15 @@ Azure Machine Learning-ஐப் பயன்படுத்த, உங்கள
1. [Azure போர்ட்டலில்](https://ms.portal.azure.com/) Microsoft சான்றுகளைப் பயன்படுத்தி உள்நுழைக.
2. **+ஒரு வளத்தை உருவாக்கவும்** தேர்ந்தெடுக்கவும்
![workspace-1](../../../../translated_images/ta/workspace-1.ac8694d60b073ed1ae8333d71244dc8a9b3e439d54593724f98f1beefdd27b08.png)
![workspace-1](../../../../translated_images/ta/workspace-1.ac8694d60b073ed1.webp)
Machine Learning-ஐ தேடவும் மற்றும் Machine Learning டைலை தேர்ந்தெடுக்கவும்
![workspace-2](../../../../translated_images/ta/workspace-2.ae7c486db8796147075e4a56566aa819827dd6c4c8d18d64590317c3be625f17.png)
![workspace-2](../../../../translated_images/ta/workspace-2.ae7c486db8796147.webp)
உருவாக்கு பொத்தானை அழுத்தவும்
![workspace-3](../../../../translated_images/ta/workspace-3.398ca4a5858132cce584db9df10c5a011cd9075eb182e647a77d5cac01771eea.png)
![workspace-3](../../../../translated_images/ta/workspace-3.398ca4a5858132cc.webp)
அமைப்புகளை பின்வருமாறு நிரப்பவும்:
- Subscription: உங்கள் Azure சந்தா
@ -126,17 +126,17 @@ Azure Machine Learning-ஐப் பயன்படுத்த, உங்கள
- Application insights: உங்கள் வேலைநிலைக்காக உருவாக்கப்படும் புதிய Application insights வளத்தை கவனிக்கவும்
- Container registry: இல்லை (மாதிரியை ஒரு கன்டெய்னருக்கு பிரசுரம் செய்யும் முதல் முறையில் தானாகவே ஒன்று உருவாக்கப்படும்)
![workspace-4](../../../../translated_images/ta/workspace-4.bac87f6599c4df63e624fc2608990f965887bee551d9dedc71c687b43b986b6a.png)
![workspace-4](../../../../translated_images/ta/workspace-4.bac87f6599c4df63.webp)
- உருவாக்கு + மதிப்பீடு பொத்தானை அழுத்தி பின்னர் உருவாக்கு பொத்தானை அழுத்தவும்
3. உங்கள் வேலைநிலை உருவாக்கப்படும் வரை காத்திருக்கவும் (இது சில நிமிடங்கள் ஆகலாம்). பின்னர் போர்ட்டலில் அதைத் தேடவும். Machine Learning Azure சேவையின் மூலம் அதை நீங்கள் கண்டுபிடிக்கலாம்.
4. உங்கள் வேலைநிலையின் Overview பக்கத்தில், Azure Machine Learning ஸ்டுடியோவை தொடங்கவும் (அல்லது புதிய உலாவி தாவலில் https://ml.azure.com-க்கு செல்லவும்), மற்றும் உங்கள் Microsoft கணக்கைப் பயன்படுத்தி Azure Machine Learning ஸ்டுடியோவில் உள்நுழைக. கேட்கப்பட்டால், உங்கள் Azure directory மற்றும் subscription, மற்றும் உங்கள் Azure Machine Learning வேலைநிலையைத் தேர்ந்தெடுக்கவும்.
![workspace-5](../../../../translated_images/ta/workspace-5.a6eb17e0a5e6420018b08bdaf3755ce977f96f1df3ea363d2476a9dce7e15adb.png)
![workspace-5](../../../../translated_images/ta/workspace-5.a6eb17e0a5e64200.webp)
5. Azure Machine Learning ஸ்டுடியோவில், இடைமுகத்தில் உள்ள பல்வேறு பக்கங்களைப் பார்க்க மேல் இடது ☰ ஐகானை மாற்றவும். உங்கள் வேலைநிலையின் வளங்களை மேலாண்மை செய்ய இந்த பக்கங்களை நீங்கள் பயன்படுத்தலாம்.
![workspace-6](../../../../translated_images/ta/workspace-6.8dd81fe841797ee17f8f73916769576260b16c4e17e850d277a49db35fd74a15.png)
![workspace-6](../../../../translated_images/ta/workspace-6.8dd81fe841797ee1.webp)
Azure போர்ட்டல் மூலம் உங்கள் வேலைநிலையை மேலாண்மை செய்யலாம், ஆனால் தரவியல் விஞ்ஞானிகள் மற்றும் Machine Learning செயல்பாட்டு பொறியாளர்களுக்கு, Azure Machine Learning Studio வேலைநிலை வளங்களை மேலாண்மை செய்ய ஒரு கவனம் செலுத்தப்பட்ட பயனர் இடைமுகத்தை வழங்குகிறது.
@ -180,18 +180,18 @@ Low-priority instance என்பது அது இடையூறாக இ
முந்தைய கட்டத்தில் நாம் உருவாக்கிய [Azure ML workspace](https://ml.azure.com/)க்கு செல்லவும், அங்கு கணினி என்ற பகுதியில் நீங்கள் முந்தைய விவாதத்தில் உள்ள கணினி வளங்களை (உதாரணமாக compute instances, compute clusters, inference clusters மற்றும் attached compute) காணலாம். இந்த திட்டத்திற்காக, மாதிரி பயிற்சிக்காக ஒரு கணினி க்ளஸ்டர் தேவைப்படும். Studio-வில், "Compute" மெனுவை கிளிக் செய்யவும், பின்னர் "Compute cluster" தாவலைத் தேர்ந்தெடுக்கவும் மற்றும் "+ New" பொத்தானை கிளிக் செய்து கணினி க்ளஸ்டரை உருவாக்கவும்.
![22](../../../../translated_images/ta/cluster-1.b78cb630bb543729b11f60c34d97110a263f8c27b516ba4dc47807b3cee5579f.png)
![22](../../../../translated_images/ta/cluster-1.b78cb630bb543729.webp)
1. உங்கள் விருப்பங்களைத் தேர்ந்தெடுக்கவும்: Dedicated vs Low priority, CPU அல்லது GPU, VM அளவு மற்றும் கோர் எண்ணிக்கை (இந்த திட்டத்திற்கான இயல்புநிலை அமைப்புகளை வைத்திருக்கலாம்).
2. Next பொத்தானை கிளிக் செய்யவும்.
![23](../../../../translated_images/ta/cluster-2.ea30cdbc9f926bb9e05af3fdbc1f679811c796dc2a6847f935290aec15526e88.png)
![23](../../../../translated_images/ta/cluster-2.ea30cdbc9f926bb9.webp)
3. க்ளஸ்டருக்கு ஒரு பெயரை கொடுக்கவும்.
4. உங்கள் விருப்பங்களைத் தேர்ந்தெடுக்கவும்: குறைந்தபட்ச/அதிகபட்ச நொடிகள் எண்ணிக்கை, Idle seconds before scale down, SSH access. குறைந்தபட்ச நொடிகள் எண்ணிக்கை 0 என்றால், க்ளஸ்டர் செயலற்ற நிலையில் இருக்கும் போது பணத்தைச் சேமிக்கலாம். அதிகபட்ச நொடிகள் எண்ணிக்கை அதிகமாக இருந்தால், பயிற்சி குறுகிய நேரத்தில் முடியும். அதிகபட்சமாக 3 நொடிகள் பரிந்துரைக்கப்படுகிறது.
5. "Create" பொத்தானை கிளிக் செய்யவும். இந்த படி சில நிமிடங்கள் ஆகலாம்.
![29](../../../../translated_images/ta/cluster-3.8a334bc070ec173a329ce5abd2a9d727542e83eb2347676c9af20f2c8870b3e7.png)
![29](../../../../translated_images/ta/cluster-3.8a334bc070ec173a.webp)
சிறந்தது! இப்போது நமக்கு ஒரு Compute cluster உள்ளது, நாம் தரவுகளை Azure ML Studio-க்கு ஏற்ற வேண்டும்.
@ -199,15 +199,15 @@ Low-priority instance என்பது அது இடையூறாக இ
1. முந்தைய கட்டத்தில் நாம் உருவாக்கிய [Azure ML workspace](https://ml.azure.com/)க்கு சென்று, இடது மெனுவில் "Datasets" என்பதை கிளிக் செய்து "+ Create dataset" பொத்தானை கிளிக் செய்து ஒரு dataset உருவாக்கவும். "From local files" விருப்பத்தைத் தேர்ந்தெடுத்து, முந்தைய கட்டத்தில் பதிவிறக்கம் செய்த Kaggle dataset-ஐத் தேர்ந்தெடுக்கவும்.
![24](../../../../translated_images/ta/dataset-1.e86ab4e10907a6e9c2a72577b51db35f13689cb33702337b8b7032f2ef76dac2.png)
![24](../../../../translated_images/ta/dataset-1.e86ab4e10907a6e9.webp)
2. உங்கள் dataset-க்கு ஒரு பெயர், ஒரு வகை மற்றும் ஒரு விளக்கத்தை கொடுக்கவும். Next என்பதை கிளிக் செய்யவும். கோப்புகளில் இருந்து தரவுகளைப் பதிவேற்றவும். Next என்பதை கிளிக் செய்யவும்.
![25](../../../../translated_images/ta/dataset-2.f58de1c435d5bf9ccb16ccc5f5d4380eb2b50affca85cfbf4f97562bdab99f77.png)
![25](../../../../translated_images/ta/dataset-2.f58de1c435d5bf9c.webp)
3. Schema-வில், anaemia, diabetes, high blood pressure, sex, smoking, மற்றும் DEATH_EVENT ஆகிய அம்சங்களுக்கு Boolean தரவுத் வகையை மாற்றவும். Next என்பதை கிளிக் செய்து Create என்பதை கிளிக் செய்யவும்.
![26](../../../../translated_images/ta/dataset-3.58db8c0eb783e89236a02bbce5bb4ba808d081a87d994d5284b1ae59928c95bf.png)
![26](../../../../translated_images/ta/dataset-3.58db8c0eb783e892.webp)
சிறந்தது! இப்போது dataset இடத்தில் உள்ளது மற்றும் கணினி க்ளஸ்டர் உருவாக்கப்பட்டுள்ளது, நாம் மாதிரியைப் பயிற்சி செய்யத் தொடங்கலாம்!
@ -218,19 +218,19 @@ Automated machine learning (AutoML) என்பது இயந்திர க
1. முந்தைய கட்டத்தில் நாம் உருவாக்கிய [Azure ML workspace](https://ml.azure.com/)க்கு சென்று, இடது மெனுவில் "Automated ML" என்பதை கிளிக் செய்து, நீங்கள் பதிவேற்றிய dataset-ஐத் தேர்ந்தெடுக்கவும். Next என்பதை கிளிக் செய்யவும்.
![27](../../../../translated_images/ta/aml-1.67281a85d3a1e2f34eb367b2d0f74e1039d13396e510f363cd8766632106d1ec.png)
![27](../../../../translated_images/ta/aml-1.67281a85d3a1e2f3.webp)
2. புதிய முயற்சி பெயரை, இலக்கு நெடுவரிசை (DEATH_EVENT) மற்றும் நாம் உருவாக்கிய கணினி க்ளஸ்டரை உள்ளிடவும். Next என்பதை கிளிக் செய்யவும்.
![28](../../../../translated_images/ta/aml-2.c9fb9cffb39ccbbe21ab9810ae937195d41a489744e15cff2b8477ed4dcae1ec.png)
![28](../../../../translated_images/ta/aml-2.c9fb9cffb39ccbbe.webp)
3. "Classification" என்பதைத் தேர்ந்தெடுத்து Finish என்பதை கிளிக் செய்யவும். இந்த படி 30 நிமிடங்கள் முதல் 1 மணி நேரம் வரை ஆகலாம், உங்கள் கணினி க்ளஸ்டர் அளவைப் பொறுத்து.
![30](../../../../translated_images/ta/aml-3.a7952e4295f38cc6cdb0c7ed6dc71ea756b7fb5697ec126bc1220f87c5fa9231.png)
![30](../../../../translated_images/ta/aml-3.a7952e4295f38cc6.webp)
4. செயல்பாடு முடிந்தவுடன், "Automated ML" தாவலை கிளிக் செய்து, உங்கள் செயல்பாட்டைத் தேர்ந்தெடுத்து, "Best model summary" கார்டில் உள்ள Algorithm-ஐ கிளிக் செய்யவும்.
![31](../../../../translated_images/ta/aml-4.7a627e09cb6f16d0aa246059d9faee3d1725cc4258d0c8df15e801f73afc7e2c.png)
![31](../../../../translated_images/ta/aml-4.7a627e09cb6f16d0.webp)
இங்கே AutoML உருவாக்கிய சிறந்த மாதிரியின் விரிவான விளக்கத்தை நீங்கள் காணலாம். மேலும், Models தாவலில் உருவாக்கப்பட்ட பிற மாதிரிகளை ஆராயலாம். சில நிமிடங்கள் எடுத்துக்கொண்டு மாதிரிகளை Explanations (preview button) பகுதியில் ஆராயவும். நீங்கள் பயன்படுத்த விரும்பும் மாதிரியைத் தேர்ந்தெடுத்த பிறகு (இங்கே நாம் AutoML தேர்ந்தெடுத்த சிறந்த மாதிரியைத் தேர்ந்தெடுப்போம்), அதை எவ்வாறு பிரசுரிக்கலாம் என்பதைப் பார்ப்போம்.
@ -241,7 +241,7 @@ Automated machine learning இடைமுகம் சிறந்த மாத
சிறந்த மாதிரி விளக்கத்தில், "Deploy" பொத்தானை கிளிக் செய்யவும்.
![deploy-1](../../../../translated_images/ta/deploy-1.ddad725acadc84e34553c3d09e727160faeb32527a9fb8b904c0f99235a34bb6.png)
![deploy-1](../../../../translated_images/ta/deploy-1.ddad725acadc84e3.webp)
15. அதற்கு ஒரு பெயர், விளக்கம், கணினி வகை (Azure Container Instance), அங்கீகாரத்தை இயக்கவும் மற்றும் Deploy என்பதை கிளிக் செய்யவும்.

@ -48,7 +48,7 @@ SDK-யின் முக்கிய பகுதிகள்:
[முந்தைய பாடத்தில்](../18-Low-Code/README.md), குறைந்த குறியீடு/குறியீடு இல்லாத முறையில் மாதிரியை பயிற்சி செய்ய, பிரசாரம் செய்ய மற்றும் பயன்படுத்துவது எப்படி என்பதைப் பார்த்தோம். இதய செயலிழப்பு தரவுத்தொகுப்பைப் பயன்படுத்தி இதய செயலிழப்பு கணிப்பு மாதிரியை உருவாக்கினோம். இந்த பாடத்தில், அதே செயல்முறையை Azure Machine Learning SDK-ஐப் பயன்படுத்தி செய்வோம்.
![திட்டம் வரைபடம்](../../../../translated_images/ta/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![திட்டம் வரைபடம்](../../../../translated_images/ta/project-schema.420e56d495624541.webp)
### 1.2 இதய செயலிழப்பு கணிப்பு திட்டம் மற்றும் தரவுத்தொகுப்பு அறிமுகம்
@ -66,7 +66,7 @@ SDK-யின் முக்கிய பகுதிகள்:
நாம் முன்பு உருவாக்கிய [Azure ML வேலைப்பகுதியில்](https://ml.azure.com/), கணிப்பொறி மெனுவுக்கு சென்று கிடைக்கும் கணிப்பொறி வளங்களைப் பாருங்கள்.
![கணிப்பொறி உதாரணம் 1](../../../../translated_images/ta/compute-instance-1.dba347cb199ca4996b3e3d649295ed95626ba481479d3986557b9b98e76d8816.png)
![கணிப்பொறி உதாரணம் 1](../../../../translated_images/ta/compute-instance-1.dba347cb199ca499.webp)
Jupyter Notebook-ஐ வழங்க ஒரு கணிப்பொறி உதாரணத்தை உருவாக்குவோம்.
1. + New பொத்தானை அழுத்தவும்.
@ -90,10 +90,10 @@ Jupyter Notebook-ஐ வழங்க ஒரு கணிப்பொறி உ
1. Applications பிரிவில், Jupyter விருப்பத்தை கிளிக் செய்யவும்.
2. "Yes, I understand" பெட்டியை அடையாளமிடி மற்றும் Continue பொத்தானை அழுத்தவும்.
![நோட்புக் 1](../../../../translated_images/ta/notebook-1.12998af7b02c83f536c11b3aeba561be16e0f05e94146600728ec64270ce1105.png)
![நோட்புக் 1](../../../../translated_images/ta/notebook-1.12998af7b02c83f5.webp)
3. இது உங்கள் Jupyter Notebook உதாரணத்துடன் புதிய உலாவி தாவலைத் திறக்கும். "New" பொத்தானை அழுத்தி ஒரு நோட்புக் உருவாக்கவும்.
![நோட்புக் 2](../../../../translated_images/ta/notebook-2.9a657c037e34f1cf26c0212f5ee9e2da8545b3e107c7682c55114e494167a8aa.png)
![நோட்புக் 2](../../../../translated_images/ta/notebook-2.9a657c037e34f1cf.webp)
இப்போது, நமக்கு ஒரு நோட்புக் உள்ளது. Azure ML SDK-யுடன் மாதிரியை பயிற்சி செய்ய தொடங்கலாம்.

@ -1,12 +1,12 @@
# கிளவுடில் தரவியல் அறிவியல்
![cloud-picture](../../../translated_images/ta/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/ta/cloud-picture.f5526de3c6c6387b.webp)
> படம் [Jelleke Vanooteghem](https://unsplash.com/@ilumire) மூலம் [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) இல் இருந்து
பெரிய தரவுகளுடன் தரவியல் அறிவியல் செய்யும்போது, கிளவுட் ஒரு முக்கிய மாற்றத்தை ஏற்படுத்த முடியும். அடுத்த மூன்று பாடங்களில், கிளவுட் என்ன மற்றும் அது ஏன் மிகவும் பயனுள்ளதாக இருக்க முடியும் என்பதை நாம் காணப்போகிறோம். மேலும், நாங்கள் ஒரு இதய செயலிழப்பு தரவுத்தொகுப்பை ஆராய்ந்து, ஒருவருக்கு இதய செயலிழப்பு ஏற்படும் சாத்தியத்தை மதிப்பீடு செய்ய உதவும் ஒரு மாதிரியை உருவாக்கப் போகிறோம். கிளவுட்டின் சக்தியை பயன்படுத்தி, இரண்டு விதங்களில் ஒரு மாதிரியை பயிற்சி, வெளியிட மற்றும் பயன்படுத்தப் போகிறோம். ஒன்று, "குறைந்த குறியீடு/குறியீடு இல்லாத" முறையில் பயனர் இடைமுகத்தை மட்டுமே பயன்படுத்துவது; மற்றொன்று, Azure Machine Learning Software Developer Kit (Azure ML SDK) பயன்படுத்துவது.
![project-schema](../../../translated_images/ta/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/ta/project-schema.420e56d495624541.webp)
### தலைப்புகள்

@ -32,7 +32,7 @@ AI-யின் ஜனநாயகமயமாக்கலுக்கு நன
* [சுகாதாரத்தில் தரவியல் அறிவியல்](https://data-flair.training/blogs/data-science-in-healthcare/) - மருத்துவ படங்கள் (எ.கா., MRI, X-Ray, CT-Scan), ஜீனோமிக்ஸ் (DNA வரிசைப்படுத்தல்), மருந்து மேம்பாடு (அபாய மதிப்பீடு, வெற்றியின் கணிப்பு), முன்கூட்டிய கணிப்புகள் (நோயாளி பராமரிப்பு & வழங்கல் தளவாடங்கள்), நோய் கண்காணிப்பு மற்றும் தடுப்பு போன்ற பயன்பாடுகளை விளக்குகிறது.
![உண்மையான உலகில் தரவியல் அறிவியல் பயன்பாடுகள்](../../../../translated_images/ta/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) படத்தின் உரிமை: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![உண்மையான உலகில் தரவியல் அறிவியல் பயன்பாடுகள்](../../../../translated_images/ta/data-science-applications.4e5019cd8790ebac.webp) படத்தின் உரிமை: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
இந்த படத்தில் தரவியல் அறிவியல் தொழில்நுட்பங்களைப் பயன்படுத்துவதற்கான பிற துறைகள் மற்றும் உதாரணங்கள் காட்டப்படுகின்றன. பிற பயன்பாடுகளை ஆராய விரும்புகிறீர்களா? கீழே உள்ள [மதிப்பீடு & சுய கற்றல்](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) பிரிவைப் பாருங்கள்.

@ -13,7 +13,7 @@ Explorer இடைமுகம் (கீழே உள்ள ஸ்கிரீ
2. [Catalog](https://planetarycomputer.microsoft.com/catalog) தரவுத்தொகுப்பை ஆராயவும் - ஒவ்வொன்றின் நோக்கத்தை அறியவும்.
3. Explorer ஐப் பயன்படுத்தவும் - உங்களுக்கு விருப்பமான ஒரு தரவுத்தொகுப்பைத் தேர்ந்தெடுக்கவும், தொடர்புடைய கேள்வி மற்றும் காட்சிப்படுத்தல் விருப்பத்தைத் தேர்ந்தெடுக்கவும்.
![The Planetary Computer Explorer](../../../../translated_images/ta/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![The Planetary Computer Explorer](../../../../translated_images/ta/planetary-computer-explorer.c1e95a9b053167d6.webp)
`உங்கள் பணி:`
இப்போது உலாவியில் உருவாக்கப்படும் காட்சிப்படுத்தலை ஆராய்ந்து, பின்வரும் கேள்விகளுக்கு பதிலளிக்கவும்:

@ -1,173 +1,216 @@
# தொடக்க நிலை தரவு அறிவியல் - பாடத்திட்டம்
# துவக்கக்காரர்களுக்கான தரவு அறிவியல் - ஒரு பாடத்திட்டம்
[![GitHub Codespaces-ல் திறக்கவும்](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub உரிமை](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub பங்களிப்பாளர்கள்](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub பிரச்சினைகள்](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub தள்ளுபடி கோரிக்கைகள்](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs வரவேற்கப்படுகின்றன](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub பார்வையிடுவோர்](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub கிளோன்கள்](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub நட்சத்திரங்கள்](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Microsoft இல் Azure Cloud ஆதரவாளர்கள் தரவு அறிவியலைக் குறித்து 10 வாரங்கள், 20 பாடங்களைக் கொண்ட ஒரு முழுமையான பாடத்திட்டத்தை வழங்க மனதில் கள்ளும். ஒவ்வொரு பாடத்திலும் முன்-பாட, பின்-பாட க்விச்கள், பாடத்தை முடிக்க எழுதப்பட்ட வழிகாட்டிகள், ஒருங்குறிப்பு மற்றும் பணியிலும் உண்டு. எங்கள் திட்டமேற்பாடும் கற்றல் முறையில், நீங்கள் கட்டுக்கோப்புகளைக் கொண்டு கற்றுக்கொள்வதில், புதிய திறன்கள் சிறந்த முறையில் 'இணைந்து' கற்றுக் கொள்ளக் கூடியது.
**எங்கள் எழுத்தாளர்களுக்கு இதயப்பூர்வமான நன்றி:** [ஜாஸ்மின் கிரீன்வே](https://www.twitter.com/paladique), [த்மித்ரி சோஷ்னிகோவ்](http://soshnikov.com), [நித்யா நரசிமன்](https://twitter.com/nitya), [ஜாலன் மேகி](https://twitter.com/JalenMcG), [ஜென் லூப்பர்](https://twitter.com/jenlooper), [மாட் லீவி](https://twitter.com/maudstweets), [டிபானி சௌட்டர்](https://twitter.com/TiffanySouterre), [கிரிஸ்தோபர் ஹாரிசன்](https://www.twitter.com/geektrainer).
**🙏 சிறப்பு நன்றி 🙏 எங்கள் [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) எழுத்தாளர்கள், விமர்சகர்கள் மற்றும் உள்ளடக்க பங்களிப்பாளர்களுக்கு,** குறிப்பாக ஆரியன் அரோரா, [அதித்யா கார்க்](https://github.com/AdityaGarg00), [அலோந்திரா சான்சஸ்](https://www.linkedin.com/in/alondra-sanchez-molina/), [அங்கிதா சிங்](https://www.linkedin.com/in/ankitasingh007), [அனுபம் மிஷ்ரா](https://www.linkedin.com/in/anupam--mishra/), [அர்பிதா தாஸ்](https://www.linkedin.com/in/arpitadas01/), சைல் பிஹாரி டுபே, [டிப்ரின்சோபர்](https://www.linkedin.com/in/dibrinsofor), [திஷிதா பாசின்](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [மஜ்த் ஸாஃபி](https://www.linkedin.com/in/majd-s/), [மெக்ஸ் பிளம்](https://www.linkedin.com/in/max-blum-6036a1186/), [மிகேள் கோரியா](https://www.linkedin.com/in/miguelmque/), [மொஹம்மா இப்தேக்கர் (இப்து) எப்ன ஜலால்](https://twitter.com/iftu119), [நவ்ரின் தபசூம்](https://www.linkedin.com/in/nawrin-tabassum), [ரெய்மொண்ட் வாங்சா புட்ரா](https://www.linkedin.com/in/raymond-wp/), [ரோஹித் யார்தவ்](https://www.linkedin.com/in/rty2423), சம்ரிதி மாதர்மா, [சன்யா சின்ஹா](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[ஷீனா நருலா](https://www.linkedin.com/in/sheena-narua-n/), [தௌகீர் அகமத்](https://www.linkedin.com/in/tauqeerahmad5201/), யோகேந்திரசிங் பவர், [விதுஷி குப்தா](https://www.linkedin.com/in/vidushi-gupta07/), [ஜாஸ்லின் சோண்டி](https://www.linkedin.com/in/jasleen-sondhi/)
|![@sketchthedocs உடைய ஸ்கெட்ச் குறிப்பு https://sketchthedocs.dev](../../translated_images/ta/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| துவக்கக்காரர்களுக்கான தரவு அறிவியல் - _ஸ்கெட்ச் குறிப்பு [@nitya](https://twitter.com/nitya) என்பவரால்_ |
### 🌐 பன்மொழி ஆதரவு
#### GitHub செயல் மூலம் ஆதரிக்கப்படுகிறது (தானியங்கி மற்றும் எப்போதும் புதுப்பிக்கப்பட்டது)
#### GitHub செயல்பாட்டின் மூலம் ஆதரிக்கப்படுகிறது (தானியங்கி மற்றும் எப்போதும் புதுப்பிக்கப்பட்டது)
> **உள்ளூரில் கிளோன் செய்வதற்கு விருப்பமா?**
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[அரபிக்](../ar/README.md) | [பெங்கள்](../bn/README.md) | [பல்கேரியன்](../bg/README.md) | [புர்மீஸ் (மியான்மார்)](../my/README.md) | [சீன (எளிமைப்படுத்திய)](../zh-CN/README.md) | [சீன (பாரம்பரிய, ஹோங்காங்)](../zh-HK/README.md) | [சீன (பாரம்பரிய, மாகாவ்)](../zh-MO/README.md) | [சீன (பாரம்பரிய, தைவான்)](../zh-TW/README.md) | [குரோஷியன்](../hr/README.md) | [செக்](../cs/README.md) | [டேனிஷ்](../da/README.md) | [டச்சு](../nl/README.md) | [எஸ்டோனியன்](../et/README.md) | [பின்னிஷ்](../fi/README.md) | [பிரெஞ்சு](../fr/README.md) | [ஜெர்மன்](../de/README.md) | [கிரேக்கு](../el/README.md) | [ஹீப்ரூ](../he/README.md) | [இந்தி](../hi/README.md) | [ஹங்கேரியன்](../hu/README.md) | [இந்தோனேசியன்](../id/README.md) | [இத்தாலியன்](../it/README.md) | [ஜப்பானீஸ்](../ja/README.md) | [கன்னடம்](../kn/README.md) | [கொரியன்](../ko/README.md) | [லித்துவேனியன்](../lt/README.md) | [மலே](../ms/README.md) | [மலையாளம்](../ml/README.md) | [மராத்தி](../mr/README.md) | [நேபாளி](../ne/README.md) | [நைஜீரியன் பிட்கின்](../pcm/README.md) | [நார்வேஜியன்](../no/README.md) | [பெர்ஷியன் (பார்சி)](../fa/README.md) | [போலிஷ்](../pl/README.md) | [போர்ச்சுகீ (பிரேசில்)](../pt-BR/README.md) | [போர்ச்சுகீ (போர்ச்சுகல்)](../pt-PT/README.md) | [பஞ்சாபி (குருமுகி)](../pa/README.md) | [ரோமனியன்](../ro/README.md) | [ரஷ்யன்](../ru/README.md) | [சேர்பியன் (சிரிலிக்)](../sr/README.md) | [ஸ்லோவேக்](../sk/README.md) | [ஸ்லோவீனியன்](../sl/README.md) | [ஸ்பானிஷ்](../es/README.md) | [ஸ்வாஹிலி](../sw/README.md) | [ஸ்வீடிஷ்](../sv/README.md) | [டாகாலாக் (பிலிப்பைனோ)](../tl/README.md) | [தமிழ்](./README.md) | [தெலுங்கு](../te/README.md) | [தாய்](../th/README.md) | [துருக்கி](../tr/README.md) | [உக்ரைனியன்](../uk/README.md) | [உருது](../ur/README.md) | [வியட்நாமீஸ்](../vi/README.md)
> இந்த ரெப்போ 50+ மொழித் தரவுகளை உள்ளடக்கியுள்ளது, இது பதிவிறக்க வலுவை குறிப்பிடத்தகுந்த அளவு அதிகரிக்கிறது. மொழிபெயர்ப்புகள் இல்லாமல் கிளோன் செய்ய, sparse checkout பயன்படுத்தவும்:
> **உள்ளூரில் கிளோன் செய்வதா?**
>
> இந்த ரெப்போசிடரி 50+ மொழி மொழிபெயர்ப்புகளைக் கொண்டுள்ளது, இது பதிவிறக்களவை குறிப்பிடத்தக்கவாறு அதிகரிக்கும். மொழிபெயர்ப்புகள் இல்லாமல் கிளோன் செய்ய sparse checkout பயன்படுத்தவும்:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> இது நீங்கள் பாடத்திட்டத்தைக் கையாள மிக விரைந்த பதிவிறக்கம் அளிக்கும்.
>
> **CMD (விண்டோஸ்):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> இது பாடத்திட்டத்தை முடிக்க தேவையான எல்லாத்தையும் வேகமாக பதிவிறக்கம் செய்ய உதவும்.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**மேலும் மொழிபெயர்ப்புகளை ஆதரிக்க விரும்பின், அவை இங்கே பட்டியலிடப்பட்டுள்ளன [இங்கே](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**மேலும் மொழி மொழிபெயர்ப்புகளை ஆதரிக்க விரும்பினால், அவை [இங்கே](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) பட்டியலிடப்பட்டுள்ளன**
#### எங்கள் சமூகத்தில் சேரவும்
#### எங்கள் சமுதாயத்தில் சேருங்கள
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
AI தோழமை படிப்புகளை வழங்கும் டிஸ்கோர்ட்டு தொடர்ச்சி நடப்பதாக உள்ளது, மேலும் அறிந்து கலந்து கொள்ள [Learn with AI Series](https://aka.ms/learnwithai/discord) இல் செப்டம்பர் 18 - 30, 2025 இடையே கலந்துகொள்ளுங்கள். தரவு அறிவியலுக்கான GitHub Copilot பயன்படுத்துவதற்கான குறிப்புகள் மற்றும் வழிமுறைகளை பெறுவீர்கள்.
எங்களிடம் AI-இன் உதவியுடன் நடைபெறும் ஒரு Discord கற்றல் தொடர் உள்ளது, மேலும் அறிந்து, [Learn with AI Series](https://aka.ms/learnwithai/discord) இணைந்து 18 - 30 செப்டம்பர், 2025 வரை தொடருங்கள். GitHub Copilot-ஐ தரவு அறிவியலுக்காக பயன்படுத்துவதற்கான குறிப்புகள் மற்றும் முறைகளை நீங்கள் பெறுவீர்கள்.
![Learn with AI series](../../translated_images/ta/1.2b28cdc6205e26fe.webp)
# நீங்கள் ஒரு மாணவரா?
# நீங்கள் மாணவரா?
இதைக் கொண்டு துவங்கவும்:
கீழ்காணும் வளங்களுடன் துவங்குங்கள்:
- [மாணவர் மைய பக்கம்](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) - இங்கே துவக்கத்திற்கான வளங்கள், மாணவர் தொகுப்புகள் மற்றும் இலவச சான்றிதழ் வவுச்சர் பெறும் வழிகளையும் காணலாம். மாதம் ஒரு முறை உள்ளடக்கம் மாற்றப்படும் என்பதால் இந்தப் பக்கத்தை குறியிடவும் மற்றும் முறையாக பாருங்கள்.
- [Microsoft Learn மாணவர் தூதர்கள்](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) - மாணவர் தூதர்கள் உலகளாவிய சமுதாயத்தில் சேரவும்; இது Microsoft இல் உங்களுக்கான வாயிலாக இருக்கலாம்.
- [மாணவர் ஹப் பக்கம்](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) இந்தப் பக்கத்தில் துவக்கம் செய்யக் கூடிய வளங்கள், மாணவர் தொகுப்புகள் மற்றும் இலவச சான்றிதழ் வௌ்ச்சர் பெறும் வழிகளும் உண்டாகும். மாதந்தோறும் உள்ளடக்கம் மாற்றப்படுவதால், இந்தப் பக்கத்தை பேக் மார்க் செய்து சமீப கால இடைவெளிகளில் பரிசோதனை செய்யவும்.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) உலகளாவிய மாணவர் தூதரகக் குழுவில் சேரவும், இது உங்கள் Microsoft உள்வாயிலாக இருக்கலாம்.
# துவக்கல்
# துவக்குதல்
## 📚 ஆவணங்கள்
- **[நிறுவல் வழிகாட்டி](INSTALLATION.md)** - தொடக்க நிலைக்கு படிப்படியான அமைப்பு வழிகாட்டிகள்
- **[பயன்பாட்டு வழிகாட்டி](USAGE.md)** - எடுத்துக்காட்டுகள் மற்றும் பொதுவான பணிப்பழக்கங்கள்
- **[சிக்கல் தீர்வு](TROUBLESHOOTING.md)** - பொதுவான பிரச்சனைகளுக்கான தீர்வுகள்
- **[ஒருங்கிணைப்புக் கையேடு](CONTRIBUTING.md)** - இந்தத் திட்டத்தில் எப்படி பங்களிக்கலாம்
- **[ஆசிரியர்களுக்கானது](for-teachers.md)** - கற்பித்தல் வழிகாட்டி மற்றும் வகுப்பு வளங்கள்
- **[நிறுவல் கையேடு](INSTALLATION.md)** - துவக்கக்காரர்களுக்கான படி-படி அமைப்பு வழிமுறைகள்
- **[பயன்பாட்டு கையேடு](USAGE.md)** - எடுத்துக்காட்டு மற்றும் பொதுவான பணிச்சூழல்கள்
- **[பிரச்சனை தீர்வு](TROUBLESHOOTING.md)** - பொதுவான பிரச்சனைகளுக்கான தீர்வுகள்
- **[பங்களிப்பு வழிமுறை](CONTRIBUTING.md)** - இந்த திட்டத்திற்கு பங்களிப்பது எப்படி
- **[ஆசிரியர்களுக்கா](for-teachers.md)** - கற்பித்தல் வழிகாட்டி மற்றும் வகுப்பறை வளங்கள்
## 👨‍🎓 மாணவர்களுக்க
> **முழு புதியவர்கள்**: தரவு அறிவியலில் புதியவரா? எங்கள் [ொடக்க நிலை எடுத்துக்காட்டுகள்](examples/README.md) மூலம் ஆரம்பிக்கவும்! இவை எளிமையான, நன்கு கூறிய எடுத்துக்காட்டுகள், முழு பாடத்திட்டத்தை திறந்து கற்கும் முன் அடிப்படைகளை புரிந்துகொள்ள உதவும்.
> **[மாணவர்கள்](https://aka.ms/student-page)**: இந்த பாடத்திட்டத்தை தனியாக பயன்படுத்த, முழு ரெப்போவை ஃபோர்க் செய்து, முன்னுரை குவைத்தல் (pre-lecture quiz) இடத்திலிருந்து நடவடிக்கை எடுத்து பயிற்சிகளை முடிக்கவும். பிறகு பாடத்தைக் கற்றுகொண்டு மற்ற அனைத்து நடவடிக்கைகளையும் முடிக்கவும். தீர்வு கோடுகளை நகல் எடுக்காமல் பாடங்களை புரிந்து கொண்டு திட்டங்களை உருவாக்க முயல்வது நல்லது; ஆனால் அந்தக் கோடுகள் ஒவ்வொரு திட்ட சார்ந்த பாடத்திலும் /solutions கோப்புறையில் கிடைகிறது. கூடுதலாக, நண்பர்களுடன் படிப்பு குழுவை அமைத்து சேர்ந்துகொண்டு உள்ளடக்கத்தைப் பகிர்ந்து கற்றுக்கொள்ளலாம். மேலும்அடிப்படைக்கு [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) பரிந்துரைக்கப்படுகிறது.
## 👨‍🎓 மாணவர்களுக்காக
> **முழுமையான துவக்கக்காரர்கள்**: தரவு அறிவியலில் புதியவரா? எங்கள் [ுவக்கக்காரர்களுக்கு ஏற்ப எடுத்துக்காட்டுகளை](examples/README.md) தொடங்குங்கள்! இந்த எளிய, நன்கு கருத்துரை செய்யப்பட்ட எடுத்துக்காட்டுகள் முழு பாடத்திட்டத்தில் சென்று சேருவதற்கு முன்னர் அடிப்படைகளை புரிந்து கொள்ள உதவும்.
> **[மாணவர்கள்](https://aka.ms/student-page)**: உங்கள் சொந்தமாக இந்த பாடத்திட்டத்தை பயன்படுத்த, முற்றிலும் ரெப்போவை கால் செய்து உங்கள் சொந்தபடி பயிற்சிகளை முடிக்கவும், முன்னும்-அறைகளுக்கான க்விசைத் தொடங்கி. பின்னர் போதனையைப் படித்து மற்ற செயல்களை முடிக்கவும். தீர்வு குறியீட்டை நகலெடுக்காமல் பாடங்களை புரிந்து கொண்டு திட்டங்களை உருவாக்க முயற்சிக்கவும்; ஆனால் அந்த குறியீடு ஒவ்வொரு திட்ட சார்ந்த பாடத்திலும் /solutions கோப்புறையில் உள்ளது. மேலும், நண்பர்களுடன் ஒரு படிப்புக் குழு அமைத்து உள்ளடக்கத்தை ஒன்றாகக் கொண்டு செல்லும் வழியும் உள்ளது. மேலதிக படிப்புக்கு, [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) பரிந்துரைக்கப்படுகிறது.
**நீண்ட வேகமாக துவங்க:**
1. உங்கள் சூழலை அமைக்கும் [நிறுவல் வழிகாட்டி](INSTALLATION.md) ஐப் பாருங்கள்
2. பாடத்திட்டத்துடன் பணியாற்ற [பயன்பாட்டு வழிகாட்டி](USAGE.md) ஐ எதிர்பாருங்கள்
3. பாடம் 1 முதல் தொடங்கி வரிசைப்படி செய்து முடிக்கவும்
4. ஆதரவுக்கு எங்கள் [டிஸ்கோர்டு சமுதாயம்](https://aka.ms/ds4beginners/discord)ல் சேரவும்
**விரைவான துவக்கம்:**
1. உங்கள் சுற்றுப்புறத்தை அமைக்க [நிறுவல் கையேட்டை](INSTALLATION.md) பரிசோதிக்கவும்
2. பாடத்திட்டத்தைப் பயன்படுத்த [பயன்பாட்டு கையேட்டைக்](USAGE.md) கற்றுக்கொள்ளவும்
3. பாடம் 1-ல் தொடங்கி வரிசையாக செயல்படவும்
4. ஆதரப்புக்கு எங்கள் [Discord சமுதாயத்தில்](https://aka.ms/ds4beginners/discord) சேரவும்
## 👩‍🏫 ஆசிரியர்களுக்கு
## 👩‍🏫 ஆசிரியர்களுக்காக
> **ஆசிரியர்கள்**: இந்த பாடத்திட்டத்தை எப்படி பயன்படுத்துவது என்பது குறித்து [சில ஆலோசனைகள்](for-teachers.md) சேர்க்கப்பட்டுள்ளன. உங்கள் கருத்துக்களை [எங்கள் விவாத மன்றத்தில்](https://github.com/microsoft/Data-Science-For-Beginners/discussions) பகிர்ந்துகொள்ளும்படி கேட்கிறோம்!
> **ஆசிரியர் நண்பர்களுக்கு**: இந்த பாடத்திட்டம் எப்படி பயன்படுத்துவது என்பதற்கான சில பரிந்துரைகளுடன் [நாங்கள் இங்கே சேர்த்துள்ளோம்](for-teachers.md). உங்கள் கருத்துக்களை எங்கள் விவாத களத்தில் [பகிரவும்](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## குழுவை சந்திக்கவும்
[![பிரமோ வீடியோ](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "பிரமோ வீடியோ")
[![பிரச்சார வீடியோ](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "பிரச்சார வீடியோ")
**கிஃப்ஃபை உருவாக்கியவர்** [மோகித் ஜசால்](https://www.linkedin.com/in/mohitjaisal)
**கிஃப் உருவாக்கியவர்** [மோகித் ஜெய்சால்](https://www.linkedin.com/in/mohitjaisal)
> 🎥 மேலே உள்ள படத்தை கிளிக் செய்து திட்டத்தைப் பற்றிய மற்றும் அதை உருவாக்கிய நபர்களைப் பற்றிய வீடியோவைப் பாருங்கள்!
> 🎥 மேலே உள்ள படத்தை கிளிக் செய்து இந்த திட்டம் மற்றும் அதை உருவாக்கியோருக்கு 관한 காணொளி பார்க்கவும்!
## கற்பித்தல் முறைகள்
## கல்விசார் முறைகள்
இந்த பாடத்திட்டத்தை உருவாக்கும்போது இரண்டு கற்பித்தல் அடிப்படைகளைத் தேர்ந்தெடுத்துள்ளோம்: அது திட்ட அடிப்படையிலானதாக இருக்க வேண்டும் மற்றும் அதில் அடிக்கடி வினாக்கள் உள்ளடக்கக வேண்டும். இந்த தொடர் முடிவின்போது, மாணவர்கள் தரவு அறிவியல் பற்றிய அடிப்படை 원칙ங்களை கற்றுக்கொள்வார்கள், அதில் ஒழுங்கு நெறிக்கைகள், தரவு தயார் செய்தல், தரவுடன் பணியாற்றும் பல்வேறு முறைகள், தரவு காட்சிப்படுத்தல், தரவு பகுப்பாய்வு, தரவு அறிவியலின் நடைமுறை பயன்பாடுகள் மற்றும் பல அடங்கும்.
இந்த பாடத்திட்டத்தை உருவாக்கும்போது இரண்டு கல்விசார் கொள்கைகளை தேர்ந்தெடுத்துள்ளோம்: இது திட்டத்துடன் தொடர்புடையதாக இருக்க வேண்டும் மற்றும் அதில் அடிக்கடி வினாக்களைக் கொணடிருக்க வேண்டும். இந்த தொடர் முடிவில், மாணவர்கள் தரவியல் அறிவியலின் அடிப்படையான கொள்கைகள், ஒழுக்க நெறிகள், தரவு தயாரிப்பு, தரவுடன் வேலை செய்யும் விதிகள், தரவு காட்சியமைப்பு, தரவு பகுப்பு, தரவியல் அறிவியலின் உலகளாவிய பயன்பாடுகள் மற்றும் பலவற்றை கற்றுக்கொள்ளமுடியும்.
மேலும், ஒரு வகுப்பிற்கு முன் நடைபெறும் குறைந்த முக்கியத்துவம் வாய்ந்த வினாதாரம் மாணவரின் ஒரு பொருள் கற்றல் நோக்கத்தை அமைக்கிறது, மறுபடி வகுப்பிற்குப் பிறகு நடைபெறும் இரண்டாம் வினாதாரமும் மேலதிக நினைவாற்றலை உறுதிப்படுத்துகிறது. இந்த பாடத்திட்டம் நெகிழ்வானதும் கவர்ச்சியூட்டுவதுமானதும் வடிவமைக்கப்பட்டுள்ளது மற்றும் முழுமையா அல்லது பகுதி வாரியாக எடுத்துக்கொள்ளலாம். திட்டங்கள் சிறிய அளவில் துவங்கி, 10 வாரச் சுழற்சியின் இறுதிக்குள் அதிகமாக சிக்கலாகின்றன.
மேலும், ஒரு வகுப்புக்கு முன் குறைந்த பளிச்சியான வினா ஒரு மாணவரின் ஒரு தலைப்பை கற்கும் நோக்கத்தை அமைக்க உதவுகிறது, அதேபோல் வகுப்பு முடிந்த பின்னர் இரண்டாவது வினா மேலதிக நினைவாற்றலை உறுதி செய்கிறது. இந்த பாடத்திட்டம் நெகிழ்வுடனும், மகிழ்ச்சியாகவும் இருக்க வடிவமைக்கப்பட்டுள்ளது மற்றும் முழுவதும் அல்லது ஒரு பகுதியையும் எடுத்துக் கொள்ளலாம். திட்டங்கள் சிறிய அளவில் துவங்கி 10 வார சுழற்சியின் இறுதிக்கு அதிகப்படியான சிக்கலானதாக மாறுகின்றன.
> நமது [நடைமுறை விதிகள்](CODE_OF_CONDUCT.md), [தொகுப்புகள்](CONTRIBUTING.md), [மொழிபெயர்ப்பு வழிகாட்டுதல்கள்](TRANSLATIONS.md) கண்டு பிடியுங்கள். உங்கள் கட்டுமான பின்னூட்டத்தை வரவேற்கிறோம்!
> எங்கள் [நடத்தை குறைந்த செயல்முறை](CODE_OF_CONDUCT.md), [கொடைப்பு](CONTRIBUTING.md), [மொழிபெயர்ப்பு](TRANSLATIONS.md) வழிகாட்டுதல்களை காண்க. உறுதியான கருத்துக்களை வரவேற்கிறோம்!
## ஒவ்வொரு பாடத்திலும் உள்ளவை:
## ஒவ்வொரு பாடத்திலும் அடங்கும்:
- விருப்பமான ஸ்கெட்ச்னோட்
- விருப்பமான கூடுதல் வீடியோ
- பாடம் முன்னர் நடைபெற்ற சூடுபிடிப்பு வினாடி வினா
- எழுத்துப் பாடம்
- திட்ட அடிப்படையிலான பாடங்களுக்கு, திட்டம் எவ்வாறு கட்டப்படும் என்பதை படி படியாகக் கொண்டு வரும் வழிகாட்டுதல்கள்
- அறிவு சோதனைகள்
- விருப்ப ஸ்கெட்ச் நோட்டு
- விருப்ப மேலதிக வீடியோ
- பாடத்திற்கு முன் மற்றும் வகுப்புக்குப் பிறகு வினாடி வினா
- எழுத்ப பாடம்
- திட்ட அடிப்படையிலான பாடங்களுக்கு, திட்டத்தை அமைப்பதற்கான படிப் படி வழிகாட்டிகள்
- அறிவு சோதனை
- ஒரு சவால்
- கூடுதல் வாசிப்பு
- பொது பாடத்திற்குப் பிறகு நடைபெறும் [வினாதாரம்](https://ff-quizzes.netlify.app/en/)
- மேலதிக வாசிப்பு
- பணிகள்
- [பாடத்திற்கு பிறகு வினாடி வினா](https://ff-quizzes.netlify.app/en/)
> **வினாடி வினாக்களுக்கான குறிப்பு**: அனைத்து வினாடி வினாக்களும் Quiz-App கோப்புறையில் உள்ளன, ஒவ்வொன்றில் 3 கேள்விகள் கொண்ட 40 மொத்த வினாக்கள் உள்ளன. அவை பாடங்களில் இணைக்கப்பட்டுள்ளன, ஆனால் வினாடி வினா செயலியை உள்ளூரிலும் இயக்கவோ அல்லது அச்யூர்-ல் இயக்கவோ செய்யலாம்; quiz-app கோப்புறையில் உள்ள அறிவுரைகளை பின்பற்றவும். அவை ஒளிப்பரப்பாக உள்ளூர் மொழி மாற்றம் செய்யப்படுகின்றன.
> **வினாடி வினாக்கள் குறித்த ஒரு குறிப்புரை**: அனைத்து வினாடி வினாக்களும் Quiz-App கோப்பகத்தில் உள்ளன, ஒவ்வொன்றிலும் மூன்று கேள்விகளுடன் மொத்தமாக 40 வினாக்கள் உள்ளன. அவை பாடங்களிலிருநது இணைக்கப்பட்டுள்ளன, ஆனால் Quiz-ஆப் உள்ளூரில் இயக்கு அல்லது Azure க்கு வெளியிடலாம்; `quiz-app` கோப்பகத்தின் பரிந்துரைகளை பின்பற்றவும். அவை படிப்படியாக மொழிபெயர்க்கப்படுகின்றன.
## 🎓 தொடக்க நிலை உதாரணங்கள்
## 🎓 தொடக்கத்திற்கு ஏற்ற எடுத்துக்காட்டுக்கள்
**தரவு அறிவியலில் புதியவர்?** எங்கள் சிறப்பு [உதாரணங்கள் அடைவை](examples/README.md) எளிமையானவும், நன்றாக விளக்கபட்ட குறியீடுகளோடும் தொடங்க உதவுகின்றன:
**தரவு அறிவியலில் புதியவரா?** ஆரம்பிப்பதற்கான எளிய, நன்கு விளக்கப்பட்ட குறியீட்டை கொண்ட ஒரு சிறப்பு [எடுத்துக்காட்டு கோப்பகம்](examples/README.md) உருவாக்கியுள்ளோம்:
- 🌟 **ஹலோ உலகம்** - உங்கள் முதல் தரவு அறிவியல் திட்டம்
- 📂 **தரவு ஏற்றுதல்** - தரவுத் தொகுப்புகளைப் படிக்கவும் ஆராயவும் கற்றுக்கொள்ளுங்கள்
- 📊 **எளிமையான பகுப்பாய்வு** - புள்ளியியல் கணக்கிடவும் மற்றும் வடிவங்களை கண்டுபிடிக்கவும
- 📈 **அடிப்படை காட்சிப்படுத்தல்** - பட்டியல்கள் மற்றும் வரைபடங்களை உருவாக்கவும
- 🔬 **நாட்டியலில் நிகழும் திட்டம்** - தொடக்கம் முதல் இறுதி வரை முழு பணிவழி
- 🌟 **ஹலோ வேர்ல்டு** - உங்கள் முதல் தரவு அறிவியல் நிரலை
- 📂 **தரவு ஏற்றுதல்** - தரவு பலகைகளை படித்து ஆய்வு செய்வது
- 📊 **எளியான பகுப்பு** - புள்ளிவிவரங்களை கணக்கிட்டு படிமுறைகளை கண்டறிதல
- 📈 **அடிப்படை காட்சியமைப்பு** - விளக்கப்படங்கள் மற்றும் வரைகறைகள் உருவாக்குதல
- 🔬 **உண்மையான உலக திட்டம்** - ஆரம்பத்தில் இருந்து முடிவுக்கு முழுப் பணிகள்
ஒவ்வொரு உதாரணத்திலும் அனைத்து படிகளையும் விளக்கும் விரிவான கருத்துகள் உள்ளன, இது முழுமையான முதன்மைத் தொடக்கர்களுக்கு சிறந்ததாகும்!
ஒவ்வொரு எடுத்துக்காட்டிலும் ஒவ்வொரு படியையும் விளக்கும் விரிவான குறிப்புகள் உள்ளன, இது முற்றிலும் தொடக்கத்திற்கானது!
👉 **[உதாரணங்களுடன் தொடங்குங்கள்](examples/README.md)** 👈
👉 **[எடுத்துக்காட்டுகளுடன் தொடங்கவும்](examples/README.md)** 👈
## பாடங்கள்
|![ @sketchthedocs இடையிடைவழி https://sketchthedocs.dev உருவாக்கிய ஸ்கெட்ச்னோட்](../../translated_images/ta/00-Roadmap.4905d6567dff4753.webp)|
|![ @sketchthedocs உருவாக்கிய ஸ்கெட்ச் நோட்டு https://sketchthedocs.dev](../../translated_images/ta/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| தரவு அறிவியல் தொடக்கத்துக்கு: பாதை வரைபடி - _ஸ்கெட்ச்னோட் [@nitya](https://twitter.com/nitya) உருவாக்கியது_ |
| Data Science For Beginners: வழிச்செலுத்தல் - _ஸ்கெட்ச் நோட்டு [@nitya](https://twitter.com/nitya) tarafından oluşturulmuştur_ |
| பாட எண்ணிக்கை | தலைப்பு | பாட குழு | கற்றல் நோக்கங்கள் | இணைக்கப்பட்ட பாடம் | ஆசிரியர் |
| பாடம் எண் | தலைப்பு | பாட வகுப்பு | கற்றல் இலக்குகள் | இணைக்கப்பட்ட பாடம் | ஆசிரியர் |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | தரவு அறிவியலை வரையறுத்தல் | [அறிமுகம்](1-Introduction/README.md) | தரவு அறிவியலைப் பற்றிய அடிப்படை கருத்துக்களை மற்றும் அதனை கலைஞர் நுண்ணறிவு, இயந்திரக் கற்றல் மற்றும் பெரிய தரவுடன் எப்படி தொடர்புடையது என்பதை அறியவும். | [பாடம்](1-Introduction/01-defining-data-science/README.md) [வீடியோ](https://youtu.be/beZ7Mb_oz9I) | [ட்மிட்ரி](http://soshnikov.com) |
| 02 | தரவு அறிவியலில் ஒழுங்கு நெறிகள் | [அறிமுகம்](1-Introduction/README.md) | தரவு ஒழுங்கு நெறி கான்செப்ட்கள், சவால்கள் மற்றும் கட்டமைப்புக்கள். | [பாடம்](1-Introduction/02-ethics/README.md) | [நித்யா](https://twitter.com/nitya) |
| 03 | தரவ வரையறுத்தல் | [அறிமுகம்](1-Introduction/README.md) | தரவு எவ்வாறு வகைப்படுத்தப்படுகிறது மற்றும் அதன் பொதுவான மூலதனங்கள். | [பாடம்](1-Introduction/03-defining-data/README.md) | [ஸ்மின்](https://www.twitter.com/paladique) |
| 04 | புள்ளியியல் மற்றும் சாத்தியம் அறிமுகம் | [அறிமுகம்](1-Introduction/README.md) | தரவை புரிந்து கொள்ள சாத்தியம் மற்றும் புள்ளியியல் கணித வரைவளங்கள். | [பாடம்](1-Introduction/04-stats-and-probability/README.md) [வீடியோ](https://youtu.be/Z5Zy85g4Yjw) | [ட்மிட்ரி](http://soshnikov.com) |
| 05 | தொடர்புடைய தரவுடன் வேலை செய்தல் | [தரவுடன் வேலை செய்தல்](2-Working-With-Data/README.md) | தொடர்புடைய தரவிற்கான அறிமுகம் மற்றும் திட்டமிடப்பட்ட கேள்வி மொழி என அழைக்கப்படும் SQL மூலம் தரவை ஆராய்ந்து பகுப்பாய்வு செய்வதின் அடிப்படைகள். | [பாடம்](2-Working-With-Data/05-relational-databases/README.md) | [கிிஸ்டோபர்](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL தரவுடன் வேலை செய்தல் | [தரவுடன் வேலை செய்தல்](2-Working-With-Data/README.md) | தொடர்பில்லாத தரவுகளின் அறிமுகம், அவை பல வகைகள் மற்றும் ஆவண தரவுத்தளங்களை ஆராய்ந்தும் பகுப்பாய்வு செய்தலும். | [பாடம்](2-Working-With-Data/06-non-relational/README.md) | [ஸ்மின்](https://twitter.com/paladique)|
| 07 | பைதானில் வேலை செய்தல் | [தரவுடன் வேலை செய்தல்](2-Working-With-Data/README.md) | பைதான் பயன்படுத்த ஆரம்ப நிலைகள், பாண்டாஸ் போல புத்தசீறிகள் கொண்ட நூலகங்களை பயன்படுத்தல். பைதான் நிரலாக்கத்தின் அடிப்படை அறிவு பரிந்துரைக்கப்படுகிறது. | [பாடம்](2-Working-With-Data/07-python/README.md) [வீடியோ](https://youtu.be/dZjWOGbsN4Y) | [ட்மிட்ரி](http://soshnikov.com) |
| 08 | தரவை தயார் செய்தல் | [தரவுடன் வேலை செய்தல்](2-Working-With-Data/README.md) | காணாமல் போன, தவறான அல்லது பூரணமற்ற தரவை சமாளிக்க தரவை துலங்கும் மற்றும் மாற்றும் முறைகள். | [பாடம்](2-Working-With-Data/08-data-preparation/README.md) | [ஸ்மின்](https://www.twitter.com/paladique) |
| 09 | அளவுகளை காட்சிப்படுத்தல் | [தரவு காட்சிப்பத்தல்](3-Data-Visualization/README.md) | பறவைகள் பற்றிய தரவை காட்சிப்படுத்த மெட்ப்ளாட்லிப் பயன்படுத்துவது 🦆 | [பாடம்](3-Data-Visualization/09-visualization-quantities/README.md) | [ஜென்](https://twitter.com/jenlooper) |
| 10 | தரவின் பகிர்வை காட்சிப்படுத்தல் | [தரவு காட்சிப்படுத்தல்](3-Data-Visualization/README.md) | இடைவெளியில் உள்ள கவனிப்புகள் மற்றும் போக்குகளை காட்சிப்படுத்தல். | [பாடம்](3-Data-Visualization/10-visualization-distributions/README.md) | [ஜென்](https://twitter.com/jenlooper) |
| 11 | விகிதங்களை காட்சிப்படுத்தல் | [தரவு காட்சிப்பத்தல்](3-Data-Visualization/README.md) | தனி மற்றும் குழுவான சதவீதங்களை காட்சிப்படுத்தல். | [பாடம்](3-Data-Visualization/11-visualization-proportions/README.md) | [ஜென்](https://twitter.com/jenlooper) |
| 12 | உறவுகளை காட்சிப்படுத்தல் | [தரவு காட்சிப்பத்தல்](3-Data-Visualization/README.md) | தரவின் தொகுதிகளுடன் மற்றும் அவற்றின் பரிமாற்றங்களுடன் உள்ள தொடர்புகள் மற்றும் ஒத்திசைவுகளை காட்சிப்படுத்தல். | [பாடம்](3-Data-Visualization/12-visualization-relationships/README.md) | [ஜென்](https://twitter.com/jenlooper) |
| 13 | அர்த்தமுள்ள காட்சிப்படுத்தல்கள் | [தரவு காட்சிப்படுத்தல்](3-Data-Visualization/README.md) | உங்கள் காட்சிப்படுத்தல்களை பயனுள்ளதாக மாற்றும் நுட்பங்கள் மற்றும் வழிகாட்டிகள், விளக்க முடிவு மற்றும் பார்வைகள் சரியானதாக அமைய. | [பாடம்](3-Data-Visualization/13-meaningful-visualizations/README.md) | [ஜென்](https://twitter.com/jenlooper) |
| 14 | தரவு அறிவியல் வாழ்கையின் அறிமுகம் | [வாழ்கை](4-Data-Science-Lifecycle/README.md) | தரவு அறிவியல் வாழ்கையின் அறிமுகம் மற்றும் தரவை பெறுதல் மற்றும் எடுக்கும் முதலாவது படி. | [பாடம்](4-Data-Science-Lifecycle/14-Introduction/README.md) | [ஸ்மின்](https://twitter.com/paladique) |
| 15 | பகுப்பாய்வு | [வாழ்கை](4-Data-Science-Lifecycle/README.md) | இந்தத் தரவு அறிவியல் வாழ்கை பருவம் தரவைப் பகுப்பாய்வு செய்வதற்கான நுட்பங்களை மையமாக கையாள்கிறது. | [பாடம்](4-Data-Science-Lifecycle/15-analyzing/README.md) | [ஸ்மின்](https://twitter.com/paladique) | | |
| 16 | தொடர்பு கைவழி | [வாழ்கை](4-Data-Science-Lifecycle/README.md) | தரவு அறிவியல் வாழ்கையின் இந்த பருவம், தரவிலிருந்து கிடைக்கும் பார்வைகள் முடிவெடுப்பவர்களுக்கு எளிமையாக புரிந்து கொள்ளும் வகையில் வழங்குவதை நோக்கமாகக் கொண்டு இயங்குகிறது. | [பாடம்](4-Data-Science-Lifecycle/16-communication/README.md) | [ஜேலன்](https://twitter.com/JalenMcG) | | |
| 17 | மேக் தரவு அறிவியல் | [மேகம் தரவு](5-Data-Science-In-Cloud/README.md) | தரவு அறிவியலை மேகத்தில் அறிமுகம் மற்றும் அதன் நன்மைகள். | [பாடம்](5-Data-Science-In-Cloud/17-Introduction/README.md) | [டிப்னி](https://twitter.com/TiffanySouterre) மற்றும் [மாட்](https://twitter.com/maudstweets) |
| 18 | மேக் தரவு அறிவியல் | [மேகம் தரவு](5-Data-Science-In-Cloud/README.md) | குறைந்த குறியீடு கருவிகளைப் பயன்படுத்தி மாதிரிகளை பயிற்றுவது. |[பாடம்](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [டிப்னி](https://twitter.com/TiffanySouterre) மற்றும் [மாட்](https://twitter.com/maudstweets) |
| 19 | மேக் தரவு அறிவியல் | [மேகம் தரவு](5-Data-Science-In-Cloud/README.md) | Azure இயந்திரக் கற்றல் ஸ்டுடியோவில் மாதிரிகளை இயக்குதல். | [பாடம்](5-Data-Science-In-Cloud/19-Azure/README.md)| [டிப்னி](https://twitter.com/TiffanySouterre) மற்றும் [மாட்](https://twitter.com/maudstweets) |
| 20 | வனத்தில் தரவு அறிவியல் | [வனத்தில்](6-Data-Science-In-Wild/README.md) | உண்மையான உலகில் தரவு அறிவியலால் இயக்கப்படும் திட்டங்கள். | [பாடம்](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [நித்யா](https://twitter.com/nitya) |
## GitHub கோட்ஸ்பேச்கள
இந்த மாதிரியை Codespace-இல் திறக்க கீழ்க்காணும் படிகளை பின்பற்றுங்கள்:
1. Code என்ற விழுந்து வரும் பட்டியில் கிளிக் செய்து Open with Codespaces என்பதைத் தேர்ந்தெடுக்கவும்.
2. கீழே உள்ள பகுதியில் + New codespace என்பதைத் தேர்ந்தெடுக்கவும்.
மேலும் தகவலுக்கு, [GitHub ஆவணப்படத்தை](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) கவனியுங்கள்.
## VSCode ரிமோட் - கண்டெய்னர்கள்
உங்கள் உள்ளூர் கணினி மற்றும் VSCode பயன்படுத்தி இந்த மலர்களைப் பயன்படுத்தி இந்த கணினியை கொண்டெய்னரில் திறக்க இந்த படிகளை பின்பற்றவும்:
1. இந்த முதன்முறையாகக் கொண்டு வந்துள்ள தொடர்பு கொண்டெய்னரைப் பயன்படுத்தினால், உங்கள் கணினி முன் நிபந்தனைகளை பூர்த்தி செய்கிறதா என்பதை உறுதி செய்யவும் (எ.கா., டொக்கர் நிறுவப்பட்டுள்ளது) [தொடங்கும் ஆவணப்படத்தில்](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
இந்தக் கோப்புறையை பயன்படுத்த நீங்கள், கோப்புறையை தனித்த டொக்கர் வாலியத்தில் திறக்கலாம்:
**குறிப்பு**: இது கீழ்க்காணும் Remote-Containers: **Clone Repository in Container Volume...** ஆணை மூலம், இருப்பிட கோப்புகளுக்கு பதிலாக டொக்கர் வாலியத்தில் மூலக் குறியீட்டை நகலெடுக்கிறது. [வாலியங்கள்](https://docs.docker.com/storage/volumes/) என்பது கண்டெய்னர் தரவை நிலைத்துவைக்க மிகுந்த விருப்பமான முறையாகும்.
அல்லது உள்ளூரில் உள்ளல் அல்லது பதிவிறக்கப்பட்ட இக்கோப்புறையைத் திறக்கவும்:
- இந்தக் கோப்புறையை உங்கள் உள்ளூர் கோப்புறை அமைப்புக்கு நகலெடுக்கவும்.
- F1 அழுத்தி **Remote-Containers: Open Folder in Container...** என்பதைத் தேர்ந்தெடுக்கவும்.
- இந்தக் கோப்புறையின் நகலைத் தேர்ந்தெடுத்து, கொண்டெய்னர் துவங்கும் வரை காத்திருந்து, செயல்களை முயற்சிக்கவும்.
| 01 | தரவு அறிவியலை வரையறுத்தல் | [அறிமுகம்](1-Introduction/README.md) | தரவு அறிவியலை பற்றிய அடிப்படைக் கொள்கைகள் மற்றும் அதனுடன் கூடிய செயற்கை நுண்ணறிவு, இயந்திர கற்றல் மற்றும் பெரிய தரவு தொடர்புகளை அறிந்துகொள்ளல். | [பாடம்](1-Introduction/01-defining-data-science/README.md) [காணொளி](https://youtu.be/beZ7Mb_oz9I) | [ட்மிட்ரி](http://soshnikov.com) |
| 02 | தரவு அறிவியல் ஒழுங்கு விதிகள் | [அறிமுகம்](1-Introduction/README.md) | தரவு ஒழுங்கு விதி கொள்கைகள், சவால்கள் மற்றும் கட்டமைப்புகள். | [பாடம்](1-Introduction/02-ethics/README.md) | [நித்யா](https://twitter.com/nitya) |
| 03 | தரவ வரையறுத்தல் | [அறிமுகம்](1-Introduction/README.md) | தரவு வகைகள் மற்றும் அதன் பொதுவான மூலதனங்கள். | [பாடம்](1-Introduction/03-defining-data/README.md) | [ஸ்மின்](https://www.twitter.com/paladique) |
| 04 | புள்ளியியல் மற்றும் பற்றிய அறிமுகம் | [அறிமுகம்](1-Introduction/README.md) | தரவு புரிந்துகொள்ள புள்ளிவிவரங்களின் மற்றும் வாய்ப்பியல் முறைமைகள்.| [பாடம்](1-Introduction/04-stats-and-probability/README.md) [காணொளி](https://youtu.be/Z5Zy85g4Yjw) | [ட்மிட்ரி](http://soshnikov.com) |
| 05 | தொடர்புடைய தரவோடு வேலை செய்தல் | [தரவு வேலை செய்வது](2-Working-With-Data/README.md) | தொடர்புடைய தரவு அறிமுகம் மற்றும் தொடர்புடைய தரவை ஆராயவும் பரிசீலனை செய்யவும் அடிப்படைமுறைகள், மேலும் வட்டாரக் கேள்வி மொழி அல்லது SQL (”See-Quell” என உச்சரிக்கப்படுகிறது) பயன்படுத்தல். | [பாடம்](2-Working-With-Data/05-relational-databases/README.md) | [கிிஸ்டோபர்](https://www.twitter.com/geektrainer) | | |
| 06 | நோ-எஸ்க்யூஎல் தரவோடு வேலை செய்தல் | [தரவு வேலை செய்வது](2-Working-With-Data/README.md) | தொடர்பில்லாத தரவு அறிமுகம், அதன் வகைகள் மற்றும் ஆவண தரவுத்தளங்களை ஆராயும் மற்றும் பகுப்பாய்வு செய்யும் அடிப்படை. | [பாடம்](2-Working-With-Data/06-non-relational/README.md) | [ஸ்மின்](https://twitter.com/paladique)|
| 07 | பைதான் மொழியுடன் வேலை செய்வது | [தரவு வேலை செய்வது](2-Working-With-Data/README.md) | Pandas போன்ற நூலகங்களைப் பயன்படுத்தி பைதானில் தரவை ஆராய்வு செய்வதன் அடிப்படைகள். பைதான் நிரலாக்கத்தின் அடிப்படை புரிதல் பரிந்துரைக்கப்படுகிறது. | [பாடம்](2-Working-With-Data/07-python/README.md) [காணொளி](https://youtu.be/dZjWOGbsN4Y) | [ட்மிட்ரி](http://soshnikov.com) |
| 08 | தரவு தயாரிப்பு | [தரவு வேலை செய்வது](2-Working-With-Data/README.md) | பிழையான, குறைந்தவோ அல்லது அவற்றுக்குள் மறைந்துள்ள தரவை பராமரிக்க மற்றும் மாற்றுவதற்கான நுட்ப அம்சங்கள். | [பாடம்](2-Working-With-Data/08-data-preparation/README.md) | [ஸ்மின்](https://www.twitter.com/paladique) |
| 09 | அளவுகளை காட்சியமைத்தல் | [தரவு காட்சியமைப்பு](3-Data-Visualization/README.md) | பறவை தரவை மாட்பிளாட்லிபை பயன்படுத்தி காட்சியமைக்க கற்றுக்கொள்ளுங்கள் 🦆 | [பாடம்](3-Data-Visualization/09-visualization-quantities/README.md) | [ஜென்](https://twitter.com/jenlooper) |
| 10 | தரவு விநியோகங்களை காட்சியமைத்தல் | [தரவு காட்சியமைப்பு](3-Data-Visualization/README.md) | ஓர் இடைவெளியின் உள்ள பார்வைகள் மற்றும் போக்குகளை காட்சியமைத்தல். | [பாடம்](3-Data-Visualization/10-visualization-distributions/README.md) | [ஜென்](https://twitter.com/jenlooper) |
| 11 | விகிதங்களை காட்சியமைத்தல் | [தரவு காட்சியமைப்பு](3-Data-Visualization/README.md) | தனித்த மற்றும் குழுவாக பகுக்கப்பட்ட சதவீதங்களை காட்சியமைத்தல். | [பாடம்](3-Data-Visualization/11-visualization-proportions/README.md) | [ஜென்](https://twitter.com/jenlooper) |
| 12 | தொடர்புகளை காட்சியமைத்தல் | [தரவு காட்சியமைப்பு](3-Data-Visualization/README.md) | தரவுத்தொகுதிகளுக்கும் அதனுடைய மாறிலிகளுக்கும் இடையேயான தொடர்புகள் மற்றும் தொடர்புகளை காட்சியமைத்தல். | [பாடம்](3-Data-Visualization/12-visualization-relationships/README.md) | [ஜென்](https://twitter.com/jenlooper) |
| 13 | பொருள்மிக்க காட்சிகள் | [தரவு காட்சியமைப்பு](3-Data-Visualization/README.md) | உங்கள் காட்சிகளினை மதிப்புமிக்கதாக மாற்றுவதற்கான நுட்பங்கள் மற்றும் வழிகாட்டல்கள், செயல்திறன் அளிக்கும் பிரச்சனைகளை தீர்க்க மற்றும் தெளிவுகளை பெற. | [பாடம்](3-Data-Visualization/13-meaningful-visualizations/README.md) | [ஜென்](https://twitter.com/jenlooper) |
| 14 | தரவு அறிவியலின் வாழ்கைச் சுற்றம் அறிமுகம் | [வாழ்கைச் சுற்றம்](4-Data-Science-Lifecycle/README.md) | தரவு அறிவியல் வாழ்கைச் சுற்றமும் அதின் முதல் படியான தரவு சேகரிப்பு மற்றும் எடுக்கும் நடவடிக்கையும். | [பாடம்](4-Data-Science-Lifecycle/14-Introduction/README.md) | [ஸ்மின்](https://twitter.com/paladique) |
| 15 | பகுப்பாய்வு | [வாழ்கைச் சுற்றம்](4-Data-Science-Lifecycle/README.md) | தரவு அறிவியல் வாழ்கைச் சுற்றின் இந்த கட்டம் தரவை ஆராயும் நுட்பங்களை கவனிக்கிறது. | [பாடம்](4-Data-Science-Lifecycle/15-analyzing/README.md) | [ஸ்மின்](https://twitter.com/paladique) | | |
| 16 | தொடர்பாடல் | [வாழ்கைச் சுற்றம்](4-Data-Science-Lifecycle/README.md) | தரவிலிருந்து கிடைக்கும் தெளிவுகளை முடிவு எடுப்பவர்களுக்கு எளிதாக புரியுமிடமாக காட்டு இந்த கட்டம் கவனம் செலுத்துகிறது. | [பாடம்](4-Data-Science-Lifecycle/16-communication/README.md) | [ஜேலன்](https://twitter.com/JalenMcG) | | |
| 17 | மேகத்தில் தரவு அறிவியல் | [மேக தரவு](5-Data-Science-In-Cloud/README.md) | இதுவே மேகத்தில் தரவு அறிவியலை அறிமுகப்படுத்தும் மற்றும் அதன் நன்மைகள் குறித்த தொடர் பாடங்கள். | [பாடம்](5-Data-Science-In-Cloud/17-Introduction/README.md) | [டிஃபினி](https://twitter.com/TiffanySouterre) மற்றும் [மாட்](https://twitter.com/maudstweets) |
| 18 | மேகத்தில் தரவு அறிவியல் | [மேக தரவு](5-Data-Science-In-Cloud/README.md) | குறைந்த குறியீட்டுடன் (Low Code) மாதிரிகள் பயிற்சி பெறுதல். |[பாடம்](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [டிஃபினி](https://twitter.com/TiffanySouterre) மற்றும் [மாட்](https://twitter.com/maudstweets) |
| 19 | மேகத்தில் தரவு அறிவியல் | [மேக தரவு](5-Data-Science-In-Cloud/README.md) | மேகத்தில் Azure Machine Learning Studio மூலம் மாதிரிகளை வெளியிடுதல். | [பாடம்](5-Data-Science-In-Cloud/19-Azure/README.md)| [டிஃபினி](https://twitter.com/TiffanySouterre) மற்றும் [மாட்](https://twitter.com/maudstweets) |
| 20 | உள்ளூர் சாதனங்களில் தரவு அறிவியல் | [இலங்கையில்](6-Data-Science-In-Wild/README.md) | உண்மையான உலகில் தரவு அறிவியலை செயல்படுத்தும் திட்டங்கள். | [பாடம்](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [நித்யா](https://twitter.com/nitya) |
## GitHub கோட்ஸ்பேச
இந்த மாதிரியை Codespace இல் திறக்க கீழ்காணும் படிகளை பின்பற்றவும்:
1. குறியீடு கீழ் விழுந்து வெளியீடு பட்டியில் Open with Codespaces விருப்பத்தை தேர்ந்தெடுக்கவும்.
2. குழியில் கீழே + New codespace என்பதை தேர்ந்தெடுக்கவும்.
மேலும் தகவலுக்கு, [GitHub ஆவணத்தை](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) காணவும்.
## VSCode ரிமோட் - கண்டெய்னர்கள்
உங்கள் உள்ளூர் கணினி மற்றும் VSCode பயன்படுத்தி VS Code Remote - Containers நீட்டிப்பை மூலம் இந்த தொகுதியை கண்டெய்னரில் திறக்க கீழ்காணும் படிகள்:
1. நீங்கள் முதல் முறையாக அபிவிருத்தி கண்டெய்னரை பயன்படுத்தினால், உங்கள் அமைப்பு தேவைகளை (முக்கியமாக Docker நிறுவல்) [ஆரம்ப ஆவணத்தில்](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) உறுதிப்படுத்தவும்.
இந்த தொகுதியைப் பயன்படுத்த, நீங்கள் அல்லது:
**குறிப்பு**: உள்ளக கோப்புறை பதிலாக Docker தொகுதியிலேயே மூலக் குறியீட்டை கிளோன் செய்ய Remote-Containers: **Clone Repository in Container Volume...** ஆணையைப் பயன்படுத்தும். [கோப்பகங்கள்](https://docs.docker.com/storage/volumes/) என்பது கண்டெய்னர் தரவை நிலைத்திருக்க மிகவும் பிடித்த முறை.
அல்லது உள்ளகமாக கிளோன் செய்த பதிப்பைத் திறக்கவும்:
- இந்த தொகுதியை உங்கள் உள்ளக கோப்புறைக்கு கிளோன் செய்யவும்.
- F1 அழுத்தி **Remote-Containers: Open Folder in Container...** ஆணையை தேர்வு செய்யவும்.
- இந்த கோப்பகத்தின் கிளோன் பிரதியை தேர்ந்தெடுத்து, கண்டெய்னர் துவங்கும்வரை காத்திருந்து முயற்சிக்கவும்.
## ஆஃப்லைன் அணுகல்
[Docsify](https://docsify.js.org/#/) பயன்படுத்தி நீங்கள் இந்த ஆவணத்தை ஆஃப்லைனில் இயக்கலாம். இந்தக் கோப்புறையை பிரித்து, உங்கள் உள்ளூர் கணினியில் [Docsify ஐ நிறுவி](https://docsify.js.org/#/quickstart), பிறகு இந்தக் கோப்புறையின் ரூட் அடைவில் `docsify serve` என টাইப் செய்யவும். இணையதளம் உங்கள் உள்ளூர் 3000 போர்ட்டில் `localhost:3000` இயங்கி இருக்கும்.
இந்த ஆவணத்தை ஆஃப்லைனில் பயன்படுத்த [Docsify](https://docsify.js.org/#/) பயன்படுத்தலாம். இந்த தொகுதியை ஃபோர்க் செய்து [Docsify ஐ நிறுவி](https://docsify.js.org/#/quickstart) உள்ளூர் கணினியில் இயக்கு, பின்னர் இந்த தொகுதியின் ரூட் கோப்பகத்தில் `docsify serve` என தட்டச்சு செய்யவும். இணையதளம் உங்கள் உள்ளூர் ஃப்ராட்ட்லோக்கலிடம் 3000 போர்ட்டில் இயக்கப்படும்: `localhost:3000`.
> குறிப்பு, நோட்புக்கள் Docsify மூலம் காட்சிப்புத்தப்படமாட்டாது, எனவே ஒரு நோட்புக் இயக்க வேண்டுமானால், அதை VS Code இல் Python கர்னல் ஓடவைக்கும் முறையில் தனித்தனியாக செய்யவும்.
> குறிப்பு, நோட்புக் கோப்புகள் Docsify மூலம் காட்டப்படமாட்டாது, எனவே நோட்பூக்கை இயக்க வேண்டியபோது, அதனை தனியே VS Code இல் Python கர்னலை இயக்கி செய்யவும்.
## பிற பாடத்திட்டங்கள்
எங்கள் குழு பிற பாடத்திட்டங்களையும் உருவாக்குகிறது! பாருங்கள்:
எங்கள் குழு பிற பாடத்திட்டங்களையும் உருவாக்குகிறது! பார்க்கவும்:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain4j தொடக்கங்களுக்கு](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js for Beginners](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain for Beginners](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### அஷர் / எஜ் / MCP / ஏஜென்டுகள்
### Azure / Edge / MCP / முகவர்கள்
[![AZD for Beginners](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI for Beginners](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP for Beginners](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
@ -183,7 +226,7 @@ AI தோழமை படிப்புகளை வழங்கும் ட
---
### மூலக் கற்றல்
### மையக் கற்றல்
[![ML for Beginners](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Data Science for Beginners](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI for Beginners](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
@ -194,7 +237,7 @@ AI தோழமை படிப்புகளை வழங்கும் ட
---
### கோபைலட் தொடர்
### கூட்டணித் தொடர்
[![Copilot for AI Paired Programming](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot for C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot Adventure](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
@ -202,19 +245,19 @@ AI தோழமை படிப்புகளை வழங்கும் ட
## உதவி பெறுதல்
**பிரச்சனைகள் ஏற்படுகின்றதா?** பொதுவான பிரச்சனைகளுக்கான தீர்வுகளை அறிவதற்கு எங்கள் [பிரச்சனை தீர்க்கும் கையேட்டை](TROUBLESHOOTING.md) சரிபார்க்கவும்.
**பிரச்சினைகள் நேர்ந்துள்ளதா?** பொதுவான பிரச்சினைகளுக்கான தீர்வுகளைப் பெற எங்கள் [பிரச்சினை தீர்க்கும் வழிகாட்டியை](TROUBLESHOOTING.md) சரிபார்க்கவும்.
நீங்கள் சிக்கல் அடைந்தால் அல்லது ஐஐ செயலிகள் உருவாக்குவதற்கான எந்தவொரு கேள்விகளும் இருந்தால், MCP பற்றி ஆர்வமுள்ள மாணவர்கள் மற்றும் அனுபவம் மிக்க டெவலப்பர்களுடன் கலந்துரையாடுக. கேள்விகள் வரவேற்கப்படுவதோடு அறிவு சுதந்திரமாக பகிரப்படுகிறது.
AI செயலிகளை உருவாக்குவதில் சிக்கல்கள் அல்லது கேள்விகள் உள்ளதாயின், MCP பற்றி நிபுணர்கள் மற்றும் உடன் கற்றுக்கொள்ளும் மாணவர்கள் இணைந்த கருத்தரங்குகளில் கலந்துரையாடுங்கள். கேள்விகள் வரவேற்கப்படுகிறன மற்றும் அறிவு சுதந்திரமாக பகிரப்படுகிறது.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
ங்கள் தயாரிப்பு கருத்துக்கள் அல்லது கட்டுமான பிழைகள் இருந்தால் கீழ்காணும் இடத்தைப் பார்வையிடவும்:
ற்பத்தி பின்னூட்டங்கள் அல்லது பிழைகள் தொடர்பாக, கட்டுமானத்தில்:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**தயாரிப்புரை**:
இந்த ஆவணம் AI மொழிபெயர்ப்புச் சேவையான [Co-op Translator](https://github.com/Azure/co-op-translator) மூலம் மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சி செய்தாலும், தானியங்கியும் மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்க வாய்ப்பு உள்ளதால் கவனமாக இருக்குமாறு கேட்டுக் கொள்கிறோம். இயல்புநிலை மொழியில் உள்ள أصلي ஆவணம் அத்தாட்சித் தரவாக கருதப்பட வேண்டும். அவசியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பை பரிந்துரைக்கிறோம். இந்த மொழிபெயர்ப்பின் பயன்படுத்துதலினால் ஏற்படும் எந்த தவறாக புரிதல் அல்லது தவறான விளக்கங்களுக்கும் நாங்கள் பொறுப்பேற்கவில்லை.
**வெறுமனது அறிவுரை**:
இந்த ஆவணம் [Co-op Translator](https://github.com/Azure/co-op-translator) என்ற AI மொழிபெயர்ப்பு சேவையை பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளதாகம். நாங்கள் துல்லியத்திற்காக முயலுகிறோம்; எனினும், தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கக்கூடும் என்பதை தயவுசெய்து கருத்தில் கொள்ளவும். பூரண தகவலுக்காக, மூல மொழியில் உள்ள ஆவணம் அதிகாரபூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவலுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பை பரிந்துரைக்கிறோம். இந்த மொழிபெயர்ப்பின் பயன்பாட்டினால் ஏற்பட்ட ஏதேனும் தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்புவாயிலிருப்பதில்லை.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@
நித்யா நரசிம்மன், கலைஞர்
![ரோட்மேப் ஸ்கெட்ச் நோட்](../../../translated_images/ta/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![ரோட்மேப் ஸ்கெட்ச் நோட்](../../../translated_images/ta/00-Roadmap.4905d6567dff4753.webp)
---

Loading…
Cancel
Save