chore(i18n): sync translations with latest source changes (chunk 1/1, 69 changes)

update-translations
localizeflow[bot] 6 days ago
parent 10ec65222f
commit b9d03f829a

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "lt"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T10:16:08+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "lt"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-31T05:57:47+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "lt"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T10:16:42+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "lt"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T17:12:24+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "lt"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T10:17:35+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "lt"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T16:05:03+00:00",
@ -360,8 +378,8 @@
"language_code": "lt"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T09:17:24+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T10:23:30+00:00",
"source_file": "README.md",
"language_code": "lt"
},

@ -6,7 +6,7 @@
---
[![Duomenų mokslas: apibrėžimo vaizdo įrašas](../../../../translated_images/lt/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Duomenų mokslas: apibrėžimo vaizdo įrašas](../../../../translated_images/lt/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Prieš paskaitos testas](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -140,7 +140,7 @@ Jei norime dar labiau pasigilinti, galime sudaryti grafiką, kuriame būtų pava
Šiame iššūkyje bandysime rasti konceptus, susijusius su duomenų mokslo sritimi, analizuodami tekstus. Paimsime Vikipedijos straipsnį apie duomenų mokslą, atsisiųsime ir apdorosime tekstą, o tada sukursime žodžių debesį, panašų į šį:
![Žodžių debesis apie duomenų mokslą](../../../../translated_images/lt/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Žodžių debesis apie duomenų mokslą](../../../../translated_images/lt/ds_wordcloud.664a7c07dca57de0.webp)
Apsilankykite [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), kad peržiūrėtumėte kodą. Taip pat galite paleisti kodą ir pamatyti, kaip jis realiu laiku atlieka visus duomenų transformavimus.

@ -3,15 +3,15 @@
{
"cell_type": "markdown",
"source": [
"# Iššūkis: Teksto analizė apie duomenų mokslą\n",
"# Iššūkis: Analizuojame tekstą apie duomenų mokslą\n",
"\n",
"Šiame pavyzdyje atliksime paprastą pratimą, apimantį visus tradicinio duomenų mokslo proceso etapus. Jums nereikia rašyti jokio kodo, galite tiesiog spustelėti žemiau esančias langelius, kad juos vykdytumėte ir stebėtumėte rezultatą. Kaip iššūkį, skatiname išbandyti šį kodą su skirtingais duomenimis.\n",
"Šiame pavyzdyje atliksime paprastą pratimą, apimantį visas tradicinio duomenų mokslo proceso etapus. Jums nereikia rašyti jokio kodo, galite tiesiog spustelėti žemiau esančias langelius, kad juos paleistumėte ir stebėtumėte rezultatą. Kaip iššūkį, siūloma išbandyti šį kodą su skirtingais duomenimis.\n",
"\n",
"## Tikslas\n",
"\n",
"Šioje pamokoje aptarėme įvairias su duomenų mokslu susijusias sąvokas. Pabandykime atrasti daugiau susijusių sąvokų atlikdami **teksto gavybą**. Pradėsime nuo teksto apie duomenų mokslą, ištrauksime iš jo raktažodžius ir tada pabandysime vizualizuoti rezultatą.\n",
"Šioje pamokoje nagrinėjome įvairias su Duomenų mokslo sritimi susijusias sąvokas. Pamėginkime atrasti daugiau susijusių sąvokų atlikdami **teksto analizę**. Pradėsime nuo teksto apie Duomenų mokslą, ištrauksime iš jo pagrindinius raktažodžius ir tada pabandysime vizualizuoti rezultatą.\n",
"\n",
"Kaip tekstą naudosime Vikipedijos puslapį apie duomenų mokslą:\n"
"Kaip tekstą naudosiu Duomenų mokslo puslapį iš Vikipedijos:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## 2 žingsnis: Duomenų transformavimas\n",
"\n",
"Kitas žingsnis konvertuoti duomenis į formą, tinkamą apdorojimui. Mūsų atveju, mes atsisiuntėme HTML šaltinio kodą iš puslapio, ir turime jį paversti į paprastą tekstą.\n",
"Kitas žingsnis yra duomenų konvertavimas į apdorojimui tinkamą formą. Mūsų atveju mes atsisiuntėme HTML šaltinio kodą iš puslapio ir turime jį konvertuoti į paprastą tekstą.\n",
"\n",
"Yra daug būdų, kaip tai galima padaryti. Mes naudosime paprasčiausią įmontuotą [HTMLParser](https://docs.python.org/3/library/html.parser.html) objektą iš Python. Reikia paveldėti `HTMLParser` klasę ir apibrėžti kodą, kuris surinks visą tekstą iš HTML žymių, išskyrus `<script>` ir `<style>` žymes.\n"
"Yra daug būdų, kaip tai padaryti. Mes naudosime [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), populiarią Python biblioteką HTML analizavimui. BeautifulSoup leidžia mums taikytis į tam tikrus HTML elementus, todėl galime susitelkti į pagrindinį Wikipedia straipsnio turinį ir sumažinti kai kuriuos naršymo meniu, šonines juostas, puslapių apačias bei kitą nereikšmingą turinį (nors dalis standartinio teksto vis dar gali likti).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Pirmiausia turime įdiegti BeautifulSoup biblioteką HTML analizavimui:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## 3 žingsnis: Įžvalgų gavimas\n",
"\n",
"Svarbiausias žingsnis yra paversti mūsų duomenis į formą, iš kurios galime gauti įžvalgų. Mūsų atveju, norime išgauti raktažodžius iš teksto ir pamatyti, kurie raktažodžiai yra reikšmingesni.\n",
"Svarbiausias žingsnis yra paversti mūsų duomenis tokiu formatu, iš kurio galėtume ištraukti įžvalgas. Mūsų atveju norime iš teksto išgauti raktinius žodžius ir pamatyti, kurie raktiniai žodžiai yra reikšmingesni.\n",
"\n",
"Naudosime Python biblioteką, vadinamą [RAKE](https://github.com/aneesha/RAKE), raktažodžių išgavimui. Pirmiausia, įdiekime šią biblioteką, jei ji dar nėra įdiegta:\n"
"Naudosime Python biblioteką, vadinamą [RAKE](https://github.com/aneesha/RAKE) raktinių žodžių ištraukimui. Pirmiausia įsidiekime šią biblioteką, jei jos dar nėra: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Pagrindinė funkcija pasiekiama per `Rake` objektą, kurį galime pritaikyti naudodami tam tikrus parametrus. Mūsų atveju nustatysime minimalią raktažodžio ilgį - 5 simbolius, minimalią raktažodžio pasikartojimo dažnį dokumente - 3, o maksimalų žodžių skaičių raktažodyje - 2. Drąsiai eksperimentuokite su kitomis reikšmėmis ir stebėkite rezultatą.\n"
"Pagrindinė funkcija yra prieinama iš `Rake` objekto, kurį galime pritaikyti naudodami kai kuriuos parametrus. Mūsų atveju nustatysime minimalią raktažodžio ilgį 5 simbolius, minimalią raktažodžio dažnį dokumente 3 ir maksimalų žodžių skaičių raktažodyje - 2. Drąsiai eksperimentuokite su kitomis reikšmėmis ir stebėkite rezultatą.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Gavome sąrašą terminų kartu su jų svarbos laipsniu. Kaip matote, svarbiausios disciplinos, tokios kaip mašininis mokymasis ir didieji duomenys, yra sąrašo viršuje.\n",
"Gavome terminų sąrašą kartu su susijusiu svarbos laipsniu. Kaip matote, svarbiausios disciplinos, tokios kaip mašininis mokymasis ir didieji duomenys, yra sąrašo viršutinėse pozicijose.\n",
"\n",
"## 4 žingsnis: Rezultatų vizualizavimas\n",
"## 4 žingsnis: Rezultato vizualizavimas\n",
"\n",
"Žmonės geriausiai interpretuoja duomenis vizualine forma. Todėl dažnai verta vizualizuoti duomenis, kad būtų galima gauti tam tikrų įžvalgų. Galime naudoti `matplotlib` biblioteką Python kalboje, kad nupieštume paprastą raktinių žodžių pasiskirstymą pagal jų svarbą:\n"
"Žmonės duomenis geriausiai supranta vizualinėje formoje. Todėl dažnai prasminga duomenis vizualizuoti, norint išgauti tam tikrų įžvalgų. Galime naudoti `matplotlib` biblioteką Python kalboje, kad pavaizduotume paplitimą su raktinių žodžių svarba:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Yra, tačiau, dar geresnis būdas vizualizuoti žodžių dažnius - naudojant **Žodžių Debesį**. Mums reikės įdiegti kitą biblioteką, kad galėtume sudaryti žodžių debesį iš mūsų raktažodžių sąrašo.\n"
"Yra, tačiau, dar geresnis būdas vizualizuoti žodžių dažnius naudoti **Žodžių Debesį**. Mums reikės įdiegti kitą biblioteką, kad galėtume pavaizduoti žodžių debesį iš mūsų raktinių žodžių sąrašo.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` objektas yra atsakingas už tai, kad priimtų arba originalų tekstą, arba iš anksto apskaičiuotą žodžių sąrašą su jų dažniais, ir grąžintų vaizdą, kurį vėliau galima parodyti naudojant `matplotlib`:\n"
"`WordCloud` objektas atsakingas už tai, kad priimtų arba originalų tekstą, arba iš anksto apskaičiuotą žodžių su jų dažniais sąrašą, ir grąžintų atvaizdą, kuris tada gali būti rodomas naudojant `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Mes taip pat galime perduoti pradinį tekstą į `WordCloud` - pažiūrėkime, ar galime gauti panašų rezultatą:\n"
"Mes taip pat galime perduoti originalų tekstą į `WordCloud` - pažiūrėkime, ar pavyks gauti panašų rezultatą:\n"
],
"metadata": {}
},
@ -372,9 +370,9 @@
{
"cell_type": "markdown",
"source": [
"Dabar galite matyti, kad žodžių debesis atrodo įspūdingiau, tačiau jame taip pat yra daug triukšmo (pvz., nesusiję žodžiai, tokie kaip `Retrieved on`). Be to, gauname mažiau dviejų žodžių raktinių frazių, tokių kaip *duomenų mokslininkas* ar *kompiuterių mokslas*. Taip yra todėl, kad RAKE algoritmas daug geriau atrenka tinkamus raktinius žodžius iš teksto. Šis pavyzdys parodo, kaip svarbu tinkamai apdoroti ir išvalyti duomenis, nes aiškus vaizdas pabaigoje leis priimti geresnius sprendimus.\n",
"Dabar matote, kad žodžių debesis atrodo įspūdingiau, tačiau jame taip pat yra daug triukšmo (pvz., nesusijusių žodžių, tokių kaip `Retrieved on`). Taip pat gauname mažiau raktinių žodžių, sudarytų iš dviejų žodžių, tokių kaip *data scientist* arba *computer science*. Taip yra todėl, kad RAKE algoritmas geriau atrenka gerus raktinius žodžius iš teksto. Šis pavyzdys iliustruoja duomenų paruošimo ir valymo svarbą, nes aiški pabaigos vizija leis priimti geresnius sprendimus.\n",
"\n",
"Šioje užduotyje mes perėjome paprastą procesą, kaip išgauti prasmę iš „Wikipedia“ teksto, naudojant raktinius žodžius ir žodžių debesį. Šis pavyzdys yra gana paprastas, tačiau jis gerai iliustruoja visus tipinius žingsnius, kuriuos duomenų mokslininkas atlieka dirbdamas su duomenimis pradedant duomenų gavimu ir baigiant vizualizacija.\n",
"Šiame pratime peržvelgėme paprastą procesą, kaip iš Wikipedijos teksto išgauti prasmę raktinių žodžių ir žodžių debesies forma. Šis pavyzdys yra gana paprastas, tačiau jis gerai demonstruoja visas tipines žingsnis, kuriuos duomenų mokslininkas atliks dirbdamas su duomenimis nuo duomenų gavimo iki vizualizacijos.\n",
"\n",
"Mūsų kurse mes išsamiai aptarsime visus šiuos žingsnius.\n"
],
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Atsakomybės apribojimas**: \nŠis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Atsakomybės atsisakymas**:\nŠis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors stengiamės užtikrinti tikslumą, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas gimtąja kalba laikomas autoritetingu šaltiniu. Svarbiai informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už bet kokius nesusipratimus ar neteisingus aiškinimus, kylančius dėl šio vertimo naudojimo.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:37:29+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "lt"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# Iššūkis: Teksto analizė apie duomenų mokslą\n",
"# Iššūkis: Teksto apie duomenų mokslą analizė\n",
"\n",
"> *Šiame užrašų knygelėje eksperimentuojame su skirtingais URL - Vikipedijos straipsniu apie Mašininį Mokymąsi. Galite pastebėti, kad, skirtingai nei Duomenų Mokslas, šiame straipsnyje yra daug terminų, todėl analizė tampa sudėtingesnė. Turime sugalvoti kitą būdą, kaip išvalyti duomenis po raktažodžių ištraukimo, kad atsikratytume kai kurių dažnų, bet nereikšmingų žodžių junginių.*\n",
"> *Šiame užrašų knygelyje eksperimentuojame naudodami skirtingus URL „Wikipedia“ straipsnį apie mašininį mokymąsi. Galite pastebėti, kad, skirtingai nuo Duomenų mokslo, šiame straipsnyje yra daug terminų, todėl analizė tampa sudėtingesnė. Turime sugalvoti kitą būdą, kaip išvalyti duomenis po raktinių žodžių išgavimų, kad atsikratytume dažnų, tačiau nereikšmingų žodžių junginių.*\n",
"\n",
"Šiame pavyzdyje atliksime paprastą pratimą, apimantį visus tradicinio duomenų mokslo proceso etapus. Jums nereikia rašyti jokio kodo, tiesiog spustelėkite žemiau esančias langelius, kad juos vykdytumėte ir stebėtumėte rezultatą. Kaip iššūkį, skatiname išbandyti šį kodą su skirtingais duomenimis.\n",
"Šiame pavyzdyje atliksime paprastą pratimą, apimantį visas tradicinio duomenų mokslo proceso etapas. Jums nereikia rašyti jokio kodo, galite tiesiog spustelėti žemiau esančias ląsteles, kad jas įvykdytumėte ir pamatytumėte rezultatą. Kaip iššūkį, skatiname išbandyti šį kodą su skirtingais duomenimis.\n",
"\n",
"## Tikslas\n",
"\n",
"Šioje pamokoje aptarėme įvairias su Duomenų Mokslu susijusias sąvokas. Pabandykime atrasti daugiau susijusių sąvokų atlikdami **teksto gavybą**. Pradėsime nuo teksto apie Duomenų Mokslą, ištrauksime raktažodžius ir tada bandysime vizualizuoti rezultatą.\n",
"Šioje pamokoje aptarėme skirtingas su Duomenų mokslu susijusias sąvokas. Pabandykime atrasti daugiau susijusių sąvokų atlikdami **teksto kasybą**. Pradėsime nuo teksto apie Duomenų mokslą, iš jo ištrauksime raktinius žodžius, o tada pabandysime vizualizuoti rezultatą.\n",
"\n",
"Kaip tekstą naudosime Vikipedijos puslapį apie Duomenų Mokslą:\n"
"Kaip tekstą naudosiu puslapį apie Duomenų mokslą iš Vikipedijos:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## 1 žingsnis: Duomenų gavimas\n",
"\n",
"Pirmasis žingsnis kiekviename duomenų mokslo procese yra duomenų gavimas. Tam naudosime `requests` biblioteką:\n"
"Pirmas žingsnis kiekviename duomenų mokslo procese yra duomenų gavimas. Tam naudosime `requests` biblioteką:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## 2 žingsnis: Duomenų transformavimas\n",
"\n",
"Kitas žingsnis konvertuoti duomenis į formą, tinkamą apdorojimui. Mūsų atveju, mes atsisiuntėme HTML šaltinio kodą iš puslapio, ir turime jį paversti į paprastą tekstą.\n",
"Kitas žingsnis konvertuoti duomenis į apdorojimui tinkamą formą. Mūsų atveju mes atsisiuntėme HTML šaltinio kodą iš puslapio ir turime jį paversti paprastu tekstu.\n",
"\n",
"Yra daug būdų, kaip tai galima padaryti. Mes naudosime paprasčiausią įmontuotą [HTMLParser](https://docs.python.org/3/library/html.parser.html) objektą iš Python. Reikia paveldėti `HTMLParser` klasę ir apibrėžti kodą, kuris surinks visą tekstą iš HTML žymių, išskyrus `<script>` ir `<style>` žymes.\n"
"Yra daug būdų, kaip tai padaryti. Mes naudosime [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) populiarią Python biblioteką HTML analizavimui. BeautifulSoup leidžia tiksliai pasirinkti tam tikrus HTML elementus, todėl galime susitelkti į pagrindinį Wikipedia straipsnio turinį ir sumažinti kai kuriuos navigacijos meniu, šonines juostas, puslapių apačias bei kitą nereikalingą turinį (nors tam tikras standartinis tekstas vis tiek gali likti).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Pirmiausia turime įdiegti BeautifulSoup biblioteką HTML analizavimui:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -118,9 +116,9 @@
"source": [
"## 3 žingsnis: Įžvalgų gavimas\n",
"\n",
"Svarbiausias žingsnis yra paversti mūsų duomenis į formą, iš kurios galėtume gauti įžvalgų. Mūsų atveju norime išgauti raktažodžius iš teksto ir pamatyti, kurie raktažodžiai yra reikšmingesni.\n",
"Svarbiausias žingsnis yra paversti mūsų duomenis tokia forma, iš kurios galėtume gauti įžvalgų. Mūsų atveju norime iš teksto ištraukti raktinius žodžius ir pamatyti, kurie raktiniai žodžiai yra reikšmingesni.\n",
"\n",
"Naudosime Python biblioteką, vadinamą [RAKE](https://github.com/aneesha/RAKE), raktažodžių išgavimui. Pirmiausia įdiekime šią biblioteką, jei ji dar nėra įdiegta:\n"
"Naudosime Python biblioteką pavadinimu [RAKE](https://github.com/aneesha/RAKE) raktinių žodžių ištraukimo tikslu. Pirmiausia, įsidiekime šią biblioteką, jei jos dar nėra:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Pagrindinė funkcionalumas pasiekiamas per `Rake` objektą, kurį galime pritaikyti naudodami tam tikrus parametrus. Mūsų atveju nustatysime minimalią raktažodžio ilgį iki 5 simbolių, minimalią raktažodžio dažnį dokumente iki 3, o maksimalų žodžių skaičių raktažodyje - iki 2. Drąsiai eksperimentuokite su kitomis reikšmėmis ir stebėkite rezultatą.\n"
"Pagrindinė funkcija yra prieinama iš `Rake` objekto, kurį galime pritaikyti naudodami tam tikrus parametrus. Mūsų atveju, nustatysime minimalią raktažodžio ilgį - 5 simbolius, minimalią raktažodžio dažnį dokumente - 3, ir maksimalų žodžių skaičių raktažodyje - 2. Drąsiai eksperimentuokite su kitomis reikšmėmis ir stebėkite rezultatą.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Gavome sąrašą terminų kartu su jų svarbos laipsniu. Kaip matote, svarbiausios disciplinos, tokios kaip mašininis mokymasis ir didieji duomenys, yra sąrašo viršuje.\n",
"\n",
"Mes gavome terminų sąrašą kartu su susijusiu svarbos laipsniu. Kaip matote, svarbiausios disciplinos, tokios kaip mašininis mokymasis ir didieji duomenys, yra sąrašo viršutinėse pozicijose.\n",
"\n",
"## 4 žingsnis: Rezultatų vizualizavimas\n",
"\n",
"Žmonės geriausiai interpretuoja duomenis vizualine forma. Todėl dažnai verta vizualizuoti duomenis, kad būtų galima gauti tam tikrų įžvalgų. Galime naudoti `matplotlib` biblioteką Python kalboje, kad nupieštume paprastą raktinių žodžių pasiskirstymą pagal jų svarbą:\n"
"Žmonės duomenis geriausiai supranta vaizdine forma. Todėl dažnai yra prasminga vizualizuoti duomenis, kad būtų galima gauti tam tikrų įžvalgų. Galime naudoti `matplotlib` biblioteką Python kalboje, kad nubraižytume paplitimą pagal raktinius žodžius bei jų aktualumą:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"Yra, tačiau, dar geresnis būdas vizualizuoti žodžių dažnius - naudojant **Žodžių Debesį**. Mums reikės įdiegti kitą biblioteką, kad galėtume sudaryti žodžių debesį iš mūsų raktažodžių sąrašo.\n"
"Yra, tačiau, dar geresnis būdas vizualizuoti žodžių dažnius naudoti **Žodžių Debesį**. Mums reikės įdiegti kitą biblioteką, kad galėtume nupiešti žodžių debesį iš mūsų raktinių žodžių sąrašo.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` objektas yra atsakingas už tai, kad priimtų arba originalų tekstą, arba iš anksto apskaičiuotą žodžių sąrašą su jų dažniais, ir grąžintų vaizdą, kurį vėliau galima parodyti naudojant `matplotlib`:\n"
"`WordCloud` objektas yra atsakingas už originalaus teksto arba iš anksto apskaičiuoto žodžių su jų dažniais sąrašo priėmimą ir pateikia vaizdą, kurį tada galima parodyti naudojant `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"Mes taip pat galime perduoti originalų tekstą į `WordCloud` - pažiūrėkime, ar galime gauti panašų rezultatą:\n"
"Mes taip pat galime perduoti originalų tekstą `WordCloud` pažiūrėkime, ar pavyks gauti panašią rezultatą:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"Dabar galite matyti, kad žodžių debesis atrodo įspūdingiau, tačiau jame taip pat yra daug triukšmo (pvz., nesusiję žodžiai, tokie kaip `Retrieved on`). Be to, gauname mažiau dviejų žodžių raktinių frazių, tokių kaip *duomenų mokslininkas* ar *kompiuterių mokslas*. Taip yra todėl, kad RAKE algoritmas daug geriau atrenka tinkamus raktinius žodžius iš teksto. Šis pavyzdys parodo, kaip svarbu tinkamai apdoroti ir išvalyti duomenis, nes aiškus vaizdas pabaigoje leis priimti geresnius sprendimus.\n",
"Matote, kad žodžių debesėlis dabar atrodo įspūdingiau, tačiau jis taip pat turi daug triukšmo (pvz., nesusiję žodžiai, tokie kaip `Retrieved on`). Be to, gauname mažiau dviejų žodžių raktinių žodžių, tokių kaip *data scientist* arba *computer science*. Taip yra todėl, kad RAKE algoritmas daug geriau parenka tinkamus raktinius žodžius iš teksto. Šis pavyzdys parodo duomenų išankstinio apdorojimo ir valymo svarbą, nes aiški pabaigos nuotrauka leis priimti geresnius sprendimus.\n",
"\n",
"Šioje užduotyje mes perėjome paprastą procesą, kaip išgauti prasmę iš „Wikipedia“ teksto, naudojant raktinius žodžius ir žodžių debesį. Šis pavyzdys yra gana paprastas, tačiau jis gerai iliustruoja visus tipinius žingsnius, kuriuos duomenų mokslininkas atlieka dirbdamas su duomenimis pradedant nuo duomenų gavimo ir baigiant vizualizacija.\n",
"Šioje užduotyje praėjome paprastą procesą, kaip iš Wikipedijos teksto išgauti tam tikrą prasmę, raktinių žodžių ir žodžių debesėlio forma. Šis pavyzdys yra gana paprastas, tačiau jis gerai iliustruoja visus būdingus žingsnius, kuriuos duomenų mokslininkas atliks dirbdamas su duomenimis, pradedant nuo duomenų įsigijimo ir baigiant vizualizacija.\n",
"\n",
"Mūsų kurse mes išsamiai aptarsime visus šiuos žingsnius.\n"
"Mūsų kurse aptarsime visus šiuos žingsnius išsamiai.\n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Atsakomybės apribojimas**: \nŠis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Svarbu**: \nŠis dokumentas buvo išverstas naudojantis dirbtinio intelekto vertimo paslauga [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Svarbiai informacijai rekomenduojama naudotis profesionalių vertėjų paslaugomis. Mes neatsakome už jokius nesusipratimus ar neteisingus aiškinimus, kylančius iš šio vertimo naudojimo.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +525,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:49:34+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "lt"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
Statistika ir tikimybių teorija yra dvi glaudžiai susijusios matematikos sritys, kurios yra itin svarbios duomenų mokslui. Nors galima dirbti su duomenimis neturint gilių matematikos žinių, vis tiek verta susipažinti bent su pagrindinėmis sąvokomis. Čia pateiksime trumpą įvadą, kuris padės jums pradėti.
[![Intro Video](../../../../translated_images/lt/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Intro Video](../../../../translated_images/lt/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Prieš paskaitą atlikite testą](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Sunkiau aprašyti tęstinio kintamojo tikimybių pasiskirstymą, kai reikšmės
Galime kalbėti tik apie tikimybę, kad kintamasis pateks į tam tikrą reikšmių intervalą, pvz., P(t<sub>1</sub>≤X<t<sub>2</sub>). Tokiu atveju tikimybių pasiskirstymas aprašomas **tikimybių tankio funkcija** p(x), tokia, kad
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/lt/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/lt/probability-density.a8aad29f17a14afb.webp)
Tęstinis vienodo pasiskirstymo analogas vadinamas **tęstiniu vienodu pasiskirstymu**, kuris apibrėžiamas baigtiniame intervale. Tikimybė, kad reikšmė X pateks į intervalo ilgį l, yra proporcinga l ir didėja iki 1.
@ -73,11 +73,11 @@ Analizuojant realaus pasaulio duomenis, jie dažnai nėra tikri atsitiktiniai ki
Čia pateikiama dėžės diagrama, rodanti vidurkį, medianą ir kvartilius mūsų duomenims:
![Weight Box Plot](../../../../translated_images/lt/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Weight Box Plot](../../../../translated_images/lt/weight-boxplot.1dbab1c03af26f8a.webp)
Kadangi mūsų duomenyse yra informacija apie skirtingus žaidėjų **vaidmenis**, galime sudaryti dėžės diagramą pagal vaidmenį - tai leis mums suprasti, kaip parametrų reikšmės skiriasi tarp vaidmenų. Šį kartą apsvarstysime ūgį:
![Box plot by role](../../../../translated_images/lt/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Box plot by role](../../../../translated_images/lt/boxplot_byrole.036b27a1c3f52d42.webp)
Ši diagrama rodo, kad, vidutiniškai, pirmosios bazės žaidėjų ūgis yra didesnis nei antrosios bazės žaidėjų ūgis. Vėliau šioje pamokoje išmoksime, kaip formaliau patikrinti šią hipotezę ir kaip parodyti, kad mūsų duomenys yra statistiškai reikšmingi tai įrodyti.
@ -85,7 +85,7 @@ Kadangi mūsų duomenyse yra informacija apie skirtingus žaidėjų **vaidmenis*
Norėdami pamatyti, koks yra mūsų duomenų pasiskirstymas, galime sudaryti grafiką, vadinamą **histograma**. X ašis turėtų turėti skirtingų svorio intervalų skaičių (vadinamų **dėžėmis**), o vertikali ašis rodytų, kiek kartų mūsų atsitiktinio kintamojo imtis pateko į tam tikrą intervalą.
![Histogram of real world data](../../../../translated_images/lt/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Histogram of real world data](../../../../translated_images/lt/weight-histogram.bfd00caf7fc30b14.webp)
Iš šios histogramos matote, kad visos reikšmės yra sutelktos aplink tam tikrą vidutinį svorį, o kuo toliau nuo to svorio - tuo mažiau svorių su ta reikšme yra aptinkama. T. y., labai mažai tikėtina, kad beisbolo žaidėjo svoris labai skirsis nuo vidutinio svorio. Svorio dispersija rodo, kiek svoriai gali skirtis nuo vidurkio.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
Jei sudarysime sugeneruotų imčių histogramą, pamatysime vaizdą, labai panašų į aukščiau pateiktą. O jei padidinsime imčių skaičių ir dėžių skaičių, galime sugeneruoti normalaus pasiskirstymo vaizdą, kuris bus artimesnis idealiam:
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/lt/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/lt/normal-histogram.dfae0d67c202137d.webp)
*Normalusis pasiskirstymas su vidurkiu=0 ir standartiniu nuokrypiu=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
Mūsų atveju reikšmė 0.53 rodo, kad yra tam tikra koreliacija tarp žmogaus svorio ir ūgio. Taip pat galime sudaryti sklaidos diagramą, kurioje viena reikšmė vaizduojama prieš kitą, kad vizualiai pamatytume ryšį:
![Ryšys tarp svorio ir ūgio](../../../../translated_images/lt/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Ryšys tarp svorio ir ūgio](../../../../translated_images/lt/weight-height-relationship.3f06bde4ca2aba99.webp)
> Daugiau koreliacijos ir kovariacijos pavyzdžių galite rasti [pridedamoje užrašų knygelėje](notebook.ipynb).

@ -1,6 +1,6 @@
# Įvadas į Duomenų Mokslą
![duomenys veiksme](../../../translated_images/lt/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![duomenys veiksme](../../../translated_images/lt/data.48e22bb7617d8d92.webp)
> Nuotrauka: <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a><a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Šiose pamokose sužinosite, kaip apibrėžiamas Duomenų Mokslas, ir susipažinsite su etiniais aspektais, kuriuos privalo apsvarstyti duomenų mokslininkas. Taip pat sužinosite, kas yra duomenys, ir šiek tiek apie statistiką bei tikimybes pagrindines Duomenų Mokslo akademines sritis.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Darbas su Python - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
[![Intro Video](../../../../translated_images/lt/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Intro Video](../../../../translated_images/lt/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Nors duomenų bazės siūlo labai efektyvius būdus saugoti duomenis ir užklausas vykdyti naudojant užklausų kalbas, lankstiausias būdas apdoroti duomenis yra rašyti savo programą, kuri manipuliuoja duomenimis. Daugeliu atvejų duomenų bazės užklausa būtų efektyvesnis sprendimas. Tačiau kai kuriais atvejais, kai reikia sudėtingesnio duomenų apdorojimo, tai negali būti lengvai atlikta naudojant SQL.
Duomenų apdorojimas gali būti programuojamas bet kuria programavimo kalba, tačiau yra tam tikrų kalbų, kurios yra aukštesnio lygio dirbant su duomenimis. Duomenų mokslininkai paprastai renkasi vieną iš šių kalbų:
@ -66,7 +66,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Laiko serijos grafikas](../../../../translated_images/lt/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Laiko serijos grafikas](../../../../translated_images/lt/timeseries-1.80de678ab1cf727e.webp)
Dabar tarkime, kad kiekvieną savaitę organizuojame vakarėlį draugams ir pasiimame papildomus 10 ledų pakuočių vakarėliui. Galime sukurti kitą seriją, indeksuotą savaitėmis, kad tai parodytume:
```python
@ -77,7 +77,7 @@ Kai sudedame dvi serijas, gauname bendrą skaičių:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Laiko serijos grafikas](../../../../translated_images/lt/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Laiko serijos grafikas](../../../../translated_images/lt/timeseries-2.aae51d575c55181c.webp)
> **Pastaba**: Mes nenaudojame paprastos sintaksės `total_items+additional_items`. Jei tai darytume, gautume daug `NaN` (*Not a Number*) reikšmių rezultato serijoje. Taip yra todėl, kad kai kuriems indeksų taškams serijoje `additional_items` trūksta reikšmių, o sudėjus `NaN` su bet kuo gaunamas `NaN`. Todėl reikia nurodyti `fill_value` parametrą sudėties metu.
@ -86,7 +86,7 @@ Su laiko serijomis taip pat galime **perdaryti** seriją su skirtingais laiko in
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Mėnesio laiko serijos vidurkiai](../../../../translated_images/lt/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Mėnesio laiko serijos vidurkiai](../../../../translated_images/lt/timeseries-3.f3147cbc8c624881.webp)
### Duomenų rėmelis
@ -212,7 +212,7 @@ Pirmoji problema, į kurią sutelksime dėmesį, yra COVID-19 epidemijos plitimo
Kadangi norime parodyti, kaip dirbti su duomenimis, kviečiame atidaryti [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) ir perskaityti jį nuo pradžios iki pabaigos. Taip pat galite vykdyti langelius ir atlikti keletą iššūkių, kuriuos palikome jums pabaigoje.
![COVID plitimas](../../../../translated_images/lt/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID plitimas](../../../../translated_images/lt/covidspread.f3d131c4f1d260ab.webp)
> Jei nežinote, kaip vykdyti kodą Jupyter Notebook, peržiūrėkite [šį straipsnį](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -234,7 +234,7 @@ Pilnas šio duomenų rinkinio analizės pavyzdys naudojant [Text Analytics for H
Atidarykite [`notebook-papers.ipynb`](notebook-papers.ipynb) ir perskaitykite jį nuo pradžios iki pabaigos. Taip pat galite vykdyti langelius ir atlikti keletą iššūkių, kuriuos palikome jums pabaigoje.
![COVID medicininis gydymas](../../../../translated_images/lt/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![COVID medicininis gydymas](../../../../translated_images/lt/covidtreat.b2ba59f57ca45fbc.webp)
## Vaizdų duomenų apdorojimas

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# Darbas su duomenimis
![data love](../../../translated_images/lt/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/lt/data-love.a22ef29e6742c852.webp)
> Nuotrauka <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a><a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Šiose pamokose sužinosite, kaip galima valdyti, manipuliuoti ir naudoti duomenis programose. Susipažinsite su reliacinėmis ir nereliacinėmis duomenų bazėmis bei kaip jose galima saugoti duomenis. Išmoksite pagrindus, kaip naudotis Python valdant duomenis, ir atrasite daugybę būdų, kaip Python gali būti naudojamas duomenims valdyti ir analizuoti.

@ -42,7 +42,7 @@ Sukurkite paprastą sklaidos diagramą, kad parodytumėte ryšį tarp medaus kai
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![sklaidos diagrama 1](../../../../translated_images/lt/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![sklaidos diagrama 1](../../../../translated_images/lt/scatter1.5e1aa5fd6706c5d1.webp)
Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad pavaizduotumėte, kaip kaina keitėsi per metus. Tai galite padaryti pridėdami 'hue' parametrą, kuris parodys pokyčius metai iš metų:
@ -51,7 +51,7 @@ Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad pavaizduotu
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![sklaidos diagrama 2](../../../../translated_images/lt/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![sklaidos diagrama 2](../../../../translated_images/lt/scatter2.c0041a58621ca702.webp)
Naudodami šią spalvų schemą, galite pastebėti, kad medaus kaina už svarą akivaizdžiai didėja metai iš metų. Iš tiesų, jei patikrinsite duomenų pavyzdį (pavyzdžiui, Arizonos valstiją), galite pastebėti kainų didėjimo tendenciją su keliomis išimtimis:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Galite pastebėti, kaip taškų dydis palaipsniui didėja.
![sklaidos diagrama 3](../../../../translated_images/lt/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![sklaidos diagrama 3](../../../../translated_images/lt/scatter3.3c160a3d1dcb36b3.webp)
Ar tai paprastas pasiūlos ir paklausos atvejis? Dėl tokių veiksnių kaip klimato kaita ir kolonijų žlugimas, ar metai iš metų mažėja medaus pasiūla, todėl kaina kyla?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Atsakymas: Taip, su keliomis išimtimis apie 2003 metus:
![linijinė diagrama 1](../../../../translated_images/lt/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![linijinė diagrama 1](../../../../translated_images/lt/line1.f36eb465229a3b1f.webp)
✅ Kadangi Seaborn agreguoja duomenis aplink vieną liniją, jis rodo „kelis matavimus kiekvienoje x reikšmėje, braižydamas vidurkį ir 95% pasitikėjimo intervalą aplink vidurkį“. [Šaltinis](https://seaborn.pydata.org/tutorial/relational.html). Šį laikui imlų veiksmą galima išjungti pridėjus `ci=None`.
@ -105,7 +105,7 @@ Klausimas: Na, o 2003 metais, ar taip pat matome medaus pasiūlos šuolį? Ką,
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![linijinė diagrama 2](../../../../translated_images/lt/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![linijinė diagrama 2](../../../../translated_images/lt/line2.a5b3493dc01058af.webp)
Atsakymas: Ne visai. Jei pažvelgsite į bendrą gamybą, ji iš tikrųjų atrodo padidėjusi tais metais, nors apskritai medaus gamyba mažėja per šiuos metus.
@ -130,7 +130,7 @@ sns.relplot(
```
Šioje vizualizacijoje galite palyginti derlių vienai kolonijai ir kolonijų skaičių metai iš metų, šalia vienas kito, su wrap nustatytu 3 stulpeliams:
![facet grid](../../../../translated_images/lt/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/lt/facet.6a34851dcd540050.webp)
Šiame duomenų rinkinyje niekas ypatingai neišsiskiria, kalbant apie kolonijų skaičių ir jų derlių metai iš metų bei valstija iš valstijos. Ar yra kitas būdas ieškoti koreliacijos tarp šių dviejų kintamųjų?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/lt/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/lt/dual-line.a4c28ce659603fab.webp)
Nors niekas akivaizdžiai neišsiskiria apie 2003 metus, tai leidžia mums užbaigti šią pamoką šiek tiek linksmesne nata: nors kolonijų skaičius apskritai mažėja, jų skaičius stabilizuojasi, net jei derlius vienai kolonijai mažėja.

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Čia įdiegiame `ggplot2` paketą ir importuojame jį į darbo aplinką naudodami komandą `library("ggplot2")`. Norint sukurti bet kokią diagramą su ggplot, naudojama funkcija `ggplot()`, kurioje nurodote duomenų rinkinį, x ir y kintamuosius kaip atributus. Šiuo atveju naudojame funkciją `geom_line()`, nes norime sukurti linijinę diagramą.
![MaxWingspan-lineplot](../../../../../translated_images/lt/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/lt/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
Ką pastebite iš karto? Atrodo, kad yra bent vienas išskirtinis atvejis tai tikrai įspūdingas sparnų plotis! Sparnų plotis, viršijantis 2000 cm, yra daugiau nei 20 metrų ar Minesotoje skraido pterodaktiliai? Išsiaiškinkime.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Mes nurodome kampą `theme` ir nurodome x ir y ašių etiketes naudodami `xlab()` ir `ylab()` atitinkamai. `ggtitle()` suteikia grafikui/diagramai pavadinimą.
![MaxWingspan-lineplot-improved](../../../../../translated_images/lt/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/lt/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
Net ir pasukus etiketes 45 laipsnių kampu, jų per daug, kad būtų galima perskaityti. Pabandykime kitą strategiją: pažymėkime tik tuos išskirtinius atvejus ir nustatykime etiketes pačioje diagramoje. Galite naudoti sklaidos diagramą, kad būtų daugiau vietos etiketėms:
@ -91,7 +91,7 @@ Kas čia vyksta? Naudojote funkciją `geom_point()`, kad pavaizduotumėte sklaid
Ką pastebite?
![MaxWingspan-scatterplot](../../../../../translated_images/lt/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/lt/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## Filtruokite savo duomenis
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Sukūrėme naują duomenų rėmelį `birds_filtered` ir tada pavaizdavome sklaidos diagramą. Filtruodami išskirtinius atvejus, jūsų duomenys tampa nuoseklesni ir suprantamesni.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/lt/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/lt/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
Dabar, kai turime švaresnį duomenų rinkinį bent jau sparnų pločio atžvilgiu, sužinokime daugiau apie šiuos paukščius.
@ -151,7 +151,7 @@ birds_filtered %>% group_by(Category) %>%
```
Šiame fragmente įdiegiame [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) ir [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) paketus, kad padėtume manipuliuoti ir grupuoti duomenis, norint pavaizduoti sukrautą stulpelinę diagramą. Pirmiausia grupuojate duomenis pagal paukščių `Category` ir tada apibendrinate `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` stulpelius. Tada, naudodami `ggplot2` paketą, pavaizduojate stulpelinę diagramą, nurodydami spalvas skirtingoms kategorijoms ir etiketes.
![Stacked bar chart](../../../../../translated_images/lt/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/lt/stacked-bar-chart.0c92264e89da7b39.webp)
Ši stulpelinė diagrama, tačiau, yra neįskaitoma, nes yra per daug negrupuotų duomenų. Turite pasirinkti tik tuos duomenis, kuriuos norite pavaizduoti, todėl pažvelkime į paukščių ilgį pagal jų kategoriją.
@ -166,7 +166,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Pirmiausia suskaičiuojate unikalių reikšmių skaičių `Category` stulpelyje ir tada surūšiuojate jas į naują duomenų rėmelį `birds_count`. Šie surūšiuoti duomenys tada faktorizuojami tame pačiame lygyje, kad būtų pavaizduoti surūšiuota tvarka. Naudodami `ggplot2` tada pavaizduojate duomenis stulpelinėje diagramoje. Funkcija `coord_flip()` pavaizduoja horizontalius stulpelius.
![category-length](../../../../../translated_images/lt/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/lt/category-length.7e34c296690e85d6.webp)
Ši stulpelinė diagrama suteikia gerą vaizdą apie paukščių skaičių kiekvienoje kategorijoje. Vienu žvilgsniu matote, kad didžiausias paukščių skaičius šiame regione priklauso Antys/Žąsys/Vandens kategorijai. Minesota yra „10 000 ežerų kraštas“, todėl tai nestebina!
@ -189,7 +189,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
Mes grupuojame `birds_filtered` duomenis pagal `Category` ir tada pavaizduojame stulpelinę diagramą.
![comparing data](../../../../../translated_images/lt/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/lt/comparingdata.f486a450d61c7ca5.webp)
Čia nieko nestebina: kolibriai turi mažiausią `MaxLength`, palyginti su pelikanais ar žąsimis. Gerai, kai duomenys logiškai atitinka!
@ -201,7 +201,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/lt/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/lt/superimposed-values.5363f0705a1da416.webp)
## 🚀 Iššūkis

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![maksimalus ilgis pagal būrį](../../../../../translated_images/lt/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![maksimalus ilgis pagal būrį](../../../../../translated_images/lt/max-length-per-order.e5b283d952c78c12.webp)
Tai suteikia bendrą paukščių kūno ilgio pasiskirstymo pagal būrį apžvalgą, tačiau tai nėra optimalus būdas tikriems pasiskirstymams parodyti. Šią užduotį paprastai atlieka histograma.
@ -48,7 +48,7 @@ Tai suteikia bendrą paukščių kūno ilgio pasiskirstymo pagal būrį apžvalg
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![pasiskirstymas visame duomenų rinkinyje](../../../../../translated_images/lt/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![pasiskirstymas visame duomenų rinkinyje](../../../../../translated_images/lt/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
Kaip matote, dauguma iš 400+ paukščių šiame duomenų rinkinyje patenka į mažesnę nei 2000 Max Kūno Masės ribą. Gaukite daugiau įžvalgų apie duomenis, pakeisdami `bins` parametrą į didesnį skaičių, pavyzdžiui, 30:
@ -56,7 +56,7 @@ Kaip matote, dauguma iš 400+ paukščių šiame duomenų rinkinyje patenka į m
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![pasiskirstymas su 30 intervalų](../../../../../translated_images/lt/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![pasiskirstymas su 30 intervalų](../../../../../translated_images/lt/distribution-30bins.6a3921ea7a421bf7.webp)
Ši diagrama rodo pasiskirstymą šiek tiek detaliau. Mažiau į kairę pasvirusią diagramą būtų galima sukurti užtikrinant, kad pasirinktumėte tik duomenis tam tikrame diapazone:
@ -68,7 +68,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![filtruota histograma](../../../../../translated_images/lt/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![filtruota histograma](../../../../../translated_images/lt/filtered-histogram.6bf5d2bfd8253322.webp)
✅ Išbandykite kitus filtrus ir duomenų taškus. Norėdami pamatyti visą duomenų pasiskirstymą, pašalinkite `['MaxBodyMass']` filtrą, kad parodytumėte pažymėtus pasiskirstymus.
@ -82,7 +82,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Atrodo, kad tarp šių dviejų elementų yra tikėtinas koreliavimas pagal numatomą ašį, su viena ypač stipria susiliejimo vieta:
![2D diagrama](../../../../../translated_images/lt/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2D diagrama](../../../../../translated_images/lt/2d-plot.c504786f439bd7eb.webp)
Histogramų numatytasis veikimas gerai tinka skaitiniams duomenims. O kas, jei reikia pamatyti pasiskirstymus pagal tekstinius duomenis?
## Tyrinėkite duomenų rinkinį pagal tekstinius duomenis
@ -113,7 +113,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![sparnų amplitudė ir apsaugos statusas](../../../../../translated_images/lt/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![sparnų amplitudė ir apsaugos statusas](../../../../../translated_images/lt/wingspan-conservation-collation.4024e9aa6910866a.webp)
Atrodo, kad nėra gero koreliavimo tarp minimalaus sparnų amplitudės dydžio ir apsaugos statuso. Išbandykite kitus duomenų rinkinio elementus naudodami šį metodą. Taip pat galite išbandyti skirtingus filtrus. Ar pastebite kokį nors koreliavimą?
@ -127,7 +127,7 @@ Dabar dirbkime su tankio diagramomis!
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![tankio diagrama](../../../../../translated_images/lt/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![tankio diagrama](../../../../../translated_images/lt/density-plot.675ccf865b76c690.webp)
Galite matyti, kaip ši diagrama atspindi ankstesnę minimalaus sparnų amplitudės duomenų diagramą; ji tiesiog šiek tiek sklandesnė. Jei norėtumėte peržiūrėti tą dantytą MaxBodyMass liniją antroje sukurtoje diagramoje, galėtumėte ją labai gerai išlyginti, naudodami šį metodą:
@ -135,7 +135,7 @@ Galite matyti, kaip ši diagrama atspindi ankstesnę minimalaus sparnų amplitud
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![kūno masės tankis](../../../../../translated_images/lt/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![kūno masės tankis](../../../../../translated_images/lt/bodymass-smooth.d31ce526d82b0a1f.webp)
Jei norėtumėte sklandžios, bet ne per daug sklandžios linijos, redaguokite `adjust` parametrą:
@ -143,7 +143,7 @@ Jei norėtumėte sklandžios, bet ne per daug sklandžios linijos, redaguokite `
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![mažiau sklandi kūno masė](../../../../../translated_images/lt/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![mažiau sklandi kūno masė](../../../../../translated_images/lt/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ Perskaitykite apie šio tipo diagramos parametrus ir eksperimentuokite!
@ -153,7 +153,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![kūno masė pagal būrį](../../../../../translated_images/lt/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![kūno masė pagal būrį](../../../../../translated_images/lt/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 Iššūkis

@ -84,7 +84,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Štai pyrago diagrama, rodanti šių duomenų proporcijas pagal šias dvi grybų klases. Labai svarbu teisingai nustatyti etikečių tvarką, ypač čia, todėl būtinai patikrinkite, ar etikečių masyvas sudarytas teisinga tvarka!
![pyrago diagrama](../../../../../translated_images/lt/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![pyrago diagrama](../../../../../translated_images/lt/pie1-wb.685df063673751f4.webp)
## Žiedai!
@ -118,7 +118,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![žiedo diagrama](../../../../../translated_images/lt/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![žiedo diagrama](../../../../../translated_images/lt/donut-wb.34e6fb275da9d834.webp)
Šis kodas naudoja dvi bibliotekas - ggplot2 ir webr. Naudodami webr bibliotekos PieDonut funkciją, galite lengvai sukurti žiedo diagramą!
@ -156,7 +156,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
Naudodami vaflio diagramą, galite aiškiai matyti grybų kepurėlių spalvų proporcijas šiame duomenų rinkinyje. Įdomu tai, kad yra daug grybų su žaliomis kepurėlėmis!
![vaflio diagrama](../../../../../translated_images/lt/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![vaflio diagrama](../../../../../translated_images/lt/waffle.aaa75c5337735a6e.webp)
Šioje pamokoje išmokote tris būdus, kaip vizualizuoti proporcijas. Pirmiausia reikia suskirstyti savo duomenis į kategorijas, o tada nuspręsti, kuris būdas geriausiai atspindi duomenis - pyragas, žiedas ar vaflis. Visi jie yra „skanūs“ ir suteikia vartotojui greitą duomenų rinkinio apžvalgą.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![sklaidos diagrama 1](../../../../../translated_images/lt/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![sklaidos diagrama 1](../../../../../translated_images/lt/scatter1.86b8900674d88b26.webp)
Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad parodytumėte, kaip kaina keičiasi metai iš metų. Tai galite padaryti pridėdami 'scale_color_gradientn' parametrą, kad parodytumėte pokyčius:
@ -52,7 +52,7 @@ Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad parodytumė
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![sklaidos diagrama 2](../../../../../translated_images/lt/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![sklaidos diagrama 2](../../../../../translated_images/lt/scatter2.4d1cbc693bad20e2.webp)
Naudodami šią spalvų schemą, galite pastebėti, kad per metus medaus kaina už svarą akivaizdžiai kyla. Iš tiesų, jei patikrinsite duomenų pavyzdį (pavyzdžiui, Arizonos valstiją), galite pastebėti kainų kilimo modelį metai iš metų, su keliomis išimtimis:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Matote, kaip taškų dydis palaipsniui didėja.
![sklaidos diagrama 3](../../../../../translated_images/lt/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![sklaidos diagrama 3](../../../../../translated_images/lt/scatter3.722d21e6f20b3ea2.webp)
Ar tai paprastas pasiūlos ir paklausos atvejis? Dėl tokių veiksnių kaip klimato kaita ir kolonijų žlugimas, ar medaus kiekis, kurį galima įsigyti, mažėja metai iš metų, todėl kaina kyla?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Atsakymas: Taip, su keliomis išimtimis apie 2003 metus:
![linijinė diagrama 1](../../../../../translated_images/lt/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![linijinė diagrama 1](../../../../../translated_images/lt/line1.299b576fbb2a59e6.webp)
Klausimas: Na, o 2003 metais, ar taip pat matome medaus tiekimo šuolį? Ką, jei pažvelgtume į bendrą gamybą metai iš metų?
@ -106,7 +106,7 @@ Klausimas: Na, o 2003 metais, ar taip pat matome medaus tiekimo šuolį? Ką, je
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![linijinė diagrama 2](../../../../../translated_images/lt/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![linijinė diagrama 2](../../../../../translated_images/lt/line2.3b18fcda7176ceba.webp)
Atsakymas: Ne visai. Jei pažvelgsite į bendrą gamybą, atrodo, kad ji iš tikrųjų padidėjo tais metais, nors apskritai medaus gamybos kiekis mažėja per šiuos metus.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
Šioje vizualizacijoje galite palyginti derlių vienai kolonijai ir kolonijų skaičių metai iš metų, šalia vienas kito, su wrap nustatytu 3 stulpeliams:
![facet grid](../../../../../translated_images/lt/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/lt/facet.491ad90d61c2a7cc.webp)
Šiam duomenų rinkiniui niekas ypatingai neišsiskiria, kalbant apie kolonijų skaičių ir jų derlių, metai iš metų ir valstija po valstijos. Ar yra kitoks būdas ieškoti koreliacijos tarp šių dviejų kintamųjų?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![uždėtos diagramos](../../../../../translated_images/lt/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![uždėtos diagramos](../../../../../translated_images/lt/dual-line.fc4665f360a54018.webp)
Nors niekas ypatingai neišsiskiria apie 2003 metus, tai leidžia mums užbaigti šią pamoką šiek tiek linksmesne nata: nors kolonijų skaičius apskritai mažėja, jų skaičius stabilizuojasi, net jei jų derlius vienai kolonijai mažėja.

@ -38,25 +38,25 @@ Ankstesnėse pamokose eksperimentavote su įvairių tipų duomenų vizualizacijo
Net jei duomenų mokslininkas kruopščiai pasirenka tinkamą diagramą tinkamiems duomenims, yra daugybė būdų, kaip duomenys gali būti pateikti taip, kad įrodytų tam tikrą tašką, dažnai pažeidžiant pačius duomenis. Yra daugybė klaidinančių diagramų ir infografikų pavyzdžių!
[![Kaip meluoja diagramos, Alberto Cairo](../../../../../translated_images/lt/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kaip meluoja diagramos")
[![Kaip meluoja diagramos, Alberto Cairo](../../../../../translated_images/lt/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kaip meluoja diagramos")
> 🎥 Spustelėkite aukščiau esančią nuotrauką, kad pamatytumėte konferencijos pranešimą apie klaidinančias diagramas
Ši diagrama apverčia X ašį, kad parodytų priešingą tiesai, remiantis datomis:
![bloga diagrama 1](../../../../../translated_images/lt/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![bloga diagrama 1](../../../../../translated_images/lt/bad-chart-1.596bc93425a8ac30.webp)
[Ši diagrama](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) yra dar labiau klaidinanti, nes akis nukreipiama į dešinę, kad būtų padaryta išvada, jog laikui bėgant COVID atvejų skaičius sumažėjo įvairiose apskrityse. Tačiau, jei atidžiai pažvelgsite į datas, pastebėsite, kad jos buvo pertvarkytos, kad būtų parodyta klaidinanti mažėjimo tendencija.
![bloga diagrama 2](../../../../../translated_images/lt/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![bloga diagrama 2](../../../../../translated_images/lt/bad-chart-2.62edf4d2f30f4e51.webp)
Šis liūdnai pagarsėjęs pavyzdys naudoja spalvas IR apverstą Y ašį, kad suklaidintų: vietoj išvados, kad ginklų mirčių skaičius padidėjo po ginklams palankios teisės aktų priėmimo, akis apgaunama manyti, kad tiesa yra priešinga:
![bloga diagrama 3](../../../../../translated_images/lt/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![bloga diagrama 3](../../../../../translated_images/lt/bad-chart-3.e201e2e915a230bc.webp)
Ši keista diagrama rodo, kaip proporcijos gali būti manipuliuojamos, sukeliant juoką:
![bloga diagrama 4](../../../../../translated_images/lt/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![bloga diagrama 4](../../../../../translated_images/lt/bad-chart-4.8872b2b881ffa96c.webp)
Palyginti nepalyginamus dalykus yra dar vienas abejotinas triukas. Yra [puiki svetainė](https://tylervigen.com/spurious-correlations), skirta „klaidingoms koreliacijoms“, kurioje pateikiami „faktai“, koreliuojantys tokius dalykus kaip skyrybų rodiklis Meino valstijoje ir margarino vartojimas. Reddit grupė taip pat renka [blogus duomenų naudojimo pavyzdžius](https://www.reddit.com/r/dataisugly/top/?t=all).
@ -91,13 +91,13 @@ Pažymėkite ašis, pateikite legendą, jei reikia, ir pasiūlykite užuominas (
Jei jūsų duomenys yra tekstiniai ir ilgi X ašyje, galite pakreipti tekstą, kad jis būtų lengviau skaitomas. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) siūlo 3D diagramų kūrimą, jei jūsų duomenys tai palaiko. Naudojant šią biblioteką galima sukurti sudėtingas duomenų vizualizacijas.
![3D diagramos](../../../../../translated_images/lt/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3D diagramos](../../../../../translated_images/lt/3d.db1734c151eee87d.webp)
## Animacija ir 3D diagramų rodymas
Kai kurios geriausios šių dienų duomenų vizualizacijos yra animuotos. Shirley Wu sukūrė nuostabias vizualizacijas su D3, tokias kaip '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kur kiekviena gėlė yra filmo vizualizacija. Kitas pavyzdys, sukurtas Guardian, yra „bussed out“, interaktyvi patirtis, derinanti vizualizacijas su Greensock ir D3 bei pasakojimo straipsnio formatą, kad parodytų, kaip NYC sprendžia benamių problemą, išsiųsdama žmones iš miesto.
![busing](../../../../../translated_images/lt/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/lt/busing.8157cf1bc89a3f65.webp)
> „Bussed Out: How America Moves its Homeless“ iš [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Vizualizacijos: Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Nors ši pamoka nėra pakankama, kad išsamiai išmokytų šias galingas vizuali
Jūs sukursite internetinę programą, kuri parodys animuotą šio socialinio tinklo vaizdą. Ji naudoja biblioteką, sukurtą [tinklo vizualizacijai](https://github.com/emiliorizzo/vue-d3-network) su Vue.js ir D3. Kai programa veikia, galite perkelti mazgus ekrane, kad pertvarkytumėte duomenis.
![liaisons](../../../../../translated_images/lt/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/lt/liaisons.90ce7360bcf84765.webp)
## Projektas: Sukurkite diagramą tinklui parodyti naudojant D3.js

@ -1,6 +1,6 @@
# Vizualizacijos
![bitė ant levandos žiedo](../../../translated_images/lt/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![bitė ant levandos žiedo](../../../translated_images/lt/bee.0aa1d91132b12e3a.webp)
> Nuotrauka <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a><a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Duomenų vizualizavimas yra viena svarbiausių duomenų mokslininko užduočių. Vaizdai verti tūkstančio žodžių, o vizualizacija gali padėti atskleisti įvairius įdomius jūsų duomenų aspektus, tokius kaip šuoliai, anomalijos, grupavimai, tendencijos ir dar daugiau, kas padeda suprasti istoriją, kurią jūsų duomenys bando papasakoti.

@ -16,7 +16,7 @@
Šioje pamokoje daugiausia dėmesio skiriama trims gyvavimo ciklo dalims: duomenų rinkimui, apdorojimui ir priežiūrai.
![Duomenų mokslo gyvavimo ciklo diagrama](../../../../translated_images/lt/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Duomenų mokslo gyvavimo ciklo diagrama](../../../../translated_images/lt/data-science-lifecycle.a1e362637503c4fb.webp)
> Nuotrauka iš [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Duomenų rinkimas
@ -92,7 +92,7 @@ Išnagrinėkite [Komandos duomenų mokslo proceso gyvavimo ciklą](https://docs.
|Komandos duomenų mokslo procesas (TDSP)|Kryžminės pramonės standartinis duomenų gavybos procesas (CRISP-DM)|
|--|--|
|![Komandos duomenų mokslo gyvavimo ciklas](../../../../translated_images/lt/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Duomenų mokslo proceso aljanso vaizdas](../../../../translated_images/lt/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Komandos duomenų mokslo gyvavimo ciklas](../../../../translated_images/lt/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Duomenų mokslo proceso aljanso vaizdas](../../../../translated_images/lt/CRISP-DM.8bad2b4c66e62aa7.webp) |
| Vaizdas iš [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Vaizdas iš [Duomenų mokslo proceso aljanso](https://www.datascience-pm.com/crisp-dm-2/) |
## [Po paskaitos: testas](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# Duomenų mokslo gyvavimo ciklas
![communication](../../../translated_images/lt/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/lt/communication.06d8e2a88d30d168.webp)
> Nuotrauka <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a><a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Šiose pamokose nagrinėsite kai kuriuos duomenų mokslo gyvavimo ciklo aspektus, įskaitant duomenų analizę ir komunikaciją.

@ -1,12 +1,12 @@
# Duomenų mokslas debesyje
![cloud-picture](../../../translated_images/lt/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/lt/cloud-picture.f5526de3c6c6387b.webp)
> Nuotrauka [Jelleke Vanooteghem](https://unsplash.com/@ilumire) iš [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Kalbant apie duomenų mokslą su dideliais duomenų kiekiais, debesis gali būti tikras žaidimo keitiklis. Per artimiausias tris pamokas sužinosime, kas yra debesis ir kodėl jis gali būti labai naudingas. Taip pat išnagrinėsime širdies nepakankamumo duomenų rinkinį ir sukursime modelį, kuris padės įvertinti tikimybę, ar žmogui gresia širdies nepakankamumas. Naudosime debesies galią, kad apmokytume, diegtume ir naudotume modelį dviem skirtingais būdais. Vienas būdas naudojant tik vartotojo sąsają „Low code/No code“ stiliumi, kitas naudojant „Azure Machine Learning Software Developer Kit“ (Azure ML SDK).
![project-schema](../../../translated_images/lt/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/lt/project-schema.420e56d495624541.webp)
### Temos

@ -32,7 +32,7 @@ Dėl AI demokratizacijos kūrėjams dabar lengviau kurti ir integruoti AI pagrį
* [Duomenų mokslas sveikatos apsaugoje](https://data-flair.training/blogs/data-science-in-healthcare/) - pabrėžia taikymą, pvz., medicininį vaizdavimą (pvz., MRT, rentgenas, KT skenavimas), genomiką (DNR sekos nustatymas), vaistų kūrimą (rizikos vertinimas, sėkmės prognozė), prognozavimo analizę (pacientų priežiūra ir tiekimo logistika), ligų stebėjimą ir prevenciją ir kt.
![Duomenų mokslo taikymas realiame pasaulyje](../../../../translated_images/lt/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Vaizdo kreditas: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Duomenų mokslo taikymas realiame pasaulyje](../../../../translated_images/lt/data-science-applications.4e5019cd8790ebac.webp) Vaizdo kreditas: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Paveikslėlyje parodytos kitos sritys ir pavyzdžiai, kaip taikyti duomenų mokslo technikas. Norite tyrinėti kitus taikymus? Peržiūrėkite [Peržiūra ir savarankiškas mokymasis](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) skyrių žemiau.

@ -13,7 +13,7 @@ Explorer sąsaja (pavaizduota žemiau esančiame ekrano vaizde) leidžia pasirin
2. Išnagrinėti duomenų rinkinių [Katalogą](https://planetarycomputer.microsoft.com/catalog) sužinoti kiekvieno paskirtį.
3. Naudoti Explorer pasirinkti jus dominantį duomenų rinkinį, pasirinkti tinkamą užklausą ir atvaizdavimo parinktį.
![Planetary Computer Explorer](../../../../translated_images/lt/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![Planetary Computer Explorer](../../../../translated_images/lt/planetary-computer-explorer.c1e95a9b053167d6.webp)
`Jūsų užduotis:`
Dabar išanalizuokite naršyklėje sugeneruotą vizualizaciją ir atsakykite į šiuos klausimus:

@ -1,4 +1,4 @@
# Duomenų mokslas pradedantiesiems Mokymo programa
# Duomenų mokslas pradedantiesiems mokymo programa
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
@ -17,181 +17,191 @@
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Azure Cloud Advocates“ komanda „Microsoft“ džiaugiasi galėdama pasiūlyti 10 savaičių, 20 pamokų mokymo programą, skirtą Duomenų mokslui. Kiekviena pamoka apima priešpamokos ir popamokos testus, rašytines instrukcijas pamokos atlikimui, sprendimą ir užduotį. Mūsų projektams pagrįstas mokymo metodas leidžia mokytis dirbant, kas yra patikrintas būdas įgyti naujų įgūdžių, kurie išlieka.
Microsoft“ Azure Cloud advokatai džiaugiasi galėdami pasiūlyti 10 savaičių, 20 pamokų mokymo programą apie duomenų mokslą. Kiekviena pamoka apima priešpamokinius ir po pamokinius testus, rašytines pamokos vykdymo instrukcijas, sprendimą ir užduotį. Mūsų projektinis mokymo metodas leidžia mokytis darant, o tai yra patikrintas būdas naujoms žinioms įsisavinti.
**Nuoširdus ačiū mūsų autoriams:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Ypatingas ačiū 🙏 mūsų [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) autoriams, recenzentams ir turinio kūrėjams,** ypač Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Specialūs ačiū 🙏 mūsų [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) autoriams, recenzentams ir turinio bendradarbiautojams,** ypač Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/lt/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Duomenų mokslas pradedantiesiems _Sketchnote autorius [@nitya](https://twitter.com/nitya)_ |
| Duomenų mokslas pradedantiesiems _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
### 🌐 Daugiakalbė palaikymas
#### Palaikoma per GitHub Action (automatizuotas ir visada atnaujinamas)
#### Palaikoma per GitHub Action (automatizuota ir visada atnaujinta)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](./README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **Norite klonuoti vietoje?**
> Šiame repozitorijoje yra daugiau nei 50 kalbų vertimų, dėl ko ženkliai padidėja atsisiuntimo dydis. Norėdami klonuoti be vertimų, naudokite mažo užimtumo atsisiuntimą (sparse checkout):
>
> Ši saugykla apima daugiau nei 50 kalbų vertimų, dėl ko žymiai išauga atsisiuntimo dydis. Norėdami klonuoti be vertimų, naudokite sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> Tai suteiks viską, ko reikia kursui užbaigti, žymiai greičiau atsisiunčiant.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Tai suteikia jums viską, ko reikia norint baigti kursą daug greičiau atsisiunčiant.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Jei norite, kad būtų palaikomos papildomos vertimo kalbos, jų sąrašas yra [čia](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Jei norite papildomų palaikomų vertimų kalbų, sąrašas pateikiamas [čia](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Prisijunkite prie mūsų bendruomenės
#### Prisijunkite prie mūsų bendruomenės
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Turime vykstančią „Discord“ mokymosi su DI seriją, daugiau sužinokite ir prisijunkite prie mūsų [Learn with AI Series](https://aka.ms/learnwithai/discord) nuo 2025 m. rugsėjo 18 d. iki 30 d. Jūs gausite patarimų ir triukų, kaip naudotis „GitHub Copilot“ duomenų moksle.
Turime vykstančią Discord mokymosi su AI seriją, sužinokite daugiau ir prisijunkite prie mūsų adresu [Learn with AI Series](https://aka.ms/learnwithai/discord) nuo 2025 m. rugsėjo 18 iki 30 dienos. Gaunate patarimus ir gudrybes, kaip naudoti GitHub Copilot duomenų mokslui.
![Learn with AI series](../../translated_images/lt/1.2b28cdc6205e26fe.webp)
# Ar esi studentas?
# Ar esate studentas?
Pradėkite naudodamiesi šiais ištekliais:
- [Studentų centras](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Šiame puslapyje rasite pradedančiųjų išteklius, studentų paketus ir net būdus gauti nemokamą sertifikavimo kuponą. Tai vienas puslapis, kurį norėsite įsidėti į žymes ir periodiškai tikrinti, nes mes bent kartą per mėnesį keičiam turinį.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Prisijunkite prie pasaulinės studentų ambasadorių bendruomenės, tai gali būti jūsų kelias į Microsoft.
- [Studentų hub puslapis](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Šiame puslapyje rasite pradedančiųjų išteklius, studentų paketus ir net būdus gauti nemokamą sertifikato kuponą. Tai puslapis, kurį verta įsidėti į žymes ir patikrinti kartas nuo karto, nes mums kas mėnesį atnaujinamas turinys.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Prisijunkite prie pasaulinės studentų ambasadorių bendruomenės tai gali būti jūsų kelias į Microsoft.
# Pradžia
## 📚 Dokumentacija
- **[Įdiegimo vadovas](INSTALLATION.md)** žingsnis po žingsnio instrukcijos pradedantiesiems
- **[Naudojimo vadovas](USAGE.md)** pavyzdžiai ir dažniausios darbo eigų naudojimo instrukcijos
- **[Problemų sprendimas](TROUBLESHOOTING.md)** dažniausių problemų sprendimai
- **[Prisidėjimo vadovas](CONTRIBUTING.md)** kaip prisidėti prie šio projekto
- **[Mokytojams](for-teachers.md)** mokymo gairės ir klasės ištekliai
- **[Įdiegimo gidas](INSTALLATION.md)** žingsnis po žingsnio įdiegimo instrukcijos pradedantiesiems
- **[Naudojimo gidas](USAGE.md)** pavyzdžiai ir dažni darbo procesai
- **[Problemų sprendimas](TROUBLESHOOTING.md)** sprendimai dažniausioms problemoms
- **[Prisidėjimo gidas](CONTRIBUTING.md)** Kaip prisidėti prie šio projekto
- **[Mokytojams](for-teachers.md)** Mokymo gairės ir klasės ištekliai
## 👨‍🎓 Studentams
> **Visiškai pradedantiesiems:** Naujokas duomenų moksle? Pradėkite nuo mūsų [pradedančiųjų draugiškų pavyzdžių](examples/README.md)! Šie paprasti, gerai komentuoti pavyzdžiai padės jums suprasti pagrindus prieš gilinatės į visą mokymo programą.
> **[Studentams](https://aka.ms/student-page):** kad naudotumėte šią programą savarankiškai, šaknykite visą repozitoriją ir atlikite pratimus savarankiškai, pradėdami nuo priešpaskaitos testo. Tada skaitykite paskaitą ir atlikite likusias užduotis. Stenkitės kurti projektus suprasdami pamokas, o ne tiesiog kopijuodami sprendimų kodą; tačiau tas kodas yra prieinamas /solutions aplankuose kiekvienoje projekto orientuotoje pamokoje. Kita idėja būtų sukurti studijų grupę su draugais ir kartu pereiti turinį. Tolimesniam mokymuisi rekomenduojame [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Visiškai pradedantiesiems:** Naujokas duomenų moksle? Pradėkite nuo mūsų [pradedančiųjų draugiškų pavyzdžių](examples/README.md)! Šie paprasti ir gerai paaiškinti pavyzdžiai padės suprasti pagrindus prieš imantis visos mokymo programos.
> **[Studentams](https://aka.ms/student-page)**: norint naudoti šią mokymo programą savarankiškai, sukurkite viso saugyklos forką ir savarankiškai atlikite pratimus, pradedant priešpaskaitos testu. Tada perskaitykite paskaitą ir atlikite likusias užduotis. Stenkitės kurti projektus suprasdami pamokas, o ne kopijuodami sprendimų kodą; tačiau šis kodas prieinamas /solutions aplankuose kiekvienoje projektų orientuotoje pamokoje. Kita idėja sukurti mokymosi grupę su draugais ir kartu peržiūrėti turinį. Tolimesniam mokymuisi rekomenduojame [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Greitas pradžios planas:**
1. Patikrinkite [Įdiegimo vadovą](INSTALLATION.md), kaip nustatyti savo aplinką
2. Peržiūrėkite [Naudojimo vadovą](USAGE.md), kad sužinotumėte, kaip dirbti su mokymo programa
3. Pradėkite nuo 1 pamokos ir dirbkite nuosekliai
**Greitas startas:**
1. Peržiūrėkite [Įdiegimo gidą](INSTALLATION.md) savo aplinkos paruošimui
2. Susipažinkite su [Naudojimo gidu](USAGE.md), kaip dirbti su mokymo programa
3. Pradėkite nuo 1-os pamokos ir dirbkite paeiliui
4. Prisijunkite prie mūsų [Discord bendruomenės](https://aka.ms/ds4beginners/discord) pagalbai
## 👩‍🏫 Mokytojams
> **Mokytojams**: mes [įtraukėme keletą pasiūlymų](for-teachers.md), kaip naudoti šią mokymo programą. Laukiame jūsų atsiliepimų [mūsų diskusijų forume](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Mokytojams:** mes pateikėme [kai kuriuos pasiūlymus](for-teachers.md), kaip naudoti šią mokymo programą. Mielai lauksime jūsų atsiliepimų [mūsų diskusijų forume](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Susipažinkite su komanda
[![Promo video](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Promo video")
[![Reklaminis video](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Reklaminis video")
**Gif sukūrė** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Spustelėkite aukščiau esantį paveikslėlį, kad pamatytumėte vaizdo įrašą apie projektą ir žmones, kurie jį sukūrė!
> 🎥 Spauskite paveikslėlį aukščiau, kad pamatytumėte vaizdo įrašą apie projektą ir jį sukūrusius žmones!
## Pedagogika
Kuriant šią programą pasirinkome du pedagoginius principus: užtikrinti, kad ji būtų projektinė, ir kad būtų dažni testai. Šios serijos pabaigoje studentai išmoks pagrindines duomenų mokslo sąvokas, įskaitant etinius principus, duomenų paruošimą, įvairius būdus dirbti su duomenimis, duomenų vizualizaciją, duomenų analizę, realaus pasaulio duomenų mokslo panaudojimo atvejus ir dar daugiau.
Kuriant šią mokymo programą pasirinkome dvi pedagogines nuostatas: užtikrinti, kad ji būtų pagrįsta projektais ir kad būtų dažnai atliekami testai. Šios serijos pabaigoje studentai išmoks pagrindines duomenų mokslo principus, įskaitant etikos sąvokas, duomenų paruošimą, įvairius būdus dirbti su duomenimis, duomenų vizualizaciją, duomenų analizę, realaus pasaulio duomenų mokslo panaudojimo atvejus ir daug daugiau.
Be to, lengvas testas prieš paskaitą nustato studento tikslą mokytis temos, o antras testas po paskaitos užtikrina geresnį įsiminimą. Ši programa sukurta būti lanksčia ir smagia, ją galima įveikti visą arba atskiras dalis. Projektai prasideda nuo mažų ir tampa vis sudėtingesni iki 10 savaičių ciklo pabaigos.
Be to, žemos rizikos testas prieš pamoką nustato studento ketinimą mokytis tam tikros temos, o antras testas po pamokos užtikrina geresnį žinių įsisavinimą. Ši mokymo programa sukurta būti lanksti ir įdomi, ją galima atlikti visiškai arba dalimis. Projektai prasideda nuo mažų ir tampa vis sudėtingesni per 10 savaičių ciklą.
> Raskite mūsų [Elgesio kodeksą](CODE_OF_CONDUCT.md), [Dalyvavimo taisykles](CONTRIBUTING.md), [Vertimo gaires](TRANSLATIONS.md). Laukiame jūsų konstruktyvių atsiliepimų!
> Raskite mūsų [Elgesio kodeksą](CODE_OF_CONDUCT.md), [Indėlio](CONTRIBUTING.md), [Vertimo](TRANSLATIONS.md) gaires. Laukiame jūsų konstruktyvios kritikos!
## Kiekviena pamoka apima:
- Neprivalomą eskizo užrašą
- Neprivalomą papildomą vaizdo įrašą
- Apšilimo testą prieš pamoką
- Pasirinktinį eskizo užrašą
- Pasirinktinį papildomą video
- Priešpamokos apšilimo testą
- Rašytinę pamoką
- Projekto pamokose žingsnis po žingsnio vadovus, kaip sukurti projektą
- Projektais pagrįstose pamokose žingsnis po žingsnio vadovus, kaip kurti projektą
- Žinių patikrinimus
- Iššūkį
- Papildomą skaitymą
- Papildomą literatūrą
- Užduotį
- [Po pamokos testą](https://ff-quizzes.netlify.app/en/)
- [Poklasinį testą](https://ff-quizzes.netlify.app/en/)
> **Pastaba apie testus**: Visi testai yra Quiz-App aplanke, iš viso 40 testų po tris klausimus kiekviename. Jie susieti iš pamokų, tačiau testų programėlę galima paleisti vietoje arba įdiegti į Azure; vykdykite nurodymus `quiz-app` aplanke. Jie palaipsniui lokalizuojami.
> **Pastaba apie testus**: visi testai yra Quiz-App aplanke, kur yra 40 testų po tris klausimus kiekviename. Jie yra susieti iš pamokų, bet testų programėlę galima paleisti vietoje arba diegti Azure; sekite instrukcijas `quiz-app` aplanke. Testai palaipsniui lokalizuojami.
## 🎓 Draugiški pradedantiesiems pavyzdžiai
## 🎓 Pradedančiųjų draugiški pavyzdžiai
**Naujas duomenų moksle?** Mes sukūrėme specialų [pavyzdžių katalogą](examples/README.md) su paprastu, gerai komentuotu kodu, kad padėtume jums pradėti:
**Naujas duomenų moksle?** Mes sukūrėme specialų [pavyzdžių katalogą](examples/README.md) su paprastu, gerai paaiškintu kodu, kad padėtume jums pradėti:
- 🌟 **Sveikas Pasauli!** Jūsų pirmoji duomenų mokslo programa
- 📂 **Duomenų užkėlimas** Išmokite skaityti ir tyrinėti duomenų rinkinius
- 📊 **Paprasta analizė** Skaičiuokite statistiką ir ieškokite modelių
- 📈 **Pagrindinė vizualizacija** Kurkite diagramas ir grafikus
- 🔬 **Realaus pasaulio projektas** Pilnas darbo eiga nuo pradžios iki pabaigos
- 🌟 **Hello World** jūsų pirmoji duomenų mokslo programa
- 📂 **Duomenų įkėlimas** sužinokite, kaip skaityti ir tyrinėti duomenų rinkinius
- 📊 **Paprasta analizė** apskaičiuokite statistiką ir suraskite dėsningumus
- 📈 **Pagrindinė vizualizacija** kurkite diagramas ir grafikus
- 🔬 **Realaus pasaulio projektas** baigtinis darbo eiga nuo pradžios iki pabaigos
Kiekviename pavyzdyje pateikiami išsamūs komentarai, kurie paaiškina kiekvieną žingsnį, todėl jis puikiai tinka visiškiems pradedantiesiems!
Kiekvienas pavyzdys apima detalius komentarus, paaiškinančius kiekvieną žingsnį, todėl jis puikiai tinka absoliučioms pradedančiųjų pamokoms!
👉 **[Pradėkite nuo pavyzdžių](examples/README.md)** 👈
## Pamokos
|![ Eskizo užrašas autorius @sketchthedocs https://sketchthedocs.dev](../../translated_images/lt/00-Roadmap.4905d6567dff4753.webp)|
|![ Eskizo užrašas autoriaus @sketchthedocs https://sketchthedocs.dev](../../translated_images/lt/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Duomenų mokslas pradedantiesiems: kelias - _Eskizo užrašas autorius [@nitya](https://twitter.com/nitya)_ |
| Duomenų mokslas pradedantiesiems: kelias - _Eskizo užrašas autoriaus [@nitya](https://twitter.com/nitya)_ |
| Pamokos numeris | Tema | Pamokos grupė | Mokymosi tikslai | Susieta pamoka | Autorius |
| Pamokos numeris | Tema | Pamokų grupė | Mokymosi tikslai | Susieta pamoka | Autorius |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Duomenų mokslo apibrėžimas | [Įvadas](1-Introduction/README.md) | Išmokti pagrindines duomenų mokslo sąvokas ir kaip jis susijęs su dirbtiniu intelektu, mašininio mokymosi ir didžiųjų duomenų koncepcijomis. | [pamoka](1-Introduction/01-defining-data-science/README.md) [vaizdo įrašas](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Duomenų mokslo etika | [Įvadas](1-Introduction/README.md) | Duomenų etikos sąvokos, iššūkiai ir struktūros. | [pamoka](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Duomenų apibrėžimas | [Įvadas](1-Introduction/README.md) | Kaip duomenys klasifikuojami ir jų įprasti šaltiniai. | [pamoka](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Statistika ir tikimybė | [Įvadas](1-Introduction/README.md) | Matematiniai tikimybės ir statistikos metodai duomenų supratimui. | [pamoka](1-Introduction/04-stats-and-probability/README.md) [vaizdo įrašas](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Darbas su reliaciniais duomenimis | [Darbas su duomenimis](2-Working-With-Data/README.md) | Įvadas į reliacinius duomenis ir jų tyrinėjimo bei analizės pagrindus naudojant struktūruotąjį užklausų kalbą SQL (tarimas „sidžel“). | [pamoka](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Darbas su NoSQL duomenimis | [Darbas su duomenimis](2-Working-With-Data/README.md) | Įvadas į nerealiacinius duomenis, jų tipus ir pagrindus nagrinėti bei analizuoti dokumentų duomenų bazes. | [pamoka](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique) |
| 07 | Darbas su Python | [Darbas su duomenimis](2-Working-With-Data/README.md) | Pagrindai naudoti Python duomenų tyrinėjimui su bibliotekomis, tokiomis kaip Pandas. Rekomenduojamos pagrindinės Python programavimo žinios. | [pamoka](2-Working-With-Data/07-python/README.md) [vaizdo įrašas](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Duomenų paruošimas | [Darbas su duomenimis](2-Working-With-Data/README.md) | Temos apie duomenų valymo ir transformavimo metodus, sprendžiant trūkstamų, netikslių ar neišsamių duomenų problemas. | [pamoka](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Kiekybinių duomenų vizualizavimas | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Išmokite naudoti Matplotlib paukščių duomenų vizualizavimui 🦆 | [pamoka](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Duomenų pasiskirstymo vizualizacija | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Šioje pamokoje vizualizuojami stebėjimai ir tendencijos intervale. | [pamoka](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Proporcijų vizualizavimas | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Diskrečių ir grupuotų procentų vizualizavimas. | [pamoka](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Santykių vizualizavimas | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Vizualizuojame duomenų rinkinių ir jų kintamųjų ryšius bei koreliacijas. | [pamoka](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Tikslinga vizualizacija | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Metodai ir patarimai, kaip sukurti vertingas vizualizacijas efektyviam problemų sprendimui ir įžvalgoms. | [pamoka](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Duomenų mokslo gyvavimo ciklo įvadas | [Gyvavimo ciklas](4-Data-Science-Lifecycle/README.md) | Duomenų mokslo gyvavimo ciklo įvadas ir pirmasis žingsnis duomenų gavimas ir išgavimas. | [pamoka](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Duomenų analizė | [Gyvavimo ciklas](4-Data-Science-Lifecycle/README.md) | Ši duomenų mokslo gyvavimo ciklo fazė skiriama duomenų analizės metodams. | [pamoka](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikacija | [Gyvavimo ciklas](4-Data-Science-Lifecycle/README.md) | Ši duomenų mokslo gyvavimo ciklo fazė skirta išvadų iš duomenų pristatymui taip, kad sprendimų priėmėjams būtų lengviau suprasti. | [pamoka](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Duomenų mokslas debesyje | [Debesų duomenys](5-Data-Science-In-Cloud/README.md) | Šios pamokos supažindina su duomenų mokslo debesyje koncepcija ir jo privalumais. | [pamoka](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ir [Maud](https://twitter.com/maudstweets) |
| 18 | Duomenų mokslas debesyje | [Debesų duomenys](5-Data-Science-In-Cloud/README.md) | Modelių treniravimas naudojant Low Code įrankius. |[pamoka](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ir [Maud](https://twitter.com/maudstweets) |
| 19 | Duomenų mokslas debesyje | [Debesų duomenys](5-Data-Science-In-Cloud/README.md) | Modelių diegimas naudojant Azure Machine Learning Studio. | [pamoka](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) ir [Maud](https://twitter.com/maudstweets) |
| 20 | Duomenų mokslas realiame pasaulyje | [Realiame pasaulyje](6-Data-Science-In-Wild/README.md) | Duomenų mokslu pagrįsti projektai realiame pasaulyje. | [pamoka](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 01 | Duomenų mokslo apibrėžimas | [Įvadas](1-Introduction/README.md) | Sužinoti pagrindines duomenų mokslo sampratas ir kaip jis siejasi su dirbtiniu intelektu, mašininiu mokymusi ir didžiaisiais duomenimis. | [pamoka](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitrijus](http://soshnikov.com) |
| 02 | Duomenų mokslo etika | [Įvadas](1-Introduction/README.md) | Duomenų etikos sampratos, iššūkiai ir sistemos. | [pamoka](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Duomenų apibrėžimas | [Įvadas](1-Introduction/README.md) | Kaip klasifikuojami duomenys ir jų dažniausios kilmės. | [pamoka](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Įvadas į statistiką ir tikimybes | [Įvadas](1-Introduction/README.md) | Matematiniai tikimybės ir statistikos metodai duomenų supratimui. | [pamoka](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitrijus](http://soshnikov.com) |
| 05 | Darbas su reliaciniais duomenimis | [Darbas su duomenimis](2-Working-With-Data/README.md) | Įvadas į reliacinius duomenis ir pagrindai, kaip tyrinėti ir analizuoti reliacinius duomenis naudojant struktūrinę užklausų kalbą, žinomą kaip SQL (išreiškiama „ši-kvel“). | [pamoka](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Darbas su NoSQL duomenimis | [Darbas su duomenimis](2-Working-With-Data/README.md) | Įvadas į neleriacinius duomenis, jų tipus ir pagrindus, kaip tyrinėti ir analizuoti dokumentų duombazes. | [pamoka](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Darbas su Python | [Darbas su duomenimis](2-Working-With-Data/README.md) | Pagrindai, kaip naudoti Python duomenų tyrimui su bibliotekomis, tokiomis kaip Pandas. Rekomenduojama turėti pagrindines Python programavimo žinias. | [pamoka](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitrijus](http://soshnikov.com) |
| 08 | Duomenų paruošimas | [Darbas su duomenimis](2-Working-With-Data/README.md) | Temų apie duomenų valymo ir transformavimo metodus, kaip spręsti praleistų, netikslių ar neišsamių duomenų problemas. | [pamoka](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Kiekių vizualizavimas | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Sužinokite, kaip naudoti Matplotlib paukščių duomenų vizualizavimui 🦆 | [pamoka](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Duomenų pasiskirstymo vizualizavimas | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Stebėjimų ir tendencijų intervale vizualizavimas. | [pamoka](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Proporcijų vizualizavimas | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Diskrečios ir grupuotos procentinės dalys vizualizuojamos. | [pamoka](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Ryšių vizualizavimas | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Ryšių ir koreliacijų tarp duomenų rinkinių ir jų kintamųjų vizualizavimas. | [pamoka](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Reikšmingos vizualizacijos | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Technikos ir gairės, kaip jūsų vizualizacijas padaryti vertingas efektyviam problemų sprendimui ir įžvalgoms. | [pamoka](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Įvadas į duomenų mokslo ciklą | [Ciklas](4-Data-Science-Lifecycle/README.md) | Įvadas į duomenų mokslo ciklą ir jo pirmą žingsnį duomenų gavimą ir išgavimą. | [pamoka](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Duomenų analizė | [Ciklas](4-Data-Science-Lifecycle/README.md) | Ši duomenų mokslo ciklo fazė koncentruojasi į technikas, skirtas duomenų analizei. | [pamoka](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikacija | [Ciklas](4-Data-Science-Lifecycle/README.md) | Ši duomenų mokslo ciklo fazė akcentuoja įžvalgų iš duomenų pateikimą taip, kad sprendimų priėmėjams būtų lengviau suprasti. | [pamoka](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Duomenų mokslas debesyje | [Debesų duomenys](5-Data-Science-In-Cloud/README.md) | Ši pamokų serija supažindina su duomenų mokslo naudojimu debesyje ir jo privalumais. | [pamoka](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ir [Maud](https://twitter.com/maudstweets) |
| 18 | Duomenų mokslas debesyje | [Debesų duomenys](5-Data-Science-In-Cloud/README.md) | Modelių mokymas naudojant Low Code įrankius. |[pamoka](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ir [Maud](https://twitter.com/maudstweets) |
| 19 | Duomenų mokslas debesyje | [Debesų duomenys](5-Data-Science-In-Cloud/README.md) | Modelių diegimas su Azure Machine Learning Studio. | [pamoka](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) ir [Maud](https://twitter.com/maudstweets) |
| 20 | Duomenų mokslas realiame pasaulyje | [Realiame pasaulyje](6-Data-Science-In-Wild/README.md) | Duomenų mokslo valdomi projektai realiame pasaulyje. | [pamoka](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Atlikite šiuos veiksmus, kad atidarytumėte šį pavyzdį Codespace:
1. Spustelėkite Code išskleidžiamą meniu ir pasirinkite Open with Codespaces parinktį.
2. Pasirinkite + New codespace lango apačioje.
Norėdami sužinoti daugiau, peržiūrėkite [GitHub dokumentaciją](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
Sekite šiuos žingsnius, kad atidarytumėte šį pavyzdį Codespace aplinkoje:
1. Spauskite Code išskleidžiamą meniu ir pasirinkite Open with Codespaces parinktį.
2. Pasirinkite + New codespace apačioje.
Daugiau informacijos rasite [GitHub dokumentacijoje](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - konteineriai
Atlikite šiuos veiksmus, kad atidarytumėte šį repozitoriją konteineryje naudodami vietinę mašiną ir VSCode su VS Code Remote - Containers plėtiniu:
## VSCode nuotoliniai konteineriai
Sekite šiuos žingsnius, kad atidarytumėte šį saugyklą konteineryje naudodami savo vietinę mašiną ir VSCode su VS Code Remote - Containers plėtiniu:
1. Jei tai pirmas kartas, kai naudojate kūrimo konteinerį, įsitikinkite, kad jūsų sistema atitinka reikalavimus (pvz., įdiegta Docker), vadovaudamiesi [pradžios dokumentacija](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Jei tai pirmas kartas naudojant vystymo konteinerį, įsitikinkite, kad sistema atitinka reikalavimus (pvz., įdiegta Docker) [pradžios gide](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Norėdami naudoti šį repozitoriją, galite jį atidaryti izoliuotame Docker tūryje:
Norėdami naudoti šią saugyklą, galite atidaryti ją izoliuotame Docker tūryje:
**Pastaba**: Po gaubtu tai naudos Remote-Containers: **Clone Repository in Container Volume...** komandą klonuoti šaltinio kodą Docker tūryje vietoj vietinio failų sistemos. [Tūriai](https://docs.docker.com/storage/volumes/) yra pageidaujamas duomenų konteineryje išlaikymo būdas.
**Pastaba**: viduje bus naudojamas Remote-Containers: **Clone Repository in Container Volume...** komanda, kuri klonavimo kodeksą saugo Docker tūryje vietoje vietinio failų sistemos. [Tūriai](https://docs.docker.com/storage/volumes/) yra pageidaujamas būdas saugoti konteinerio duomenis.
Arba atidarykite vietoje klonuotą arba atsisiųstą repozitorijos kopiją:
Arba atidarykite vietinę nuklonuotą ar atsisiųstą šios saugyklos kopiją:
- Nuklonuokite šią repozitoriją į savo vietinę failų sistemą.
- Nuklonuokite šią saugyklą į savo vietinę failų sistemą.
- Paspauskite F1 ir pasirinkite **Remote-Containers: Open Folder in Container...** komandą.
- Pasirinkite šios aplanko nuklonuotą kopiją, palaukite kol konteineris startuos ir išbandykite funkcijas.
- Pasirinkite šio aplanko nuklonuotą kopiją, palaukite kol konteineris užsikraus, ir išbandykite.
## Offline prieiga
Galite vykdyti šią dokumentaciją neprisijungę naudodami [Docsify](https://docsify.js.org/#/). Nuklonuokite šią repozitoriją, [įdiekite Docsify](https://docsify.js.org/#/quickstart) savo vietinėje mašinoje, tada pagrindiniame repozitorijos aplanke įvykdykite `docsify serve`. Svetainė bus pateikta 3000 prievade jūsų localhost adresu: `localhost:3000`.
Šią dokumentaciją galite naudoti neprisijungę naudodami [Docsify](https://docsify.js.org/#/). Nuklonuokite šią saugyklą, [įdiekite Docsify](https://docsify.js.org/#/quickstart) vietinėje mašinoje, tada šios saugyklos šakiniame aplanke įveskite `docsify serve`. Svetainė bus pasiekiama per 3000 prievadą adresu `localhost:3000`.
> Pastebėkite, kad užrašai nebus atvaizduojami Docsify, todėl kai reikės paleisti užrašą, darykite tai atskirai VS Code su Python branduoliu.
> Pastaba, užrašų knygelės (notebooks) nebus rodomos Docsify, todėl kai reikės paleisti užrašų knygelę, darykite tai atskirai VS Code su Python branduoliu.
## Kitos programos
## Kitos mokymo programos
Mūsų komanda kuria kitas programas! Peržiūrėkite:
Mūsų komanda kuria ir kitas mokymo programas! Pažiūrėkite:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
@ -208,46 +218,46 @@ Mūsų komanda kuria kitas programas! Peržiūrėkite:
---
### Kartojamosios AI serijos
[![Kartojamoji AI pradedantiesiems](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Kartojamoji AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Kartojamoji AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![Kartojamoji AI (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### Generatyvinis AI serija
[![Generatyvinis AI pradedantiesiems](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Generatyvinis AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Generatyvinis AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![Generatyvinis AI (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### Pagrindiniai mokymai
### Pagrindinis mokymasis
[![ML pradedantiesiems](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Duomenų mokslas pradedantiesiems](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI pradedantiesiems](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Kibernetinis saugumas pradedantiesiems](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Interneto programavimas pradedantiesiems](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![Daiktų internetas pradedantiesiems](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![Tinklalapių kūrimas pradedantiesiems](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT pradedantiesiems](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![XR kūrimas pradedantiesiems](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Copilot serijos
[![Copilot dirbant su AI bendru programavimu](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot skirtas C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
### Copilot serija
[![Copilot AI porinėje programavimo aplinkoje](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot nuotykiai](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## Pagalbos gavimas
**Susiduriate su problemomis?** Peržiūrėkite mūsų [Gedimų šalinimo vadovą](TROUBLESHOOTING.md), kad rastumėte sprendimus dažniausiai pasitaikančioms problemoms.
**Susiduriate su problemomis?** Patikrinkite mūsų [Trikčių šalinimo vadovą](TROUBLESHOOTING.md) dažniausių problemų sprendimams.
Jei užstrigote arba turite klausimų apie AI programų kūrimą, prisijunkite prie kitų mokymosi entuziastų ir patyrusių programuotojų diskusijose apie MCP. Tai palaikanti bendruomenė, kurioje klausimai yra laukiami, o žinios laisvai dalijamos.
Jei įstrigote arba turite klausimų apie AI programėlių kūrimą, prisijunkite prie bendraminčių mokinių ir patyrusių kūrėjų diskusijų apie MCP. Tai palaikanti bendruomenė, kurioje klausimai yra laukiamai ir žinios dalijamos laisvai.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Jei turite atsiliepimų apie produktą arba radote klaidų kurdami lankykitės:
Jei turite atsiliepimų apie produktą arba susidūrėte su klaidomis kurdami, apsilankykite:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors stengiamės užtikrinti tikslumą, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas pagrindiniu šaltiniu. Svarbiai informacijai rekomenduojamas profesionalus vertimas žmogaus. Mes neprisiimame atsakomybės už bet kokius nesusipratimus ar neteisingus aiškinimus, kylančius dėl šio vertimo naudojimo.
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatizuotuose vertimuose gali būti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Svarbiai informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neatsakome už bet kokius nesusipratimus ar neteisingus suvokimus, kilusius dėl šio vertimo naudojimo.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@ Raskite visas sketchnotes čia!
Nitya Narasimhan, menininkė
![kelio žemėlapio sketchnote](../../../translated_images/lt/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![kelio žemėlapio sketchnote](../../../translated_images/lt/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "my"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T10:11:19+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "my"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-30T19:34:01+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "my"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T10:12:09+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "my"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T17:07:59+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "my"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T10:13:30+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "my"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T20:13:04+00:00",
@ -360,8 +378,8 @@
"language_code": "my"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T09:12:26+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T10:19:50+00:00",
"source_file": "README.md",
"language_code": "my"
},

@ -6,7 +6,7 @@
---
[![ဒေတာသိပ္ပံကို သတ်မှတ်ခြင်း ဗီဒီယို](../../../../translated_images/my/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![ဒေတာသိပ္ပံကို သတ်မှတ်ခြင်း ဗီဒီယို](../../../../translated_images/my/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Pre-lecture quiz](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -111,7 +111,7 @@ Machine Learning နယ်ပယ်တစ်ခုဖြစ်တဲ့ Artifici
ဤစိန်ခေါ်မှုတွင် ကျွန်ုပ်တို့သည် Data Science နယ်ပယ်နှင့်ဆက်စပ်သောအယူအဆများကို စာသားများကိုကြည့်ခြင်းဖြင့်ရှာဖွေရန်ကြိုးစားမည်။ ကျွန်ုပ်တို့သည် Data Science အကြောင်း Wikipedia ဆောင်းပါးတစ်ခုကိုယူပြီး၊ စာသားကိုဒေါင်းလုပ်လုပ်ပြီး အဆင့်ဆင့်လုပ်ဆောင်ပြီးနောက်၊ အောက်ပါပုံကဲ့သို့သော စကားလုံးတိမ်တစ်ခုကိုတည်ဆောက်မည်။
![Word Cloud for Data Science](../../../../translated_images/my/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Word Cloud for Data Science](../../../../translated_images/my/ds_wordcloud.664a7c07dca57de0.webp)
[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') သို့သွားပြီး ကုဒ်ကိုဖတ်ရှုပါ။ သင်သည်ကုဒ်ကိုလည်း run လုပ်နိုင်ပြီး၊ အချက်အလက်ပြောင်းလဲမှုများကို အချိန်နှင့်တပြေးညီလုပ်ဆောင်ပုံကိုကြည့်ရှုနိုင်သည်။

@ -3,15 +3,15 @@
{
"cell_type": "markdown",
"source": [
"# စိန်ခေါ်မှု - ဒေတာသိပ္ပံအကြောင်း စာသားကို ခွဲခြမ်းစိတ်ဖြာခြင်း\n",
"# စိန်မှု: ဒေတာဆိုင်ရာသိပ္ပံအကြောင်းစာသားကိုခွဲခြမ်းစိတ်ဖြာခြင်း\n",
"\n",
"ဤဥပမာတွင်၊ ဒေတာသိပ္ပံလုပ်ငန်းစဉ်၏ ရိုးရာအဆင့်ဆင့်အားလုံးကို အကျုံးဝင်သော ရိုးရှင်းသော လေ့ကျင့်ခန်းတစ်ခု ပြုလုပ်ကြမည်။ သင်သည် အောက်တွင်ရှိသော ဆဲလ်များကို နှိပ်၍ အလုပ်လုပ်စေပြီး ရလဒ်ကို ကြည့်ရှုနိုင်သည်။ စိန်ခေါ်မှုအနေနှင့်၊ သင်သည် အခြားဒေတာများဖြင့် ဤကုဒ်ကို စမ်းသပ်ကြည့်ရန် အားပေးလိုက်ပါသည်။\n",
"ဤဥပမာတွင် ခေတ်မီသော ဒေတာဆိုင်ရာသိပ္ပံ လုပ်ငန်းစဉ်၏ ဆက်တိုက်ခြေလှမ်းများအားလုံး ဖုံးလွှမ်းသည့် ရိုးရှင်းသောလေ့ကျင့်မှုတစ်ခုကို ကျွန်ုပ်တို့ပြုလုပ်ပါမည်။ သင်သည် ကုဒ်မရေးရပါဘူး၊ အောက်ပါဆဲလ်များကိုသာနှိပ်ပြီး အကောင်အထည်ဖော်၍ ရလဒ်ကို ကြည့်ရှုနိုင်ပါသည်။ စိန်ခေါ်မှုအနေဖြင့် သင်သည် ဤကုဒ်ကို ကွဲပြားသော ဒေတာဖြင့် စမ်းသပ်ကြည့်ရန် အားပေးလိုက်ပါသည်။\n",
"\n",
"## ရည်မှန်းချက်\n",
"\n",
"ဤသင်ခန်းစာတွင်၊ ဒေတာသိပ္ပံနှင့်ဆိုင်သော အမျိုးမျိုးသော အယူအဆများကို ဆွေးနွေးခဲ့ပါသည်။ **စာသားသိပ္ပံ** ပြုလုပ်ခြင်းအားဖြင့် ပိုမိုဆက်စပ်သော အယူအဆများကို ရှာဖွေကြည့်ရအောင်။ ဒေတာသိပ္ပံအကြောင်း စာသားတစ်ခုကို စတင်၍၊ ထိုမှ အဓိကသော စကားလုံးများကို ထုတ်ယူပြီး၊ ရလဒ်ကို ရှုထောင့်တစ်ခုမှ ကြည့်ရှုကြည့်မည်။\n",
"ဤသင်ခန်းစာတွင် ကျွန်ုပ်တို့သည် ဒေတာဆိုင်ရာသိပ္ပံနှင့်ဆက်နွယ်သည့် အသိပညာအမျိုးမျိုးကို ဆွေးနွေးခဲ့ကြပါသည်။ နောက်ထပ် ဆက်နွယ်သည့် အကြောင်းအရာများကို ရှာဖွေရန် **စာသားသိမ်းဆည်းခြင်း (text mining)** ပြုလုပ်ကြည့်မည်။ ဒေတာဆိုင်ရာသိပ္ပံအကြောင်းစာသားတစ်ခုကို စတင်ယူပြီး၊ ထိုမှ စကားလုံးအသီးသီးအား ရွေးချယ်၍ ဖော်ပြမည်။\n",
"\n",
"စာသားအဖြစ်၊ ငါသည် Wikipedia တွင်ရှိသော ဒေတာသိပ္ပံအကြောင်း စာမျက်နှာကို အသုံးပြုမည် - \n"
"စာသားအနေဖြင့် Wikipedia ကဒေတာဆိုင်ရာသိပ္ပံ စာမျက်နှာကို အသုံးပြုပါမည်။\n"
],
"metadata": {}
},
@ -34,7 +34,7 @@
"source": [
"## အဆင့် ၁: ဒေတာရယူခြင်း\n",
"\n",
"ဒေတာသိပ္ပံလုပ်ငန်းစဉ်တိုင်း၏ ပထမဆုံးအဆင့်မှာ ဒေတာရယူခြင်းဖြစ်ပါတယ်။ ဒါကိုလုပ်ရန် `requests` လိုက်ဘရေးရီကို အသုံးပြုမယ်:\n"
"ဒေတာ ဆိုင်ရာသိပ္ပံလုပ်ငန်းစဉ်တိုင်းတွင် ပထမဆုံး အဆင့်မှာ ဒေတာကို ရယူခြင်း ဖြစ်သည်။ ကျွန်ုပ်တို့သည် `requests` စာကြည့်တိုက်ကို အသုံးပြု၍ ထိုလုပ်ဆောင်မှုကို ပြုလုပ်မည်ဖြစ်သည်။\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## အဆင့် ၂: ဒေတာကို ပြောင်းလဲခြင်း\n",
"## Step 2: Transforming the Data\n",
"\n",
"နောက်ထပ်အဆင့်မှာ ဒေတာကို အလုပ်လုပ်ရန် သင့်တော်သော ပုံစံသို့ ပြောင်းလဲရမည်ဖြစ်သည်။ ကျွန်ုပ်တို့၏အနေဖြင့်၊ စာမျက်နှာမှ HTML အရင်းအမြစ်ကုဒ်ကို ဒေါင်းလုဒ်လုပ်ပြီး၊ ၎င်းကို ပုံမှန်စာသားအဖြစ် ပြောင်းလဲရန် လိုအပ်ပါသည်။\n",
"နောက်တစ်ဆင့်မှာ ဒေတာကို အဆင်သင့် ပုံစံသို့ ပြောင်းလဲပေးရမှာ ဖြစ်ပါတယ်။ ကျွန်ုပ်တို့က ပြင်ဆင်ထားတဲ့ ပုံမှာတော့ စာမျက်နှာမှ HTML အရင်းအမြစ်ကုဒ်ကို ဒေါင်းလုပ်လုပ်ထားပြီး၊ ဒါကို ရိုးရှင်းတဲ့ စာသားပုံစံ သို့ ပြောင်းလဲပေးဖို့ လိုအပ်ပါတယ်။\n",
"\n",
"ဤအရာကို ပြုလုပ်နိုင်သော နည်းလမ်းများစွာ ရှိပါသည်။ ကျွန်ုပ်တို့သည် Python မှ အလွယ်ဆုံးပါဝင်ထားသော [HTMLParser](https://docs.python.org/3/library/html.parser.html) အရာဝတ္ထုကို အသုံးပြုမည်ဖြစ်သည်။ `HTMLParser` အတန်းကို အခြေခံပြီး၊ `<script>` နှင့် `<style>` တိုင်များကို မပါဝင်စေဘဲ HTML တိုင်များအတွင်းရှိ စာသားအားလုံးကို စုဆောင်းမည့် ကုဒ်ကို သတ်မှတ်ရမည်ဖြစ်သည်။\n"
"ဒီလိုပြောင်းလဲဖို့ နည်းလမ်း များစွာရှိနိုင်သည်။ ကျွန်ုပ်တို့မှာ ကလစ်လှည့်နောက်ဆုံး နည်းပညာတစ်ခုဖြစ်တဲ့ [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) ကို သုံးမှာ ဖြစ်ပါတယ်။ BeautifulSoup ကတော့ HTML ကို ဆွဲထုတ်ရန် နာမည်ကြီး Python ไลဘရယ်ရီတစ်ခုဖြစ်ပြီး၊ Wikipedia မှ မေးလ်အဓိက အကြောင်းအရာများကို ကိုင်တွယ်စေခြင်း၊ နောက်ခံဂျာမင်များ၊ ဘားများ၊ အောက်ဖက်များ နှင့် မသက်ဆိုင်သော အကြောင်းအရာများကို လျှော့ချနိုင်စေသည် (သို့သော် ကလစ်ပုံသုံး တချို့က တစ္ဆေ မိတ်ဆက်စာသား ကျန်နိုင်သည်)။\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ပထမဦးစွာ HTML ကိုပARSERဖတ်ရှုရန် BeautifulSoup လိုက်ဘရီကို ထည့်သွင်းရမည်။\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## အဆင့် ၃ - အချက်အလက်များ ရယူခြင်း\n",
"## အဆင့် ၃: အတွေးအမြင်များ ရရှိခြင်း\n",
"\n",
"အရေးကြီးဆုံးအဆင့်မှာ ကျွန်တော်တို့ရဲ့ ဒေတာကို အချက်အလက်များရယူနိုင်တဲ့ အခြေအနေတစ်ခုအဖြစ် ပြောင်းလဲဖို့ ဖြစ်ပါတယ်။ ကျွန်တော်တို့ရဲ့ အခြေအနေမှာတော့ စာသားထဲက keyword တွေကို ထုတ်ယူပြီး ဘယ် keyword တွေက ပိုအရေးပါလဲဆိုတာကို ကြည့်ချင်ပါတယ်။\n",
"အရေးကြီးဆုံး အဆင့်မှာ ကျွန်ုပ်တို့၏ ဒေတာကို အတိအကျ နားလည်နိုင်သော မည်သည့်ပုံစံဖြစ်ရာမှ အတွေးအမြင်များ ရယူနိုင်အောင် ပြောင်းလဲခြင်းဖြစ်သည်။ ကျွန်ုပ်တို့အနေဖြင့် စကားလုံးအဓိပ္ပာယ်များကို ထုတ်ယူလိုသည်၊ ထို့အတူ ဘယ်စကားလုံးများမှာ ပိုမိုအရေးပါတာဖြစ်ကြောင်း ကြည့်ရှုလိုပါသည်။\n",
"\n",
"ကျွန်တော်တို့ Python library [RAKE](https://github.com/aneesha/RAKE) ကို keyword ထုတ်ယူဖို့ အသုံးပြုပါမယ်။ အရင်ဆုံး ဒီ library ရှိမရှိ စစ်ဆေးပြီး မရှိရင် ထည့်သွင်းပါ:\n"
"ကျွန်ုပ်တို့အနေဖြင့် keyphrase များကို ထုတ်ယူရန် Python ပိုက်(သု)က(သ) [RAKE](https://github.com/aneesha/RAKE) လိုက်ဘရရီကို သုံးမည်ဖြစ်သည်။ ပထမဦးစွာ၊ လိုက်ဘရရီတစ်ခုမရှိပါက ထည့်သွင်းလိုက်ပါ။\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"အဓိကလုပ်ဆောင်ချက်ကို `Rake` အရာဝတ္ထုမှရရှိနိုင်ပြီး၊ ၎င်းကိုအချို့သောပါရာမီတာများကိုအသုံးပြု၍စိတ်ကြိုက်ပြင်ဆင်နိုင်ပါသည်။ ကျွန်ုပ်တို့၏အမှုအတွက်၊ keyword ၏အနည်းဆုံးအရှည်ကိုအက္ခရာ ၅ လုံး၊ စာရွက်စာတမ်းအတွင်း keyword ၏အနည်းဆုံးကြိမ်နှုန်းကို ၃ ကြိမ်နှင့် keyword အတွင်းစကားလုံးအများဆုံးအရေအတွက်ကို ၂ စကားလုံးအထိသတ်မှတ်ပါမည်။ အခြားသောတန်ဖိုးများနှင့်အတူစမ်းသပ်ကြည့်ပြီးရလဒ်ကိုလေ့လာနိုင်ပါသည်။\n"
"အဓိကလုပ်ဆောင်ချက်မှာ `Rake` object ကနေရရှိနိုင်ပြီး၊ ကျွန်ုပ်တို့က ပေးထားသောအချက်အလက်အချို့ကို အသုံးပြုကာ အလိုအလျောက်ပြင်ဆင်နိုင်သည်။ ကျွန်ုပ်တို့အနေဖြင့် keyword ၏အနည်းဆုံးအရှည်ကို စာလုံး ၅ လုံးထားမည်၊ စာရွက်စာတမ်းအတွင်း keyword ပေါ်ပေါက်ရမည့်အနည်းဆုံးအကြိမ်ရေကို ၃ သတ်မှတ်မည်၊ keyword အတွင်းပါတဲ့ စကားလုံးအများဆုံးအရေအတွက်ကို ၂ သတ်မှတ်မည်ဖြစ်သည်။ အခြားတန်ဖိုးများနဲ့လည်း စမ်းကြည့်ပြီး ရလဒ်ကို လေ့လာကြည့်နိုင်သည်။\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"ကျွန်တော်တို့ အရေးပါမှုအဆင့်အလိုက် စာရင်းတစ်ခုရရှိခဲ့ပြီး၊ အဓိကကျသော အခန်းကဏ္ဍများ (ဥပမာ - machine learning နှင့် big data) စသည်တို့ကို စာရင်း၏ ထိပ်ဆုံးနေရာများတွင် တွေ့နိုင်ပါသည်။\n",
"\n",
"## အဆင့် ၄ - ရလဒ်ကို မြင်သာအောင် ဖော်ပြခြင်း\n",
"\n",
"လူတွေက ဒေတာကို မြင်သာတဲ့ပုံစံနဲ့ အကောင်းဆုံးနားလည်နိုင်ပါတယ်။ ဒါကြောင့် အမြင်အာရုံကနေ အချက်အလက်တွေကို ဆွဲထုတ်နိုင်ဖို့ ဒေတာကို မြင်သာအောင် ဖော်ပြခြင်းက အဓိကကျပါတယ်။ Python ရဲ့ `matplotlib` library ကို အသုံးပြုပြီး keyword တွေကို အရေးပါမှုအလိုက် ရိုးရိုးရှင်းရှင်း ပုံဖော်နိုင်ပါတယ်။\n"
"\r\n",
"ကျွန်တော်တို့သည် အရေးပါမှု အဆင့်များနှင့်အတူ အကြောင်းအရာစာရင်းတစ်ခု ရရှိခဲ့ပါသည်။ မြင်ရသည်အတိုင်း၊ လူကြိုက်များသော အတတ်ပညာများ၊ ဥပမာ- စက်မှုသင်ကြားမှုနှင့် ကြီးမားသော ဒေတာများက စာရင်းတွင် ထိပ်တန်းနေရာများတွင် ပါဝင်သည်။\r\n",
"\r\n",
"## အဆင့် ၄: စိတ်ကြိုက်ရှုမြင်ခြင်း\r\n",
"\r\n",
"လူများသည် ဒေတာကို အမြင်ရရှိရာ ပုံစံဖြင့် အကောင်းဆုံး အနက်ဖော်နိုင်ကြသည်။ ထို့ကြောင့် အနက်ဖော်ချက်တချို့ ရယူရန် ဒေတာကို လူကြိုက်များစွာ မြင်ယောင်ပြသခြင်း သာမန်အားဖြင့် အဓိကဖြစ်သည်။ ကျွန်တော်တို့သည် Python ရဲ့ `matplotlib` စာကြည့်တိုက်ကို အသုံးပြုကာ ကီးဝတ်များ၏ ဖြန့်ဝေမှုကို ပြသနိုင်ပါသည်။\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"သို့သော်လည်း၊ စကားလုံးအကြိမ်ရေများကို မြင်သာစေရန် ပိုမိုကောင်းမွန်သောနည်းလမ်းတစ်ခုရှိပါသည် - **Word Cloud** ကို အသုံးပြုခြင်းဖြစ်သည်။ ကျွန်ုပ်တို့၏ စကားလုံးစာရင်းမှ word cloud ကို ရှုထောင့်ဖော်ဆောင်ရန် အခြားစာကြည့်တိုက်တစ်ခုကို ထည့်သွင်းရန် လိုအပ်ပါည်။\n"
"ထိုသို့ပင်၊ စကားလုံးများ၏ ပမာဏအား တွေ့မြင်နိုင်သည့် နည်းလမ်းအကောင်းဆုံး တစ်ခုမှာ - **စကားလုံးမိုးကောင်းကင်** ဖြစ်သည်။ ကျွန်ုပ်တို့၏ စကားလုံးတန်းရင်းမှ စကားလုံးမိုးကောင်းကင်ကို ဖော်ပြရန် အခြားစာကြည့်တိုက်တစ်ခုကို ထည့်သွင်းရန် လိုအပ်ပါည်။\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` အရာဝတ္ထုသည် မူရင်းစာသား သို့မဟုတ် ၎င်းတို့၏ကြိမ်နှုန်းများနှင့်အတူ ကြိုတင်တွက်ချက်ထားသော စာလုံးများစာရင်းကို လက်ခံပြီး၊ ပြန်လည်ပုံဖော်ထားသော ပုံရိပ်ကို ထုတ်ပေးပြီး၊ ၎င်းကို `matplotlib` ကို အသုံးပြု၍ ပြသနိုင်သည်။\n"
"`WordCloud` object သည် မူလစာသားကို သို့မဟုတ် စကားလုံးများ၏ အသွင်အပြင်နှင့် ရေတွက်ချက်ပြီးဖြစ်သော စကားလုံးစာရင်းကို လက်ခံပြီး `matplotlib` သုံး၍ ပြသနိုင်သော ပုံတစ်ပုံကို ပြန်လ်ပေးအပ်ပါတယ်။\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"ကျွန်ုပ်တို့ `WordCloud` သို့ မူရင်းစာသားကိုလည်း ဖြတ်သွားနိုင်ပါသည် - အနည်းငယ်တူညီသောရလဒ်ကိုရနိုင်မလားဆိုတာကြည့်ကြရအောင်:\n"
"ကျွန်တော်တို့ `WordCloud` ကို မူရင်းစာသားကိုလည်း ထည့်ပေးနိုင်ပါတယ် - ဆင်လျင်ရာရလဒ်ရနိုင်မလား ကြည့်ရအောင်။\n"
],
"metadata": {}
},
@ -372,11 +371,11 @@
{
"cell_type": "markdown",
"source": [
"သင်ကြည့်နိုင်ပါပြီ၊ word cloud ဟာ အခုပိုမိုအထင်ကြီးဖွယ်ရှိလာပြီး noise (ဥပမာ- `Retrieved on` ကဲ့သို့ မသက်ဆိုင်သော စကားလုံးများ) များပါဝင်နေသည်ကိုလည်း တွေ့ရပါသည်။ ထို့အပြင် *data scientist* သို့မဟုတ် *computer science* ကဲ့သို့သော နှစ်လုံးပါသော keyword များကို ပိုမိုနည်းလာသည်ကိုလည်း တွေ့ရသည်။ ဒါဟာ RAKE algorithm က text ထဲမှ ကောင်းမွန်သော keyword များကို ရွေးချယ်ရာတွင် ပိုမိုကောင်းမွန်သော အလုပ်လုပ်ပေးနိုင်သောကြောင့် ဖြစ်ပါသည်။ ဤဥပမာသည် data pre-processing နှင့် cleaning ရဲ့ အရေးကြီးမှုကို ဖော်ပြပေးပြီး၊ နောက်ဆုံးတွင် ရှင်းလင်းသော ပုံရိပ်ကို ရရှိခြင်းက ပိုမိုကောင်းမွန်သော ဆုံးဖြတ်ချက်များကို ချမှတ်နိုင်စေမည်ဖြစ်သည်။\n",
"သင်သည်ယခု စကားလုံးတိမ်က ပိုမို ထူးခြား လှပနေသည်ကို တွေ့နိုင်သည်၊ သို့သော် ၎င်းတွင် ဆူညံသံများ (ဥပမာ - `Retrieved on` ကဲ့သို့ ဆက်စပ်မထိခင်သော စကားလုံးများ) သိူမျှပါ။ ထို့အပြင် စကားလုံး နှစ်လုံး ပါဝင်သော အဓိက စကားလုံးများ (ဥပမာ - *data scientist* သို့မဟုတ် *computer science*) ကလည်း နည်းပါးလျက်ရှိသည်။ ၎င်းမှာ RAKE အယ်လဂိုရစ်သမ်သည် စာတန်းထဲမှ ကောင်းမွန်သော အဓိက စကားလုံးများ ရွေးချယ်ရာတွင် ပိုမို ကောင်းမွန်သော တာဝန်ခံဖြစ်သည် ဟု ဆိုလိုသည်။ ဤဥပမာသည် ဒေတာ ကြိုတင် ပြင်ဆင်ခြင်းနှင့် သန့်ရှင်းမှု၏ အရေးပါမှုကို ဖော်ပြသည်၊ ဘာဖြစ်သို့ဆိုသော် အဆုံးတွင် သန့်ရှင်းသည့် ပုံရိပ်သည် ပိုမိုကောင်းမွန်သော ဆုံးဖြတ်ချက်များ ဆောင်ရွက်နိုင်စေသည့်အတွက်ဖြစ်သည်။\n",
"\n",
"ဤလေ့ကျင့်ခန်းတွင် Wikipedia text မှ keyword များနှင့် word cloud အဖြစ် အဓိပ္ပါယ်တစ်စုံတစ်ရာကို ထုတ်ယူခြင်းဆိုင်ရာ ရိုးရှင်းသော လုပ်ငန်းစဉ်တစ်ခုကို ကျော်ဖြတ်ခဲ့ပါသည်။ ဤဥပမာသည် ရိုးရှင်းသော်လည်း၊ data scientist တစ်ဦးအနေဖြင့် data နှင့် အလုပ်လုပ်ရာတွင် လိုက်နာရမည့် ရိုးရာအဆင့်များအားလုံးကို ကောင်းစွာ ဖော်ပြပေးနိုင်ပါသည်။ ဒါဟာ data acquisition မှ visualization အထိ ဖြစ်ပါသည်။\n",
"ဤလေ့ကျင့်ခန်းတွင် ကျွန်ုပ်တို့သည် Wikipedia စာသားမှ အချို့ အဓိပ္ပာယ်ကို ရယူခြင်း၏ ရိုးရှင်းသည့် လုပ်ငန်းစဉ်ကို ဖြတ်သန်းခဲ့ပြီး၊ ၎င်းအား Keyword များနှင့် စကားလုံးတိမ်၏ ပုံစံဖြင့် ဖော်ပြခဲ့သည်။ ဤဥပမာသည် ရိုးရိုးရှင်းရှင်း ဖြစ်သော်လည်း ဒေတာ သိပ္ပံပညာရှင်များသည် ဒေတာနှင့် ပါသည့် လုပ်ဆောင်မှုများအားလုံးကို စတင် ကောက်နှုတ်ခြင်းမှ Visualize လုပ်ခြင်း အထိ လုပ်ဆောင်သော အဆင့်များအားလုံးကို ကောင်းစွာ ပြပေးသည်။\n",
"\n",
"ကျွန်ုပ်တို့၏ သင်တန်းတွင် အဆင့်အားလုံးကို အသေးစိတ် ဆွေးနွေးသွားမည်ဖြစ်သည်။\n"
"ကျွန်ုပ်တို့၏ သင်တန်းတွင် ထိုအဆင့်များအားလုံးကို အသေးစိတ် ဆွေးနွေးသွားမည် ဖြစ်သည်။\n"
],
"metadata": {}
},
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**ဝက်ဘ်ဆိုက်မှတ်ချက်**: \nဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေပါသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်မှုများတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါဝင်နိုင်သည်ကို ကျေးဇူးပြု၍ သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သောရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ပြန်ဆိုမှုကို အကြံပြုပါသည်။ ဤဘာသာပြန်မှုကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားများ သို့မဟုတ် အဓိပ္ပာယ်မှားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။ \n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**အကြောင်းကြားချက်** \nဤစာတမ်းကို AI ဘာသာပြန်ခြင်းဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ဖြင့် ဘာသာပြန်ထားသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားပါသည်၊ သို့သော် အလိုအလျောက် ဘာသာပြန်မှုများတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်ကြောင်း သိရှိပါရန် အကြောင်းကြားအပ်ပါသည်။ မူရင်းစာတမ်းကို မူလဘာသာဖြင့်သာ တရားဝင်အရင်းအမြစ်အဖြစ် ထည့်သုံးသင့်သည်။ အရေးကြီးသောအချက်အလက်များအတွက် သေချာမှန်ကန်သော လူ့ဘာသာပြန်သူများ၏ ဝန်ဆောင်မှုကို အသုံးပြုရန် အကြံပြုပါသည်။ ဤဘာသာပြန်မှုကို အသုံးပြုခြင်းကြောင့် ဖြစ်ပေါ်လာနိုင်သည့် မှားယွင်းချက်များ သို့မဟုတ် နားလည်မှုမမှန်မှုများအတွက် ကျွန်ုပ်တို့မဆိုအရာတစ်ခုဖြစ်၍ တာဝန်ယူမည် မဟုတ်ပါ။\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +417,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-02T10:00:38+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "my"
}
},
"nbformat": 4,

@ -3,19 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# စိန်ခေါ်မှု - ဒေတာသိပ္ပံအကြောင်း စာသားကို ခွဲခြမ်းစိတ်ဖြာခြင်း\n",
"# စိန်ခေါ်မှု: ဒေတာသိပ္ပံအကြောင်း စာသား ခွဲခြမ်းစိတ်ဖြာခြင်း\n",
"\n",
"> *ဒီ notebook မှာတော့ Machine Learning အကြောင်း Wikipedia ဆောင်းပါးကို အသုံးပြုပြီး URL မျိုးစုံကို စမ်းသပ်ကြည့်မှာ ဖြစ်ပါတယ်။ Data Science ဆောင်းပါးနဲ့ မတူဘဲ၊ ဒီဆောင်းပါးမှာ အခက်အခဲဖြစ်စေတဲ့ အကြောင်းအရာများစွာ ပါဝင်နေပါတယ်။ ဒါကြောင့် keyword extraction ပြီးရင် အဓိပ္ပါယ်မရှိတဲ့ စကားစုတွေကို ဖယ်ရှားဖို့ အခြားနည်းလမ်းတစ်ခုကို ရှာဖွေရမှာ ဖြစ်ပါတယ်။*\n",
"> *ဒီ notebook မှာတော့ မတူညီတဲ့ URL - Machine Learning ပေါ် ရှိ ဝီကီပီးဒီးယား ဆောင်းပါးကို အသုံးပြုပြီး လေ့လာကြည့်ပါတယ်။ Data Science လိုမျိုး မဟုတ်ပေမယ့် ဒီဆောင်းပါးမှာ ပါဝင်တဲ့ အသုံးအနှုန်းများ များပြားတာကြောင့် ခွဲခြမ်းစိတ်ဖြာမှုမှာ ပိုပြီး အခက်အခဲ ဖြစ်နေပါတယ်။ Keyword စုဆောင်းပြီးနောက်နောက် ဒေတာကို သန့်ရှင်းအောင် လုပ်ဖို့ အခြား နည်းလမ်းတစ်ခု လိုအပ်ပါတယ်၊ ဘာလို့ဆိုတော့ ကြာကြာ တွေ့ရတဲ့ ဒါပေမယ့် အဓိပ္ပါယ်မပါသော စကားလုံးတွေကို ဖယ်ရှားဖို့ လိုတယ်။*\n",
"\n",
"ဒီဥပမာမှာတော့ ဒေတာသိပ္ပံရဲ့ ရိုးရာလုပ်ငန်းစဉ်အားလုံးကို ဖော်ပြထားတဲ့ လေ့ကျင့်ခန်းလေးတစ်ခုကို လုပ်ကြည့်ပါမယ်။ သင်က code ရေးဖို့ မလိုအပ်ပါဘူး၊ အောက်မှာရှိတဲ့ cell တွေကို နှိပ်ပြီး အလုပ်လုပ်တာကို ကြည့်ရှုနိုင်ပါတယ်။ စိန်ခေါ်မှုအနေနဲ့ သင့်အနေနဲ့ အခြားသော ဒေတာတွေနဲ့ ဒီ code ကို စမ်းသပ်ကြည့်ဖို့ အားပေးလိုက်ပါတယ်။\n",
"ဒီဥပမာမှာတော့ နိုင်တဲ့ နည်းလမ်း အားလုံးကို လုပ်ဆောင်မယ့် ရိုးရှင်းတဲ့ လေ့ကျင့်ခန်းတစ်ခု ပြုလုပ်မှာဖြစ်ပါတယ်။ ကိုယ့်မှာ ကုဒ်ရေးစရာ မလိုပါဘူး၊ အောက်ပါ ဆဲလ်တွေကို နှိပ်ပြီး run လိုက်ပြီးရလဒ်ကို ကြည့်နိုင်ပါတယ်။ စိန်ခေါ်မှုအနေနဲ့ ဒီကုဒ်ကို မတူညီတဲ့ ဒေတာနဲ့ ကြိုးစားကြည့်ဖို့ အကြောင်းပြုပါတယ်။\n",
"\n",
"## ရည်မှန်းချက်\n",
"\n",
"ဒီသင်ခန်းစာမှာတော့ ဒေတာသိပ္ပံနဲ့ ပတ်သက်တဲ့ အကြောင်းအရာအမျိုးမျိုးကို ဆွေးနွေးခဲ့ကြပါတယ်။ **စာသားသိပ္ပံ (text mining)** လုပ်ပြီး ပိုမိုဆက်စပ်တဲ့ အကြောင်းအရာတွေကို ရှာဖွေကြည့်ရအောင်။ \n",
"ဒီသင်ခန်းစာမှာတော့ Data Science နှင့် ဆက်နွယ်တဲ့ ကောင်းကြောင်း အယူအဆတွေကို ဆွေးနွေးခဲ့ပါတယ်။ Text mining လုပ်ခြင်းအားဖြင့် ပိုပြီး ဆက်နွယ်တဲ့ အယူအဆတွေ ရှာဖွေနိုင်မလား ကြိုးစားကြည့်ရအောင်။ Data Science ပေါ် ရှိ စာသားကို တင်ပြီး Keyword တွေ ရှာယူပြီး ပြီးလျှင် ရလဒ်ကို မြင်ကွင်းရအောင် ကြိုးစားပါမယ်။\n",
"\n",
"Data Science အကြောင်း စာသားတစ်ခုကို စတင်ပြီး၊ အဲဒီထဲကနေ keyword တွေကို ထုတ်ယူပြီး၊ ရလဒ်ကို ရှုထောင်ကြည့်ပါမယ်။\n",
"\n",
"ဒီစာသားအတွက်တော့ Wikipedia မှာရှိတဲ့ Data Science အကြောင်း စာမျက်နှာကို အသုံးပြုပါမယ် - \n"
"စာသားအဖြစ်တော့ Wikipedia မှာရှိတဲ့ Data Science စာမျက်နှာကို သုံးမှာ ဖြစ်ပါတယ်။\n"
],
"metadata": {}
},
@ -39,7 +37,7 @@
"source": [
"## အဆင့် ၁: ဒေတာရယူခြင်း\n",
"\n",
"ဒေတာသိပ္ပံလုပ်ငန်းစဉ်တိုင်း၏ ပထမဆုံးအဆင့်မှာ ဒေတာရယူခြင်းဖြစ်ပါတယ်။ ဒါကိုလုပ်ရန် `requests` လိုက်ဘရေးရီကို အသုံးပြုမယ်:\n"
"ဒေတာသိပ္ပံလုပ်ငန်းစဉ်တိုင်း၏ ပထမဆုံးအဆင့်မှာ ဒေတာရယူခြင်းဖြစ်သည်။ ထိုအတွက် `requests` စာကြည့်တိုက်ကို အသုံးပြုမည်။\n"
],
"metadata": {}
},
@ -71,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## အဆင့် ၂ - ဒေတာကို ပြောင်းလဲခြင်း\n",
"## အဆင့် 2: ဒေတာကို ပြောင်းလဲခြင်း\n",
"\n",
"နောက်ထပ်အဆင့်မှာ ဒေတာကို အလုပ်လုပ်နိုင်တဲ့ ပုံစံအဖြစ် ပြောင်းလဲရမယ်။ ကျွန်တော်တို့အတွက်ဆိုရင်၊ ဝက်ဘ်စာမျက်နှာက HTML ရင်းမြစ်ကုဒ်ကို ဒေါင်းလုဒ်လုပ်ထားပြီး၊ အဲဒီကို ပုံမှန်စာသားအဖြစ် ပြောင်းလဲဖို့ လိုအပ်ပါတယ်။\n",
"နောက်တစ်ဆင့်မှာ ကောက်ယူထားသောဒေတာကို ကိုက်ညီသော ပုံစံသို့ ပြောင်းလဲပေးရမည်။ ကျွန်ုပ်တို့ ရှိသော ကိစ္စမှာ စာမျက်နှာမှ HTML ကိုဒ်ကို ဒေါင်းလုဒ်ဆွဲထားပြီးဖြစ်ပြီး၊ ထိုကို ပုသိမ်စာသားသို့ ရှင်းလင်းပြောင်းလဲစေရမည်။\n",
"\n",
"ဒါကို လုပ်ဆောင်နိုင်တဲ့ နည်းလမ်းတွေ များစွာရှိပါတယ်။ ကျွန်တော်တို့ကတော့ Python ရဲ့ အလွယ်ဆုံး Build-in [HTMLParser](https://docs.python.org/3/library/html.parser.html) object ကို သုံးပါမယ်။ `HTMLParser` class ကို subclass လုပ်ပြီး၊ HTML tag တွေအတွင်းက စာသားအားလုံးကို စုဆောင်းမယ့် ကုဒ်ကို သတ်မှတ်ရပါမယ်။ `<script>` နဲ့ `<style>` tag တွေထဲက စာသားတွေကိုတော့ မပါဝင်စေပါဘူး။\n"
"ဤကိစ္စကို ဖော်ဆောင်နိုင်မည့် နည်းလမ်းများ အများရှိပါသည်။ ကျွန်ုပ်တို့ သုံးမည့်နည်းလမ်းမှာ [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) ဖြစ်ပြီး၊ ၎င်းသည် Python ဘာသာစကားမှ HTML ကို ပါးဆွဲစစ်ဆေးရာတွင် လူကြိုက်များသော စာကြည့်တိုက်တစ်ခု ဖြစ်သည်။ BeautifulSoup သည် သီးခြား HTML အစိတ်အပိုင်းများကို ရှာဖွေ တိကျစွာ ချိန်ညှိခွင့်ပေးသဖြင့် Wikipedia မှ အဓိကဆောင်းပါးအကြောင်းအရာတို့ကို ဦးတည်နိုင်ကာ လမ်းညွှန်မီနူးများ၊ ဘေးဘားများ၊ အောက်ခြေနှင့် အခြား သက်ဆိုင်မှုမရှိသော အကြောင်းအရာများကို လျော့နည်းစေနိုင်သည် (သို့သော် အချို့သော ခေါင်းစဉ်စာသားများ စွဲစွဲမြဲမြဲ ကျန်ရှိနိုင်သည်)။\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ပထမဦးစွာ၊ HTML ကိုပေါင်းစပ်ဖို့ BeautifulSoup စာကြည့်တိုက်ကို ထည့်သွင်းရပါမယ်။\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -118,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## အဆင့် ၃ - အချက်အလက်များရယူခြင်း\n",
"## Step 3: Getting Insights\n",
"\n",
"အရေးကြီးဆုံးအဆင့်မှာ ကျွန်တော်တို့ရဲ့ဒေတာကို အချက်အလက်များရယူနိုင်တဲ့ပုံစံတစ်ခုအဖြစ် ပြောင်းလဲဖို့ဖြစ်ပါတယ်။ ကျွန်တော်တို့ရဲ့အခြေအနေမှာတော့ စာသားထဲက keyword တွေကိုထုတ်ယူပြီး ဘယ် keyword တွေက ပိုအရေးပါလဲဆိုတာကို ကြည့်လိုပါတယ်။\n",
"အရေးကြီးဆုံး အဆင့်မှာ ကၽြနု်ပ်တို့ရဲ့ ဒေတာကို အချက်အလက် ရယူနိုင်ဖို့အတွက် အမျိုးအစားတစ်ခု ဖြစ်အောင် ပြောင်းလဲခြင်း ဖြစ်ပါတယ်။ ကၽြနု်ပ်တို့အနေဖြင့် စာသားထဲမှ စကားလုံးအချို့ကို ရွေးယူပြီး တစ်ချို့သော စကားလုံးတွေက ပိုမိုအဓိပ္ပာယ်ရှိကြောင်း တွေ့ရှိချင်ပါတယ်။\n",
"\n",
"ကျွန်တော်တို့ Python library [RAKE](https://github.com/aneesha/RAKE) ကို keyword တွေထုတ်ယူဖို့အသုံးပြုမယ်။ အရင်ဆုံး ဒီ library ရှိမရှိစစ်ပြီး မရှိရင် install လုပ်ရမယ်:\n"
"ကၽြနု်ပ်တို့ keyword ရွေးချယ်ဖို့အတွက် Python စာကြည့်တိုက် [RAKE](https://github.com/aneesha/RAKE) ကို အသုံးပြုမှာ ဖြစ်ပါတယ်။ ပထမဆုံး ဒီစာကြည့်တိုက် မရှိသေးရင် တပ်ဆင်လိုက်ပါမယ် ။\n"
],
"metadata": {}
},
@ -174,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"အဓိကလုပ်ဆောင်ချက်ကို `Rake` အရာဝတ္ထုမှ ရရှိနိုင်ပြီး၊ ၎င်းကို အချို့သောပါရာမီတာများကို အသုံးပြု၍ စိတ်ကြိုက်ပြင်ဆင်နိုင်ပါသည်။ ကျွန်ုပ်တို့၏အမှုအတွက်၊ keyword ၏အနည်းဆုံးအရှည်ကို အက္ခရာ ၅ လုံးအထိ သတ်မှတ်မည်ဖြစ်ပြီး၊ စာရွက်စာတမ်းတွင် keyword ၏အနည်းဆုံးကြိမ်နှုန်းကို ၃ ကြိမ်အထိ သတ်မှတ်မည်ဖြစ်သည်။ ထို့အပြင် keyword တစ်ခုတွင် ပါဝင်နိုင်သည့် စကားလုံးအများဆုံးအရေအတွက်ကို ၂ စကားလုံးအထိ သတ်မှတ်မည်ဖြစ်သည်။ အခြားသောတန်ဖိုးများနှင့် လွတ်လပ်စွာ လေ့လာကြည့်ပြီး ရလဒ်ကို ကြည့်ရှုနိုင်ပါသည်။\n"
"အဓိကလုပ်ဆောင်ချက်များကို `Rake` အရာဝတ္တုမှရရှိနိုင်ပြီး၊ အချို့သော ပမာဏများကို အသုံးပြု၍ စိတ်ကြိုက်ပြင်ဆင်နိုင်ပါသည်။ ကျွန်ုပ်တို့၏အမှုတွင် ကီးဝပ်ဒ်၏အနည်းဆုံး အရှည်ကို အက္ခရာ ၅ လုံး၊ စာရွက်စာတမ်းအတွင်း ကီးဝပ်ဒ်၏အနည်းဆုံး ကြိမ်ရေကို ၃ ကြိမ်၊ ကီးဝပ်ဒ်တစ်ခုအတွင်း ဝေါဟာရအများဆုံး အရေအတွက်ကို ၂ သတ်မှတ်ပါမည်။ အခြားတန်ဖိုးများဖြင့်လည်း စမ်းသပ်ကြည့်ပြီး ရလဆန်းကို ကြည့်ရှုနိုင်ပါသည်။\n"
],
"metadata": {}
},
@ -355,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"ကျွန်တော်တို့ အရေးပါမှုအဆင့်အလိုက် စာရင်းတစ်ခုရရှိခဲ့ပြီး၊ အဓိကကျသော အခန်းကဏ္ဍများ (ဥပမာ - machine learning နှင့် big data) စသည်တို့ကို စာရင်း၏ ထိပ်ဆုံးနေရာများတွင် တွေ့နိုင်ပါသည်။\n",
"\n",
"## အဆင့် ၄ - ရလဒ်ကို မြင်သာအောင် ဖော်ပြခြင်း\n",
"ကျွန်တော်တို့သည် အဓိကတန်ဖိုးနှင့် ဆက်စပ်နေသည့် အသုံးအနှုန်းစာရင်းတစ်ခုရရှိခဲ့သည်။ သင်မြင်နိုင်သလို စက်သင်ယူခြင်းနှင့် Big Data ကဲ့သို့ အရေးပါတ်ဆုံးဘာသာရပ်များသည် စာရင်းအပေါ်ဆုံးနေရာများတွင်ပါဝင်နေသည်။\n",
"\n",
"လူတွေက ဒေတာကို မြင်သာတဲ့ပုံစံနဲ့ အကောင်းဆုံးနားလည်နိုင်ပါတယ်။ ဒါကြောင့် အမြင်အာရုံကနေ အချက်အလက်တွေကို ဆွဲထုတ်နိုင်ဖို့ ဒေတာကို မြင်သာအောင် ဖော်ပြတာ အဓိကကျပါတယ်။ Python ရဲ့ `matplotlib` library ကို အသုံးပြုပြီး keyword တွေကို အရေးပါမှုအလိုက် ရိုးရိုးရှင်းရှင်း ပုံဖော်နိုင်ပါတယ်။\n"
"## အဆင့် ၄: ရလဒ်ကို မြင်ကွင်းဖော်ခြင်း\n",
"\n",
"လူများသည် ဒေတာကို အမြင်တွင် အကောင်းဆုံးဖတ်ရှုနိုင်ကြသည်။ ထို့ကြောင့် အမြင်ဖော်မှုမှတဆင့် အချက်အလက်တွေးမှုရရှိရေး အချိန်တိုင်းမှာ သင့်မြတ်သည်။ Python သည် `matplotlib` စာကြည့်တိုက်ကိုအသုံးပြု၍ သဘောတူညီမှုနှင့် keyword များ၏ လွှဲပြောင်းမှုကို ရိုးရှင်းစွာ ပုံဖော်နိုင်သည်။\n"
],
"metadata": {}
},
@ -394,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"သို့သော်လည်း၊ စကားလုံးများ၏ကြိမ်နှုန်းကို ပိုမိုကောင်းမွန်စွာမြင်နိုင်ရန် နည်းလမ်းတစ်ခုရှိပါသေးသည် - **Word Cloud** ကိုအသုံးပြုခြင်းဖြစ်သည်။ ကျွန်ုပ်တို့၏သော့ချက်စာလုံးစာရင်းမှ Word Cloud ကိုပုံဖော်ရန်အတွက် နောက်ထပ်စာကြည့်တိုက်တစ်ခုကို ထည့်သွင်းတပ်ဆင်ရန်လိုအပ်ပါမည်။\n"
"တစ်ခုထဲမှာတော့ စကားလုံးများ၏ သိပ်သည်းမှုကို မြင်သာစေရန် ပို၍ကောင်းမွန်သော နည်းလမ်းရှိသည် - **Word Cloud** ကို အသုံးပြုခြင်း ဖြစ်သည်။ ကျွန်ုပ်တို့သည် ကျွန်ုပ်တို့၏ စကားလုံးစာရင်းမှ Word Cloud ကို ပုံဆွဲရန် အခြားသော ไลဘ्रेရီကို ထည့်သွင်းရန် လိုအပ်မည် ဖြစ်သည်။\n"
],
"metadata": {}
},
@ -410,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` အရာဝတ္ထုသည် မူရင်းစာသား သို့မဟုတ် ၎င်း၏ကြိမ်နှုန်းများနှင့်အတူ ကြိုတင်တွက်ချက်ထားသော စာလုံးများစာရင်းကို လက်ခံပြီး၊ ပြန်လည်ပုံဖော်ထားသော ပုံရိပ်ကို ထုတ်ပေးပြီး၊ ၎င်းကို `matplotlib` ကို အသုံးပြု၍ ပြသနိုင်သည်။\n"
"`WordCloud` အရာဝတ္တုသည် မူရင်းစာသားကို ယူ၍ဖြစ်စေ၊ မိမိသိထားသော စကားလုံးများနှင့် အကြိမ်ရေစာရင်းကို ယူ၍ဖြစ်စေ၊ ပုံတစ်ပုံကို ထုတ်ပေးပြီး၊ ထိုပုံကို `matplotlib` သုံး၍ ပြသနိုင်ပါသည်။\n"
],
"metadata": {}
},
@ -443,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"ကျွန်ုပ်တို့ `WordCloud` သို့မူရင်းစာသားကိုလည်း ဖြတ်သွားနိုင်ပါသည် - အနီးစပ်ဆုံးရလဒ်ကိုရနိုင်မလား ကြည့်ကြရအောင်:\n"
"ကျွန်ုပ်တို့သည် `WordCloud` သို့ မူရင်းစာသားကိုလည်း ပေးပို့နိုင်သည့်အတွက် - ဆင်တူရလဒ်ရနိုင်မလား ကြည့်ကြရအောင်:\n"
],
"metadata": {}
},
@ -492,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"သင်ကြည့်နိုင်ပါပြီ၊ word cloud ဟာ အခုပိုမိုအထင်ကြီးဖွယ်ရှိလာပြီး noise (ဥပမာ- `Retrieved on` ကဲ့သို့ မသက်ဆိုင်သော စကားလုံးများ) များပါဝင်လာသည်။ ထို့အပြင် နှစ်စကားလုံးဖြင့် ဖွဲ့စည်းထားသော keyword များ (ဥပမာ- *data scientist* သို့မဟုတ် *computer science*) ပိုမိုနည်းလာသည်။ ဒါဟာ RAKE algorithm က text ထဲမှ ကောင်းမွန်သော keyword များကို ရွေးချယ်ရာတွင် ပိုမိုကောင်းမွန်သော အလုပ်လုပ်ပုံကို ပြသသည်။ ဤဥပမာသည် data pre-processing နှင့် cleaning ရဲ့ အရေးကြီးမှုကို ဖော်ပြသည်၊ အဆုံးတွင် ရှင်းလင်းသော ပုံရိပ်ကို ရရှိခြင်းက ကျွန်ုပ်တို့ကို ပိုမိုကောင်းမွန်သော ဆုံးဖြတ်ချက်များ ချမှတ်နိုင်စေသည်။\n",
"ယခု word cloud သည် ပိုမိုအံ့သြဖွယ်အောင် မြင်ရသည်ကို တွေ့နိုင်ပါသည်၊ သို့သော် ၎င်းတွင် အသံညံးများစွာပါဝင်သည် (ဥပမာ `Retrieved on` ကဲ့သို့ ဆက်နွယ်မရှိသော စကားလုံးများ)။ ထို့ပြင် စကားလုံးနှစ်လုံးပါဝင်သော keywords များ (ဥပမာ *data scientist* သို့မဟုတ် *computer science*) များလည်း နည်းပါးစွာ ရရှိသည်။ ၎င်းအကြောင်းရင်းမှာ RAKE အယ်လဂိုရစ်မ်သည် စာသားမှ ကောင်းမွန်သည့် keywords များ ရွေးချယ်ရာတွင် ပိုမိုထူးခြားသော အလားအလာရှိသည့်အတွက်ဖြစ်သည်။ ဤဥပမာက data pre-processing နှင့် သန့်ရှင်းရေးအရေးပါမှုကို ဖော်ပြထားပြီး၊ နောက်ဆုံးတွင် စာရိတျပုံရိပ်ရှင်းလင်းခြင်းသည် ပိုမိုကောင်းမွန်သော ဆုံးဖြတ်ချက်များ ချမှတ်နိုင်စေမည်ဖြစ်သည်။\n",
"\n",
"ဤလေ့ကျင့်မှုတွင် ကျွန်ုပ်တို့ Wikipedia text မှ keyword များနှင့် word cloud အဖြစ် အဓိပ္ပါယ်တစ်ခုခုကို ထုတ်ယူခြင်း၏ ရိုးရှင်းသော လုပ်ငန်းစဉ်တစ်ခုကို လေ့လာခဲ့သည်။ ဤဥပမာသည် ရိုးရှင်းသော်လည်း data scientist တစ်ဦးအနေဖြင့် data နှင့် အလုပ်လုပ်ရာတွင် လိုက်နာရမည့် ရိုးရာအဆင့်များအားလုံးကို ကောင်းစွာ ဖော်ပြနိုင်သည်။ အဆင့်များသည် data acquisition မှ visualization အထိ ဖြစ်သည်။\n",
"ဤလေ့ကျင့်ခန်းတွင် ကျွန်ုပ်တို့သည် Wikipedia စာသားမှ အဓိပ္ပါယ်တစ်ချို့ကို keywords နှင့် word cloud အနေဖြင့် ဆွဲထုတ်ရာ ကျပန်းလမ်းညွှန် လုပ်ငန်းစဉ်ကို ဖြတ်သန်းခဲ့ပါသည်။ ဤဥပမာသည် ရိုးရှင်းသော်လည်း data scientist တစ်ဦးသည် ဒေတာနှင့်အလုပ်လုပ်ရာတွင် တက်ကြွစွာ လုပ်ဆောင်ရမည့် အဆင့်များအားလုံးကို ကောင်းစွာ ဖော်ပြပေးသည်။ ဒေတာရယူခြင်းမှစပြီး ပြသမှုအထိ ဖြစ်ပါသည်။\n",
"\n",
"ကျွန်ုပ်တို့၏ သင်တန်းတွင် အဆင့်များအားလုံးကို အသေးစိတ် ဆွေးနွေးမည်။\n"
"ကျွန်ုပ်တို့၏ သင်တန်းတွင် သို့သို့သော အဆင့်များကို အသေးစိတ် ဆွေးနွေးမှာဖြစ်သည်။\n"
],
"metadata": {}
},
@ -504,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**ဝက်ဘ်ဆိုက်မှတ်ချက်**: \nဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေပါသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်ဆိုမှုများတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်သည်ကို ကျေးဇူးပြု၍ သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သောရင်းမြစ်အဖြစ် သတ်မှတ်ရန် လိုအပ်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူက ဘာသာပြန်ဆိုမှုကို အသုံးပြုရန် အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားများ သို့မဟုတ် အဓိပ္ပါယ်မှားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**တာဝန်မပါသောကြေညာချက်** \nဤစာတမ်းကို AI ဘာသာပြန် ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားကြဉ်းသည်မူ၊ စက်ရုပ်ဘာသာပြန်ချက်များတွင်အမှားများ သို့မဟုတ် မမှန်ကန်မှုများပါရှိနိုင်ကြောင်း သတိပြုပါရန် နိုင်သည်။ မူရင်းစာတမ်းကို မူလဘာသာဖြင့်သာ မှန်ကန်သည့်အရင်းအမြစ် အနေဖြင့်ယူဆသင့်ပါသည်။ အရေးကြီးသည့် အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်မှ ဘာသာပြန်မှုကို အကြံပြုပါသည်။ ဤဘာသာပြန်ချက်ကိုအသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာနိုင်သည့် နားမလည်မှုများ သို့မဟုတ် မှားယွင်းသော သဘောတရားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မရှိပါကြောင်း သတိပေးပါသည်။\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -528,12 +525,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-02T10:14:52+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "my"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
စာရင်းအင်းနှင့် အလားအလာ သီအိုရီသည် သင်္ချာ၏ အလွန်နီးစပ်သော နယ်ပယ်နှစ်ခုဖြစ်ပြီး ဒေတာသိပ္ပံတွင် အလွန်အရေးပါသည်။ သင်္ချာအကြောင်း အနက်ရှိုင်းစွာ မသိဘဲ ဒေတာနှင့် လုပ်ဆောင်နိုင်သော်လည်း အခြေခံအယူအဆအချို့ကို သိထားခြင်းက ပိုမိုကောင်းမွန်ပါသည်။ ဒီမှာ သင်စတင်နိုင်ရန် အကျိုးရှိမည့် အကျဉ်းချုပ်တစ်ခုကို တင်ပြပါမည်။
[![Intro Video](../../../../translated_images/my/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Intro Video](../../../../translated_images/my/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Pre-lecture quiz](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Continuous variable တစ်ခု၏ အလားအလာဖြန့်ဝ
ကျွန်ုပ်တို့သည် variable တစ်ခုသည် တန်ဖိုးများ၏ interval တစ်ခုတွင် ကျရောက်သော အလားအလာအကြောင်းသာ ပြောနိုင်သည်၊ ဥပမာအားဖြင့် P(t<sub>1</sub>≤X<t<sub>2</sub>)။ ဒီအခြေအနေတွင် အလားအလာဖြန့်ဝေမှုကို **probability density function** p(x) ဖြင့် ဖော်ပြသည်၊ ၎င်းသည်
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/my/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/my/probability-density.a8aad29f17a14afb.webp)
Continuous uniform distribution ဟုခေါ်သော uniform distribution ၏ continuous analog ကို အကန့်အသတ် interval တစ်ခုတွင် သတ်မှတ်သည်။ X တန်ဖိုးသည် အကွာအဝေး l တွင် ကျရောက်သော အလားအလာသည် l နှင့် အချိုးကျပြီး 1 အထိ မြင့်တက်သည်။
@ -73,11 +73,11 @@ Median နှင့် quartiles တစ်ခုချင်းစီ၏ ဆက
ဒီမှာ ကျွန်ုပ်တို့၏ ဒေတာအတွက် ပျမ်းမျှတန်ဖိုး၊ median နှင့် quartiles ကို ဖော်ပြထားသော box plot ဖြစ်သည်-
![Weight Box Plot](../../../../translated_images/my/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Weight Box Plot](../../../../translated_images/my/weight-boxplot.1dbab1c03af26f8a.webp)
ကျွန်ုပ်တို့၏ ဒေတာတွင် ကစားသမား **roles** အကြောင်း အချက်အလက်များ ပါဝင်သောကြောင့် role အလိုက် box plot ကိုလည်း ပြုလုပ်နိုင်သည် - ၎င်းသည် parameter values များသည် roles အလိုက် ဘယ်လိုကွဲပြားနေသည်ကို နားလည်ရန် ကူညီပေးမည်။ ဒီအကြိမ်မှာ height ကို စဉ်းစားပါမည်-
![Box plot by role](../../../../translated_images/my/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Box plot by role](../../../../translated_images/my/boxplot_byrole.036b27a1c3f52d42.webp)
ဒီ diagram က ပထမ base ကစားသမား height သည် ဒုတိယ base ကစားသမား height ထက် ပျမ်းမျှအားဖြင့် မြင့်သည်ကို ဖော်ပြသည်။ ဒီသင်ခန်းစာတွင် ကျွန်ုပ်တို့သည် ဒီအယူအဆကို ပိုမိုတိကျစွာ စမ်းသပ်နိုင်သော နည်းလမ်းများနှင့် ကျွန်ုပ်တို့၏ ဒေတာသည် အထောက်အထားအလုံလောက်ရှိသည်ကို သက်သေပြနိုင်သော နည်းလမ်းများကို လေ့လာမည်။
@ -85,7 +85,7 @@ Median နှင့် quartiles တစ်ခုချင်းစီ၏ ဆက
ကျွန်ုပ်တို့၏ ဒေတာ distribution ကို ကြည့်ရန် **histogram** ဟုခေါ်သော graph တစ်ခုကို ရှုနိုင်သည်။ X-axis တွင် အလေးချိန် interval များ (so-called **bins**) ပါဝင်ပြီး၊ vertical axis တွင် random variable sample သည် interval တစ်ခုတွင် ရှိသောအခါ အကြိမ်အရေအတွက်ကို ဖော်ပြသည်။
![Histogram of real world data](../../../../translated_images/my/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Histogram of real world data](../../../../translated_images/my/weight-histogram.bfd00caf7fc30b14.webp)
ဒီ histogram မှာ အလေးချိန်များအားလုံးသည် ပျမ်းမျှအလေးချိန်
@ -197,7 +197,7 @@ array([[1. , 0.52959196],
ဤအခါတွင်၊ 0.53 သည် weight နှင့် height အကြား correlation ရှိကြောင်း ပြသသည်။ Scatter plot ကို ရေးဆွဲ၍ visual relationship ကိုလည်း ကြည့်နိုင်သည်:
![Relationship between weight and height](../../../../translated_images/my/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Relationship between weight and height](../../../../translated_images/my/weight-height-relationship.3f06bde4ca2aba99.webp)
> Correlation နှင့် covariance ၏ နောက်ထပ်ဥပမာများကို [accompanying notebook](notebook.ipynb) တွင် ရှာဖွေနိုင်သည်။

@ -1,6 +1,6 @@
# ဒေတာသိပ္ပံအကျဉ်းချုပ်
![ဒေတာအလုပ်လုပ်နေမှု](../../../translated_images/my/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![ဒေတာအလုပ်လုပ်နေမှု](../../../translated_images/my/data.48e22bb7617d8d92.webp)
> ဓာတ်ပုံကို <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> မှ <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> တွင် ရိုက်ထားသည်
ဒီသင်ခန်းစာများတွင် ဒေတာသိပ္ပံကို ဘယ်လိုအဓိပ္ပာယ်ဖွင့်ဆိုရမယ်ဆိုတာကို ရှင်းလင်းသွားမှာဖြစ်ပြီး ဒေတာသိပ္ပံပညာရှင်တစ်ဦးအနေနဲ့ လိုက်နာရမယ့် ကျင့်ဝတ်ဆိုင်ရာအချက်များကိုလည်း သင်ယူရမယ်။ ဒေတာကို ဘယ်လိုအဓိပ္ပာယ်ဖွင့်ဆိုရမယ်ဆိုတာကိုလည်း သင်ယူရမယ်။ ဒါ့အပြင် ဒေတာသိပ္ပံရဲ့ အဓိကပညာရပ်များဖြစ်တဲ့ စာရင်းအင်းနှင့် အလားအလာဆိုင်ရာအခြေခံအချက်များကိုလည်း နည်းနည်းလေး သင်ယူရမယ်။

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Python နှင့်အလုပ်လုပ်ခြင်း - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
[![Intro Video](../../../../translated_images/my/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Intro Video](../../../../translated_images/my/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
ဒေတာများကို သိမ်းဆည်းရန်နှင့် query languages အသုံးပြု၍ ရှာဖွေရန်အတွက် databases သည် အလွန်ထိရောက်သောနည်းလမ်းများပေးနိုင်သော်လည်း၊ ဒေတာကို ကိုယ်တိုင်ရေးသားထားသော program ဖြင့် ပြုပြင်ရန် flexibility အများဆုံးရှိသည်။ အချို့သောအခြေအနေများတွင် database query သည် ပိုထိရောက်နိုင်သော်လည်း၊ SQL ဖြင့် လွယ်ကူစွာလုပ်ဆောင်၍မရသော ဒေတာကို ရှုပ်ထွေးစွာ ပြုပြင်ရန်လိုအပ်သောအခါများရှိသည်။
ဒေတာကို programming language မည်သည့်အမျိုးအစားဖြင့်မဆို ပြုပြင်နိုင်သော်လည်း၊ ဒေတာနှင့်အလုပ်လုပ်ရန်အတွက် အဆင့်မြင့်သော programming languages ရှိသည်။ ဒေတာသိပ္ပံပညာရှင်များသည် အောက်ပါဘာသာစကားများကို အများအားဖြင့်နှစ်သက်ကြသည်-
@ -65,7 +65,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Time Series Plot](../../../../translated_images/my/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Time Series Plot](../../../../translated_images/my/timeseries-1.80de678ab1cf727e.webp)
အပတ်စဉ်တွင် party အတွက် ice-cream packs 10 ခုကို ထပ်မံယူသည့်အခါ series တစ်ခုကို week အဖြစ် index လုပ်၍ ဖော်ပြနိုင်သည်:
```python
@ -76,7 +76,7 @@ Series နှစ်ခုကို ပေါင်းလိုက်သောအ
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Time Series Plot](../../../../translated_images/my/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Time Series Plot](../../../../translated_images/my/timeseries-2.aae51d575c55181c.webp)
> **Note**: `total_items+additional_items` syntax ကို ရိုးရှင်းစွာမသုံးပါ။ သုံးပါက `NaN` (*Not a Number*) values များကို ရရှိမည်။ ဒါကြောင့် `fill_value` parameter ကို addition အတွင်း specify လုပ်ရန်လိုအပ်သည်။
@ -85,7 +85,7 @@ Time series တွင် **resample** လုပ်၍ time interval များ
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Monthly Time Series Averages](../../../../translated_images/my/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Monthly Time Series Averages](../../../../translated_images/my/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -189,7 +189,7 @@ Data Scientist တစ်ဦးအနေနဲ့ အချက်အလက်တ
အချက်အလက်တွေကို ဘယ်လိုကိုင်တွယ်ရမလဲဆိုတာကို ပြသဖို့ [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) ကို ဖွင့်ပြီး အပေါ်မှ အောက်သို့ ဖတ်ရှုပါ။ Cell တွေကို run လုပ်နိုင်ပြီး အဆုံးမှာ ကျွန်တော်တို့ထားခဲ့တဲ့ challenge တွေကို လုပ်နိုင်ပါတယ်။
![COVID Spread](../../../../translated_images/my/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/my/covidspread.f3d131c4f1d260ab.webp)
> Jupyter Notebook မှာ code ကို ဘယ်လို run လုပ်ရမလဲ မသိရင် [ဒီဆောင်းပါး](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ကို ကြည့်ပါ။
@ -211,7 +211,7 @@ Data Scientist တစ်ဦးအနေနဲ့ အချက်အလက်တ
[`notebook-papers.ipynb`](notebook-papers.ipynb) ကို ဖွင့်ပြီး အပေါ်မှ အောက်သို့ ဖတ်ရှုပါ။ Cell တွေကို run လုပ်နိုင်ပြီး အဆုံးမှာ ကျွန်တော်တို့ထားခဲ့တဲ့ challenge တွေကို လုပ်နိုင်ပါတယ်။
![Covid Medical Treatment](../../../../translated_images/my/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/my/covidtreat.b2ba59f57ca45fbc.webp)
## Image Data ကို ကိုင်တွယ်ခြင်း

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# ဒေတာနှင့်အလုပ်လုပ်ခြင်း
![data love](../../../translated_images/my/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/my/data-love.a22ef29e6742c852.webp)
> ဓာတ်ပုံကို <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> မှ <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> တွင် ရိုက်ထားသည်
ဒီသင်ခန်းစာများတွင် ဒေတာကို စီမံခြင်း၊ ပြောင်းလဲခြင်းနှင့် အက်ပလီကေးရှင်းများတွင် အသုံးပြုခြင်းနည်းလမ်းများကို သင်ယူနိုင်ပါမည်။ သင် relational databases နှင့် non-relational databases အကြောင်းကို သင်ယူပြီး ဒေတာကို ဘယ်လိုသိုလှောင်နိုင်မလဲဆိုတာကိုလည်း သိရှိနိုင်ပါမည်။ Python ကို အသုံးပြု၍ ဒေတာကို စီမံရန် အခြေခံအချက်များကို သင်ယူပြီး Python ကို အသုံးပြု၍ ဒေတာကို စီမံခြင်းနှင့် ရှာဖွေခြင်းနည်းလမ်းများစွာကို ရှာဖွေတွေ့ရှိနိုင်ပါမည်။

@ -42,7 +42,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/my/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/my/scatter1.5e1aa5fd6706c5d1.webp)
ယခုနှစ်အလိုက် ပျားရည်စျေးနှုန်းသည် ဘယ်လိုပြောင်းလဲလာသည်ကို ပျားရည်အရောင်စနစ်ဖြင့် ပြသပါ။ ၎င်းကို 'hue' parameter ကို ထည့်သွင်းခြင်းဖြင့် ပြုလုပ်နိုင်ပြီး နှစ်အလိုက် ပြောင်းလဲမှုကို ပြသနိုင်သည်:
@ -51,7 +51,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/my/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/my/scatter2.c0041a58621ca702.webp)
ဤအရောင်စနစ်ပြောင်းလဲမှုဖြင့် ပျားရည်တစ်ပေါင်စျေးနှုန်းသည် နှစ်အလိုက် အားကောင်းစွာတိုးတက်လာသည်ကို မြင်နိုင်ပါသည်။ အမှန်တကယ်၊ ဒေတာထဲမှ နမူနာတစ်ခုကို စစ်ဆေးပါက (ဥပမာအားဖြင့် Arizona) နှစ်အလိုက် စျေးနှုန်းတိုးတက်မှုပုံစံကို အချို့သောကိစ္စများမှလွဲ၍ မြင်နိုင်ပါသည်:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
dot size များသည် တဖြည်းဖြည်းကြီးလာသည်ကို မြင်နိုင်ပါသည်။
![scatterplot 3](../../../../translated_images/my/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/my/scatter3.3c160a3d1dcb36b3.webp)
ဤသည်မှာ supply နှင့် demand ရိုးရှင်းသောအကြောင်းအရာဖြစ်ပါသလား။ ရာသီဥတုပြောင်းလဲမှုနှင့် colony collapse ကဲ့သို့သောအကြောင်းအရာများကြောင့် နှစ်အလိုက် ဝယ်ယူနိုင်သော ပျားရည်ပမာဏလျော့နည်းလာပြီး စျေးနှုန်းတိုးတက်လာပါသလား။
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
အဖြေ- ဟုတ်ပါသည်၊ ၂၀၀၃ ခုနှစ်အနီးတွင် အချို့သောကွဲလွဲမှုများရှိသည်။
![line chart 1](../../../../translated_images/my/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/my/line1.f36eb465229a3b1f.webp)
✅ Seaborn သည် တစ်ခုတည်းသောလိုင်းပေါ်တွင် ဒေတာကို စုစည်းထားပြီး "x value တစ်ခုစီတွင် အမျိုးမျိုးသောတိုင်းတာမှုများကို mean နှင့် mean အပေါ် 95% confidence interval ကို ပြသခြင်းဖြင့်" ဖော်ပြသည်။ [အရင်းအမြစ်](https://seaborn.pydata.org/tutorial/relational.html)။ ဤအချိန်စားသောအပြုအမူကို `ci=None` ထည့်သွင်းခြင်းဖြင့် ပယ်ဖျက်နိုင်သည်။
@ -105,7 +105,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/my/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/my/line2.a5b3493dc01058af.webp)
အဖြေ- အမှန်တကယ်မဟုတ်ပါ။ စုစုပေါင်းထုတ်လုပ်မှုကို ကြည့်ပါက ထိုနှစ်တွင် တိုးတက်လာသလိုပုံရပြီး၊ ယေဘူယျအားဖြင့် ထိုနှစ်များအတွင်း ပျားရည်ထုတ်လုပ်မှုပမာဏသည် လျော့နည်းလာသည်ကို မြင်နိုင်ပါသည်။
@ -130,7 +130,7 @@ sns.relplot(
```
ဤ visualization တွင် yield per colony နှင့် number of colonies ကို နှစ်အလိုက်၊ ပြည်နယ်အလိုက် wrap ကို 3 column အဖြစ်ထားပြီး ဘက်ဘက်ကွဲကွဲနှိုင်းယှဉ်နိုင်သည်။
![facet grid](../../../../translated_images/my/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/my/facet.6a34851dcd540050.webp)
ဤဒေတာအတွက်၊ နှစ်အလိုက်၊ ပြည်နယ်အလိုက် number of colonies နှင့် yield အကြား ထူးထူးခြားခြားသောအရာများမရှိပါ။ ဤ variable နှစ်ခုအကြား correlation ရှာဖွေခြင်းအတွက် အခြားနည်းလမ်းတစ်ခုရှိပါသလား။
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/my/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/my/dual-line.a4c28ce659603fab.webp)
၂၀၀၃ ခုနှစ်အနီးတွင် ထူးထူးခြားခြားသောအရာများ မမြင်ရသော်လည်း၊ lesson ၏အဆုံးကို ပျော်ရွှင်စွာပြီးမြောက်စေသောအချက်တစ်ခုကို ပြသနိုင်သည်- colonies အရေအတွက်သည် လျော့နည်းနေသော်လည်း၊ ၎င်းတို့၏ yield per colony လျော့နည်းနေသည့်အချိန်တွင် colonies အရေအတွက်သည် တည်ငြိမ်နေသည်။

@ -58,7 +58,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
ဒီမှာ `ggplot2` package ကို install လုပ်ပြီး `library("ggplot2")` command ကိုအသုံးပြုကာ workspace ထဲသို့ import လုပ်ပါသည်။ ggplot တွင် plot တစ်ခုကိုဖော်ပြရန် `ggplot()` function ကိုအသုံးပြုပြီး dataset, x နှင့် y variable များကို attribute အဖြစ်သတ်မှတ်ပါသည်။ ဒီအခါမှာ line plot ကို plot လုပ်ရန် `geom_line()` function ကိုအသုံးပြုပါသည်။
![MaxWingspan-lineplot](../../../../../translated_images/my/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/my/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
သင်ဘာတွေသတိထားမိပါသလဲ? အနည်းဆုံး outlier တစ်ခုရှိသလိုပဲ - တောင်ပံအကျယ်တစ်ခုကတော်တော်လေးကြီးတယ်! 2000+ စင်တီမီတာတောင်ပံအကျယ်က 20 မီတာကျော်ရှိတယ် - Minnesota မှာ Pterodactyls တွေရှိနေသလား? စစ်ဆေးကြည့်ရအောင်။
@ -76,7 +76,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
`theme` မှာ angle ကိုသတ်မှတ်ပြီး `xlab()` နှင့် `ylab()` မှာ x နှင့် y axis label များကိုသတ်မှတ်ပါသည်။ `ggtitle()` သည် graph/plot ကိုနာမည်ပေးသည်။
![MaxWingspan-lineplot-improved](../../../../../translated_images/my/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/my/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
label များကို 45 ဒီဂရီလှည့်ထားသော်လည်း၊ ဖတ်ရန်အလွန်များနေသည်။ အခြား strategy တစ်ခုကိုစမ်းကြည့်ရအောင်- outlier များကိုသာ label လုပ်ပြီး label များကို chart ထဲမှာထားပါ။ scatter chart ကိုအသုံးပြုကာ label များအတွက်နေရာပိုမိုရရှိစေပါ:
@ -92,7 +92,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
သင်ဘာတွေရှာဖွေတွေ့ရှိပါသလဲ?
![MaxWingspan-scatterplot](../../../../../translated_images/my/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/my/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## သင့်ဒေတာကို filter လုပ်ပါ
@ -111,7 +111,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
`birds_filtered` ဆိုသော dataframe အသစ်တစ်ခုကိုဖန်တီးပြီး scatter plot တစ်ခုကို plot လုပ်ပါသည်။ outlier များကို filter လုပ်ခြင်းဖြင့် သင့်ဒေတာသည် ပိုမိုညီညွတ်ပြီးနားလည်ရလွယ်ကူလာသည်။
![MaxWingspan-scatterplot-improved](../../../../../translated_images/my/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/my/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
အနည်းဆုံးတောင်ပံအကျယ်အရ dataset ကိုရှင်းလင်းပြီးနောက်၊ ငှက်များအကြောင်းပိုမိုရှာဖွေကြည့်ရအောင်။
@ -152,7 +152,7 @@ birds_filtered %>% group_by(Category) %>%
```
ဒီ snippet တွင် [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) နှင့် [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) package များကို install လုပ်ကာ ဒေတာကို manipulate လုပ်ရန်နှင့် group လုပ်ရန်အသုံးပြုသည်။ ငှက်၏ `Category` အပေါ်မူတည်၍ ဒေတာကို group လုပ်ပြီး `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` column များကို summarise လုပ်သည်။ ထို့နောက် `ggplot2` package ကိုအသုံးပြုကာ bar chart ကို plot လုပ်ပြီး category များအတွက်အရောင်များနှင့် label များကိုသတ်မှတ်သည်။
![Stacked bar chart](../../../../../translated_images/my/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/my/stacked-bar-chart.0c92264e89da7b39.webp)
ဒီ bar chart သည် များလွန်းသော non-grouped data ကြောင့် မဖတ်နိုင်ပါ။ plot လုပ်လိုသောဒေတာကိုသာရွေးချယ်ရန်လိုအပ်သည်၊ ဒါကြောင့် ငှက်၏ category အပေါ်မူတည်၍ length ကိုကြည့်ရှုပါ။
@ -167,7 +167,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
`Category` column တွင်ရှိသော unique value များကို count လုပ်ပြီး `birds_count` ဆိုသော dataframe အသစ်တစ်ခုထဲသို့ sort လုပ်သည်။ ဒီ sorted data ကို level တူညီအတိုင်း factor လုပ်ကာ sorted ပုံစံဖြင့် plot လုပ်သည်။ `ggplot2` ကိုအသုံးပြုကာ bar chart ကို plot လုပ်သည်။ `coord_flip()` သည် horizontal bar များကို plot လုပ်သည်။
![category-length](../../../../../translated_images/my/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/my/category-length.7e34c296690e85d6.webp)
ဒီ bar chart သည် category တစ်ခုစီတွင်ရှိသောငှက်အရေအတွက်ကိုကောင်းစွာမြင်နိုင်စေသည်။ Minnesota တွင် Ducks/Geese/Waterfowl category တွင်ငှက်အများဆုံးရှိသည်ကို တစ်ချက်ကြည့်လိုက်တာနဲ့မြင်နိုင်သည်။ Minnesota သည် '10,000 ရေကန်များ၏မြေ' ဖြစ်သောကြောင့်၊ ဒီအရာသည်အံ့ဩစရာမဟုတ်ပါ။
@ -190,7 +190,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
`birds_filtered` ဒေတာကို `Category` အပေါ်မူတည်၍ group လုပ်ပြီး bar graph ကို plot လုပ်သည်။
![comparing data](../../../../../translated_images/my/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/my/comparingdata.f486a450d61c7ca5.webp)
ဒီမှာအံ့ဩစရာမရှိပါ- hummingbirds တွင် Pelicans သို့မဟုတ် Geese နှင့်နှိုင်းယှဉ်ပါက MaxLength အနည်းဆုံးရှိသည်။ ဒေတာသည် logical make sense ဖြစ်သည်မှာကောင်းပါသည်!
@ -202,7 +202,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/my/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/my/superimposed-values.5363f0705a1da416.webp)
## 🚀 စိန်ခေါ်မှု

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![max length per order](../../../../../translated_images/my/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![max length per order](../../../../../translated_images/my/max-length-per-order.e5b283d952c78c12.webp)
ဤအရာသည် ငှက်အမျိုးအစား (Order) အလိုက် ကိုယ်အရှည်၏ ယေဘူယျ အချိုးအစားကို ပြသပေးပါသည်။ သို့သော် ဒေတာ၏ အမှန်တကယ် အချိုးအစားကို ဖော်ပြရန် အကောင်းဆုံးနည်းလမ်းမဟုတ်ပါ။ ဤအလုပ်ကို Histogram တစ်ခု ဖန်တီးခြင်းဖြင့် 通常 ပြုလုပ်ပါသည်။
@ -48,7 +48,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![distribution over entire dataset](../../../../../translated_images/my/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![distribution over entire dataset](../../../../../translated_images/my/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
သင်မြင်နိုင်သည့်အတိုင်း, ဤ dataset တွင်ပါဝင်သော ငှက် 400+ များ၏ အများစုသည် Max Body Mass 2000 အောက်တွင် ရှိသည်။ `bins` parameter ကို 30 အထိ မြှင့်တင်ခြင်းဖြင့် ဒေတာအကြောင်းပိုမို နက်နက်ရှိုင်းရှိုင်း သိရှိနိုင်သည်။
@ -56,7 +56,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![distribution-30bins](../../../../../translated_images/my/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![distribution-30bins](../../../../../translated_images/my/distribution-30bins.6a3921ea7a421bf7.webp)
ဤ chart သည် အချိုးအစားကို ပိုမိုအသေးစိတ်ပြသသည်။ ပိုမိုလက်ဝဲဘက်သို့ မဆွဲထားသော chart တစ်ခုကို ဖန်တီးရန် သတ်မှတ်ထားသော အကွာအဝေးအတွင်းရှိ ဒေတာကိုသာ ရွေးချယ်ပါ။
@ -68,7 +68,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![filtered histogram](../../../../../translated_images/my/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![filtered histogram](../../../../../translated_images/my/filtered-histogram.6bf5d2bfd8253322.webp)
✅ အခြား filter များနှင့် ဒေတာအချက်အလက်များကို စမ်းကြည့်ပါ။ ဒေတာ၏ အပြည့်အစုံသော အချိုးအစားကို မြင်ရန် `['MaxBodyMass']` filter ကို ဖယ်ရှားပြီး label ထည့်ထားသော အချိုးအစားများကို ပြပါ။
@ -82,7 +82,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
ဤအချိုးအစားနှစ်ခုအကြား မျှော်မှန်းထားသော အချိုးအစားတစ်ခုအတိုင်း ဆက်စပ်မှုရှိသည်ဟု မြင်ရပြီး တစ်နေရာတွင် အထူးအားကောင်းသော ဆက်စပ်မှုရှိသည်။
![2d plot](../../../../../translated_images/my/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2d plot](../../../../../translated_images/my/2d-plot.c504786f439bd7eb.webp)
Histogram များသည် ယေဘူယျအားဖြင့် ကိန်းဂဏန်းဒေတာအတွက် အလွန်ကောင်းမွန်သည်။ သို့သော် စာသားဒေတာအလိုက် အချိုးအစားကို ကြည့်ရန်လိုပါက ဘာလုပ်ရမည်နည်း?
@ -114,7 +114,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![wingspan and conservation collation](../../../../../translated_images/my/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![wingspan and conservation collation](../../../../../translated_images/my/wingspan-conservation-collation.4024e9aa6910866a.webp)
အနည်းဆုံး အတောင်အရှည်နှင့် ထိန်းသိမ်းရေးအခြေအနေအကြား ဆက်စပ်မှုကောင်းမရှိဟု မြင်ရသည်။ ဤနည်းလမ်းကို အသုံးပြု၍ dataset ၏ အခြား element များကို စမ်းကြည့်ပါ။ အခြား filter များကိုလည်း စမ်းကြည့်ပါ။ ဆက်စပ်မှုတစ်ခုကို ရှာဖွေတွေ့ရှိနိုင်ပါသလား?
@ -128,7 +128,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![density plot](../../../../../translated_images/my/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![density plot](../../../../../translated_images/my/density-plot.675ccf865b76c690.webp)
ဤ plot သည် အနည်းဆုံး အတောင်အရှည် (Minimum Wingspan) ဒေတာအတွက် ယခင် histogram ကို ပြန်လည်တူညီစေသည်။ သို့သော် ပိုမိုဖြောင့်မပြတ်ဖြစ်သည်။ ဒုတိယ chart တွင် မြင်ရသော jagged MaxBodyMass လိုင်းကို ပြန်လည်ဖန်တီး၍ ဤနည်းလမ်းဖြင့် အလွန်ကောင်းစွာ ဖြောင့်မပြတ်စေနိုင်သည်။
@ -136,7 +136,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![bodymass density](../../../../../translated_images/my/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![bodymass density](../../../../../translated_images/my/bodymass-smooth.d31ce526d82b0a1f.webp)
ပိုမိုဖြောင့်မပြတ်သော လိုင်းတစ်ခုလိုအပ်သော်လည်း အလွန်ဖြောင့်မပြတ်စေလိုမည်ဆိုပါက `adjust` parameter ကို ပြင်ဆင်ပါ:
@ -144,7 +144,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![less smooth bodymass](../../../../../translated_images/my/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![less smooth bodymass](../../../../../translated_images/my/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ ဤအမျိုးအစား plot အတွက် ရနိုင်သော parameter များအကြောင်း ဖတ်ရှုပြီး စမ်းကြည့်ပါ!
@ -154,7 +154,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![bodymass per order](../../../../../translated_images/my/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![bodymass per order](../../../../../translated_images/my/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 စိန်ခေါ်မှု

@ -85,7 +85,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Voila, ဒီဒေတာကို အမျိုးအစားနှစ်မျိုးအလိုက် ဖော်ပြထားသည့် ပိုင်းကတ်တစ်ခုဖြစ်သည်။ အမှတ်အသားများ၏ အစီအစဉ်ကို မှန်ကန်စေရန် အထူးသတိထားပါ။
![pie chart](../../../../../translated_images/my/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![pie chart](../../../../../translated_images/my/pie1-wb.685df063673751f4.webp)
## ဒိုနတ်ကတ်များ!
@ -119,7 +119,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![donut chart](../../../../../translated_images/my/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![donut chart](../../../../../translated_images/my/donut-wb.34e6fb275da9d834.webp)
ဒီကုဒ်သည် ggplot2 နှင့် webr ဆိုသော လိုက်ဘရရီနှစ်ခုကို အသုံးပြုထားသည်။ webr လိုက်ဘရရီ၏ PieDonut function ကို အသုံးပြု၍ ဒိုနတ်ကတ်ကို လွယ်ကူစွာ ဖန်တီးနိုင်သည်။
@ -155,7 +155,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
ဝဖယ်ကတ်ကို အသုံးပြု၍ မှို cap color များ၏ အချိုးအစားကို ရှင်းလင်းစွာ မြင်နိုင်သည်။ စိတ်ဝင်စားစရာကောင်းသည်မှာ အစိမ်းရောင် cap များစွာရှိနေခြင်းဖြစ်သည်။
![waffle chart](../../../../../translated_images/my/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![waffle chart](../../../../../translated_images/my/waffle.aaa75c5337735a6e.webp)
ဒီသင်ခန်းစာတွင် သင်သည် အချိုးအစားများကို ဖော်ပြရန် နည်းလမ်းသုံးမျိုးကို သင်ယူခဲ့သည်- ပိုင်းကတ်၊ ဒိုနတ်ကတ်၊ နှင့် ဝဖယ်ကတ်။ ဒေတာကို အုပ်စုဖွဲ့ပြီး အကောင်းဆုံး ဖော်ပြနည်းကို ရွေးချယ်ပါ။

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/my/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/my/scatter1.86b8900674d88b26.webp)
ယခုအခါ၊ ပျားရည်အရောင်စနစ်ကို အသုံးပြု၍ ဤဒေတာကို ပြသပါ၊ ဈေးနှုန်းသည် နှစ်အလိုက် ဘယ်လိုပြောင်းလဲလာသည်ကို ပြပါ။ ဤအရာကို 'scale_color_gradientn' parameter ကို ထည့်သွင်းခြင်းဖြင့် ပြုလုပ်နိုင်သည်၊ နှစ်အလိုက်ပြောင်းလဲမှုကို ပြသရန်:
@ -52,7 +52,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/my/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/my/scatter2.4d1cbc693bad20e2.webp)
ဤအရောင်စနစ်ပြောင်းလဲမှုဖြင့် ပျားရည်တစ်ပေါင်လျှင်ဈေးနှုန်းသည် နှစ်အလိုက် ပြောင်းလဲမှုရှိနေသည်ကို အလွယ်တကူမြင်နိုင်သည်။ အမှန်တကယ်၊ ဒေတာထဲမှ နမူနာတစ်ခုကို စစ်ဆေးပါက (ဥပမာအားဖြင့် Arizona ပြည်နယ်) နှစ်အလိုက် ဈေးနှုန်းတိုးလာမှုပုံစံကို အချို့သောအထွေထွေကိစ္စများမှလွဲ၍ မြင်နိုင်ပါသည်:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
dot အရွယ်အစားသည် တဖြည်းဖြည်းတိုးလာနေသည်ကို မြင်နိုင်ပါသည်။
![scatterplot 3](../../../../../translated_images/my/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/my/scatter3.722d21e6f20b3ea2.webp)
ဤသည်သည် တိုးတက်မှုနှင့် တိုက်ရိုက်ဆက်စပ်မှုရှိသော supply နှင့် demand ဖြစ်နိုင်ပါသလား။ ရာသီဥတုပြောင်းလဲမှုနှင့် ပျားအုပ်ပျက်စီးမှုကြောင့် နှစ်အလိုက် ဝယ်ယူနိုင်သော ပျားရည်ပမာဏလျော့နည်းလာပြီး ဈေးနှုန်းတိုးလာနေပါသလား။
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
အဖြေ- ဟုတ်ကဲ့၊ ၂၀၀၃ ခုနှစ်အနီးတွင် အချို့သောထူးခြားမှုများရှိသည်:
![line chart 1](../../../../../translated_images/my/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/my/line1.299b576fbb2a59e6.webp)
မေးခွန်း- ၂၀၀၃ ခုနှစ်တွင် ပျားရည်ပမာဏတိုးတက်မှုကိုလည်း မြင်နိုင်ပါသလား။ စုစုပေါင်းထုတ်လုပ်မှုကို နှစ်အလိုက်ကြည့်ပါက ဘာတွေ့နိုင်မလဲ။
@ -106,7 +106,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/my/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/my/line2.3b18fcda7176ceba.webp)
အဖြေ- အမှန်တကယ်တော့ မဟုတ်ပါ။ စုစုပေါင်းထုတ်လုပ်မှုကိုကြည့်ပါက၊ ထိုနှစ်တွင် တိုးတက်မှုရှိသော်လည်း၊ ယေဘူယျအားဖြင့် ထုတ်လုပ်မှုသည် လျော့နည်းလာနေသည်ကို မြင်နိုင်ပါသည်။
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
ဤမြင်ကွင်းတွင် yield per colony နှင့် number of colonies ကို နှစ်အလိုက် နှိုင်းယှဉ်ကြည့်နိုင်သည်၊ column ကို ၃ အထိ wrap ပြုလုပ်ထားသည်:
![facet grid](../../../../../translated_images/my/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/my/facet.491ad90d61c2a7cc.webp)
ဤဒေတာစဉ်အတွက်၊ နှစ်အလိုက်နှင့် ပြည်နယ်အလိုက် number of colonies နှင့် yield အကြား ထူးခြားမှုမရှိပါ။ ဤ variable နှစ်ခုအကြား ဆက်စပ်မှုကို ရှာဖွေရန် အခြားနည်းလမ်းတစ်ခုရှိပါသလား။
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/my/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/my/dual-line.fc4665f360a54018.webp)
၂၀၀၃ ခုနှစ်အနီးတွင် ထူးခြားမှုမရှိသော်လည်း၊ ပျားအုပ်အရေအတွက်သည် လျော့နည်းနေသော်လည်း တည်ငြိမ်နေပြီး၊ တစ်အုပ်လျှင်ထွက်ရှိမှုသည် လျော့နည်းနေသည်ကို မြင်နိုင်ပါသည်။

@ -38,25 +38,25 @@
ဒေတာသိပ္ပံပညာရှင်တစ်ဦးသည် မှန်ကန်သော ချတ်ကို မှန်ကန်သော ဒေတာအတွက် ရွေးချယ်သော်လည်း၊ ဒေတာကို အမှန်မဟုတ်သော အချက်အလက်များကို သက်သေပြရန် ဖော်ပြနိုင်သော နည်းလမ်းများစွာရှိသည်။ လှည့်စားသော ချတ်များနှင့် အင်ဖိုဂရပ်များ၏ ဥပမာများစွာရှိသည်။
[![How Charts Lie by Alberto Cairo](../../../../../translated_images/my/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[![How Charts Lie by Alberto Cairo](../../../../../translated_images/my/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 အထက်ပါပုံကို နှိပ်၍ လှည့်စားသော ချတ်များအကြောင်း ဆွေးနွေးမှုကို ကြည့်ပါ
ဒီချတ်သည် X axis ကို ပြောင်းလဲထားပြီး အမှန်တရား၏ ဆန့်ကျင်ဘက်ကို ဖော်ပြသည် -
![bad chart 1](../../../../../translated_images/my/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![bad chart 1](../../../../../translated_images/my/bad-chart-1.596bc93425a8ac30.webp)
[ဒီချတ်](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) သည် အလွန်လှည့်စားမှုများဖြစ်ပြီး၊ COVID အမှုများသည် အချိန်အလိုက် လျော့နည်းလာသည်ဟု သက်သေပြရန် ရည်ရွယ်ထားသည်။ သို့သော်၊ ရက်စွဲများကို အနည်းငယ်ကြည့်ပါက လျော့နည်းမှုကို ဖန်တီးရန် ပြောင်းလဲထားသည်ကို တွေ့ရမည်။
![bad chart 2](../../../../../translated_images/my/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![bad chart 2](../../../../../translated_images/my/bad-chart-2.62edf4d2f30f4e51.webp)
ဒီနာမည်ဆိုးရှိသော ဥပမာသည် အရောင်နှင့် ပြောင်းလဲထားသော Y axis ကို အသုံးပြု၍ လှည့်စားထားသည်။ ဥပမာအားဖြင့် သက်တမ်းတိုးသော ဥပဒေကြောင့် သေနတ်သေဆုံးမှုများ တက်လာသည်ဟု မဟုတ်ဘဲ ဆန့်ကျင်ဘက်ကို ဖော်ပြရန် ရည်ရွယ်ထားသည်။
![bad chart 3](../../../../../translated_images/my/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![bad chart 3](../../../../../translated_images/my/bad-chart-3.e201e2e915a230bc.webp)
ဒီထူးဆန်းသော ချတ်သည် အချိုးအစားကို ပြောင်းလဲထားပြီး ဟာသဆန်သော အကျိုးသက်ရောက်မှုကို ဖန်တီးထားသည်။
![bad chart 4](../../../../../translated_images/my/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![bad chart 4](../../../../../translated_images/my/bad-chart-4.8872b2b881ffa96c.webp)
မတူညီသော အရာများကို နှိုင်းယှဉ်ခြင်းသည် လှည့်စားမှုတစ်ခုဖြစ်သည်။ [spurious correlations](https://tylervigen.com/spurious-correlations) ဆိုသော ဝဘ်ဆိုဒ်သည် Maine တွင် အိမ်ထောင်ဖျက်နှင့် Margarine စားသုံးမှုတို့ကို ဆက်စပ်ထားသော 'အချက်အလက်' များကို ဖော်ပြထားသည်။ Reddit မှာလည်း [ugly uses](https://www.reddit.com/r/dataisugly/top/?t=all) ဆိုသော ဒေတာအသုံးပြုမှုများကို စုဆောင်းထားသည်။
@ -91,13 +91,13 @@ Axis များကို အမှတ်အသားပြုပါ၊ လိ
X axis တွင် စာသားများသည် အလွန်ရှည်လျားပါက၊ ဖတ်ရှုရလွယ်ကူစေရန် စာသားကို ထောင့်ချပါ။ [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) သည် 3D plotting ကို ပေးသည်။
![3d plots](../../../../../translated_images/my/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3d plots](../../../../../translated_images/my/3d.db1734c151eee87d.webp)
## အနုစိတ်လှုပ်ရှားမှုနှင့် 3D ချတ်ဖန်တီးခြင်း
ယနေ့အချိန်တွင် အကောင်းဆုံး ဒေတာအမြင်များသည် အနုစိတ်လှုပ်ရှားမှုများပါဝင်သည်။ Shirley Wu ၏ '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)' ကဲ့သို့သော D3 ဖြင့် ဖန်တီးထားသော အံ့ဩဖွယ်အမြင်များရှိသည်။ Guardian ၏ 'bussed out' သည် NYC ၏ အိမ်မဲ့သူများကို မြို့မှ ထုတ်ပေးသော နည်းလမ်းကို ဖော်ပြရန် visualizations နှင့် scrollytelling ကို ပေါင်းစပ်ထားသည်။
![busing](../../../../../translated_images/my/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/my/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: How America Moves its Homeless" from [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizations by Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ X axis တွင် စာသားများသည် အလွန်ရှ
သင်သည် Vue.js နှင့် D3 ကို အသုံးပြု၍ animated social network ကို ဖန်တီးမည့် web app ကို ပြီးစီးမည်ဖြစ်သည်။
![liaisons](../../../../../translated_images/my/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/my/liaisons.90ce7360bcf84765.webp)
## Project: D3.js ကို အသုံးပြု၍ network ကို ဖော်ပြသော ချတ်တစ်ခု ဖန်တီးပါ

@ -1,6 +1,6 @@
# ရုပ်ပုံဖော်ပြမှုများ
![ပန်းပေါ်မှာပျားတစ်ကောင်](../../../translated_images/my/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![ပန်းပေါ်မှာပျားတစ်ကောင်](../../../translated_images/my/bee.0aa1d91132b12e3a.webp)
> ဓာတ်ပုံကို <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> မှ <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> တွင် ရိုက်ထားသည်။
ဒေတာကို ရုပ်ပုံဖော်ပြခြင်းသည် ဒေတာသိပ္ပံပညာရှင်တစ်ဦးအတွက် အရေးကြီးဆုံးအလုပ်များထဲမှ တစ်ခုဖြစ်သည်။ ပုံတစ်ပုံသည် စကားလုံး ၁၀၀၀ တန်ဖိုးရှိသလို၊ ရုပ်ပုံဖော်ပြမှုတစ်ခုက သင့်ဒေတာအတွင်းရှိ စိတ်ဝင်စားဖွယ် အချက်များကို (ဥပမာ - ထိပ်တန်းတက်မှုများ၊ ထူးခြားမှုများ၊ အုပ်စုဖွဲ့မှုများ၊ လမ်းကြောင်းများ စသည်) ရှာဖွေဖော်ထုတ်ပေးနိုင်ပြီး၊ သင့်ဒေတာက ပြောပြချင်တဲ့ ဇာတ်လမ်းကို နားလည်ရန် ကူညီပေးနိုင်ပါသည်။

@ -16,7 +16,7 @@
ဒီသင်ခန်းစာမှာ အသက်တာစဉ်ရဲ့ အရေးကြီးတဲ့ အပိုင်း ၃ ခုကို အဓိကထားပြီး လေ့လာပါမယ်- ဒေတာရယူခြင်း၊ အလုပ်လုပ်ခြင်း၊ စီမံခန့်ခွဲခြင်း။
![Diagram of the data science lifecycle](../../../../translated_images/my/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Diagram of the data science lifecycle](../../../../translated_images/my/data-science-lifecycle.a1e362637503c4fb.webp)
> [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) မှဓာတ်ပုံ
## ဒေတာရယူခြင်း
@ -88,7 +88,7 @@ Data Science Lifecycle ဟာ အမျိုးမျိုးသော ဗာ
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
|![Team Data Science Lifecycle](../../../../translated_images/my/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Data Science Process Alliance Image](../../../../translated_images/my/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Team Data Science Lifecycle](../../../../translated_images/my/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Data Science Process Alliance Image](../../../../translated_images/my/CRISP-DM.8bad2b4c66e62aa7.webp) |
| [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) မှပုံ | [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) မှပုံ |
## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# ဒေတာသိပ္ပံ၏ အသက်ရှည်လက်ဆောင်
![communication](../../../translated_images/my/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/my/communication.06d8e2a88d30d168.webp)
> ဓာတ်ပုံ - <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> မှ <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> တွင် ရရှိသည်
ဒီသင်ခန်းစာများတွင် ဒေတာသိပ္ပံ၏ အသက်ရှည်လက်ဆောင်အပိုင်းအစများကို လေ့လာနိုင်ပါမည်။ ဒေတာဆန်းစစ်ခြင်းနှင့် ဆက်သွယ်ပြောဆိုမှုတို့အပါအဝင် အချက်အလက်များကို လေ့လာဆန်းစစ်ခြင်းနှင့် ပတ်သက်သော အကြောင်းအရာများကို လေ့လာမည်ဖြစ်သည်။

@ -1,12 +1,12 @@
# Cloud တွင် ဒေတာသိပ္ပံ
![cloud-picture](../../../translated_images/my/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/my/cloud-picture.f5526de3c6c6387b.webp)
> ဓာတ်ပုံကို [Jelleke Vanooteghem](https://unsplash.com/@ilumire) မှ [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) တွင် ရယူထားပါသည်။
အကြီးမားသော ဒေတာများနှင့်အတူ ဒေတာသိပ္ပံလုပ်ဆောင်ရာတွင် Cloud သည် အရေးပါသော အပြောင်းအလဲတစ်ခုဖြစ်နိုင်ပါသည်။ လာမည့် သုံးခုသော သင်ခန်းစာများတွင် Cloud ဆိုတာဘာလဲ၊ ဘာကြောင့် အထောက်အကူဖြစ်နိုင်သလဲဆိုတာကို ကြည့်ရှုမည်ဖြစ်သည်။ ထို့အပြင် နှလုံးရောဂါ dataset တစ်ခုကိုလည်း လေ့လာပြီး၊ တစ်ဦးတစ်ယောက်တွင် နှလုံးရောဂါဖြစ်နိုင်ခြေကို ခန့်မှန်းနိုင်ရန် မော်ဒယ်တစ်ခုကို တည်ဆောက်မည်ဖြစ်သည်။ Cloud ၏ အားသာချက်ကို အသုံးပြု၍ မော်ဒယ်ကို လေ့ကျင့်ခြင်း၊ တင်သွင်းခြင်းနှင့် အသုံးပြုခြင်းကို နည်းလမ်းနှစ်မျိုးဖြင့် ပြုလုပ်မည်ဖြစ်သည်။ နည်းလမ်းတစ်ခုမှာ Low code/No code ပုံစံဖြင့် အသုံးပြုသူအင်တာဖေ့စ်ကိုသာ အသုံးပြုခြင်းဖြစ်ပြီး၊ နောက်တစ်ခုမှာ Azure Machine Learning Software Developer Kit (Azure ML SDK) ကို အသုံးပြုခြင်းဖြစ်သည်။
![project-schema](../../../translated_images/my/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/my/project-schema.420e56d495624541.webp)
### ခေါင်းစဉ်များ

@ -32,7 +32,7 @@ AI ကို လူတိုင်းအသုံးပြုနိုင်အ
* [Data Science in Healthcare](https://data-flair.training/blogs/data-science-in-healthcare/) - medical imaging (ဥပမာ MRI, X-Ray, CT-Scan), genomics (DNA sequencing), drug development (risk assessment, success prediction), predictive analytics (patient care & supply logistics), disease tracking & prevention စသည်တို့ကဲ့သို့သော applications များကို ဖော်ပြထားပါတယ်။
![Data Science Applications in The Real World](../../../../translated_images/my/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Image Credit: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Data Science Applications in The Real World](../../../../translated_images/my/data-science-applications.4e5019cd8790ebac.webp) Image Credit: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
ဤပုံသည် ဒေတာသိပ္ပံနည်းလမ်းများကို အသုံးချနိုင်သော အခြား domains နှင့် နမူနာများကို ဖော်ပြထားသည်။ အခြား applications များကို လေ့လာလိုပါသလား? [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) အပိုင်းကို ကြည့်ပါ။

@ -13,7 +13,7 @@ Explorer အင်တာဖေ့စ် (အောက်ပါ screenshot မှ
2. [Catalog](https://planetarycomputer.microsoft.com/catalog) ဒေတာအစုအဝေးကို စူးစမ်းပါ - ဒါ့ရည်ရွယ်ချက်ကို လေ့လာပါ။
3. Explorer ကို အသုံးပြုပါ - စိတ်ဝင်စားစရာ ဒေတာအစုအဝေးတစ်ခုကို ရွေးချယ်ပြီး သက်ဆိုင်ရာ query နဲ့ rendering ရွေးချယ်မှုကို ရွေးပါ။
![The Planetary Computer Explorer](../../../../translated_images/my/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![The Planetary Computer Explorer](../../../../translated_images/my/planetary-computer-explorer.c1e95a9b053167d6.webp)
`သင့်တာဝန်:`
Browser မှာ ပြသထားတဲ့ အမြင်ပြမှုကို လေ့လာပြီး အောက်ပါအတိုင်း ဖြေကြားပါ:

@ -1,4 +1,4 @@
# Data Science for Beginners - A Curriculum
# Data Science for Beginners - သင်ရိုးညွှန်းတမ်း
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
@ -17,183 +17,196 @@
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Microsoft တွင် Azure Cloud Advocates သည် Data Science အကြောင်းအားလုံးအတွက် ၁၀ ပတ်၊ ၂၀ ခန်းစာ များပါဝင်သည့် သင်ရိုးစဉ်တစ်ခုကို ပေးအပ်ရန်ဝမ်းမြောက်ပါသည်။ ခန်းစာတိုင်းတွင် ခန်းစာမတိုင်မီနှင့် ခန်းစာပြီးနောက်တွင် စစ်တမ်းများ၊ ခန်းစာကို ပြီးမြောက်စေရန် စာရေးထုတ်ပြန်ချက်များ၊ ဖြေရှင်းနည်းနှင့်တာဝန်ပေးအစီအစဉ်ပါဝင်သည်။ ကျွန်ုပ်တို့၏ ပရောဂျက်အခြေပြုသင်ကြားမှုနည်းလမ်းသည် သင်ယူသူ၏ ကျွမ်းကျင်မှုအသစ်များကို ထိရောက်စွာ သဘာဝကျကျသိရှိနိုင်စေသည်။
Microsoft ရဲ့ Azure Cloud Advocates က Data Science အကြောင်း ၁၀ နာရီကြာ၊ သင်ခန်းစာ ၂၀ ပါသော သင်ရိုးညွှန်းတမ်းကို ပေးအပ်ရန် ဝမ်းမြောက်ပါသည်။ သင်ခန်းစာတစ်ခုစီတွင် သင်ခန်းစာမတိုင်မီနှင့် သင်ခန်းစာပြီးနောက် ပြန်လည်စစ်ဆေးနိုင်သော ဂေးဇင်းများ၊ သင်ခန်းစာကို ဖြည့်ဆည်းရန် လက်ရေးညွှန်ကြားချက်များ၊ ဖြေရှင်းချက်နှင့် အလုပ်လက်တွေ့ လေ့ကျင့်မှု ပါဝင်သည်။ ကျွန်ုပ်တို့၏ ပရောဂျက်အခြေခံသင်ကြားမှု များသည် သင်ယူရင်း ဆောက်လုပ်နိုင်ရန်ဖြစ်ပြီး၊ အသစ်သောကျွမ်းကျင်မှုများကို စွဲမြဲစေသည်။
**ကျေးဇူးအထူးတင်ရှိသော ဆရာရေးသူများ**: [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer)။
**ကျွန်ုပ်တို့၏ ပရောဂျက်ရေးသားသူများအား အထူးကျေးဇူးတင်ရှိပါသည်။** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer)။
**🙏 ကျေးဇူးအထူး 🙏 [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) ဆရာရေးသူများ၊ ပြန်လည်သုံးသပ်သူများနှင့် အကြောင်းအရာပူးပေါင်းသူများသို့**, အထူးသဖြင့် Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
**🙏 အထူးကျေးဇူးတင်ရှိပါသည် 🙏 ကျွန်ုပ်တို့၏ [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) ပရောဂျက်ရေးသားသူများ၊ ပြန်လည်သုံးသပ်သူများနှင့် အကြောင်းအရာထည့်သွင်းသူများအား၊** အထူးသဖြင့် Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/my/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Data Science For Beginners - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
### 🌐 ဘာသာစကားစုံထောက်ပံ့မှု
### 🌐 ဘာသာစကားများစွာ တွေ့ဆုံနိုင်မှု
#### GitHub Action ဖြင့် ထောက်ပံ့ထား (အလိုအလျောက်နှင့် အမြဲတမ်း အဆင့်မြှင့်)
#### GitHub Action မှတဆင့် ထောက်ပံ့ထားသည် (အလိုအလျောက်နှင့် အမြဲတမ်းအသစ်ပြုလုပ်ထားသည်)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](./README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **ဒေသတွင်းတွင် ကလုံဖို့ ဦးစားပေးပါသလား?**
> ဤ repository တွင် ဘာသာစကား ၅၀ ကျော် ပါဝင်မှုကြောင့် ဒေါင်းလုပ်အရွယ်အစား များပြားပါသည်။ ဘာသာပြန်များ မပါဘဲ ကလုံလိုပါက sparse checkout ကို အသုံးပြုပါ:
> **တည်နေရာဒေသတွင် ပုံမှန်ကူးယူလိုပါသလား?**
>
> ဤဂိုဒေါင်းသည် ဘာသာစကား ၅၀ ကျော်၏ ဘာသာပြန်ချက်များပါဝင်လို့ ဒေါင်းလုပ်အရွယ်အစားကြီးမားလာသည်။ ဘာသာပြန်ချက်များမပါဘဲ ကူးယူချင်ပါက sparse checkout ကို အသုံးပြုပါ။
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> ၎င်းသည် သင်ကြားမှုဆိုင်ရာလိုအပ်ချက်အားလုံးကို ပေးသည့်အပြင် ဒေါင်းလုပ်ကို ပိုမိုမြန်ဆန်စေပါသည်။
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> ဒါက သင်သင်ကြားသင့်သည့်အရာအားလုံးကို ပိုမိုလျင်မြန်စွာ ဒေါင်းလုပ်လုပ်နိုင်စေပါသည်။
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**ထပ်မံဘာသာပြန်မှုများ ထောက်ပံ့ရေးလိုပါက [ဤနေရာတွင်](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) ပြထားပါသည်**
**အပို ဘာသာပြန်ချက် ပေါင်းစည်းခြင်း လိုပါက [ဒါ]တွင် ရနိုင်ပါသည်။ (https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### ကျွန်ုပ်တို့့အသိုင်းအဝိုင်းတွင် ပါဝင်ပါ
#### ကျွန်ုပ်တို့၏ အသိုင်းအဝိုင်းထဲ ဝင်ပါ
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
AI နှင့်အတူ သင်ယူနိုင်သော Discord စီးရီး ရှိပါသည်၊ ပို၍လေ့လာရန်နှင့် ပါဝင်ရန် [Learn with AI Series](https://aka.ms/learnwithai/discord) တွင် ၂၀၂၅ ခုနှစ် စက်တင်ဘာ ၁၈ ရက်မှ ၃၀ ရက်ထိ ပါဝင်နိုင်ပါသည်။ GitHub Copilot ကို Data Science အတွက် အသုံးပြုနည်းများနှင့် လမ်းညွှန်ချက်များ လေ့လာရရှိမည် ဖြစ်သည်။
Discord တွင် AI နည်းပညာသင်ယူမှု စီးရီးများ ဆက်လက် ဖြစ်ပွားနေပြီး၊ ၂၀၂၅ ခုနှစ် စက်တင်ဘာ ၁၈ ရက်မှ ၃၀ ရက်အထိ [Learn with AI Series](https://aka.ms/learnwithai/discord) မှ ကြိုဆိုဖိတ်ခေါ်ပါတယ်။ GitHub Copilot ကို Data Science အတွက် အသုံးပြုနည်း လှောကတော်များရရှိမည်ဖြစ်သည်။
![Learn with AI series](../../translated_images/my/1.2b28cdc6205e26fe.webp)
# သင်သည် ကျောင်းသူ/သူမ တစ်ဦးလား?
# သင်ကျောင်းသားဆိုပါသလား?
အောက်ပါ ရင်းမြစ်များဖြင့် စတင်လိုက်ပါ-
အောက်ပါအရင်းအမြစ်များဖြင့် စတင်ပါ:
- [Student Hub page](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) ဤစာမျက်နှာတွင် စပြီးသင်ယူသူအတွက်ရင်းမြစ်များ၊ ကျောင်းသားအထုပ်များနှင့် အခမဲ့ ယူဆာဆာတောင်လက်မှတ် ရယူနည်း အားလုံး ပါဝင်သည်။ ယင်းသည် သင်ကြားမှုပစ္စည်းများကို အချိန်နှင့်တပြေးညီ ပြောင်းလဲသွားသောကြောင့် အချိန်အားဖြင့် လျှောက်လည်သင့်သည်။
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) ကမ္ဘာတစ်ဝှမ်းမှ ကျောင်းသားလမ်းညွှန်များအသိုင်းအဝိုင်းအား ပါဝင်ရန်၊ ၎င်းသည် Microsoft တွင် ဝင်ရောက်ရာလမ်းဖြစ်နိုင်သည်။
- [Student Hub စာမျက်နှာ](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) ဒီစာမျက်နှာတွင် အစပြုသူအတွက် အရင်းအမြစ်များ၊ ကျောင်းသားစာအုပ်များနှင့် လက်မှတ်အခမဲ့ရရှိစေနိုင်သောနည်းလမ်းများ တွေ့နိုင်ပါသည်။ နေ့တိုင်း အကြောင်းအရာ အသစ်ပြောင်းလဲတော့ နောက်ကြည့်ဖို့ သင်ထားသင့်တဲ့စာမျက်နှာဖြစ်ပါတယ်။
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) ကမ္ဘာလုံးဆိုင်ရာ ကျောင်းသားသံတမန္ အသိုင်းအဝိုင်း ပူးပေါင်းပါဝင်နိုင်ရန်၊ သင့်ခရီးစဉ် Microsoft ထဲသို့ ဝင်ခွင့်ရရှိနိုင်သည်။
# စတင်ခြင်း
## 📚 စာတမ်းများ
## 📚 စာရွက်စာတမ်းများ
- **[တပ်ဆင်ရန်လမ်းညွှန်](INSTALLATION.md)** - စတင်သင်ယူသူများအတွက် တ Schritt-by-Schritt တပ်ဆင်နည်း
- **[အသုံးပြုနည်းလမ်းညွှန်](USAGE.md)** - နမူနာများနှင့် ထည့်သွင်းအသုံးပြုခွင့်များ
- **[ပြဿနာဖြေရှင်းနည်း](TROUBLESHOOTING.md)** - အထွေထွေပြဿနာများအတွက် ဖြေရှင်းနည်းများ
- **[ူးပေါင်းဆောင်ရွက်ခြင်းလမ်းညွှန်](CONTRIBUTING.md)** - ဒီပရောဂျက်တွင် ပူးပေါင်းရန်နည်းလမ်းမျာ
- **[ဆရာများအတွက်](for-teachers.md)** - သင်ကြားရေးလမ်းညွှန်နှင့် စားပွဲထဲစာရင်
- **[သွင်းယူခြင်း လမ်းညွှန်](INSTALLATION.md)** - အကြမ်းဖျင်း အဆင့်လိုက် သတ်မှတ်ချက်များ၊ အစပြုသူများအတွက်
- **[အသုံးပြုနည်း လမ်းညွှန်](USAGE.md)** - ဥပမာများနှင့် အခြေချ ကိရိယာများ
- **[ပြဿနာများ ဖြေရှင်းခြင်း](TROUBLESHOOTING.md)** - ပြဿနာများအတွက် ဖြေရှင်းနည်းများ
- **[ါဝင်ဆောင်ရွက်ရန် လမ်းညွှန်](CONTRIBUTING.md)** - ဤပရောဂျက်တွင် ပူးပေါင်းဆောင်ရွက်နည်
- **[ဆရာများအတွက်](for-teachers.md)** - သင်ကြားမှု ညွှန်ကြားချက်များနှင့် သင်တန်းခန်း အရင်းအမြစ်မျာ
## 👨‍🎓 ကျောင်းသူ/ကျောင်းသားများအတွက်
> **စတင်သင်ယူသူများအတွက်**: data science ဘာလို့လဲ? ကျွန်ုပ်တို့၏ [စတင်သူ များအတွက် နမူနာများ](examples/README.md) နှင့် စတင်လိုက်ပါ။ ဤရိုးရှင်းပြီး ကောင်းမွန်စွာ မှတ်ချက်ပြုထားသော နမူနာများသည် သင်ကြားမှုအခြေခံကို နားလည်နိုင်ရန်ကူညီပေးသည်။
> **[ကျောင်းသားများ](https://aka.ms/student-page)**: သင်၏ကိုယ်ပိုင်အဖြစ် သင်ရိုးစဉ်ကို အသုံးပြုချင်သောသူများသည် repository အားလုံးကို fork ပြုလုပ်ပြီး လက်တွေ့လေ့ကျင့်ခန်းများကို ကိုယ်တိုင်ပြီးမြောက်စေလိုက်ပါ၊ အခန်းစာမတိုင်မီ စစ်တမ်းဖြေပြီးနောက် ခန်းစာကို ဖတ်ပြီး ကျက်စားပါ။ ဖြေရှင်းနည်း ကုဒ်ကို ကောက်ယူခြင်းမဟုတ်ပဲ သင်ကြားချက်များကို နားလည်ပြီးပရောဂျက်များဖန်တီးရန်ကြိုးစားပါ။ သို့သော် သူ့ကုဒ်များကို /solutions ဖိုလ်ဒါများတွင် ရနိုင်ပါသည်။ တစ်ခုသော နည်းလမ်းက ဆရာမိတ်ဆွေများနှင့် သင်တန်းအုပ်ဖွဲ့ပြီး ပညာရပ်အကြောင်းအရာများကို တိုင်ပင်ဆွေးနွေးသင်ယူခြင်းဖြစ်နိုင်သည်။ နောက်ဆုံးသင်ယူခိုင်းမှုအတွက် [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) ကို အသုံးပြုရန် အကြံပြုသည်
## 👨‍🎓 ကျောင်းသားများအတွက်
> **အစပြုပျော်ရွှင်သူများ**: ဒေတာသိပ္ပံအတွက် အသစ်လား? ကျွန်ုပ်တို့၏ [အစပြုသူအဆင်ပြေသော ဥပမာများ](examples/README.md) ဖြင့် စတင်ပါ! ဤနမူနာများသည် ရိုးရှင်းပြီး မှတ်ချက်ကောင်းကောင်းဖြင့် သင်နားလည်နိုင်ရန် ကူညီပါလိမ့်မည်။
> **[ကျောင်းသားများ](https://aka.ms/student-page)**: ဤသင်ရိုးညွှန်းတမ်းကို ကိုယ်တိုင်သုံးရန်၊ ကုဒ်ကူးယူပြီး ကိုယ်တိုင် လေ့ကျင့်ခန်းများ ပြီးစီးပါ။ သင်ခန်းစာမတိုင်မီ ဂေးဇင်းဖြေပြီး၊ သင်ခန်းစာကိုဖတ်ပါ၊ နောက်ကျောလှည့် လေ့ကျင့်ခန်းများ အကုန်ပြုလုပ်ပါ။ ဖြေရှင်းချက် ကုဒ်ကို မကူးယူဘဲ သင်ခန်းစာကို နားလည်ပြီး ပရောဂျက်အား ဖန်တီးကြည့်ပါ၊ သို့သော် ဖြေရှင်းချက်သည် /solutions ဖိုဒါတွင် သီးခြားရှိသည်။ ထို့အပြင် မိတ်ဆွေများနှင့် သင်တန်းအဖွဲ့ဖွဲ့၍ အတူတူ အကြောင်းအရာများကို ကြားလေ့လာနိုင်ပါသည်။ ပိုမိုလေ့လာရန် Microsoft Learn ကို အကြံပြုပါသည်(https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)။
**အမြန်စတင်ချိန်:**
1. သင်၏ပတ်ဝန်းကျင်တပ်ဆင်ရန် [တပ်ဆင်လမ်းညွှန်](INSTALLATION.md) ကိုစစ်ဆေးပါ
2. သင်ရိုးသည်းစည်းမှုကို အသုံးပြုနည်း [အသုံးပြုပုံလမ်းညွှန်](USAGE.md) ကို ပြန်လည်ဆန်းစစ်ပါ
3. ခန်းစာ ၁ နှင့် စတင်ပြီး ဆက်တိုက်လုပ်ဆောင်ပါ
4. ကူညီပံ့ပိုးမှုအတွက် ကျွန်ုပ်တို့၏ [Discord အသိုင်းအဝိုင်း](https://aka.ms/ds4beginners/discord) တွင် ပါဝင်ပါ
**လျင်မြန်စတင်ရန်:**
1. သင့်ပတ်ဝန်းကျင် ကို [သွင်းယူခြင်း လမ်းညွှန်](INSTALLATION.md) အတိုင်း စစ်ဆေးပါ
2. သင်ရိုးမောင်းနှင်မှုနည်းလမ်း ကို [အသုံးပြုနည်း လမ်းညွှန်](USAGE.md) မှာလေ့လာပါ
3. သင်ခန်းစာ ၁ မှ စတင်၍ အဆက်မပြတ် လေ့လာပါ
4. ရည်ညွှန်းချက်များအတွက် ကျွန်ုပ်တို့၏ [Discord အသိုင်းအဝိုင်း](https://aka.ms/ds4beginners/discord) ထဲ ဝင်ပါ
## 👩‍🏫 ဆရာများအတွက်
> **ဆရာ/ဆရာမများ**: ကျွန်ုပ်တို့သည် ဤသင်ရိုးညွှန်းတမ်းအသုံးပြုမှုအတွက် [အကြံပြုချက်အချို့ကို ပါဝင်စဉ်းစားထားပြီး](for-teachers.md) ဖြစ်သည်။ သင်၏ တုံ့ပြန်ချက်ကို ကျွန်ုပ်တို့၏ ဆွေးနွေးပွဲဖိုရမ်တွင် [လည်း မျှဝေလိုပါသည်](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **ဆရာများ**: ဤသင်ရိုးစဉ်ကို မည်သို့အသုံးပြုရမည့် အကြံပြုချက်တချို့အား [ထည့်သွင်းထားပါသည်](for-teachers.md)။ ကျွန်ုပ်တို့၏ ဆွေးနွေးမှုဖိုရမ်တွင် [တုံ့ပြန်စာများ](https://github.com/microsoft/Data-Science-For-Beginners/discussions) ပြုလုပ်ရန် မမေ့ပါနှင့်!
## အဖွဲ့အစည်းနှင့် တွေ့ဆုံခြင်း
## အဖွဲ့သားများကို ရှင်းလင်းပြုစုခြင်း
[![ကြော်ညာဗီဒီယို](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "ကြော်ညာဗီဒီယို")
[![ပရိုမိုးရှင်း ဗီဒီယို](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "ပရိုမိုးရှင်း ဗီဒီယို")
**Gif ကိုဖနတီးသူ** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
**Gif အတွက်** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 အမြဲတမ်းထက် ဖန်တီးသူများအကြောင်း ဗီဒီယိုကြည့်ရန် ဓါတ်ပုံကို နှိပ်ပါ။
> 🎥 ဤပရိုဂျက်နှင့် ဖန်တီးသူများအကြောင်း ဗီဒီယိုကို မြင်ရန် အပေါ်ဓာတ်ပုံကို နှိပ်ပါ!
## ပညာသင်ကြားမှုနည်းပညာ
## သင်ကြားနည်း
ဒီသင်တန်းအစီအစဉ်ကို ဖန်တီးတဲ့အခါ ကျွန်တော်တို့ ရွေးချယ်ထားတဲ့ ပညာသင်ကြားမှု အမြင်နှစ်ခုရှိပါတယ်။ ဒါက ပရောဂျက်အခြေပြုထားပြီး မိမိများသောကွစ်ဇ်များ ပါဝင်ရန် သေချာစေခြင်း ဖြစ်ပါတယ်။ ဒီစီးရီးအဆုံးသတ်တဲ့အချိန်မှာ ကျောင်းသားများသည် ဒေတာသိပ္ပံ၏ အခြေခံ 원리များ၊ ‌ရိုးသားမှုဆိုင်ရာ တွေးခေါ်ချက်များ၊ ဒေတာပြင်ဆင်ခြင်း၊ ဒေတာဖြင့် အလုပ်လုပ်နည်းမျိုးစုံ၊ ဒေတာမြင်ကြည့်ခြင်း၊ ဒေတာသုံးသပ်ခြင်း၊ ဒေတာသိပ္ပံ၏ တကယ့်လောကအသုံးချမှုများ နှင့် နောက်ထပ်များကို လေ့လာရမည်ဖြစ်သည်။
ဤသင်ရိုးညွှန်းတမ်း စီမံရာတွင် ကျွန်ုပ်တို့သည် သင်ကြားနည်းစွမ်းဆောင်မှုနှစ်ခုကို ရွေးချယ်ထားသည်။ ၎င်းမှာ ပရောဂျက်အခြေခံဖြစ်စေခြင်းနှင့် မကြာခဏ ရွေးချယ်မှုမေးခွန်းများပါဝင်စေခြင်းတို့ ဖြစ်သည်။ ဤအစီအစဉ် ပြီးဆုံးသည်အထိ ကျောင်းသားများသည် ဒေတာသိပ္ပံ၏ အခြေခံအယူအဆများ၊ စည်းကမ်းသတ်မှတ်ချက်များ၊ ဒေတာပြင်ဆင်ခြင်း၊ ဒေတာနှင့် ဆက်ဆံသော အလုပ်လုပ်နည်းမျိုးစုံ၊ ဒေတာမြင်ကွင်းဆောင်မှု၊ ဒေတာခွဲခြမ်းစိတ်ဖြာခြင်း၊ ဒေတာသိပ္ပံ၏ အပြင်ပန်းအသုံးချမှုများနှင့် အခြားများကို ရယူသင်ယူထားမည်ဖြစ်သည်။
ထို့အပြင်၊ တန်းသွားမတိုင်မှီ လျော့နည်းသောကွစ်ဇ်တစ်ခုသည် ကျောင်းသား၏ အနာဂတ် ပညာသင်ကြားရန် စိတ်ထားကိုပြသသည်။ တန်းပြီးချိန် စတုတျမြောက်လုပ်ထားသော ဒုတိယကွစ်ဇ်က တက်ကြွမှုကို အတည်ပြုသည်။ ဒီသင်တန်းအစီအစဉ်သည် လွယ်ကူပြီး ပျော်ရွှင်စရာဖြစ်ပြီး၊ အစိတ်အပိုင်း တစ်ခုလုံး သို့မဟုတ် အပိုင်းတစ်စိတ်တစ်ပိုင်း ပြုလုပ်နိုင်သည်။ ပရောဂျက်များသည် သေးငယ်စွာ စတင်ပြီး ၁၀ ပတ် အရေးအသား ပိုမို ရှုပ်ထွေးလာသည်။
ထို့အပြင်၊ တန်းသို့ မဝင်ခင် အနည်းငယ်သော မေးခွန်းဖြေခြင်းသည် ကျောင်းသား၏ သင်ယူလိုသည့် ရည်ရွယ်ချက်ကို ပြသပေးပြီး၊ တန်းပြီးနောက်တွင် ဒုတိယမေးခွန်းဖြေခြင်းက အတတ်ပညာ ထပ်မံ သတ္တိရစေသည့် အခန်းကဏ္ဍဖြစ်သည်။ ဤသင်ရိုးညွှန်းတမ်းသည် အလွယ်တကူ လှုပ်ရှားနိုင်ပြီး ပျော်ရွှင်စရာ ဖြစ်စေရန်ဒီဇိုင်းပြုထားပြီး စုစုပေါင်း သို့မဟုတ် အစိတ်အပိုင်းအလိုက် လေ့လာနိုင်သည်။ ပရောဂျက်များသည် အစပိုင်းတွင် အသေးစားဖြစ်ကာ ၁၀ ပတ် သင်တန်းစီစဉ်မှု၏ နောက်ဆုံးတွင် စိန်ခေါ်မှုများ မြင့်တက်လာသည်။
> ကျွန်ုပ်တို့၏ [Code of Conduct](CODE_OF_CONDUCT.md), [ပါဝင်ဆောင်ရွက်ခြင်း](CONTRIBUTING.md), [ဘာသာပြန်ဆိုင်ရာ](TRANSLATIONS.md) လမ်းညွှန်များကို တွေ့ပါ။ သင်၏တည်ဆောက်မှုဆိုင်ရာ တုံ့ပြန်ချက်ကို ကြိုဆိုပါသည်!
> ကျွန်ုပ်တို့၏ [စည်းကမ်းများ](CODE_OF_CONDUCT.md), [ပါဝင်ဆောင်ရွက်မှု](CONTRIBUTING.md), [ဘာသာပြန်](TRANSLATIONS.md) လမ်းညွှန်ချက်များကို ရှာဖွေကြည့်နိုင်သည်။ သင့်ထောက်ပြချက်များအား ကြိုဆိုပါသည်!
## လေ့လာမှု တစ်ခုချင်းစီတွင် ပါဝင်သည်များ -
## တစ်ခုချင်းစီ သင်ခန်းစာတွင် ပါဝင်သည အရာများ
- ရွေးချယ်စရာ Sketchnote
- ရွေးချယ်စရာ ပထမအပိုင်း ဗီဒီယို
- သင်ခန်းစာမတိုင်မီ အပူပေးကွစ်ဇ်
- စာသားသင်ခန်းစာ
- ပရောဂျက်အခြေပြုသင်ခန်းစာများအတွက် ပရောဂျက် ဖန်တီးနည်း လမ်းညွှန်များ
- အသိပညာ စစ်ဆေးမှုများ
- စိန်ခေါ်မှုတစ်ခု
- အပိုစဉ်စာဖတ်ခြင်း
- တာဝန်ပေးမှု
- [သင်ခန်းစာပြီးနောက် ကွစ်ဇ်](https://ff-quizzes.netlify.app/en/)
- ရွေးချယ်စရာ စကက်ချ်မှတ်တမ်း
- ရွေးချယ်စရာ ထောက်ပံ့ဗီဒီယို
- သင်ခန်းစာမတိုင်မီ အပူသွင်းမေးခွန်း
- စာရေးသားထားသော သင်ခန်းစာ
- ပရောဂျက်အခြေခံ သင်ခန်းစာများအတွက် ပရောဂျက်တည်ဆောက်ပုံ အဆင့်ခြားလမ်းညွှန်များ
- နားလည်မှု စစ်ဆေးမှုများ
- စိန်ခေါ်မှုတစ်ခုပြုလုပ်ခြင်း
- ထောက်ပံ့စာဖတ်စာပေ
- အလုပ်အပ်နှံမှု
- [သင်ခန်းစာပြီးနောက် မေးခွန်းများဖြေခြင်း](https://ff-quizzes.netlify.app/en/)
> **ကွစ်ဇ်များအကြောင်း မှတ်ချက်**: ကွစ်ဇ်အားလုံးကို Quiz-App ဖိုဒါထဲမှာ တွဲဖက်ထားပြီး ၄၀ ခုရှိ၊ တစ်ခုစီတွင် မေးခွန်း ၃ ခုပါဝင်သည်။ သင်ခန်းစာများမှ ဆက်သွယ်ထားပေမယ့် ကွစ်ဇ်အက်ပ်ကို ဒေသတွင်းမှာ ပြေးနိုင်ပြီး Azure သို့ စတင်တင်သွင်းနိုင်သည်။ `quiz-app` ဖိုဒါတွင် လမ်းညွှန်ချက်များကို လိုက်နာပါ။ ဒါတွေကို တဖက်တည်း ဘာသာပြန်နေဆဲဖြစ်ပါတယ်။
> **မေးခွန်းဖြေခြင်းများအကြောင်း မှတ်ချက်**: မေးခွန်းအားလုံးသည် Quiz-App ဖိုလ်ဒါတွင် ထည့်သွင်းထားပြီး မေးခွန်းသုံးခုပါရှိသည့် မေးခွန်းများကို စုစုပေါင်း ၄၀ မေးခွန်း ရှိသည်။ ၎င်းများသည် သင်ခန်းစာများအတွင်း မှတဆင့် လင့်ခ် ထားပြီး မေးခွန်းအက်ပ်ကို ဒေသတွင်းတွင် လည်ပတ်နိုင်ပြီး Azure သို့ ထည့်သွင်းနိုင်သည်။ `quiz-app` ဖိုလ်ဒါတွင် လမ်းညွှန်ချက်များကို လိုက်နာပါ။ ၎င်းများသည် အမြဲတမ်း စံသတ်မှတ်ချက်များနှင့် နီးကပ်စွာ ချိန်ညှိနေဆဲ ဖြစ်သည်။
## 🎓 စတင်လေ့လာသူများအတွက် နမူနာများ
## 🎓 အစွမ်းကုန် လေ့လာသူများအတွက် ဥပမာများ
**ဒေတာသိပ္ပံ အသစ်သူများအတွက်** - တယ်လီနားလည်ရလွယ်ကူသော၊ အဓိက မှတ်ချက်များ ပါဝင်သော အထူး [နမူနာ ဖိုင်တွဲ](examples/README.md) ကို ဖန်တီးခဲ့ပါသည်။
**ဒေတာသိပ္ပံသစ်လွင်လင်လား?** ကျွန်ုပ်တို့သည် သင့်အား စတင်လေ့လာရာတွင် ကူညီစေရန် ရိုးရှင်းပြီး ကောင်းမွန်စွာ မှတ်ချက်ပြုထားသော ကုဒ်မူများပါဝင်သည့် [ဥပမာဖိုင် စုစည်းမှု](examples/README.md) ကို ဖန်တီးထားသည်။
- 🌟 **Hello World** - သင် ပထမဆုံး ဒေတာသိပ္ပံပရိုဂရမ်
- 📂 **ဒေတာတ်ခြင်း** - ဒေတာစုစည်းမှုများကို ဖတ်ရှုလေ့လာခြင်း
- 📊 **ရိုးရှင်းသော သုံးသပ်ခြင်း** - စာရင်းအချက်အလက် တွက်ချက်ခြင်းနှင့် ပုံစံများ ရှာဖွေရန်
- 📈 **အခြေခံ မြင်ကွင်းဖော်ခြင်း** - ဇယားများနှင့် မြှောက်ပြ
- 🔬 **တကယ့်လောက ပရောဂျက်** - စတင်ခြင်းမှ အပြီးထိ အလုပ် זרုမှအလုပ်စဉ်
- 🌟 **Hello World** - သင် ပထမဆုံး ဒေတာသိပ္ပံ ပရိုဂရမ်းမင်း
- 📂 **ဒေတာတ်ခြင်း** - ဒေတာစုစည်းမှုများ ဖတ်ရှု စူးစမ်းလေ့လာခြင်းကို သင်ယူပါ
- 📊 **ရိုးရှင်းသော ခွဲခြားစစ်ဆေးမှု** - စာရင်းသင်္ချာကို တွက်ချက်ပြီး မျဉ်းတန်းများ ရှာဖွေခြင်း
- 📈 **အခြေခံ မြင်ကွင်းဆွဲခြင်း** - ဖော်ပြချက်များနှင့် အခြား ဂရပ်များ ဖန်တီးခြင်း
- 🔬 **အမှန်တကယ် ဖြစ်ပေါ်နေသော ပရောဂျက်** - စတင်မှပြီးဆုံးမှုအထိ လုပ်ငန်းစဉ် ပြီးမြောက်ခြင်း
နမူနာတစ်ခုချင်းစီတွင် တစ်ဆင့်ချင်းစီ ဖတ်ရှုနားလည်ရန် အသေးစိတ် မှတ်ချက်များပါရှိသည်၊ စတင်လေ့လာသူများအတွက် သင့်တော်ပါသည်!
တစ်ခုချင်းစီ ဥပမာတွင် အဆင့်တိုင်းကို အသေးစိတ် မှတ်ချက်များ ပေးထားပြီး အစွမ်းကုန် လေ့လာသူများ အတွက် အပြည့်အဝ သင့်တော်သည်။
👉 **[နမူနာများနှင့် စတင်ပါ](examples/README.md)** 👈
👉 **[ဥပမာများနှင့် စတင်ပါ](examples/README.md)** 👈
## သင်ခန်းစာများ
|![ @sketchthedocs မှ Sketchnote https://sketchthedocs.dev](../../translated_images/my/00-Roadmap.4905d6567dff4753.webp)|
|![ @sketchthedocs ရေးဆွဲသော စကက်ချ်မှတ်တမ်း https://sketchthedocs.dev](../../translated_images/my/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| ဒေတာသိပ္ပံ အတွက် စတက်ခြင်း လမ်းပြမြေပုံ - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
| ဒေတာသိပ္ပံ အစျဖဴး: လမ်းပြမြေပုံ - _စကက်ချ်မှတ်တမ်းရေးသားသူ [@nitya](https://twitter.com/nitya)_ |
| သင်ခန်းစာနံပါတ် | ခေါင်းစဉ် | သင်ခန်းစာ အုပ်စု | သင်ယူရမည့် ရည်မှန်းချက်များ | ဆက်စပ်သင်ခန်းစာ | စာရေးသူ |
| သင်ခန်းစာနံပါတ် | ခေါင်းစဉ် | သင်ခန်းစာအုပ်စု | သင်ယူရမည့် ရည်ရွယ်ချက်များ | ဖော်ပြချက်နှင့် ချိတ်ဆက်ထားသော သင်ခန်းစာ | စာရေးသူ |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | ဒေတာသိပ္ပံ သတ်မှတ်ခြင်း | [နိဒါန်း](1-Introduction/README.md) | ဒေတာသိပ္ပံ၏ အခြေခံ ရိုးရာများကို လေ့လာပြီး အတုယူနိုင်အားအတူ AI၊ မရှာမဖြေသင်ယူခြင်းနှင့် ကြီးမားသောဒေတာနှင့် ဘယ်လို သက်ဆိုင်ပါတယ်ကို ရှင်းလင်းပါ။ | [သင်ခန်းစာ](1-Introduction/01-defining-data-science/README.md) [ဗီဒီယို](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | ဒေတာသိပ္ပံ တရားတန်ဖိုး | [နိဒါန်း](1-Introduction/README.md) | ဒေတာတရားတန်ဖိုး အတွေးအခေါ်များ၊ စိန်ခေါ်မှုများနှင့် ဖရိမ်ဝပ်များ။ | [သင်ခန်းစာ](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | ဒေတာသတ်မှတ်ခြင်း | [နိဒါန်း](1-Introduction/README.md) | ဒေတာကို ဘယ်လို သတ်မှတ်ပြီး များသော မူရင်းများကို သိရှိခြင်း။ | [သင်ခန်းစာ](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | စာရင်းအင်းနှင့် ရာဘယ်ဖြန့်ဖြူးမှု သင့်တော်မှု | [နိဒါန်း](1-Introduction/README.md) | ဒေတာကို နားလည်ရန် ရာဘယ်နှင့် စာရင်းအင်း စနစ်များထပ်မံ သင်ကြားရန်။ | [သင်ခန်းစာ](1-Introduction/04-stats-and-probability/README.md) [ဗီဒီယို](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | ဆက်စပ် ဒေတာနှင့် လုပ်ဆောင်မှု | [ဒေတာဆိုင်ရာလုပ်ငန်း](2-Working-With-Data/README.md) | ဆက်စပ် ဒေတာအကြောင်း မိတ်ဆက်ခြင်းနှင့် SQL ဖြင့် ဒေတာကို ရှာဖွေ သုံးသပ်ခြင်း အခြေခံများ။ | [သင်ခန်းစာ](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL ဒေတာနှင့် လုပ်ဆောင်မှု | [ဒေတာဆိုင်ရာလုပ်ငန်း](2-Working-With-Data/README.md) | ဆက်စပ် မဟုတ်သော ဒေတာအမျိုးအစားများနှင့် စာရွက်စာတမ်းဒေတာဘေ့စ်များကို ရှာဖွေ သုံးသပ်ခြင်း အခြေခံများ။ | [သင်ခန်းစာ](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Python ဖြင့် လုပ်ဆောင်ခြင်း | [ဒေတာဆိုင်ရာလုပ်ငန်း](2-Working-With-Data/README.md) | Pandas စသည့် ไลဘ်ရေးရီများနှင့် ဒေတာရှာဖွေရန် Python ကို အသုံးပြုခြင်း အခြေခံ။ Python အခြေခံ ပရိုဂရမ်မင်း များ ရှိရန် အကြံပြုသည်။ | [သင်ခန်းစာ](2-Working-With-Data/07-python/README.md) [ဗီဒီယို](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | ဒေတာ ပြင်ဆင်ခြင်း | [ဒေတာဆိုင်ရာလုပ်ငန်း](2-Working-With-Data/README.md) | မရှိမဖြစ်ဖြစ်မှု၊ မှားယွင်းမှု သို့မဟုတ် အပြီးမစုံသော ဒေတာများကို ကိုင်တွယ်ရန် သန့်စင်ခြင်းနှင့် အပြောင်းအလဲ နည်းဗျူဟာများ။ | [သင်ခန်းစာ](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | မျိုးစုံ အရေအတွက် မြင်ကွင်းဖော်ခြင်း | [ဒေတာမြင်ကြည့်ခြင်း](3-Data-Visualization/README.md) | Matplotlib ကို အသုံးပြုပြီး ခြင်္သေ့ဒေတာကို မြင်ကွင်းဖော်ခြင်း 🦆 | [သင်ခန်းစာ](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | ဒေတာ ဖော်ပြချက်များ မြင်ကွင်းဖော်ခြင်း | [ဒေတာမြင်ကြည့်ခြင်း](3-Data-Visualization/README.md) | အစီရင်ခံချက်များနှင့် လိုက်လျောညီထွေမှုများကို မြင်ကွင်းဖော်ခြင်း။ | [သင်ခန်းစာ](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | အပိုင်းများ မြင်ကွင်းဖော်ခြင်း | [ဒေတာမြင်ကြည့်ခြင်း](3-Data-Visualization/README.md) | ကြဲပြားခြားနားသော နှုန်းထားများနှင့် အုပ်စုနည်းပြုစုထားမှုကို မြင်ကွင်းဖော်ခြင်း။ | [သင်ခန်းစာ](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | ဆက်စပ်မှုများ မြင်ကွင်းဖော်ခြင်း | [ဒေတာမြင်ကြည့်ခြင်း](3-Data-Visualization/README.md) | ဒေတာနှင့် ပြောင်းလဲမှုအာရုံစူးစိုက်မှုများ။ | [သင်ခန်းစာ](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | အဓိပ္ပာယ်ရှိသော မြင်ကွင်းဖော်ခြင်း | [ဒေတာမြင်ကြည့်ခြင်း](3-Data-Visualization/README.md) | မြင်ကွင်းဖော်ခြင်းများကို ပြဿနာဖြေရှင်းခြင်းနှင့် ယေဘုယျ အသိပညာများအတွက် အသုံးဝင်စေရန် နည်းဗျူဟာများ။ | [သင်ခန်းစာ](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | ဒေတာသိပ္ပံ ဘဝဆိုင်ရာ ကွက်လပ်သွားခြင်းအကြောင်း မိတ်ဆက်ခြင်း | [ဘဝဆိုင်ရာ](4-Data-Science-Lifecycle/README.md) | ဒေတာသိပ္ပံ ဘဝဆိုင်ရာ ကွက်လပ်၏ ပထမအဆင့် အဖြစ် ဒေတာရယူခြင်းနှင့် ထုတ်ယူခြင်း မိတ်ဆက်ခြင်း။ | [သင်ခန်းစာ](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | သုံးသပ်ခြင်း | [ဘဝဆိုင်ရာ](4-Data-Science-Lifecycle/README.md) | ဒေတာသိပ္ပံ ဘဝဆိုင်ရာ ကွက်လပ် တွင် ဒေတာသုံးသပ်နည်းများကို အဓိကထားခြင်း။ | [သင်ခန်းစာ](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | ဆက်သွယ်ပြောဆိုခြင်း | [ဘဝဆိုင်ရာ](4-Data-Science-Lifecycle/README.md) | ဒေတာမှသော မူဝါဒကောက်ချက်များကို ဆုံးဖြတ်မှတဆင့် များနားလည်စေဖို့ ပိုမိုလွယ်ကူရန် ပြသခြင်း။ | [သင်ခန်းစာ](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Cloud တွင် ဒေတာသိပ္ပံ | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Cloud မှာ ဒေတာသိပ္ပံအသုံးပြုမှုနှင့် အကျိုးကျေးဇူးများ မိတ်ဆက်ခြင်း။ | [သင်ခန်းစာ](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 18 | Cloud တွင် ဒေတာသိပ္ပံ | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Low Code ကိရိယာများဖြင့် မော်ဒယ်လေ့ကျင့်ခြင်း။ |[သင်ခန်းစာ](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 19 | Cloud တွင် ဒေတာသိပ္ပံ | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio ဖြင့် မော်ဒယ်တင်သွင်းခြင်း။ | [သင်ခန်းစာ](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) and [Maud](https://twitter.com/maudstweets) |
| 20 | တကယ့်လောကတွင် ဒေတာသိပ္ပံ | [In the Wild](6-Data-Science-In-Wild/README.md) | တကယ့်လောကတွင် ဒေတာသိပ္ပံဉာဏ်ထွန်းထားသော ပရောဂျက်များ။ | [သင်ခန်းစာ](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 01 | ဒေတာသိပ္ပံ အဓိပ္ပါယ်သတ်မှတ်ခြင်း | [နိဒါန်း](1-Introduction/README.md) | ဒေတာသိပ္ပံ၏ အခြေခံ မှတ်ယူခွင့်များနှင့် အတုအသွင်သိပ္ပံ၊ စက် ရေတွက်မှု လေ့လာမှု၊ သက်တမ်းကြီး ဒေတာနည်းပညာတို့နှင့် ဘယ်လို ဆက်စပ်နေသည်ကို သင်ယူပါ။ | [သင်ခန်းစာ](1-Introduction/01-defining-data-science/README.md) [ဗီဒီယို](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | ဒေတာသိပ္ပံ စည်းကမ်းသတ်မှတ်ချက်များ | [နိဒါန်း](1-Introduction/README.md) | ဒေတာ ကုသရေး စည်းကမ်းများ၊ စိန်ခေါ်မှုများနှင့် ဖွဲ့စည်းပုံများ။ | [သင်ခန်းစာ](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | ဒေတာ သတ်မှတ်ခြင်း | [နိဒါန်း](1-Introduction/README.md) | ဒေတာများ မည်သို့ အမျိုးအစား ခွဲခြားထားသည်နှင့် ၎င်း၏ ရိုးရာ အရင်းအမြစ်များ။ | [သင်ခန်းစာ](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | စာရင်းအင်းနှင့် ဖြစ်နိုင်ခြေ အခြေခံအကြောင်း | [နိဒါန်း](1-Introduction/README.md) | ဒေတာကို နားလည်ရန် ဖြစ်နိုင်ခြေဝေခေါ်မှုနှင့် စာရင်းအင်းပညာ စနစ်များ။ | [သင်ခန်းစာ](1-Introduction/04-stats-and-probability/README.md) [ဗီဒီယို](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | ဆက်စပ် ဒေတာနှင့် လုပ်ဆောင်ခြင်း | [ဒေတာနှင့်အလုပ်လုပ်ရန်](2-Working-With-Data/README.md) | ဆက်စပ် ဒေတာအကြောင်း မိတ်ဆက်ခြင်းနှင့် စနစ်တကျ မေးခွန်းရပ်နှင့် ရုပ်သေဖြစ်ခံသုံးသပ်ခြင်းအခြေခံများ၊ အမည်ကြီး Structured Query Language (SQL) အသုံးပြုပုံ (ဖတ်ရန် “စီ-ကွဲ”)။ | [သင်ခန်းစာ](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL ဒေတာနှင့် လုပ်ဆောင်ခြင်း | [ဒေတာနှင့်အလုပ်လုပ်ရန်](2-Working-With-Data/README.md) | ဆက်စပ်မဟုတ်သော ဒေတာ များအကြောင်း၊ ကွဲပြားမှုများနှင့် စာရွက်စာတမ်း ဒေတာဘေ့စ်များ စူးစမ်းသုံးသပ်ခြင်းအခြေခံများ။ | [သင်ခန်းစာ](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Python ဖြင့် လုပ်ဆောင်ခြင်း | [ဒေတာနှင့်အလုပ်လုပ်ရန်](2-Working-With-Data/README.md) | Pandas တို့ကဲ့သို့ ရုပ်သေ ဒေတာ လေ့လာမှု အတွက် Python အသုံးပြုရန် အခြေခံများ။ Python programming အခြေခံကို သိရှိခြင်း အကြံပြုသည်။ | [သင်ခန်းစာ](2-Working-With-Data/07-python/README.md) [ဗီဒီယို](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | ဒေတာပြင်ဆင်ခြင်း | [ဒေတာနှင့်အလုပ်လုပ်ရန်](2-Working-With-Data/README.md) | ဒေတာတွင် မရှိသည်၊ မှား၊ ပြည့်စုံမှု မရှိမှု စိန်ခေါ်ချက်များကို ကိုင်တွယ်ရန် အတွက် ချည်းထုတ်ခြင်းနှင့် ပြောင်းလဲခြင်း နည်းစနစ်များ။ | [သင်ခန်းစာ](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | ပမာဏများ မြင်ကွင်းဆွဲခြင်း | [ဒေတာမြင်ကွင်းဆွဲမှု](3-Data-Visualization/README.md) | Matplotlib ကို အသုံးပြု လေ့လာသည့်ငှက် ဒေတာကို မြင်ကွင်းဆွဲနည်းများ 🦆 | [သင်ခန်းစာ](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | ဒေတာဖြန့်ဝေမှုများ မြင်ကွင်းဆွဲခြင်း | [ဒေတာမြင်ကွင်းဆွဲမှု](3-Data-Visualization/README.md) | အတွင်းခွင့်တွင် မျဉ်းတန်းများနှင့် ယှဉ်ပြိုင်မှုများ မြင်ကွင်းဆွဲခြင်း။ | [သင်ခန်းစာ](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | အချိုးအစားများ မြင်ကွင်းဆွဲခြင်း | [ဒေတာမြင်ကွင်းဆွဲမှု](3-Data-Visualization/README.md) | ခွဲခြားထားသော ဝေစုများနှင့် အုပ်စုအလိုက် ရာခိုင်နှုန်းများ မြင်ကွင်းဆွဲခြင်း။ | [သင်ခန်းစာ](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | ဆက်နွယ်မှုများ မြင်ကွင်းဆွဲခြင်း | [ဒေတာမြင်ကွင်းဆွဲမှု](3-Data-Visualization/README.md) | ဒေတာအစုလိုက်အပြုံလိုက်နှင့် ၎င်းတို့ အပြောင်းအလဲများ၊ ဆက်သွယ်မှုများ မြင်ကွင်းဆွဲခြင်း။ | [သင်ခန်းစာ](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | အဓိပ္ပါယ်ရှိသော မြင်ကွင်းဆွဲမှုများ | [ဒေတာမြင်ကွင်းဆွဲမှု](3-Data-Visualization/README.md) | သင့် မြင်ကွင်းဆွဲမှုများကို အကျိုးရှိစွာ ပြုပြင်နိုင်ရန် နည်းပြချက်များနှင့် လမ်းညွှန်ချက်များ။ | [သင်ခန်းစာ](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | ဒေတာသိပ္ပံဘဝ အစိတ်အပိုင်းများ မိတ်ဆက်ခြင်း | [ဘဝသက်တမ်း](4-Data-Science-Lifecycle/README.md) | ဒေတာသိပ္ပံဘဝသက်တမ်း၏ မိတ်ဆက်နှင့် ပထမ အဆင့်ဖြစ်သည့် ဒေတာ ဝယ်ယူခြင်းနှင့် ဖယ်ရှားခြင်းအကြောင်း။ | [သင်ခန်းစာ](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | ခွဲခြမ်းစိတ်ဖြာခြင်း | [ဘဝသက်တမ်း](4-Data-Science-Lifecycle/README.md) | ဒေတာသိပ္ပံဘဝသက်တမ်း၏ ဒေတာခွဲခြမ်းစိတ်ဖြာနည်းများကို အာရုံစိုက်ဆောင်ရွက်ခြင်း။ | [သင်ခန်းစာ](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | ဆက်သွယ်မှု | [ဘဝသက်တမ်း](4-Data-Science-Lifecycle/README.md) | ဒေတာမှ ရရှိသော အကြောင်းအရာများကို ဆုံးဖြတ်ချက်ထုတ်သူများ အတွက် အလွယ်တကူ နားလည်နိုင်စေရန် ဖြန့်ဝေရေးအဆင့်။ | [သင်ခန်းစာ](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | မိုးကောင်းကင်ရှိ ဒေတာသိပ္ပံ | [မိုးကောင်းကင် ဒေတာ](5-Data-Science-In-Cloud/README.md) | ဒီသင်ခန်းစာ အစီအစဉ်သည် မိုးကောင်းကင်ရှိ ဒေတာသိပ္ပံနှင့် ၎င်း၏ အကျိုးကျေးဇူးများကို မိတ်ဆက်ပေးသည်။ | [သင်ခန်းစာ](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) နှင့် [Maud](https://twitter.com/maudstweets) |
| 18 | မိုးကောင်းကင်ရှိ ဒေတာသိပ္ပံ | [မိုးကောင်းကင် ဒေတာ](5-Data-Science-In-Cloud/README.md) | Low Code ကိရိယာများ အသုံးပြု၍ မော်ဒယ်များ လေ့ကျင့်ခြင်း။ |[သင်ခန်းစာ](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) နှင့် [Maud](https://twitter.com/maudstweets) |
| 19 | မိုးကောင်းကင်ရှိ ဒေတာသိပ္ပံ | [မိုးကောင်းကင် ဒေတာ](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio ဖြင့် မော်ဒယ်များ တင်သွင်းခြင်း။ | [သင်ခန်းစာ](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) နှင့် [Maud](https://twitter.com/maudstweets) |
| 20 | သဘာဝဘေးအန္တရာယ်ရှိ ဒေတာသိပ္ပံ | [သဘာဝဘေးအန္တရာယ်](6-Data-Science-In-Wild/README.md) | အမှန်တကယ် ကမ္ဘာလုံးဆိုင်ရာ အခြေအနေများတွင် ဒေတာသိပ္ပံ အခြေပြု ပရောဂျက်များ။ | [သင်ခန်းစာ](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
ဒီနမူနာကို Codespace ထဲတွင် ဖွင့်ရန် အဆင့်များကတော့:
1. Code dropdown မီနူးကို နှိပ်ပြီး Open with Codespaces ရွေးပါ။
2. ပေါ်လာသော ပက်နယ်တွင် + New codespace ကို ရွေးပါ။
အကြောင်းအရာပိုများရန် [GitHub ဆောင်းပါး](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) ကို ကြည့်ပါ။
ဤနမူနာကို Codespace တွင်ဖွင့်ရန် အဆင့်များ -
1. Code drop-down မီနူးကို နှိပ်ပြီး Open with Codespaces ရွေးချယ်ပါ။
2. ပံ့ပိုးမှု ပန်းပေါ်တွင် + New codespace ကို ရွေးပါ။
အသေးစိတ်အချက်အလက်များအတွက် [GitHub စာရွက်စာတမ်း](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) ကို ဆက်သွယ်ကြည့်ပါ။
## VSCode Remote - Containers
VSCode Remote - Containers extension ကိုသုံးပြီး သင့်ရဲ့ ဒေသတွင်းစက်နှင့် အတူ ဒီကိုဒ်ပေါင်းကို ကွန်တိန်နာထဲမှာ ဖွင့်ချင်ရင် အောက်ပါအဆင့်တွေလိုက်နာပါ။
သင့် ဒေသတွင်းကွန်ပျူတာနှင့် VSCode သုံး၍ ဒီ repository ကို container ပြုလုပ်ဖွင့်ရန်၊ VS Code Remote - Containers extension အသုံးပြုပုံအဆင့်များ:
1. ဒါဟာ ဒါဟာ သင့်ရဲ့ ပထမဆုံး ဖွံဖြိုးတိုးတက်မှု ကွန်တိန်နာ ဖြစ်ခဲ့ရင် Docker ထည့်သွင်းပြီး ရှိကြောင်း သေချာပါစေ ([အစပြုရန် စာတမ်းများ](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started))။
1. ဒါဟာ သင်၏ ပထမဆုံး ဖွံ့ဖြိုးရေး container အသုံးပြုခြင်းဖြစ်ပါက၊ [စတင်ရန် လမ်းညွှန်စာရွက်](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) အရ စနစ်လိုအပ်ချက်များ (ဥပမာ Docker ရှိမှု) ကို သေချာစေပါ
Repo ကို အသုံးပြုရန် isolated Docker volume တစ်ခုအတွင်း တခြားသောနည်းလမ်းဖြင့် ဖွင့်နိုင်ပါတယ်။
ဒီ repository သုံးရန်၊ သင်သည် isolated Docker volume ထဲမှ repo ကို ဖွင့်နိုင်သည် -
**အကြံပြုချက်**: Remote-Containers: **Clone Repository in Container Volume...** အမိန့်ကို အသုံးပြုကာ ဒေတာအရင်းအမြစ်ကို Docker volume ထဲ ယူသည်။ [Volumes](https://docs.docker.com/storage/volumes/) တွင် container data သိမ်းဆည်းရန် အကြံပြုသည်။
**မှတ်ချက်**: အောက်ခံတွင် Remote-Containers: **Clone Repository in Container Volume...** command ကို သုံးပြီး စာရင်းအင်းကို ဒေသတွင်း filesystem မဟုတ်ပဲ Docker volume ထဲသို့ ကလုံးသွားမည်။ [Volumes](https://docs.docker.com/storage/volumes/) သည် container data ကို သိမ်းဆည်းရာတွင် ဦးစားပေးသောကိရိယာဖြစ်သည်။
သို့မဟုတ် ဒေသတွင်းတွင် clone လုပ်ထားသည့် သို့မဟုတ် ဒေါင်းလုဒ်လုပ်ထားသည့် မူရင်း repo ကို ဖွင့်နိုင်သည်။
သို့မဟုတ် ဒေသတွင်းက ပြန်လည်ကလုံးပြီး သို့မဟုတ် ဒေါင်းလုပ်လုပ်ပြီး نسخه ကို ဖွင့်နိုင်သည် -
- သင့်ရဲ့ ဒေသတွင်းဖိုင်စနစ်ကိုအတည်ပြုရန် ဒါကို clone လုပ်ပါ။
- F1 ကိုနှိပ်ပြီး **Remote-Containers: Open Folder in Container...** အမိန့်ကို ရွေးပါ။
- ဒီ folder ကိုရွေးပြီး container စတင်ရန် စောင့်ပါ၊ ထို့နောက် စမ်းသပ်ကြည့်ပါ။
- ဒီ repo ကို ဒေသတွင်း filesystem သို့ ကလုံးပါ။
- F1 နှိပ်ပြီး **Remote-Containers: Open Folder in Container...** command ကို ရွေးချယ်ပါ။
- ဖိုလ်ဒါ ကလုံထားသော ပိုင်းကို ရွေးချယ်၊ container စတင်ရန် ကာလကို စောင့်ပါ၊ ပြီးနောက် စမ်းသပ်ကြည့်ပါ။
## အော့ဖ်လိုင်း မောင်းနှင်ခြင်း
## ဒေါင်းလုပ်မလိုအပ်သော ဝင်ရောက်မှု
ဒီစာတမ်းကို လမ်းညွှန်ပုံစံဖြင့် အော့ဖ်လိုင်းတွင် ပြေးနိုင်သည် [Docsify](https://docsify.js.org/#/) ကူညီပါမည်။ ဒီ repo ကို fork လုပ်ပြီး ဒေသတွင်းစက်တွင် [Docsify ထည့်သွင်းပြီး](https://docsify.js.org/#/quickstart) repo root directory မှ `docsify serve` ကို ရိုက်ထည့်ပါ။။ ဝဘ်ဆိုဒ်ကို localhost ၏ ၃၀၀၀ ပေါ့တ်တွင်ဝင်ရောက် ကြည့်ရှုနိုင်ပါသည်။
[Docsify](https://docsify.js.org/#/) ကို အသုံးပြုပြီး ဤစာတမ်းကို ဒေါင်းလုပ်မလိုဘဲ လည်ပတ်နိုင်ပါသည်။ ဒီ repo ကို fork ပြုလုပ်ပြီး၊ သင့်ဒေသတွင်း စက်တွင် [Docsify ကို ထည့်သွင်းပြီး](https://docsify.js.org/#/quickstart)၊ repo ၏ မူလ ဖိုလ်ဒါ၌ `docsify serve` ဟု ရိုက်ထည့်ပါ။ ဝဘ်ဆိုဒ်သည် သင့်ဒေသတွင်းမှ localhost:3000 ပေါ်တွင် တင်ဆက်ပါမည်။
> မှတ်ချက် - notebook များကို Docsify ဖြင့် မဖော်ပြနိုင်ပါ၊ ထို့ကြောင့် notebook မတက်ဖို့လိုသောအခါ VS Code တွင် Python kernel ဖြင့် သီးသန့် run လုပ်ပါ။
> မှတ်ချက်၊ notebook များကို Docsify ဖြင့် ကြည့်ရှု၍ မရပါ၊ ထို့ကြောင့် notebook များကို ဘယ်လို လုပ်ရမည်ဆိုသည့်ကိစ္စဖြစ်လျှင် VS Code အတွင်း Python kernel ဖြင့် သီးခြား လည်ပတ်ပါ။
## အခြား သင်တန်းအစီအစဉ်များ
## အခြား သင်ရိုးညွှန်းတမ်းများ
ကျွန်ုပ်တို့ အဖွဲ့သည် အခြားသင်တန်းများကို ထုတ်လုပ်ပါသည်! ကြည့်ပါ:
ကျွန်ုပ်တို့၏ အဖွဲ့သည် အခြား သင်ရိုးညွှန်းတမ်းများကို ထုတ်လုပ်ပါသည်! ဆက်လက်ကြည့်ရှုပါ -
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j အတွက် စတင်သူများ](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js for Beginners](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain for Beginners](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
@ -231,22 +244,21 @@ Repo ကို အသုံးပြုရန် isolated Docker volume တစ
[![Copilot Adventure](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## အကူအညီရယူခြင်း
## Getting Help
**ပြဿနာတွေရှိပြီလား?** ပုံမှန်ပြဿနာများအတွက် ဖြေရှင်းချက်များကို ကြည့်ရှုနိုင်ရန် [Troubleshooting Guide](TROUBLESHOOTING.md) ကို စစ်ဆေးပါ
**ပြဿနာတွေကြုံနေရပါသလား?** မကြာခဏကြုံတွေ့ရသော ပြဿနာများအတွက် ဖြေရှင်းနည်းများကို [Troubleshooting Guide](TROUBLESHOOTING.md) မှာ ကြည့်ရှုနိုင်ပါသည်
AI အက်ပလီကေးရှင်းများ ဖန်တီးရာတွင် ရပ်တန့်သွားခဲ့ခြင်း သို့မဟုတ် မေးခွန်းများရှိှိမိပါက MCP အကြောင်း ဆွေးနွးမှုများတွင် ကျောင်းသားများ နှင့် အတွေ့အကြုံရှိ မိတ်ဆွေများထံ ပူးပေါင်းပါ။ အဲဒီမှာ မေးခွန်းများကို ကြိုဆိုပြီး အသိပညာများကို လွတ်လပ်စွာ မျှဝေကြသည့် ကွန်ယက်တစ်ခု ဖြစ်ပါသည်။
AI အက်ပ်များ တည်ဆောက်ရာတွင် ထောက်ပံ့မှု လိုအပ်ပါက MCP အကြောင်း ဆွေးနွေးရန် လေ့လာသူများနှင့် အတွေ့အကြုံရှိ နည်းပညာရှင်များ အားပှဲသို့ တက်ရောက်ပါ။ အဲဒါဟာ မေးခွန်းတွေကို လက်ခံပြီး သိပ္ပံပညာ သောလောကကို လွတ်လပ်စွာ မျှဝေကြတဲ့ သင်တန်းဝိုင်းတစ်ခုဖြစ်ပါတယ်။
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
ထုတ်ကုန်မှတ်ချက်များ သို့မဟုတ် အမှားများရှိပါက ဖန်တီးခြင်းအတွင်း ဝင်ရောက်ကြည့်ရှုပါ။
ထုတ်ကုန် အကြံပြုချက် သို့မဟုတ် အမှားများရှိပါက ဆောက်လုပ်စဉ်တွင် -
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**အကြောင်းကြားချက်**။
ဤစာရွက်ကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ဖြင့် ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှုအတွက် ကြိုးပမ်းသော်လည်း အလိုအလျောက် ဘာသာပြန်ချက်များတွင် အမှားများ သို့မဟုတ် မှားယွင်းချက်များ ရှိနိုင်ကြောင်း သတိပြုပါရန် မေတ္တာရပ်ခံအပ်ပါသည်။ မူလစာရွက်ကို မူရင်းဘာသာဖြင့်သာ တရားဝင်အချက်အလက်အနေဖြင့် ယူဆရန် လိုအပ်ပါသည်။ အရေးပါတဲ့ သတင်းအချက်အလက်များအတွက် သမားရိုးကျ လူသား ဘာသာပြန်ခြင်းကို အကြံပြုပါသည်။ ဤဘာသာပြန်ချက်ကို အသုံးပြုမှုကြောင့် ဖြစ်ပေါ်လာသည့် နားမလည်မှုများ သို့မဟုတ် မှားယွင်းစွာ အဓိပ္ပာယ်ဖတ်ခြင်းများအတွက် ကျွန်ုပ်တို့ တာဝန်မခံပါ။
**အချက်ပေးချက်**:
ဤစာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ဖြင့် ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှုအတွက် ကြိုးစားအားထုတ်ပေမယ့် ကွန်ပျူတာအလိုအလျောက် ဘာသာပြန်ခြင်းများတွင် အနည်းငယ် အမှားများ သို့မဟုတ် တိကျမှုမရှိမှုများ ရှိနိုင်ကြောင်း သတိပြုပါရန် ဖြစ်သည်။ မူရင်းစာတမ်းကို မိဘဘာသာဖြင့်သာ အတည်ပြုနိုင်သော အချက်အလက်အရင်းမြစ်အဖြစ် သတ်မှတ်ပါရန် အကြံပြုပါတယ်။ အရေးကြီးသော သတင်းအချက်အလက်များအတွက်တော့ ပရော်ဖက်ရှင်နယ် လူသားဘာသာပြန်သူများ၏ ဘာသာပြန်ခြင်းကို အသုံးပြုရန် တိုက်တွန်းပါသည်။ ဤဘာသာပြန်ချက်ကို အသုံးပြုရာတွင် ဖြစ်ပေါ်နိုင်သည့် နားလည်မှားယွင်းမှုများ သို့မဟုတ် စကားလုံးဉာဏ်ကြီးယားမှုများအတွက် ကျွန်ုပ်တို့၏ တာဝန်မရှိပါ။
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@
Nitya Narasimhan, အနုပညာရှင်
![roadmap sketchnote](../../../translated_images/my/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![roadmap sketchnote](../../../translated_images/my/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "uk"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T10:14:05+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "uk"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-30T19:33:46+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "uk"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T10:14:40+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "uk"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T17:09:25+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "uk"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T10:15:35+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "uk"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T19:53:48+00:00",
@ -360,8 +378,8 @@
"language_code": "uk"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T09:14:50+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T10:21:47+00:00",
"source_file": "README.md",
"language_code": "uk"
},

@ -6,7 +6,7 @@
---
[![Відео про визначення науки про дані](../../../../translated_images/uk/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Відео про визначення науки про дані](../../../../translated_images/uk/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Тест перед лекцією](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@
У цьому завданні ми спробуємо знайти концепції, пов'язані з галуззю Data Science, аналізуючи тексти. Ми візьмемо статтю з Вікіпедії про Data Science, завантажимо та обробимо текст, а потім створимо хмару слів, схожу на цю:
![Хмара слів для Data Science](../../../../translated_images/uk/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Хмара слів для Data Science](../../../../translated_images/uk/ds_wordcloud.664a7c07dca57de0.webp)
Відвідайте [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), щоб ознайомитися з кодом. Ви також можете запустити код і побачити, як він виконує всі перетворення даних у реальному часі.

@ -3,15 +3,15 @@
{
"cell_type": "markdown",
"source": [
"# Виклик: Аналіз тексту про науку про дані\n",
"# Challenge: Аналіз тексту про Data Science\n",
"\n",
"У цьому прикладі ми виконаємо просту вправу, яка охоплює всі етапи традиційного процесу науки про дані. Вам не потрібно писати код, ви можете просто натиснути на комірки нижче, щоб виконати їх і спостерігати за результатом. Як виклик, вам пропонується спробувати цей код із різними даними.\n",
"У цьому прикладі виконаємо просту вправу, яка охоплює всі етапи традиційного процесу Data Science. Вам не потрібно писати жоден код, ви можете просто натиснути на клітинки нижче, щоб виконати їх і спостерігати результат. Як виклик, вас заохочують спробувати цей код із різними даними.\n",
"\n",
"## Мета\n",
"\n",
"У цьому уроці ми обговорювали різні концепції, пов'язані з наукою про дані. Давайте спробуємо відкрити більше пов'язаних концепцій, виконуючи **текстовий аналіз**. Ми почнемо з тексту про науку про дані, витягнемо ключові слова з нього, а потім спробуємо візуалізувати результат.\n",
"У цьому уроці ми обговорювали різні поняття, пов’язані з Data Science. Спробуємо виявити більше пов’язаних понять за допомогою **текстового майнінгу**. Ми почнемо з тексту про Data Science, витягнемо ключові слова з нього, а потім спробуємо візуалізувати результат.\n",
"\n",
"Як текст, я використаю сторінку про науку про дані з Вікіпедії:\n"
"Як текст я використаю сторінку про Data Science з Вікіпедії:\n"
],
"metadata": {}
},
@ -34,7 +34,7 @@
"source": [
"## Крок 1: Отримання даних\n",
"\n",
"Перший крок у будь-якому процесі аналізу даних — це отримання даних. Ми будемо використовувати бібліотеку `requests` для цього:\n"
"Перший крок у будь-якому процесі аналізу даних — отримання даних. Для цього ми використаємо бібліотеку `requests`:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## Крок 2: Трансформація даних\n",
"## Крок 2: Перетворення даних\n",
"\n",
"Наступний крок — перетворити дані у форму, придатну для обробки. У нашому випадку ми завантажили HTML-код сторінки, і тепер нам потрібно перетворити його на звичайний текст.\n",
"Наступний крок — перетворити дані у форму, придатну для обробки. У нашому випадку ми завантажили HTML код сторінки, і нам потрібно перетворити його у звичайний текст.\n",
"\n",
"Існує багато способів зробити це. Ми використаємо найпростіший вбудований об'єкт [HTMLParser](https://docs.python.org/3/library/html.parser.html) з Python. Нам потрібно створити підклас класу `HTMLParser` і визначити код, який буде збирати весь текст всередині HTML-тегів, за винятком тегів `<script>` і `<style>`.\n"
"Існує багато способів це зробити. Ми використаємо [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), популярну бібліотеку Python для парсингу HTML. BeautifulSoup дозволяє нам орієнтуватися на конкретні HTML елементи, тож ми можемо зосередитись на основному вмісті статті з Вікіпедії та зменшити кількість навігаційних меню, бічних панелей, підвалів та іншого нерелевантного вмісту (хоча деякий шаблонний текст все ще може залишитись).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"По-перше, нам потрібно встановити бібліотеку BeautifulSoup для парсингу HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## Крок 3: Отримання інсайтів\n",
"\n",
"Найважливіший крок — це перетворення наших даних у форму, з якої можна отримати інсайти. У нашому випадку ми хочемо виділити ключові слова з тексту та визначити, які з них є найбільш значущими.\n",
"Найважливіший крок — перетворити наші дані у форму, з якої ми можемо отримати інсайти. У нашому випадку ми хочемо виділити ключові слова з тексту та побачити, які з них є більш значущими.\n",
"\n",
"Ми будемо використовувати бібліотеку Python під назвою [RAKE](https://github.com/aneesha/RAKE) для виділення ключових слів. Спочатку встановимо цю бібліотеку, якщо вона ще не встановлена:\n"
"Ми будемо використовувати бібліотеку Python під назвою [RAKE](https://github.com/aneesha/RAKE) для вилучення ключових слів. Спершу давайте встановимо цю бібліотеку, якщо вона ще не встановлена: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Основна функціональність доступна через об'єкт `Rake`, який ми можемо налаштувати за допомогою деяких параметрів. У нашому випадку ми встановимо мінімальну довжину ключового слова на рівні 5 символів, мінімальну частоту ключового слова в документі - 3, а максимальну кількість слів у ключовому слові - 2. Не соромтеся експериментувати з іншими значеннями та спостерігати за результатом.\n"
"Основна функціональність доступна через обєкт `Rake`, який ми можемо налаштувати за допомогою деяких параметрів. У нашому випадку ми встановимо мінімальну довжину ключового слова в 5 символів, мінімальну частоту ключового слова в документі — 3, а максимальну кількість слів у ключовому слові — 2. Не соромтеся експериментувати з іншими значеннями та спостерігати результат.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Ми отримали список термінів разом із відповідним ступенем важливості. Як ви можете бачити, найбільш релевантні дисципліни, такі як машинне навчання та великі дані, знаходяться у верхніх позиціях списку.\n",
"Ми отримали список термінів разом із відповідним ступенем їх важливості. Як ви можете бачити, найбільш релевантні дисципліни, такі як машинне навчання та великі дані, присутні в списку на перших позиціях.\n",
"\n",
"## Крок 4: Візуалізація результату\n",
"\n",
"Люди найкраще сприймають дані у візуальній формі. Тому часто має сенс візуалізувати дані, щоб отримати певні висновки. Ми можемо використати бібліотеку `matplotlib` у Python, щоб побудувати простий розподіл ключових слів із їхньою релевантністю:\n"
"Люди найкраще сприймають дані в візуальній формі. Тому часто доцільно візуалізувати дані, щоб отримати деякі інсайти. Ми можемо використати бібліотеку `matplotlib` в Python, щоб побудувати простий розподіл ключових слів за їх релевантністю:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Існує, однак, ще кращий спосіб візуалізувати частоти слів - використовуючи **Word Cloud**. Нам потрібно встановити ще одну бібліотеку, щоб побудувати хмару слів із нашого списку ключових слів.\n"
"Існує, однак, ще кращий спосіб візуалізувати частоти слів - використання **Хмари слів**. Нам знадобиться встановити ще одну бібліотеку, щоб побудувати хмару слів з нашого списку ключових слів.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"Об'єкт `WordCloud` відповідає за прийом або оригінального тексту, або попередньо обчисленого списку слів з їх частотами, і повертає зображення, яке потім можна відобразити за допомогою `matplotlib`:\n"
"Обєкт `WordCloud` відповідає за прийом або оригінального тексту, або попередньо обчисленого списку слів з їх частотами, і повертає зображення, яке потім можна відобразити за допомогою `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Ми також можемо передати оригінальний текст до `WordCloud` - давайте подивимося, чи зможемо ми отримати подібний результат:\n"
"Ми також можемо передати оригінальний текст у `WordCloud` - давайте подивимось, чи зможемо отримати подібний результат:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"Ви можете побачити, що хмарка слів тепер виглядає більш вражаюче, але вона також містить багато шуму (наприклад, нерелевантні слова, такі як `Retrieved on`). Також ми отримуємо менше ключових слів, що складаються з двох слів, таких як *data scientist* або *computer science*. Це тому, що алгоритм RAKE набагато краще справляється з вибором якісних ключових слів із тексту. Цей приклад ілюструє важливість попередньої обробки та очищення даних, адже чітка картина в кінці дозволить нам приймати кращі рішення.\n",
"Ви можете бачити, що хмара слів тепер виглядає більш вражаючою, але вона також містить багато зайвого шуму (наприклад, нерелевантні слова, такі як `Retrieved on`). Також ми отримуємо менше ключових слів, що складаються з двох слів, таких як *data scientist* або *computer science*. Це тому, що алгоритм RAKE значно краще відбирає хороші ключові слова з тексту. Цей приклад ілюструє важливість попередньої обробки та очищення даних, адже зрозуміла картина наприкінці дозволить нам приймати кращі рішення.\n",
"\n",
"У цій вправі ми пройшли простий процес вилучення певного сенсу з тексту Вікіпедії у формі ключових слів і хмарки слів. Цей приклад досить простий, але він добре демонструє всі типові кроки, які виконує дата-сайєнтист під час роботи з даними, починаючи від отримання даних і закінчуючи візуалізацією.\n",
"У цьому завданні ми пройшли простий процес витягування деякого змісту з тексту Википедії у формі ключових слів і хмари слів. Цей приклад досить простий, але він добре демонструє всі типові кроки, які виконує дата сайентіст при роботі з даними, починаючи від отримання даних і закінчуючи візуалізацією.\n",
"\n",
"У нашому курсі ми детально обговоримо всі ці кроки.\n"
"У нашому курсі ми докладно обговоримо всі ці кроки.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Відмова від відповідальності**: \nЦей документ був перекладений за допомогою сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ на його рідній мові слід вважати авторитетним джерелом. Для критичної інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникають внаслідок використання цього перекладу.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Відмова від відповідальності**:\nЦей документ було перекладено за допомогою сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоч ми й прагнемо до точності, просимо враховувати, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ рідною мовою слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується звертатися до професійного перекладу людиною. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, які можуть виникнути внаслідок використання цього перекладу.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:38:01+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "uk"
}
},
"nbformat": 4,

@ -5,15 +5,15 @@
"source": [
"# Виклик: Аналіз тексту про науку про дані\n",
"\n",
"> *У цьому блокноті ми експериментуємо з використанням різних URL - статті з Вікіпедії про машинне навчання. Ви можете побачити, що, на відміну від науки про дані, ця стаття містить багато термінів, що ускладнює аналіз. Нам потрібно придумати інший спосіб очищення даних після вилучення ключових слів, щоб позбутися деяких частих, але незначущих словосполучень.*\n",
"> *У цій записній книжці ми експериментуємо з використанням різних URL - стаття Вікіпедії про Машинне навчання. Ви можете помітити, що на відміну від Науки про дані, ця стаття містить багато термінів, що ускладнює аналіз. Нам потрібно придумати інший спосіб очищення даних після вилучення ключових слів, щоб позбутися деяких частих, але незначущих словосполучень.*\n",
"\n",
"У цьому прикладі давайте виконаємо просту вправу, яка охоплює всі етапи традиційного процесу науки про дані. Вам не потрібно писати жодного коду, ви можете просто натиснути на комірки нижче, щоб виконати їх і спостерігати за результатом. Як виклик, вам пропонується спробувати цей код із різними даними.\n",
"У цьому прикладі зробимо просту вправу, що охоплює всі кроки традиційного процесу науки про дані. Вам не потрібно писати жодного коду, ви можете просто клацнути по комірках нижче, щоб виконати їх і спостерігати результат. Для виклику вам рекомендується спробувати цей код із різними даними.\n",
"\n",
"## Мета\n",
"\n",
"На цьому уроці ми обговорювали різні концепції, пов’язані з наукою про дані. Давайте спробуємо відкрити більше пов’язаних концепцій, виконуючи **текстовий аналіз**. Ми почнемо з тексту про науку про дані, вилучимо ключові слова з нього, а потім спробуємо візуалізувати результат.\n",
"У цьому уроці ми обговорювали різні поняття, пов’язані з Наукою про дані. Спробуємо відкрити більше пов’язаних понять, використовуючи **текстовий майнінг**. Почнемо з тексту про Науку про дані, вилучимо з нього ключові слова, а потім спробуємо візуалізувати результат.\n",
"\n",
"Як текст я використаю сторінку про науку про дані з Вікіпедії:\n"
"Як текст я використаю сторінку про Науку про дані з Вікіпедії:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## Крок 1: Отримання даних\n",
"\n",
"Перший крок у будь-якому процесі роботи з даними — це отримання даних. Ми будемо використовувати бібліотеку `requests` для цього:\n"
"Перший крок у кожному процесі наукових досліджень даних — це отримання даних. Для цього ми використаємо бібліотеку `requests`:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Крок 2: Трансформація даних\n",
"## Крок 2: Перетворення даних\n",
"\n",
"Наступний крок — перетворення даних у форму, придатну для обробки. У нашому випадку ми завантажили вихідний код HTML зі сторінки, і тепер нам потрібно перетворити його у звичайний текст.\n",
"Наступний крок перетворити дані у форму, придатну для обробки. У нашому випадку ми завантажили HTML-код сторінки, і нам потрібно перетворити його у простий текст.\n",
"\n",
"Існує багато способів зробити це. Ми скористаємося найпростішим вбудованим об'єктом [HTMLParser](https://docs.python.org/3/library/html.parser.html) з Python. Нам потрібно створити підклас класу `HTMLParser` і визначити код, який збиратиме весь текст всередині HTML-тегів, за винятком тегів `<script>` і `<style>`.\n"
"Існує багато способів зробити це. Ми використаємо [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), популярну бібліотеку Python для парсингу HTML. BeautifulSoup дозволяє націлюватися на конкретні HTML-елементи, тому ми можемо зосередитися на основному тексті статті з Вікіпедії і зменшити кількість навігаційних меню, бічних панелей, футерів та іншого неважливого вмісту (хоча деякий шаблонний текст все одно може залишитися).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"По-перше, нам потрібно встановити бібліотеку BeautifulSoup для парсингу HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -118,9 +116,9 @@
"source": [
"## Крок 3: Отримання інсайтів\n",
"\n",
"Найважливіший крок — це перетворення наших даних у форму, з якої ми можемо отримати інсайти. У нашому випадку ми хочемо виділити ключові слова з тексту та визначити, які з них є найбільш значущими.\n",
"Найважливішим кроком є перетворення наших даних у форму, з якої ми можемо отримати інсайти. У нашому випадку ми хочемо витягти ключові слова з тексту і подивитися, які ключові слова є більш значущими.\n",
"\n",
"Ми будемо використовувати бібліотеку Python під назвою [RAKE](https://github.com/aneesha/RAKE) для виділення ключових слів. Спочатку встановимо цю бібліотеку, якщо вона ще не встановлена:\n"
"Ми використаємо бібліотеку Python під назвою [RAKE](https://github.com/aneesha/RAKE) для вилучення ключових слів. Спершу давайте встановимо цю бібліотеку, якщо вона ще не встановлена:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Основна функціональність доступна через об'єкт `Rake`, який ми можемо налаштувати за допомогою деяких параметрів. У нашому випадку ми встановимо мінімальну довжину ключового слова на 5 символів, мінімальну частоту ключового слова в документі на 3, а максимальну кількість слів у ключовому слові - на 2. Не соромтеся експериментувати з іншими значеннями та спостерігати за результатом.\n"
"Основна функціональність доступна через об'єкт `Rake`, який ми можемо налаштувати за допомогою деяких параметрів. У нашому випадку ми встановимо мінімальну довжину ключового слова в 5 символів, мінімальну частоту ключового слова в документі - 3, а максимальну кількість слів у ключовому слові - 2. Не соромтеся експериментувати з іншими значеннями та спостерігати результат.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Ми отримали список термінів разом із відповідним ступенем важливості. Як ви можете побачити, найбільш релевантні дисципліни, такі як машинне навчання та великі дані, знаходяться у верхніх позиціях списку.\n",
"Ми отримали список термінів разом із відповідним ступенем важливості. Як ви можете бачити, найбільш релевантні дисципліни, такі як машинне навчання та великі дані, присутні в списку на перших позиціях.\n",
"\n",
"## Крок 4: Візуалізація результату\n",
"\n",
"Люди найкраще сприймають дані у візуальній формі. Тому часто має сенс візуалізувати дані, щоб отримати певні висновки. Ми можемо використати бібліотеку `matplotlib` у Python, щоб побудувати простий розподіл ключових слів із їхньою релевантністю:\n"
"Людям найкраще інтерпретувати дані у візуальній формі. Тому часто має сенс візуалізувати дані, щоб зробити певні висновки. Ми можемо використати бібліотеку `matplotlib` у Python, щоб побудувати просте розподілення ключових слів із їх релевантністю:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Однак існує ще кращий спосіб візуалізувати частоти слів - використання **Хмари слів**. Нам потрібно буде встановити ще одну бібліотеку, щоб побудувати хмару слів із нашого списку ключових слів.\n"
"Існує, проте, ще кращий спосіб візуалізувати частоти слів - використання **Word Cloud**. Нам потрібно буде встановити ще одну бібліотеку, щоб побудувати хмару слів з нашого списку ключових слів.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`Об'єкт `WordCloud` відповідає за прийом або оригінального тексту, або попередньо обчисленого списку слів з їх частотами, і повертає зображення, яке потім можна відобразити за допомогою `matplotlib`:`\n"
"Об'єкт `WordCloud` відповідає за прийом або оригінального тексту, або заздалегідь обчисленого списку слів із їх частотами, та повертає зображення, яке потім можна відобразити за допомогою `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"Ми також можемо передати оригінальний текст до `WordCloud` - давайте подивимося, чи зможемо ми отримати подібний результат:\n"
"Ми також можемо передати оригінальний текст у `WordCloud` - давайте подивимось, чи зможемо отримати подібний результат:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Ви можете побачити, що хмарка слів тепер виглядає більш вражаюче, але вона також містить багато шуму (наприклад, нерелевантні слова, такі як `Retrieved on`). Також ми отримуємо менше ключових слів, що складаються з двох слів, таких як *data scientist* або *computer science*. Це тому, що алгоритм RAKE набагато краще справляється з вибором якісних ключових слів із тексту. Цей приклад ілюструє важливість попередньої обробки та очищення даних, адже чітка картина в кінці дозволить нам приймати кращі рішення.\n",
"Ви можете бачити, що хмара слів зараз виглядає більш вражаючою, але вона також містить багато шуму (наприклад, нерелевантні слова, такі як `Retrieved on`). Також ми отримуємо менше ключових слів, що складаються з двох слів, таких як *data scientist* або *computer science*. Це тому, що алгоритм RAKE значно краще справляється з вибором хороших ключових слів із тексту. Цей приклад ілюструє важливість попередньої обробки та очищення даних, оскільки зрозуміла картина в кінці дозволить нам приймати кращі рішення.\n",
"\n",
"У цій вправі ми пройшли простий процес вилучення певного сенсу з тексту Вікіпедії у формі ключових слів і хмарки слів. Цей приклад досить простий, але він добре демонструє всі типові кроки, які виконує дата-сайєнтист під час роботи з даними, починаючи від отримання даних і закінчуючи візуалізацією.\n",
"У цій вправі ми пройшли простий процес вилучення сенсу з тексту Вікіпедії у формі ключових слів і хмари слів. Цей приклад досить простий, але він добре демонструє всі типові кроки, які здійснює фахівець з даних при роботі з даними, починаючи від отримання даних і до візуалізації.\n",
"\n",
"У нашому курсі ми детально обговоримо всі ці кроки.\n"
"На нашому курсі ми детально розглянемо всі ці кроки.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Відмова від відповідальності**: \nЦей документ був перекладений за допомогою сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ на його рідній мові слід вважати авторитетним джерелом. Для критичної інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникають внаслідок використання цього перекладу.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Відмова від відповідальності**: \nЦей документ був перекладений за допомогою сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ його рідною мовою слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується звертатися до професійного людського перекладу. Ми не несемо відповідальності за будь-які непорозуміння чи неправильні тлумачення, що виникли внаслідок використання цього перекладу.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:50:09+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "uk"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
Статистика та теорія ймовірностей — це дві тісно пов’язані галузі математики, які мають велике значення для науки про дані. Можна працювати з даними без глибоких знань математики, але все ж краще знати хоча б основні концепції. Тут ми представимо короткий вступ, який допоможе вам розпочати.
[![Вступне відео](../../../../translated_images/uk/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Вступне відео](../../../../translated_images/uk/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Тест перед лекцією](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
Ми можемо говорити лише про ймовірність того, що змінна потрапить у заданий інтервал значень, наприклад P(t<sub>1</sub>≤X<t<sub>2</sub>). У цьому випадку розподіл ймовірностей описується **функцією щільності ймовірностей** p(x), такою, що
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/uk/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/uk/probability-density.a8aad29f17a14afb.webp)
Неперервний аналог рівномірного розподілу називається **неперервним рівномірним**, який визначається на скінченному інтервалі. Ймовірність того, що значення X потрапить у інтервал довжини l, пропорційна l і зростає до 1.
@ -73,11 +73,11 @@
Ось боксплот, що показує середнє, медіану та квартилі для наших даних:
![Боксплот ваги](../../../../translated_images/uk/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Боксплот ваги](../../../../translated_images/uk/weight-boxplot.1dbab1c03af26f8a.webp)
Оскільки наші дані містять інформацію про різні **ролі** гравців, ми також можемо створити боксплот за ролями — це дозволить нам зрозуміти, як значення параметрів відрізняються залежно від ролей. Цього разу ми розглянемо зріст:
![Боксплот за ролями](../../../../translated_images/uk/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Боксплот за ролями](../../../../translated_images/uk/boxplot_byrole.036b27a1c3f52d42.webp)
Ця діаграма показує, що, в середньому, зріст перших бейсменів вищий, ніж зріст других бейсменів. Пізніше в цьому уроці ми дізнаємося, як можна більш формально перевірити цю гіпотезу і як продемонструвати, що наші дані статистично значущі для цього.
@ -85,7 +85,7 @@
Щоб побачити, який розподіл мають наші дані, ми можемо побудувати графік, який називається **гістограмою**. Вісь X міститиме кількість різних інтервалів ваги (так званих **бінів**), а вертикальна вісь показуватиме кількість разів, коли вибірка нашої випадкової змінної потрапила в заданий інтервал.
![Гістограма даних з реального світу](../../../../translated_images/uk/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Гістограма даних з реального світу](../../../../translated_images/uk/weight-histogram.bfd00caf7fc30b14.webp)
З цієї гістограми видно, що всі значення зосереджені навколо певної середньої ваги, і чим далі ми відходимо від цієї ваги, тим менше зустрічається ваг із таким значенням. Тобто дуже малоймовірно, що вага бейсболіста буде дуже відрізнятися від середньої ваги. Дисперсія ваг показує ступінь, до якого ваги можуть відрізнятися від середнього.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
Якщо ми побудуємо гістограму згенерованих вибірок, ми побачимо картину, дуже схожу на ту, що показана вище. А якщо ми збільшимо кількість вибірок і кількість бінів, ми можемо створити картину нормального розподілу, яка буде ближчою до ідеальної:
![Нормальний розподіл із середнім=0 і стандартним відхиленням=1](../../../../translated_images/uk/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Нормальний розподіл із середнім=0 і стандартним відхиленням=1](../../../../translated_images/uk/normal-histogram.dfae0d67c202137d.webp)
*Нормальний розподіл із середнім=0 і стандартним відхиленням=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
У нашому випадку значення 0.53 вказує на те, що існує певна кореляція між вагою та зростом людини. Ми також можемо побудувати діаграму розсіювання одного значення проти іншого, щоб побачити зв’язок візуально:
![Зв’язок між вагою та зростом](../../../../translated_images/uk/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Зв’язок між вагою та зростом](../../../../translated_images/uk/weight-height-relationship.3f06bde4ca2aba99.webp)
> Більше прикладів кореляції та коваріації можна знайти в [супровідному блокноті](notebook.ipynb).

@ -1,6 +1,6 @@
# Вступ до науки про дані
![дані в дії](../../../translated_images/uk/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![дані в дії](../../../translated_images/uk/data.48e22bb7617d8d92.webp)
> Фото зроблено <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Стівеном Доусоном</a> на <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
У цих уроках ви дізнаєтеся, як визначається наука про дані, а також ознайомитеся з етичними аспектами, які має враховувати спеціаліст з даних. Ви також дізнаєтеся, як визначаються дані, і трохи ознайомитеся зі статистикою та ймовірністю — основними академічними напрямами науки про дані.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Робота з Python - _Скетчноут від [@nitya](https://twitter.com/nitya)_ |
[![Вступне відео](../../../../translated_images/uk/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Вступне відео](../../../../translated_images/uk/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Хоча бази даних пропонують дуже ефективні способи зберігання даних і запитів до них за допомогою мов запитів, найгнучкішим способом обробки даних є написання власної програми для їх маніпулювання. У багатьох випадках виконання запиту до бази даних буде більш ефективним. Однак у деяких випадках, коли потрібна більш складна обробка даних, це не можна легко зробити за допомогою SQL.
Обробка даних може бути запрограмована на будь-якій мові програмування, але є певні мови, які є більш високорівневими для роботи з даними. Зазвичай, фахівці з даних віддають перевагу одній із наступних мов:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Графік часових рядів](../../../../translated_images/uk/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Графік часових рядів](../../../../translated_images/uk/timeseries-1.80de678ab1cf727e.webp)
Тепер припустимо, що щотижня ми організовуємо вечірку для друзів і беремо додатково 10 упаковок морозива для вечірки. Ми можемо створити ще один Series, індексований за тижнями, щоб продемонструвати це:
```python
@ -75,7 +75,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Графік часових рядів](../../../../translated_images/uk/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Графік часових рядів](../../../../translated_images/uk/timeseries-2.aae51d575c55181c.webp)
> **Примітка**: Ми не використовуємо простий синтаксис `total_items+additional_items`. Якби ми це зробили, ми отримали б багато значень `NaN` (*Not a Number*) у результаті. Це тому, що для деяких точок індексу в Series `additional_items` відсутні значення, і додавання `NaN` до чого-небудь призводить до `NaN`. Тому нам потрібно вказати параметр `fill_value` під час додавання.
@ -84,7 +84,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Середні значення часових рядів за місяць](../../../../translated_images/uk/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Середні значення часових рядів за місяць](../../../../translated_images/uk/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -210,7 +210,7 @@ df = pd.read_csv('file.csv')
Оскільки ми хочемо продемонструвати, як працювати з даними, ми запрошуємо вас відкрити [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) і прочитати його від початку до кінця. Ви також можете виконувати комірки та виконувати завдання, які ми залишили для вас наприкінці.
![COVID Spread](../../../../translated_images/uk/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/uk/covidspread.f3d131c4f1d260ab.webp)
> Якщо ви не знаєте, як запускати код у Jupyter Notebook, перегляньте [цю статтю](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
Відкрийте [`notebook-papers.ipynb`](notebook-papers.ipynb) і прочитайте його від початку до кінця. Ви також можете виконувати комірки та виконувати завдання, які ми залишили для вас наприкінці.
![Covid Medical Treatment](../../../../translated_images/uk/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/uk/covidtreat.b2ba59f57ca45fbc.webp)
## Обробка даних зображень

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# Робота з даними
![data love](../../../translated_images/uk/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/uk/data-love.a22ef29e6742c852.webp)
> Фото від <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> на <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
У цих уроках ви дізнаєтеся про деякі способи управління, обробки та використання даних у додатках. Ви ознайомитеся з реляційними та нереляційними базами даних і тим, як у них можна зберігати дані. Ви вивчите основи роботи з Python для управління даними та відкриєте для себе багато способів використання Python для обробки та аналізу даних.

@ -42,7 +42,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/uk/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/uk/scatter1.5e1aa5fd6706c5d1.webp)
Тепер покажіть ті ж дані з кольоровою схемою меду, щоб продемонструвати, як ціна змінюється рік за роком. Ви можете зробити це, додавши параметр 'hue', щоб показати зміни за роками:
@ -51,7 +51,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/uk/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/uk/scatter2.c0041a58621ca702.webp)
З цією зміною кольорової схеми ви можете побачити очевидну тенденцію до зростання ціни за фунт меду протягом років. Дійсно, якщо ви перевірите вибірку даних (наприклад, виберіть штат Аризона), ви побачите закономірність зростання цін рік за роком, з деякими винятками:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Ви можете побачити, як розмір точок поступово збільшується.
![scatterplot 3](../../../../translated_images/uk/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/uk/scatter3.3c160a3d1dcb36b3.webp)
Чи це простий випадок попиту та пропозиції? Через такі фактори, як зміна клімату та колапс колоній, чи стає меду менше для покупки рік за роком, і тому ціна зростає?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Відповідь: Так, з деякими винятками близько 2003 року:
![line chart 1](../../../../translated_images/uk/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/uk/line1.f36eb465229a3b1f.webp)
✅ Оскільки Seaborn агрегує дані навколо однієї лінії, він відображає "кілька вимірювань для кожного значення x, показуючи середнє значення та 95% довірчий інтервал навколо середнього". [Джерело](https://seaborn.pydata.org/tutorial/relational.html). Цю поведінку, яка займає багато часу, можна вимкнути, додавши `ci=None`.
@ -105,7 +105,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/uk/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/uk/line2.a5b3493dc01058af.webp)
Відповідь: Не зовсім. Якщо подивитися на загальне виробництво, здається, що воно фактично збільшилося в цьому конкретному році, хоча загалом кількість виробленого меду зменшується протягом цих років.
@ -130,7 +130,7 @@ sns.relplot(
```
У цій візуалізації ви можете порівняти урожайність на колонію та кількість колоній рік за роком, поруч із wrap, встановленим на 3 для колонок:
![facet grid](../../../../translated_images/uk/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/uk/facet.6a34851dcd540050.webp)
Для цього набору даних нічого особливого не виділяється щодо кількості колоній та їх урожайності рік за роком і штат за штатом. Чи є інший спосіб знайти кореляцію між цими двома змінними?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/uk/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/uk/dual-line.a4c28ce659603fab.webp)
Хоча нічого особливого не виділяється близько 2003 року, це дозволяє нам завершити цей урок на трохи щасливішій ноті: хоча загалом кількість колоній зменшується, їх кількість стабілізується, навіть якщо їх урожайність на колонію знижується.

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Тут ви встановлюєте пакет `ggplot2`, а потім імпортуєте його в робоче середовище за допомогою команди `library("ggplot2")`. Для побудови будь-якого графіка в ggplot використовується функція `ggplot()`, і ви вказуєте набір даних, змінні x та y як атрибути. У цьому випадку ми використовуємо функцію `geom_line()`, оскільки хочемо побудувати лінійний графік.
![MaxWingspan-lineplot](../../../../../translated_images/uk/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/uk/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
Що ви помічаєте одразу? Здається, є принаймні один викид — це досить великий розмах крил! Розмах крил понад 2000 сантиметрів дорівнює більше ніж 20 метрам — чи не літають у Міннесоті птеродактилі? Давайте дослідимо.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Ми вказуємо кут у `theme` і задаємо підписи осей x та y у `xlab()` та `ylab()` відповідно. `ggtitle()` задає назву графіку.
![MaxWingspan-lineplot-improved](../../../../../translated_images/uk/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/uk/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
Навіть із поворотом підписів на 45 градусів їх занадто багато, щоб прочитати. Спробуємо іншу стратегію: підписати лише ті викиди та розмістити підписи всередині графіка. Ви можете використати точкову діаграму, щоб звільнити більше місця для підписів:
@ -91,7 +91,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
Що ви виявляєте?
![MaxWingspan-scatterplot](../../../../../translated_images/uk/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/uk/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## Фільтрація даних
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Ми створили новий датафрейм `birds_filtered`, а потім побудували точкову діаграму. Відфільтрувавши викиди, ваші дані тепер більш узгоджені та зрозумілі.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/uk/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/uk/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
Тепер, коли ми маємо очищений набір даних принаймні щодо розмаху крил, давайте дізнаємося більше про цих птахів.
@ -152,7 +152,7 @@ birds_filtered %>% group_by(Category) %>%
```
У наступному фрагменті ми встановлюємо пакети [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) та [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0), щоб допомогти маніпулювати та групувати дані для побудови складеної стовпчастої діаграми. Спочатку ви групуєте дані за `Category` птахів, а потім підсумовуєте стовпці `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Потім будуєте стовпчасту діаграму за допомогою пакета `ggplot2`, вказуючи кольори для різних категорій і підписи.
![Stacked bar chart](../../../../../translated_images/uk/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/uk/stacked-bar-chart.0c92264e89da7b39.webp)
Ця стовпчаста діаграма, однак, є нечитаємою через надто багато негрупованих даних. Вам потрібно вибрати лише ті дані, які ви хочете відобразити, тому давайте подивимося на довжину птахів залежно від їхньої категорії.
@ -167,7 +167,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Спочатку ви рахуєте унікальні значення в стовпці `Category`, а потім сортуєте їх у новий датафрейм `birds_count`. Ці відсортовані дані потім враховуються на тому ж рівні, щоб вони були відображені у відсортованому вигляді. Використовуючи `ggplot2`, ви потім будуєте дані у вигляді стовпчастої діаграми. `coord_flip()` відображає горизонтальні стовпці.
![category-length](../../../../../translated_images/uk/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/uk/category-length.7e34c296690e85d6.webp)
Ця стовпчаста діаграма дає гарний огляд кількості птахів у кожній категорії. Одним поглядом ви бачите, що найбільша кількість птахів у цьому регіоні належить до категорії Качки/Гуси/Водоплавні. Міннесота — це "країна 10 000 озер", тому це не дивно!
@ -190,7 +190,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
Ми групуємо дані `birds_filtered` за `Category`, а потім будуємо стовпчасту діаграму.
![comparing data](../../../../../translated_images/uk/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/uk/comparingdata.f486a450d61c7ca5.webp)
Тут нічого дивного: колібрі мають найменший MaxLength у порівнянні з пеліканами чи гусьми. Добре, коли дані мають логічний сенс!
@ -202,7 +202,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/uk/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/uk/superimposed-values.5363f0705a1da416.webp)
## 🚀 Виклик

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![максимальна довжина за рядом](../../../../../translated_images/uk/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![максимальна довжина за рядом](../../../../../translated_images/uk/max-length-per-order.e5b283d952c78c12.webp)
Це дає загальний огляд розподілу довжини тіла за рядом птахів, але це не найкращий спосіб відображення справжніх розподілів. Для цього зазвичай створюють гістограму.
## Робота з гістограмами
@ -47,7 +47,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![розподіл по всьому набору даних](../../../../../translated_images/uk/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![розподіл по всьому набору даних](../../../../../translated_images/uk/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
Як видно, більшість із 400+ птахів у цьому наборі даних мають масу тіла менше 2000. Отримайте більше інформації про дані, змінивши параметр `bins` на більше значення, наприклад, 30:
@ -55,7 +55,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![розподіл-30bins](../../../../../translated_images/uk/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![розподіл-30bins](../../../../../translated_images/uk/distribution-30bins.6a3921ea7a421bf7.webp)
Цей графік показує розподіл у трохи більш деталізованому вигляді. Менш зміщений графік можна створити, вибравши дані лише в заданому діапазоні:
@ -67,7 +67,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![відфільтрована гістограма](../../../../../translated_images/uk/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![відфільтрована гістограма](../../../../../translated_images/uk/filtered-histogram.6bf5d2bfd8253322.webp)
✅ Спробуйте інші фільтри та точки даних. Щоб побачити повний розподіл даних, видаліть фільтр `['MaxBodyMass']`, щоб показати розподіли з мітками.
@ -81,7 +81,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Здається, є очікуваний кореляційний зв’язок між цими двома елементами вздовж передбачуваної осі, з одним особливо сильним точковим збігом:
![2d графік](../../../../../translated_images/uk/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2d графік](../../../../../translated_images/uk/2d-plot.c504786f439bd7eb.webp)
Гістограми добре працюють за замовчуванням для числових даних. А що, якщо потрібно побачити розподіли за текстовими даними?
## Дослідження набору даних для розподілів за текстовими даними
@ -112,7 +112,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![розмах крил і статус збереження](../../../../../translated_images/uk/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![розмах крил і статус збереження](../../../../../translated_images/uk/wingspan-conservation-collation.4024e9aa6910866a.webp)
Здається, немає чіткої кореляції між мінімальним розмахом крил і статусом збереження. Перевірте інші елементи набору даних, використовуючи цей метод. Ви можете спробувати різні фільтри. Чи знаходите ви якусь кореляцію?
@ -126,7 +126,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![графік щільності](../../../../../translated_images/uk/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![графік щільності](../../../../../translated_images/uk/density-plot.675ccf865b76c690.webp)
Ви можете побачити, як графік повторює попередній для даних про мінімальний розмах крил; він просто трохи плавніший. Якщо ви хотіли б повернутися до того нерівного графіка MaxBodyMass у другому побудованому вами графіку, ви могли б дуже добре згладити його, відтворивши цей метод:
@ -134,7 +134,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![щільність маси тіла](../../../../../translated_images/uk/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![щільність маси тіла](../../../../../translated_images/uk/bodymass-smooth.d31ce526d82b0a1f.webp)
Якщо ви хочете отримати плавну, але не надто плавну лінію, змініть параметр `adjust`:
@ -142,7 +142,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![менш плавна маса тіла](../../../../../translated_images/uk/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![менш плавна маса тіла](../../../../../translated_images/uk/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ Ознайомтеся з параметрами, доступними для цього типу графіка, і експериментуйте!
@ -152,7 +152,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![маса тіла за рядом](../../../../../translated_images/uk/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![маса тіла за рядом](../../../../../translated_images/uk/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 Виклик

@ -88,7 +88,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Вуаля, кругова діаграма, яка показує пропорції цих даних відповідно до двох класів грибів. Дуже важливо правильно впорядкувати мітки, особливо тут, тому обов'язково перевірте порядок, у якому створюється масив міток!
![кругова діаграма](../../../../../translated_images/uk/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![кругова діаграма](../../../../../translated_images/uk/pie1-wb.685df063673751f4.webp)
## Кільцева діаграма!
@ -123,7 +123,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![кільцева діаграма](../../../../../translated_images/uk/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![кільцева діаграма](../../../../../translated_images/uk/donut-wb.34e6fb275da9d834.webp)
Цей код використовує дві бібліотеки - ggplot2 і webr. Використовуючи функцію PieDonut з бібліотеки webr, ми можемо легко створити кільцеву діаграму!
@ -160,7 +160,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
Використовуючи вафельну діаграму, ви можете чітко побачити пропорції кольорів капелюшків у цьому наборі даних про гриби. Цікаво, що є багато грибів із зеленими капелюшками!
![вафельна діаграма](../../../../../translated_images/uk/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![вафельна діаграма](../../../../../translated_images/uk/waffle.aaa75c5337735a6e.webp)
У цьому уроці ви дізналися три способи візуалізації пропорцій. Спочатку потрібно згрупувати свої дані в категорії, а потім вирішити, який спосіб відображення даних - кругова, кільцева чи вафельна діаграма - найкраще підходить. Усі вони "смачні" та надають користувачеві миттєвий знімок набору даних.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/uk/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/uk/scatter1.86b8900674d88b26.webp)
Тепер покажіть ті ж дані з кольоровою схемою меду, щоб продемонструвати, як ціна змінюється з роками. Ви можете зробити це, додавши параметр 'scale_color_gradientn', щоб показати зміни рік за роком:
@ -52,7 +52,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/uk/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/uk/scatter2.4d1cbc693bad20e2.webp)
З цією зміною кольорової схеми ви можете побачити очевидну тенденцію до зростання ціни за фунт меду з роками. Дійсно, якщо ви перевірите вибірку даних (наприклад, штат Аризона), ви побачите закономірність підвищення цін рік за роком, з деякими винятками:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Ви можете побачити, як розмір точок поступово збільшується.
![scatterplot 3](../../../../../translated_images/uk/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/uk/scatter3.722d21e6f20b3ea2.webp)
Чи це простий випадок попиту та пропозиції? Через такі фактори, як зміна клімату та колапс колоній, чи стає мед менш доступним для покупки рік за роком, і тому ціна зростає?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Відповідь: Так, з деякими винятками близько 2003 року:
![line chart 1](../../../../../translated_images/uk/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/uk/line1.299b576fbb2a59e6.webp)
Запитання: Ну, а чи можемо ми також побачити сплеск у постачанні меду в 2003 році? Що, якщо подивитися на загальне виробництво рік за роком?
@ -106,7 +106,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/uk/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/uk/line2.3b18fcda7176ceba.webp)
Відповідь: Не зовсім. Якщо подивитися на загальне виробництво, здається, що воно фактично збільшилося в цьому конкретному році, хоча загалом кількість виробленого меду зменшується протягом цих років.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
У цій візуалізації ви можете порівняти урожайність на колонію та кількість колоній рік за роком, поруч із wrap, встановленим на 3 для колонок:
![facet grid](../../../../../translated_images/uk/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/uk/facet.491ad90d61c2a7cc.webp)
Для цього набору даних нічого особливого не виділяється щодо кількості колоній та їх урожайності рік за роком і штат за штатом. Чи є інший спосіб знайти кореляцію між цими двома змінними?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/uk/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/uk/dual-line.fc4665f360a54018.webp)
Хоча нічого особливого не виділяється близько 2003 року, це дозволяє нам завершити урок на трохи позитивнішій ноті: хоча загалом кількість колоній зменшується, їх кількість стабілізується, навіть якщо їх урожайність на колонію знижується.

@ -38,25 +38,25 @@
Навіть якщо дата-сайєнтист ретельно обирає правильну діаграму для правильних даних, існує багато способів представити дані так, щоб довести певну точку зору, часто за рахунок спотворення самих даних. Є безліч прикладів оманливих діаграм та інфографік!
[![Як діаграми обманюють, Альберто Кайро](../../../../../translated_images/uk/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Як діаграми обманюють")
[![Як діаграми обманюють, Альберто Кайро](../../../../../translated_images/uk/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Як діаграми обманюють")
> 🎥 Натисніть на зображення вище, щоб переглянути конференційну доповідь про оманливі діаграми
Ця діаграма перевертає вісь X, щоб показати протилежне до правди, базуючись на датах:
![погана діаграма 1](../../../../../translated_images/uk/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![погана діаграма 1](../../../../../translated_images/uk/bad-chart-1.596bc93425a8ac30.webp)
[Ця діаграма](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) ще більш оманлива, оскільки погляд спрямовується вправо, щоб зробити висновок, що з часом випадки COVID зменшилися в різних округах. Насправді, якщо уважно подивитися на дати, ви побачите, що їх було переставлено, щоб створити цей оманливий спад.
![погана діаграма 2](../../../../../translated_images/uk/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![погана діаграма 2](../../../../../translated_images/uk/bad-chart-2.62edf4d2f30f4e51.webp)
Цей сумнозвісний приклад використовує колір І перевернуту вісь Y, щоб обманути: замість висновку, що кількість смертей від зброї зросла після прийняття законодавства, сприятливого для зброї, погляд обманюється, думаючи, що сталося протилежне:
![погана діаграма 3](../../../../../translated_images/uk/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![погана діаграма 3](../../../../../translated_images/uk/bad-chart-3.e201e2e915a230bc.webp)
Ця дивна діаграма показує, як пропорції можуть бути маніпульовані до комічного ефекту:
![погана діаграма 4](../../../../../translated_images/uk/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![погана діаграма 4](../../../../../translated_images/uk/bad-chart-4.8872b2b881ffa96c.webp)
Порівняння непорівнюваного — ще один хитрий трюк. Існує [чудовий вебсайт](https://tylervigen.com/spurious-correlations), присвячений "хибним кореляціям", який демонструє "факти", що пов'язують, наприклад, рівень розлучень у штаті Мен із споживанням маргарину. Група на Reddit також збирає [приклади поганого використання даних](https://www.reddit.com/r/dataisugly/top/?t=all).
@ -91,13 +91,13 @@
Якщо ваші дані текстові та довгі на осі X, ви можете нахилити текст для кращої читабельності. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) пропонує 3D-графіки, якщо ваші дані це підтримують. Використовуючи його, можна створювати складні візуалізації.
![3D графіки](../../../../../translated_images/uk/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3D графіки](../../../../../translated_images/uk/3d.db1734c151eee87d.webp)
## Анімація та 3D-відображення діаграм
Деякі з найкращих візуалізацій даних сьогодні є анімованими. Ширлі Ву створила дивовижні приклади за допомогою D3, такі як '[квітки фільмів](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', де кожна квітка є візуалізацією фільму. Інший приклад для Guardian — 'Bussed Out', інтерактивний досвід, що поєднує візуалізації з Greensock і D3, а також формат статті з прокруткою, щоб показати, як Нью-Йорк вирішує проблему бездомних, відправляючи їх за межі міста.
![перевезення](../../../../../translated_images/uk/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![перевезення](../../../../../translated_images/uk/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: Як Америка переміщує своїх бездомних" від [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Візуалізації Наді Бремер і Ширлі Ву
@ -107,7 +107,7 @@
Ви завершите веб-додаток, який відображатиме анімований вигляд цієї соціальної мережі. Він використовує бібліотеку, створену для [візуалізації мережі](https://github.com/emiliorizzo/vue-d3-network) за допомогою Vue.js і D3. Коли додаток працює, ви можете переміщати вузли на екрані, щоб змінювати розташування даних.
![зв'язки](../../../../../translated_images/uk/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![зв'язки](../../../../../translated_images/uk/liaisons.90ce7360bcf84765.webp)
## Проєкт: Створіть діаграму для відображення мережі за допомогою D3.js

@ -1,6 +1,6 @@
# Візуалізації
![бджола на квітці лаванди](../../../translated_images/uk/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![бджола на квітці лаванди](../../../translated_images/uk/bee.0aa1d91132b12e3a.webp)
> Фото <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Дженни Лі</a> на <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Візуалізація даних — одна з найважливіших задач для дата-сайєнтиста. Зображення варті тисячі слів, а візуалізація може допомогти вам виявити різноманітні цікаві аспекти ваших даних, такі як піки, аномалії, групування, тенденції та багато іншого, що допоможе вам зрозуміти історію, яку ваші дані намагаються розповісти.

@ -16,7 +16,7 @@
Цей урок зосереджується на трьох частинах життєвого циклу: зборі, обробці та підтримці.
![Діаграма життєвого циклу науки про дані](../../../../translated_images/uk/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Діаграма життєвого циклу науки про дані](../../../../translated_images/uk/data-science-lifecycle.a1e362637503c4fb.webp)
> Фото від [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Збір
@ -92,7 +92,7 @@
|Процес команди науки про дані (TDSP)|Стандартний процес для добування даних у різних галузях (CRISP-DM)|
|--|--|
|![Життєвий цикл TDSP](../../../../translated_images/uk/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png)|![Зображення CRISP-DM](../../../../translated_images/uk/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png)|
|![Життєвий цикл TDSP](../../../../translated_images/uk/tdsp-lifecycle2.e19029d598e2e73d.webp)|![Зображення CRISP-DM](../../../../translated_images/uk/CRISP-DM.8bad2b4c66e62aa7.webp)|
| Зображення від [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Зображення від [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Післялекційний тест](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# Життєвий цикл науки про дані
![communication](../../../translated_images/uk/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/uk/communication.06d8e2a88d30d168.webp)
> Фото від <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> на <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
У цих уроках ви дослідите деякі аспекти життєвого циклу науки про дані, включаючи аналіз і комунікацію навколо даних.

@ -1,12 +1,12 @@
# Наука про дані в хмарі
![cloud-picture](../../../translated_images/uk/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/uk/cloud-picture.f5526de3c6c6387b.webp)
> Фото [Jelleke Vanooteghem](https://unsplash.com/@ilumire) з [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Коли справа доходить до роботи з великими даними у сфері науки про дані, хмара може стати справжнім проривом. У наступних трьох уроках ми розглянемо, що таке хмара і чому вона може бути дуже корисною. Ми також дослідимо набір даних про серцеву недостатність і створимо модель, яка допоможе оцінити ймовірність виникнення серцевої недостатності у людини. Ми використаємо потужність хмари для навчання, розгортання та використання моделі двома різними способами. Один спосіб — використовуючи лише інтерфейс користувача в стилі Low code/No code, інший — за допомогою набору інструментів для розробників Azure Machine Learning (Azure ML SDK).
![project-schema](../../../translated_images/uk/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/uk/project-schema.420e56d495624541.webp)
### Теми

@ -32,7 +32,7 @@
* [Наука про дані у сфері охорони здоров’я](https://data-flair.training/blogs/data-science-in-healthcare/) - підкреслює такі додатки, як медична візуалізація (наприклад, МРТ, рентген, КТ-сканування), геноміка (секвенування ДНК), розробка ліків (оцінка ризиків, прогноз успіху), прогнозна аналітика (догляд за пацієнтами та логістика постачання), відстеження та профілактика захворювань тощо.
![Застосування науки про дані у реальному світі](../../../../translated_images/uk/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Джерело зображення: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Застосування науки про дані у реальному світі](../../../../translated_images/uk/data-science-applications.4e5019cd8790ebac.webp) Джерело зображення: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
На малюнку показані інші галузі та приклади застосування технік науки про дані. Хочете дослідити інші застосування? Ознайомтеся з розділом [Огляд і самостійне навчання](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) нижче.

@ -13,7 +13,7 @@
2. Дослідити [Каталог](https://planetarycomputer.microsoft.com/catalog) наборів даних — дізнатися про їхнє призначення.
3. Використати Explorer — вибрати цікавий набір даних, обрати відповідний запит і варіант візуалізації.
![The Planetary Computer Explorer](../../../../translated_images/uk/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![The Planetary Computer Explorer](../../../../translated_images/uk/planetary-computer-explorer.c1e95a9b053167d6.webp)
`Ваше завдання:`
Тепер вивчіть візуалізацію, яка з’явиться у браузері, і дайте відповіді на наступні запитання:

@ -1,57 +1,67 @@
# Data Science для початківців - Навчальна програма
[![Відкрити в GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![Відкрити у GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![Ліцензія GitHub](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![Співавтори GitHub](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![Проблеми GitHub](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![Запити на злиття GitHub](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![PRs Вітаються](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![Слідкувачі GitHub](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![Спостерігачі GitHub](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![Форки GitHub](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![Зірки GitHub](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![Форум розробників Microsoft Foundry](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Адвокати Azure Cloud у Microsoft раді запропонувати 10-тижневу навчальну програму з 20 уроків про Data Science. Кожен урок має передурочне та післяурочне опитування, письмові інструкції для виконання уроку, розв’язок та завдання. Наша проєктно-орієнтована педагогіка дозволяє вчитися під час створення, що є доведеним способом міцного засвоєння нових навичок.
Фахівці Azure Cloud Advocates з Microsoft раді запропонувати 10-тижневий курс з 20 уроків, присвячений Data Science. Кожен урок включає підготовчі та підсумкові тести, письмові інструкції для виконання уроку, рішення та завдання. Наша орієнтована на проекти методика навчання дозволяє вивчати матеріал, одночасно створюючи проекти — перевірений спосіб закріпити нові навички.
**Щиро дякуємо нашим авторам:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**Щира подяка нашим авторам:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Особлива подяка 🙏 нашим авторам, рецензентам та контентним учасникам [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** зокрема Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Особлива подяка 🙏 нашим авторам, рецензентам та контент-співавтором з [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** зокрема Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Скетчноут від @sketchthedocs https://sketchthedocs.dev](../../translated_images/uk/00-Title.8af36cd35da1ac55.webp)|
|![Нотатка від @sketchthedocs https://sketchthedocs.dev](../../translated_images/uk/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Data Science для початківців - _Скетчноут від [@nitya](https://twitter.com/nitya)_ |
| Data Science для початківців - _Нотатка від [@nitya](https://twitter.com/nitya)_ |
### 🌐 Підтримка кількох мов
#### Підтримується через GitHub Action (Автоматично та Завжди Актуально)
#### Підтримується через GitHub Action (автоматично та завжди актуально)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](./README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **Віддаєте перевагу клонувати локально?**
> Цей репозиторій містить понад 50 мовних перекладів, що значно збільшує розмір завантаження. Щоб клонувати без перекладів, використовуйте sparse checkout:
>
> Цей репозиторій включає понад 50 мовних перекладів, що суттєво збільшує розмір завантаження. Щоб клонувати без перекладів, використовуйте sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> Це дасть усе необхідне для проходження курсу з набагато швидшим завантаженням.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Це дасть вам усе необхідне для проходження курсу з набагато швидшим завантаженням.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Якщо ви хочете, щоб були підтримані додаткові мови перекладу, їх перелік знаходиться [тут](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Якщо ви бажаєте, щоб підтримувались додаткові мови перекладів, вони перелічені [тут](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Приєднуйтесь до нашої спільноти
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
У нас триває серія Discord для навчання з AI, дізнайтеся більше та приєднуйтесь до нас на [Learn with AI Series](https://aka.ms/learnwithai/discord) з 18 по 30 вересня 2025 року. Отримаєте поради та хитрощі з використання GitHub Copilot для Data Science.
Ми проводимо серію навчань у Discord із AI, дізнайтеся більше та приєднуйтесь до нас на [Learn with AI Series](https://aka.ms/learnwithai/discord) з 18 по 30 вересня 2025 року. Ви отримаєте поради та хитрощі використання GitHub Copilot для Data Science.
![Learn with AI series](../../translated_images/uk/1.2b28cdc6205e26fe.webp)
@ -59,139 +69,139 @@
Почніть із наступних ресурсів:
- [Сторінка студентського центру](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Тут ви знайдете ресурси для початківців, студентські пакети та навіть способи отримати безкоштовний ваучер на сертифікат. Цю сторінку варто додати до закладок та періодично перевіряти, оскільки вміст оновлюється мінімум раз на місяць.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Приєднуйтесь до глобальної спільноти студентських послів, це може бути вашим шляхом до Microsoft.
- [Сторінка Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Тут ви знайдете ресурси для початківців, студентські пакети та навіть можливості отримати безкоштовний ваучер на сертифікацію. Це сторінка, яку варто додати в закладки та час від часу переглядати, оскільки ми оновлюємо контент щонайменше щомісяця.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Приєднайтеся до глобальної спільноти студентських послів — можливо, це ваш шлях до Microsoft.
# Початок роботи
## 📚 Документація
- **[Керівництво зі встановлення](INSTALLATION.md)** - Покрокові інструкції налаштування для початківців
- **[Керівництво з використання](USAGE.md)** - Приклади та типові робочі процеси
- **[Вирішення проблем](TROUBLESHOOTING.md)** - Рішення поширених проблем
- **[Керівництво для сприяння розвитку](CONTRIBUTING.md)** - Як внести свій внесок у цей проєкт
- **[Для викладачів](for-teachers.md)** - Посібник для викладання та ресурси для аудиторії
- **[Посібник з встановлення](INSTALLATION.md)** - покрокові інструкції налаштування для початківців
- **[Посібник з використання](USAGE.md)** - приклади та базові робочі процеси
- **[Вирішення проблем](TROUBLESHOOTING.md)** - рішення поширених проблем
- **[Посібник для внеску](CONTRIBUTING.md)** - як долучитися до цього проєкту
- **[Для викладачів](for-teachers.md)** - рекомендації для навчання та ресурси для класу
## 👨‍🎓 Для студентів
> **Повні початківці**: Новачок у data science? Почніть з наших [простих прикладів для початківців](examples/README.md)! Ці прості, добре прокоментовані приклади допоможуть зрозуміти основи перед тим, як заглибитися у повну навчальну програму.
> **[Студенти](https://aka.ms/student-page)**: щоб працювати з цією програмою самостійно, форкніть весь репозиторій і виконуйте вправи самостійно, починаючи з пре-лекційного опитування. Потім читайте лекцію й виконуйте решту завдань. Намагайтеся створювати проекти, розуміючи уроки, а не просто копіюючи код розв’язку; однак цей код доступний у папках /solutions до кожного уроку, орієнтованого на проекти. Інша ідея — сформувати навчальну групу з друзями та разом проходити матеріали. Для подальшого вивчення рекомендуємо [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Повні новачки**: Новачок у Data Science? Почніть з наших [приємних для початківців прикладів](examples/README.md)! Ці прості, добре прокоментовані приклади допоможуть зрозуміти основи перед тим, як поринути у повну навчальну програму.
> **[Студенти](https://aka.ms/student-page)**: щоб використовувати цю навчальну програму самостійно, зробіть форк всього репозиторію та виконуйте вправи самостійно, починаючи з підготовчого тесту до лекції. Потім прочитайте лекцію і виконуйте решту завдань. Намагайтесь створювати проекти, розуміючи уроки, а не просто копіюючи код рішень; однак цей код доступний у папках /solutions у кожному уроку, орієнтованому на проекти. Іншим варіантом є створення навчальної групи з друзями для проходження матеріалу разом. Для додаткового вивчення рекомендуємо [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Швидкий старт:**
1. Перевірте [Керівництво зі встановлення](INSTALLATION.md) для налаштування середовища
2. Ознайомтеся з [Керівництвом з використання](USAGE.md), щоб навчитися працювати з цією програмою
3. Починайте з Уроку 1 і працюйте послідовно
1. Ознайомтесь із [Посібником з встановлення](INSTALLATION.md), щоб налаштувати середовище
2. Перегляньте [Посібник з використання](USAGE.md), щоб навчитися працювати з навчальною програмою
3. Почніть з уроку 1 та виконуйте послідовно
4. Приєднуйтесь до нашої [спільноти Discord](https://aka.ms/ds4beginners/discord) для підтримки
## 👩‍🏫 Для викладачів
> **Вчителям**: ми [включили кілька пропозицій](for-teachers.md) щодо того, як використовувати цей навчальний план. Ми будемо раді вашим відгукам [на нашому форумі для обговорень](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Викладачі**: ми включили [кілька порад](for-teachers.md) щодо використання цієї програми. Ми будемо раді вашому відгуку [у нашому дискусійному форумі](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Зустрічайте команду
## Зустріч з командою
[![Промо-відео](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Промо-відео")
[![Промо відео](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Промо відео")
**Гіф від** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
**Гіфка від** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Натисніть на зображення вище, щоб переглянути відео про проєкт і людей, які його створили!
> 🎥 Натисніть на зображення вище, щоб подивитися відео про проект та людей, які його створили!
## Педагогіка
Ми обрали два педагогічні принципи під час розробки цього навчального курсу: забезпечення проектного підходу та включення частих вікторин. Наприкінці цього циклу студенти вивчать основні принципи науки про дані, включаючи етичні концепції, підготовку даних, різні способи роботи з даними, візуалізацію даних, аналіз даних, приклади застосування науки про дані у реальному житті та інше.
Ми обрали два педагогічні принципи під час створення цього навчального плану: забезпечення проектної орієнтації та включення частих вікторин. Наприкінці цього циклу студенти оволодіють базовими принципами науки про дані, включно з етичними концепціями, підготовкою даних, різними способами роботи з даними, візуалізацією даних, аналізом даних, реальними кейсами використання науки про дані та багато іншого.
Крім того, вікторина з низькою ставкою перед заняттям налаштовує студента на вивчення теми, а друга вікторина після заняття забезпечує кращу засвоюваність матеріалу. Цей навчальний план було розроблено гнучким та цікавим, його можна проходити повністю або частинами. Проєкти починаються з простих і з часом стають складнішими до кінця 10-тижневого циклу.
Крім того, вікторина з низькою ставкою перед заняттям налаштовує намір студента вивчити тему, а друга вікторина після заняття забезпечує краще засвоєння матеріалу. Цей навчальний план створений бути гнучким і цікавим, його можна проходити повністю або частково. Проекти починаються з простих і стають складнішими до кінця 10-тижневого циклу.
> Знайдіть наші [Правила поведінки](CODE_OF_CONDUCT.md), [Внесок](CONTRIBUTING.md), [Переклади](TRANSLATIONS.md). Ми вітаємо ваші конструктивні відгуки!
> Знайдіть наші [Кодекс поведінки](CODE_OF_CONDUCT.md), [Внесок](CONTRIBUTING.md), [Переклад](TRANSLATIONS.md) керівництва. Ми вітаємо ваші конструктивні відгуки!
## Кожен урок включає:
- Опційний скетчноут
- Опційне додаткове відео
- Вікторину-розминку перед уроком
- Письмовий урок
- Для уроків на основі проєктів — покрокові інструкції зі створення проєкту
- Перевірки знань
- Опціональний скетчноут
- Опціональне додаткове відео
- Розминкову вікторину перед уроком
- Текстовий урок
- Для проектно-орієнтованих уроків: покрокові інструкції зі створення проекту
- Перевірку знань
- Виклик
- Додаткову літературу
- Додаткове читання
- Завдання
- [Вікторину після уроку](https://ff-quizzes.netlify.app/en/)
- [Вікторина після уроку](https://ff-quizzes.netlify.app/en/)
> **Примітка про вікторини**: Всі вікторини знаходяться в папці Quiz-App, загалом 40 вікторин по три питання в кожній. Посилання на них є в уроках, але додаток з вікторинами можна запустити локально або розгорнути в Azure; дотримуйтесь інструкцій у папці `quiz-app`. Вікторини поступово локалізуються.
> **Примітка про вікторини**: Всі вікторини знаходяться в папці Quiz-App, усього 40 вікторин по три питання у кожній. Вони пов’язані з уроками, але додаток для вікторин можна запускати локально або розгортати в Azure; дотримуйтесь інструкцій у папці `quiz-app`. Вікторини поступово локалізуються.
## 🎓 Приклади для початківців
**Новачок у науці про дані?** Ми створили спеціальний [каталог прикладів](examples/README.md) із простим, добре прокоментованим кодом, щоб допомогти вам почати:
**Новачок у Науці про Дані?** Ми створили спеціальний [каталог прикладів](examples/README.md) з простим, добре прокоментованим кодом, щоб допомогти вам почати:
- 🌟 **Hello World** — ваша перша програма з науки про дані
- 📂 **Завантаження даних** — навчіться читати та досліджувати набори даних
- 📊 **Простий аналіз** обчислення статистики та пошук закономірностей
- 📈 **Базова візуалізація** — створення діаграм і графіків
- 🔬 **Реальний проєкт** — повний робочий процес від початку до кінця
- 🌟 **Hello World** - Ваша перша програма з науки про дані
- 📂 **Завантаження даних** - Навчіться читати та досліджувати набори даних
- 📊 **Простий аналіз** - Обчислення статистики та пошук закономірностей
- 📈 **Базова візуалізація** - Створення графіків та діаграм
- 🔬 **Реальний проект** - Повний робочий процес від початку до кінця
Кожен приклад містить докладні коментарі, що пояснюють кожен крок, тому він ідеально підходить для абсолютних початківців!
Кожен приклад містить детальні коментарі, що пояснюють кожен крок, що робить його ідеальним для абсолютних початківців!
👉 **[Почніть з прикладів](examples/README.md)** 👈
## Уроки
|![Скетчноут від @sketchthedocs https://sketchthedocs.dev](../../translated_images/uk/00-Roadmap.4905d6567dff4753.webp)|
|![ Скетчноут від @sketchthedocs https://sketchthedocs.dev](../../translated_images/uk/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Data Science For Beginners: Roadmap _Скетчноут від [@nitya](https://twitter.com/nitya)_ |
| Наука про дані для початківців: дорожня карта - _скетчноут від [@nitya](https://twitter.com/nitya)_ |
| Номер уроку | Тема | Група уроків | Цілі навчання | Посилання на урок | Автор |
| Номер уроку | Тема | Група уроків | Цілі навчання | Пов’язаний урок | Автор |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Визначення науки про дані | [Вступ](1-Introduction/README.md) | Вивчіть основні поняття науки про дані і як вона пов’язана з штучним інтелектом, машинним навчанням і великими даними. | [урок](1-Introduction/01-defining-data-science/README.md) [відео](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Етика науки про дані | [Вступ](1-Introduction/README.md) | Концепції етики даних, виклики та рамки. | [урок](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Визначення даних | [Вступ](1-Introduction/README.md) | Як класифікуються дані та їх поширені джерела. | [урок](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Вступ до статистики та ймовірності | [Вступ](1-Introduction/README.md) | Математичні методи ймовірності та статистики для розуміння даних. | [урок](1-Introduction/04-stats-and-probability/README.md) [відео](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Робота з реляційними даними | [Робота з даними](2-Working-With-Data/README.md) | Вступ до реляційних даних і основи дослідження та аналізу реляційних даних за допомогою мови структурованих запитів, також відомої як SQL (проізноситься “сі-квел”). | [урок](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Робота з NoSQL даними | [Робота з даними](2-Working-With-Data/README.md) | Вступ до нереляційних даних, їхніх різних типів і основи дослідження та аналізу документних баз даних. | [урок](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Робота з Python | [Робота з даними](2-Working-With-Data/README.md) | Основи використання Python для дослідження даних з бібліотеками на кшталт Pandas. Рекомендується базове розуміння програмування на Python. | [урок](2-Working-With-Data/07-python/README.md) [відео](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Підготовка даних | [Робота з даними](2-Working-With-Data/README.md) | Теми з методів очищення та трансформації даних для подолання проблеми відсутніх, неточних або неповних даних. | [урок](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Візуалізація кількостей | [Візуалізація даних](3-Data-Visualization/README.md) | Навчіться використовувати Matplotlib для візуалізації даних про птахів 🦆 | [урок](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Візуалізація розподілів даних | [Візуалізація даних](3-Data-Visualization/README.md) | Візуалізація спостережень і трендів в інтервалі. | [урок](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Візуалізація пропорцій | [Візуалізація даних](3-Data-Visualization/README.md) | Візуалізація дискретних і згрупованих відсотків. | [урок](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Візуалізація взаємозв’язків | [Візуалізація даних](3-Data-Visualization/README.md) | Візуалізація зв’язків і кореляцій між наборами даних і їх змінними. | [урок](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Змістовні візуалізації | [Візуалізація даних](3-Data-Visualization/README.md) | Техніки та рекомендації для створення цінних візуалізацій для ефективного розв’язання проблем та отримання інсайтів. | [урок](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Вступ до життєвого циклу науки про дані | [Життєвий цикл](4-Data-Science-Lifecycle/README.md) | Вступ до життєвого циклу науки про дані та його першого кроку отримання та вилучення даних. | [урок](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Аналізування | [Життєвий цикл](4-Data-Science-Lifecycle/README.md) | Цей етап життєвого циклу науки про дані зосереджується на техніках аналізу даних. | [урок](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Комунікація | [Життєвий цикл](4-Data-Science-Lifecycle/README.md) | Цей етап життєвого циклу науки про дані присвячений представленню інсайтів з даних у спосіб, що полегшує розуміння для осіб, які приймають рішення. | [урок](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Наука про дані в хмарі | [Хмарні дані](5-Data-Science-In-Cloud/README.md) | Цей цикл уроків знайомить із наукою про дані в хмарі та її перевагами. | [урок](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) та [Maud](https://twitter.com/maudstweets) |
| 18 | Наука про дані в хмарі | [Хмарні дані](5-Data-Science-In-Cloud/README.md) | Навчання моделей із використанням інструментів Low Code. |[урок](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) та [Maud](https://twitter.com/maudstweets) |
| 19 | Наука про дані в хмарі | [Хмарні дані](5-Data-Science-In-Cloud/README.md) | Розгортання моделей за допомогою Azure Machine Learning Studio. | [урок](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) та [Maud](https://twitter.com/maudstweets) |
| 20 | Наука про дані в реальному житті | [У реальному житті](6-Data-Science-In-Wild/README.md) | Проєкти, керовані наукою про дані у реальному світі. | [урок](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 01 | Визначення науки про дані | [Вступ](1-Introduction/README.md) | Вивчити базові поняття науки про дані та як вона пов’язана зі штучним інтелектом, машинним навчанням і великими даними. | [урок](1-Introduction/01-defining-data-science/README.md) [відео](https://youtu.be/beZ7Mb_oz9I) | [Дмитро](http://soshnikov.com) |
| 02 | Етика науки про дані | [Вступ](1-Introduction/README.md) | Поняття етики даних, виклики та рамки. | [урок](1-Introduction/02-ethics/README.md) | [Нітія](https://twitter.com/nitya) |
| 03 | Визначення даних | [Вступ](1-Introduction/README.md) | Як класифікуються дані та їх основні джерела. | [урок](1-Introduction/03-defining-data/README.md) | [Жасмин](https://www.twitter.com/paladique) |
| 04 | Вступ до статистики та ймовірності | [Вступ](1-Introduction/README.md) | Математичні методи ймовірності та статистики для розуміння даних. | [урок](1-Introduction/04-stats-and-probability/README.md) [відео](https://youtu.be/Z5Zy85g4Yjw) | [Дмитро](http://soshnikov.com) |
| 05 | Робота з реляційними даними | [Робота з даними](2-Working-With-Data/README.md) | Вступ до реляційних даних та основи дослідження і аналізу реляційних даних за допомогою мови структурованих запитів, або SQL (вимовляється «сі-квелл»). | [урок](2-Working-With-Data/05-relational-databases/README.md) | [Крістофер](https://www.twitter.com/geektrainer) | | |
| 06 | Робота з NoSQL даними | [Робота з даними](2-Working-With-Data/README.md) | Вступ до нереляційних даних, їх різновиди та основи дослідження і аналізу документних баз даних. | [урок](2-Working-With-Data/06-non-relational/README.md) | [Жасмин](https://twitter.com/paladique)|
| 07 | Робота з Python | [Робота з даними](2-Working-With-Data/README.md) | Основи використання Python для дослідження даних з бібліотеками, такими як Pandas. Рекомендовано базове розуміння програмування на Python. | [урок](2-Working-With-Data/07-python/README.md) [відео](https://youtu.be/dZjWOGbsN4Y) | [Дмитро](http://soshnikov.com) |
| 08 | Підготовка даних | [Робота з даними](2-Working-With-Data/README.md) | Теми про методики очищення і трансформації даних для вирішення проблем відсутніх, неточних або неповних даних. | [урок](2-Working-With-Data/08-data-preparation/README.md) | [Жасмин](https://www.twitter.com/paladique) |
| 09 | Візуалізація кількостей | [Візуалізація даних](3-Data-Visualization/README.md) | Навчіться використовувати Matplotlib для візуалізації даних про птахів 🦆 | [урок](3-Data-Visualization/09-visualization-quantities/README.md) | [Джен](https://twitter.com/jenlooper) |
| 10 | Візуалізація розподілів даних | [Візуалізація даних](3-Data-Visualization/README.md) | Візуалізація спостережень і тенденцій в межах інтервалу. | [урок](3-Data-Visualization/10-visualization-distributions/README.md) | [Джен](https://twitter.com/jenlooper) |
| 11 | Візуалізація пропорцій | [Візуалізація даних](3-Data-Visualization/README.md) | Візуалізація дискретних і згрупованих відсотків. | [урок](3-Data-Visualization/11-visualization-proportions/README.md) | [Джен](https://twitter.com/jenlooper) |
| 12 | Візуалізація взаємозв’язків | [Візуалізація даних](3-Data-Visualization/README.md) | Візуалізація зв’язків і кореляцій між наборами даних та їх змінними. | [урок](3-Data-Visualization/12-visualization-relationships/README.md) | [Джен](https://twitter.com/jenlooper) |
| 13 | Змістовні візуалізації | [Візуалізація даних](3-Data-Visualization/README.md) | Методики та рекомендації щодо створення візуалізацій, які цінні для ефективного вирішення проблем і отримання інсайтів. | [урок](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Джен](https://twitter.com/jenlooper) |
| 14 | Вступ до життєвого циклу науки про дані | [Життєвий цикл](4-Data-Science-Lifecycle/README.md) | Вступ до життєвого циклу науки про дані та його першого етапу — збору та вилучення даних. | [урок](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Жасмин](https://twitter.com/paladique) |
| 15 | Аналіз | [Життєвий цикл](4-Data-Science-Lifecycle/README.md) | Цей етап життєвого циклу науки про дані зосереджений на техніках аналізу даних. | [урок](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Жасмин](https://twitter.com/paladique) | | |
| 16 | Комунікація | [Життєвий цикл](4-Data-Science-Lifecycle/README.md) | Цей етап життєвого циклу науки про дані зосереджений на поданні інсайтів із даних у спосіб, що полегшує розуміння для приймачів рішень. | [урок](4-Data-Science-Lifecycle/16-communication/README.md) | [Джален](https://twitter.com/JalenMcG) | | |
| 17 | Наука про дані в хмарі | [Хмарні дані](5-Data-Science-In-Cloud/README.md) | Цей цикл уроків знайомить із наукою про дані в хмарі та її перевагами. | [урок](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Тіффані](https://twitter.com/TiffanySouterre) та [Мод](https://twitter.com/maudstweets) |
| 18 | Наука про дані в хмарі | [Хмарні дані](5-Data-Science-In-Cloud/README.md) | Навчання моделей із використанням інструментів Low Code. |[урок](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Тіффані](https://twitter.com/TiffanySouterre) та [Мод](https://twitter.com/maudstweets) |
| 19 | Наука про дані в хмарі | [Хмарні дані](5-Data-Science-In-Cloud/README.md) | Розгортання моделей із Azure Machine Learning Studio. | [урок](5-Data-Science-In-Cloud/19-Azure/README.md)| [Тіффані](https://twitter.com/TiffanySouterre) та [Мод](https://twitter.com/maudstweets) |
| 20 | Наука про дані в реальному світі | [У природі](6-Data-Science-In-Wild/README.md) | Проекти, що ґрунтуються на науці про дані у реальному світі. | [урок](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Нітія](https://twitter.com/nitya) |
## GitHub Codespaces
Виконайте ці кроки, щоб відкрити цей приклад у Codespace:
1. Натисніть меню Code та виберіть опцію Open with Codespaces.
1. Натисніть меню Code і виберіть опцію Open with Codespaces.
2. Виберіть + New codespace у нижній частині панелі.
Додаткову інформацію дивіться в [документації GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
Для додаткової інформації перегляньте [документацію GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Виконайте ці кроки, щоб відкрити цей репозиторій у контейнері, використовуючи ваш локальний комп’ютер та VSCode за допомогою розширення VS Code Remote - Containers:
## VSCode Remote - Контейнери
Виконайте ці кроки, щоб відкрити це сховище в контейнері на вашому локальному комп’ютері за допомогою VSCode та розширення VS Code Remote - Containers:
1. Якщо це ваш перший раз, коли ви використовуєте контейнер для розробки, переконайтеся, що ваша система відповідає попереднім вимогам (наприклад, встановлений Docker) у [документації з початку роботи](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Якщо ви вперше використовуєте контейнер для розробки, переконайтеся, що ваша система відповідає вимогам (наприклад, встановлений Docker) за посиланням у [документації для початку роботи](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Щоб використовувати цей репозиторій, ви можете або відкрити його у ізольованому Docker-томі:
Щоб використовувати це сховище, ви можете або відкрити сховище в ізольованому Docker-томі:
**Примітка**: Ця команда під капотом використовуватиме Remote-Containers: **Clone Repository in Container Volume...**, щоб клонувати вихідний код у Docker-том замість локальної файлової системи. [Томи](https://docs.docker.com/storage/volumes/) — це рекомендований механізм збереження даних контейнера.
**Примітка**: Під капотом це використовуватиме команду Remote-Containers: **Clone Repository in Container Volume...** для клонування вихідного коду у том Docker замість використання локальної файлової системи. [Томи](https://docs.docker.com/storage/volumes/) є рекомендованим механізмом збереження даних контейнера.
Або ж відкрити локально клоновану або завантажену версію репозиторію:
Або відкрийте локально клоновану або завантажену версію сховища:
- Клонуйте цей репозиторій у вашу локальну файлову систему.
- Натисніть F1 і виберіть команду **Remote-Containers: Open Folder in Container...**.
- Виберіть скопійовану папку репозиторію, дочекайтеся запуску контейнера і починайте роботу.
- Клонуйте це сховище у вашу локальну файлову систему.
- Натисніть F1 і оберіть команду **Remote-Containers: Open Folder in Container...**.
- Виберіть клоновану копію цієї папки, зачекайте на запуск контейнера та почніть працювати.
## Офлайн доступ
## Оффлайн доступ
Ви можете переглядати цю документацію офлайн за допомогою [Docsify](https://docsify.js.org/#/). Форкніть цей репозиторій, [встановіть Docsify](https://docsify.js.org/#/quickstart) на ваш комп’ютер, а потім у кореневій папці репозиторію введіть `docsify serve`. Сайт буде запущений на порту 3000 на вашому локальному хості: `localhost:3000`.
Ви можете переглядати цю документацію офлайн, використовуючи [Docsify](https://docsify.js.org/#/). Відфоркуйте це сховище, [встановіть Docsify](https://docsify.js.org/#/quickstart) на своєму локальному комп’ютері, а потім у кореневій папці сховища введіть `docsify serve`. Вебсайт буде доступний на порту 3000 за адресою localhost: `localhost:3000`.
> Зверніть увагу, що зошити (notebooks) не будуть відображатися через Docsify, тому коли вам потрібно запустити зошит, робіть це окремо у VS Code з увімкненим Python-ядром.
> Зверніть увагу, що нотатки не будуть рендеритись через Docsify, тому якщо потрібно запустити ноутбук, робіть це окремо у VS Code з використанням Python кернела.
## Інші навчальні курси
## Інші навчальні програми
Наша команда також створює інші навчальні курси! Ознайомтесь із:
Наша команда створює й інші навчальні програми! Ознайомтесь:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
@ -208,46 +218,46 @@
---
### Серія Генеративного ШІ
[![Генеративний ШІ для початківців](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Генеративний ШІ (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Генеративний ШІ (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![Генеративний ШІ (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### Серія Generative AI
[![Generative AI для початківців](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Generative AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Generative AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![Generative AI (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### Основне навчання
[![Машинне навчання для початківців](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Наука про дані для початківців](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![ШІ для початківців](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![ML для початківців](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Data Science для початківців](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI для початківців](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Кібербезпека для початківців](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Веб-розробка для початківців](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT для початківців](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![XR розробка для початківців](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Розробка XR для початківців](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Серія Copilot
[![Copilot для парного програмування з ШІ](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot для спільного програмування з AI](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot для C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Пригоди Copilot](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## Отримання допомоги
**Виникли проблеми?** Перевірте наш [Посібник з усунення несправностей](TROUBLESHOOTING.md) для рішень поширених проблем.
**Сталися проблеми?** Перегляньте наш [Посібник з усунення несправностей](TROUBLESHOOTING.md) для вирішення поширених проблем.
Якщо ви застрягли або маєте питання щодо створення AI-додатків, приєднуйтесь до інших учнів і досвідчених розробників для обговорення MCP. Це підтримуюча спільнота, де вітаються питання та вільно діляться знаннями.
Якщо ви застрягли або маєте питання щодо створення AI-застосунків, приєднуйтеся до інших учнів та досвідчених розробників у обговоренні MCP. Це підтримуюча спільнота, де вітаються запитання і де знання вільно діляться.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Якщо у вас є відгуки про продукт чи помилки під час розробки, відвідайте:
Якщо у вас є відгуки про продукт або ви зіткнулися з помилками під час розробки, відвідайте:
[![Форум розробників Microsoft Foundry](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Відмова від відповідальності**:
Цей документ був перекладений за допомогою сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоча ми прагнемо до точності, просимо враховувати, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ рідною мовою слід вважати авторитетним джерелом. Для критичної інформації рекомендується звертатись до професійного людського перекладу. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.
**Відмова від відповідальності**:
Цей документ був перекладений із використанням сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоча ми прагнемо до точності, зверніть увагу, що автоматичні переклади можуть містити помилки чи неточності. Оригінальний документ рідною мовою слід вважати авторитетним джерелом інформації. Для критично важливої інформації рекомендується звертатись до професійного перекладача. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@
Нітія Нарасімхан, художниця
![скетчноут дорожньої карти](../../../translated_images/uk/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![скетчноут дорожньої карти](../../../translated_images/uk/00-Roadmap.4905d6567dff4753.webp)
---

Loading…
Cancel
Save