chore(i18n): sync translations with latest source changes (chunk 1/1, 69 changes)

update-translations
localizeflow[bot] 3 weeks ago
parent 86da390ff4
commit 0eb28e7c7d

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "cs"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T11:14:20+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "cs"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-26T15:26:20+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "cs"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T11:14:58+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "cs"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:54:39+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "cs"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T11:15:56+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "cs"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T17:47:16+00:00",
@ -360,8 +378,8 @@
"language_code": "cs"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T08:50:36+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T11:20:49+00:00",
"source_file": "README.md",
"language_code": "cs"
},

@ -6,7 +6,7 @@
---
[![Video o definici datové vědy](../../../../translated_images/cs/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Video o definici datové vědy](../../../../translated_images/cs/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Kvíz před přednáškou](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Pokud se chceme pustit do ještě složitější analýzy, můžeme vykreslit č
V této výzvě se pokusíme najít koncepty relevantní pro oblast Data Science tím, že se podíváme na texty. Vezmeme článek z Wikipedie o Data Science, stáhneme a zpracujeme text, a poté vytvoříme slovní mrak, který bude vypadat takto:
![Slovní mrak pro Data Science](../../../../translated_images/cs/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Slovní mrak pro Data Science](../../../../translated_images/cs/ds_wordcloud.664a7c07dca57de0.webp)
Navštivte [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') a projděte si kód. Můžete také spustit kód a sledovat, jak provádí všechny transformace dat v reálném čase.

@ -5,11 +5,11 @@
"source": [
"# Výzva: Analýza textu o datové vědě\n",
"\n",
"V tomto příkladu si vyzkoušíme jednoduché cvičení, které pokrývá všechny kroky tradičního procesu datové vědy. Nemusíte psát žádný kód, stačí kliknout na buňky níže, abyste je spustili a pozorovali výsledek. Jako výzvu vás povzbuzujeme, abyste tento kód vyzkoušeli s různými daty.\n",
"V tomto příkladu si provedeme jednoduché cvičení, které pokrývá všechny kroky tradičního procesu datové vědy. Nemusíte psát žádný kód, můžete jednoduše kliknout na buňky níže a spustit je a pozorovat výsledek. Jako výzvu jste vyzváni zkusit tento kód s různými daty.\n",
"\n",
"## Cíl\n",
"\n",
"V této lekci jsme diskutovali různé koncepty související s datovou vědou. Pojďme se pokusit objevit další související koncepty pomocí **těžby textu**. Začneme textem o datové vědě, z něj extrahujeme klíčová slova a poté se pokusíme vizualizovat výsledek.\n",
"V této lekci jsme diskutovali různé koncepty související s datovou vědou. Zkusme objevit další související koncepty pomocí **textového dolování**. Začneme textem o datové vědě, z něj extrahujeme klíčová slova a pak se pokusíme výsledek vizualizovat.\n",
"\n",
"Jako text použiji stránku o datové vědě z Wikipedie:\n"
],
@ -68,43 +68,41 @@
"source": [
"## Krok 2: Transformace dat\n",
"\n",
"Dalším krokem je převést data do formy vhodné pro zpracování. V našem případě jsme stáhli HTML zdrojový kód ze stránky a potřebujeme jej převést na čistý text.\n",
"Dalším krokem je převést data do podoby vhodné pro zpracování. V našem případě jsme stáhli zdrojový kód HTML ze stránky a potřebujeme ho převést na prostý text.\n",
"\n",
"Existuje mnoho způsobů, jak to lze provést. My použijeme nejjednodušší vestavěný objekt [HTMLParser](https://docs.python.org/3/library/html.parser.html) z Pythonu. Musíme vytvořit podtřídu třídy `HTMLParser` a definovat kód, který bude shromažďovat veškerý text uvnitř HTML tagů, s výjimkou tagů `<script>` a `<style>`.\n"
"Existuje mnoho způsobů, jak to lze provést. My použijeme [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), populární Python knihovnu pro parsování HTML. BeautifulSoup nám umožňuje cílit na konkrétní HTML elementy, takže se můžeme zaměřit na hlavní obsah článku z Wikipedie a snížit množství navigačních menu, postranních panelů, patiček a dalšího irelevantního obsahu (i když některý boilerplate text může přetrvávat).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Nejprve musíme nainstalovat knihovnu BeautifulSoup pro parsování HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Krok 3: Získání poznatků\n",
"## Krok 3: Získání poznatků\n",
"\n",
"Nejdůležitějším krokem je přeměnit naše data do podoby, ze které můžeme získat poznatky. V našem případě chceme z textu extrahovat klíčová slova a zjistit, která klíčová slova jsou významnější.\n",
"Nejdůležitějším krokem je převést naše data do nějaké podoby, ze které můžeme získat poznatky. V našem případě chceme z textu extrahovat klíčová slova a zjistit, která klíčová slova jsou smysluplnější.\n",
"\n",
"Použijeme Python knihovnu nazvanou [RAKE](https://github.com/aneesha/RAKE) pro extrakci klíčových slov. Nejprve tuto knihovnu nainstalujeme, pokud ji ještě nemáme:\n"
"Použijeme knihovnu Pythonu nazvanou [RAKE](https://github.com/aneesha/RAKE) pro extrakci klíčových slov. Nejprve si tuto knihovnu nainstalujeme, pokud ji nemáme: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Hlavní funkčnost je dostupná z objektu `Rake`, který můžeme přizpůsobit pomocí některých parametrů. V našem případě nastavíme minimální délku klíčového slova na 5 znaků, minimální frekvenci klíčového slova v dokumentu na 3 a maximální počet slov v klíčovém slově na 2. Neváhejte experimentovat s jinými hodnotami a pozorovat výsledek.\n"
"Hlavní funkčnost je dostupná z objektu `Rake`, který můžeme přizpůsobit pomocí některých parametrů. V našem případě nastavíme minimální délku klíčového slova na 5 znaků, minimální četnost klíčového slova v dokumentu na 3 a maximální počet slov v klíčovém slově na 2. Klidně si pohrávejte s jinými hodnotami a sledujte výsledek.\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"Získali jsme seznam termínů spolu s jejich stupněm důležitosti. Jak můžete vidět, nejrelevantnější obory, jako je strojové učení a velká data, se nacházejí na předních pozicích seznamu.\n",
"\n",
"## Krok 4: Vizualizace výsledku\n",
"\n",
"Lidé nejlépe interpretují data ve vizuální podobě. Proto často dává smysl data vizualizovat, abychom získali určité poznatky. Můžeme použít knihovnu `matplotlib` v Pythonu k vykreslení jednoduchého rozložení klíčových slov podle jejich relevance:\n"
"\r\n",
"We obtained a list terms together with associated degree of importance. As you can see, the most relevant disciplines, such as machine learning and big data, are present in the list at top positions.\r\n",
"\r\n",
"## Krok 4: Vizualizace výsledku\r\n",
"\r\n",
"Lidé dokáží data nejlépe interpretovat ve vizuální podobě. Proto často dává smysl data vizualizovat, aby bylo možné z nich získat nějaké poznatky. Můžeme použít knihovnu `matplotlib` v Pythonu k zobrazení jednoduché distribuce klíčových slov s jejich relevancí:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"Existuje však ještě lepší způsob, jak vizualizovat frekvence slov - pomocí **Word Cloud**. Budeme muset nainstalovat další knihovnu, abychom vytvořili word cloud z našeho seznamu klíčových slov.\n"
"Existuje však ještě lepší způsob, jak vizualizovat četnosti slov - pomocí **Word Cloud**. Budeme muset nainstalovat další knihovnu pro vykreslení word cloudu z našeho seznamu klíčových slov.\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"Objekt `WordCloud` je zodpovědný za přijetí buď původního textu, nebo předem vypočítaného seznamu slov s jejich frekvencemi, a vrací obrázek, který lze následně zobrazit pomocí `matplotlib`:\n"
"Objekt `WordCloud` je zodpovědný za příjem buď původního textu, nebo předem vypočítaného seznamu slov s jejich frekvencemi, a vrací obrázek, který pak může být zobrazen pomocí `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"Můžeme také předat původní text do `WordCloud` - podívejme se, zda dokážeme získat podobný výsledek:\n"
"Můžeme také předat původní text do `WordCloud` - uvidíme, jestli dokážeme získat podobný výsledek:\n"
],
"metadata": {}
},
@ -372,11 +371,11 @@
{
"cell_type": "markdown",
"source": [
"Můžete vidět, že slovní mrak nyní vypadá působivěji, ale zároveň obsahuje hodně šumu (např. nesouvisející slova jako `Retrieved on`). Také získáváme méně klíčových slov, která se skládají ze dvou slov, jako například *data scientist* nebo *computer science*. To je způsobeno tím, že algoritmus RAKE odvádí mnohem lepší práci při výběru kvalitních klíčových slov z textu. Tento příklad ukazuje důležitost předzpracování a čištění dat, protože jasný obraz na konci nám umožní dělat lepší rozhodnutí.\n",
"Vidíte, že word cloud nyní vypadá impozantněji, ale také obsahuje hodně šumu (např. nesouvisející slova jako `Retrieved on`). Také dostáváme méně klíčových slov složených ze dvou slov, jako například *data scientist* nebo *computer science*. To je proto, že algoritmus RAKE si v textu vybírá dobrá klíčová slova mnohem lépe. Tento příklad ilustruje důležitost předzpracování a čištění dat, protože jasný obraz na konci nám umožní činit lepší rozhodnutí.\n",
"\n",
"V tomto cvičení jsme prošli jednoduchým procesem extrakce určitého významu z textu na Wikipedii, ve formě klíčových slov a slovního mraku. Tento příklad je poměrně jednoduchý, ale dobře demonstruje všechny typické kroky, které datový vědec podnikne při práci s daty, od získávání dat až po vizualizaci.\n",
"V tomto cvičení jsme prošli jednoduchým procesem získávání významu z textu Wikipedie ve formě klíčových slov a word cloudu. Tento příklad je poměrně jednoduchý, ale dobře ukazuje všechny typické kroky, které datový vědec podnikne při práci s daty, počínaje získáváním dat až po vizualizaci.\n",
"\n",
"V našem kurzu budeme všechny tyto kroky podrobně probírat.\n"
"V našem kurzu všechny tyto kroky podrobně prodiskutujeme.\n"
],
"metadata": {}
},
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Prohlášení**: \nTento dokument byl přeložen pomocí služby pro automatický překlad [Co-op Translator](https://github.com/Azure/co-op-translator). I když se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádná nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Prohlášení o vyloučení odpovědnosti**: \nTento dokument byl přeložen pomocí AI překladatelské služby [Co-op Translator](https://github.com/Azure/co-op-translator). Přestože usilujeme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Originální dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro kritické informace se doporučuje profesionální lidský překlad. Nejsme odpovědni za jakékoliv nedorozumění nebo nesprávné výklady vyplývající z použití tohoto překladu.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +417,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:29:56+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "cs"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# Výzva: Analýza textu o datové vědě\n",
"# Výzva: Analýza textu o Data Science\n",
"\n",
"> *V tomto notebooku experimentujeme s použitím různých URL - článku na Wikipedii o strojovém učení. Můžete si všimnout, že na rozdíl od datové vědy tento článek obsahuje mnoho odborných termínů, což analýzu činí problematičtější. Musíme přijít na jiný způsob, jak vyčistit data po extrakci klíčových slov, abychom se zbavili některých častých, ale nevýznamných slovních spojení.*\n",
"> *V tomto notebooku zkoušíme použití různých URL wikipedia článek o strojovém učení. Vidíte, že na rozdíl od Data Science tento článek obsahuje mnoho termínů, což činí analýzu problematičtější. Potřebujeme přijít s jiným způsobem, jak vyčistit data po extrakci klíčových slov, abychom se zbavili některých častých, ale nevýznamných slovních spojení.*\n",
"\n",
"V tomto příkladu si uděláme jednoduché cvičení, které pokrývá všechny kroky tradičního procesu datové vědy. Nemusíte psát žádný kód, stačí kliknout na buňky níže, abyste je spustili a pozorovali výsledek. Jako výzvu vás povzbuzujeme, abyste tento kód vyzkoušeli s různými daty.\n",
"V tomto příkladu uděláme jednoduché cvičení, které pokrývá všechny kroky tradičního procesu datové vědy. Nemusíte psát žádný kód, stačí kliknout na buňky níže, spustit je a pozorovat výsledek. Jako výzvu máte možnost tento kód vyzkoušet na různých datech.\n",
"\n",
"## Cíl\n",
"\n",
"V této lekci jsme diskutovali o různých konceptech souvisejících s datovou vědou. Zkusme objevit další související koncepty pomocí **těžby textu**. Začneme textem o datové vědě, extrahujeme z něj klíčová slova a poté se pokusíme vizualizovat výsledek.\n",
"V této lekci jsme diskutovali různé koncepty související s Data Science. Zkusme objevit další související koncepty pomocí **textminingu**. Začneme textem o Data Science, z něj extrahujeme klíčová slova a pak se pokusíme vizualizovat výsledek.\n",
"\n",
"Jako text použiji stránku o datové vědě z Wikipedie:\n"
"Jako text použiji stránku o Data Science z Wikipedie:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Krok 2: Transformace dat\n",
"\n",
"Dalším krokem je převést data do formy vhodné pro zpracování. V našem případě jsme stáhli HTML zdrojový kód ze stránky a potřebujeme jej převést na čistý text.\n",
"Dalším krokem je převést data do podoby vhodné pro zpracování. V našem případě jsme stáhli HTML zdrojový kód ze stránky a potřebujeme ho převést na prostý text.\n",
"\n",
"Existuje mnoho způsobů, jak to lze provést. My použijeme nejjednodušší vestavěný objekt [HTMLParser](https://docs.python.org/3/library/html.parser.html) z Pythonu. Musíme vytvořit podtřídu třídy `HTMLParser` a definovat kód, který bude sbírat veškerý text uvnitř HTML tagů, s výjimkou tagů `<script>` a `<style>`.\n"
"Existuje mnoho způsobů, jak to lze provést. Použijeme [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), populární Python knihovnu pro parsování HTML. BeautifulSoup nám umožní cílit na konkrétní HTML elementy, takže se můžeme zaměřit na hlavní obsah článku z Wikipedie a snížit množství navigačních menu, postranních panelů, zápatí a jiného nepodstatného obsahu (ačkoli může zůstat nějaký běžný text).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Nejprve musíme nainstalovat knihovnu BeautifulSoup pro parsování HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -118,9 +116,9 @@
"source": [
"## Krok 3: Získávání poznatků\n",
"\n",
"Nejdůležitějším krokem je přeměnit naše data do podoby, ze které můžeme získat poznatky. V našem případě chceme z textu extrahovat klíčová slova a zjistit, která klíčová slova mají větší význam.\n",
"Nejdůležitějším krokem je proměnit naše data do takové podoby, ze které můžeme získat poznatky. V našem případě chceme z textu extrahovat klíčová slova a zjistit, která klíčová slova jsou smysluplnější.\n",
"\n",
"Pro extrakci klíčových slov použijeme knihovnu Pythonu nazvanou [RAKE](https://github.com/aneesha/RAKE). Nejprve tuto knihovnu nainstalujeme, pokud již není přítomna:\n"
"Použijeme Python knihovnu s názvem [RAKE](https://github.com/aneesha/RAKE) pro extrakci klíčových slov. Nejprve tuto knihovnu nainstalujeme, pokud není přítomna:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Hlavní funkčnost je dostupná z objektu `Rake`, který můžeme přizpůsobit pomocí některých parametrů. V našem případě nastavíme minimální délku klíčového slova na 5 znaků, minimální frekvenci klíčového slova v dokumentu na 3 a maximální počet slov v klíčovém slovu na 2. Klidně si pohrajte s jinými hodnotami a sledujte výsledek.\n"
"Hlavní funkcionalita je dostupná z objektu `Rake`, který můžeme přizpůsobit pomocí některých parametrů. V našem případě nastavíme minimální délku klíčového slova na 5 znaků, minimální četnost klíčového slova v dokumentu na 3 a maximální počet slov v klíčovém slově na 2. Klidně si pohrávejte s jinými hodnotami a sledujte výsledek.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Získali jsme seznam termínů spolu s jejich stupněm důležitosti. Jak můžete vidět, nejrelevantnější obory, jako je strojové učení a velká data, se nacházejí na předních pozicích seznamu.\n",
"\n",
"## Krok 4: Vizualizace výsledku\n",
"\n",
"Lidé nejlépe interpretují data ve vizuální podobě. Proto často dává smysl data vizualizovat, abychom získali určité poznatky. Můžeme použít knihovnu `matplotlib` v Pythonu k vykreslení jednoduchého rozložení klíčových slov s jejich relevancí:\n"
"\r\n",
"We obtained a list terms together with associated degree of importance. As you can see, the most relevant disciplines, such as machine learning and big data, are present in the list at top positions.\r\n",
"\r\n",
"## Krok 4: Vizualizace výsledku\r\n",
"\r\n",
"Lidé nejlépe interpretují data ve vizuální podobě. Proto často dává smysl data vizualizovat, abychom získali nějaké poznatky. Můžeme použít knihovnu `matplotlib` v Pythonu pro vykreslení jednoduchého rozdělení klíčových slov s jejich relevancí:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"Existuje však ještě lepší způsob, jak vizualizovat frekvence slov - použití **Word Cloud**. Budeme muset nainstalovat další knihovnu, abychom vytvořili word cloud z našeho seznamu klíčových slov.\n"
"Existuje však ještě lepší způsob, jak vizualizovat četnost slov - pomocí **Word Cloudu**. Budeme muset nainstalovat další knihovnu, abychom mohli vykreslit word cloud z našeho seznamu klíčových slov.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` objekt je zodpovědný za přijetí buď původního textu, nebo předem vypočítaného seznamu slov s jejich frekvencemi, a vrací obrázek, který lze následně zobrazit pomocí `matplotlib`:\n"
"Objekt `WordCloud` je zodpovědný za příjem buď původního textu, nebo předem vypočítaného seznamu slov s jejich frekvencemi, a vrací obrázek, který lze následně zobrazit pomocí `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"Můžeme také předat původní text do `WordCloud` - podívejme se, zda dokážeme získat podobný výsledek:\n"
"Můžeme také předat původní text do `WordCloud` - uvidíme, jestli dokážeme získat podobný výsledek:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"Můžete vidět, že word cloud nyní vypadá působivěji, ale také obsahuje hodně šumu (např. nesouvisející slova jako `Retrieved on`). Také získáváme méně klíčových slov, která se skládají ze dvou slov, jako například *data scientist* nebo *computer science*. To je proto, že algoritmus RAKE odvádí mnohem lepší práci při výběru vhodných klíčových slov z textu. Tento příklad ilustruje důležitost předzpracování a čištění dat, protože jasný obraz na konci nám umožní dělat lepší rozhodnutí.\n",
"Vidíte, že slovní oblak nyní vypadá impozantněji, ale také obsahuje hodně šumu (např. nesouvisející slova jako `Retrieved on`). Také dostáváme méně klíčových slov, která se skládají ze dvou slov, jako *data scientist* nebo *computer science*. Je to proto, že algoritmus RAKE dělá mnohem lepší práci při výběru dobrých klíčových slov z textu. Tento příklad ilustruje důležitost předzpracování a čištění dat, protože jasný obraz na konci nám umožní činit lepší rozhodnutí.\n",
"\n",
"V tomto cvičení jsme prošli jednoduchým procesem extrakce určitého významu z textu na Wikipedii, ve formě klíčových slov a word cloudu. Tento příklad je poměrně jednoduchý, ale dobře ukazuje všechny typické kroky, které datový vědec podnikne při práci s daty, od získávání dat až po vizualizaci.\n",
"V tomto cvičení jsme prošli jednoduchým procesem získání smyslu z textu Wikipedie ve formě klíčových slov a slovního oblaku. Tento příklad je poměrně jednoduchý, ale dobře demonstruje všechny typické kroky, které datový vědec podnikne při práci s daty, počínaje získáváním dat až po vizualizaci.\n",
"\n",
"V našem kurzu si všechny tyto kroky podrobně rozebereme.\n"
"V našem kurzu budeme všechny tyto kroky podrobně probírat.\n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Prohlášení**: \nTento dokument byl přeložen pomocí služby pro automatický překlad [Co-op Translator](https://github.com/Azure/co-op-translator). I když se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádné nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Prohlášení o vyloučení odpovědnosti**: \nTento dokument byl přeložen pomocí AI překladatelské služby [Co-op Translator](https://github.com/Azure/co-op-translator). Přestože usilujeme o přesnost, mějte prosím na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho rodném jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje využít profesionální lidský překlad. Nejsme odpovědní za jakékoliv nedorozumění nebo nesprávné interpretace vyplývající z užití tohoto překladu.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +525,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:41:06+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "cs"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
Teorie statistiky a pravděpodobnosti jsou dvě úzce související oblasti matematiky, které mají velký význam pro datovou vědu. Je možné pracovat s daty bez hlubokých znalostí matematiky, ale je stále lepší znát alespoň některé základní koncepty. Zde vám představíme krátký úvod, který vám pomůže začít.
[![Úvodní video](../../../../translated_images/cs/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Úvodní video](../../../../translated_images/cs/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Kvíz před přednáškou](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Popis pravděpodobnostního rozdělení spojité proměnné, jejíž hodnoty jso
Můžeme mluvit pouze o pravděpodobnosti, že proměnná spadne do určitého intervalu hodnot, např. P(t<sub>1</sub>≤X<t<sub>2</sub>). V tomto případě je pravděpodobnostní rozdělení popsáno pomocí **funkce hustoty pravděpodobnosti** p(x), takové že
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/cs/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/cs/probability-density.a8aad29f17a14afb.webp)
Spojitý analog rovnoměrného rozdělení se nazývá **spojité rovnoměrné rozdělení**, které je definováno na konečném intervalu. Pravděpodobnost, že hodnota X spadne do intervalu délky l, je úměrná l a stoupá až k 1.
@ -73,11 +73,11 @@ Když analyzujeme data z reálného života, často nejsou náhodnými proměnn
Zde je box plot zobrazující průměr, medián a kvartily pro naše data:
![Box plot váhy](../../../../translated_images/cs/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Box plot váhy](../../../../translated_images/cs/weight-boxplot.1dbab1c03af26f8a.webp)
Protože naše data obsahují informace o různých hráčských **rolích**, můžeme také vytvořit box plot podle role - umožní nám získat představu o tom, jak se hodnoty parametrů liší podle rolí. Tentokrát budeme zvažovat výšku:
![Box plot podle role](../../../../translated_images/cs/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Box plot podle role](../../../../translated_images/cs/boxplot_byrole.036b27a1c3f52d42.webp)
Tento diagram naznačuje, že průměrná výška hráčů na první metě je vyšší než výška hráčů na druhé metě. Později v této lekci se naučíme, jak můžeme tuto hypotézu formálněji otestovat a jak ukázat, že naše data jsou statisticky významná.
@ -85,7 +85,7 @@ Tento diagram naznačuje, že průměrná výška hráčů na první metě je vy
Abychom viděli, jaké je rozdělení našich dat, můžeme vytvořit graf nazývaný **histogram**. Osa X by obsahovala počet různých intervalů váhy (tzv. **binů**) a vertikální osa by ukazovala počet případů, kdy vzorek náhodné proměnné spadl do daného intervalu.
![Histogram dat z reálného světa](../../../../translated_images/cs/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Histogram dat z reálného světa](../../../../translated_images/cs/weight-histogram.bfd00caf7fc30b14.webp)
Z tohoto histogramu můžete vidět, že všechny hodnoty jsou soustředěny kolem určité průměrné váhy, a čím dále se od této váhy dostaneme, tím méně váhových hodnot se vyskytuje. Tj. je velmi nepravděpodobné, že váha baseballového hráče bude velmi odlišná od průměrné váhy. Rozptyl váhy ukazuje míru, do jaké se váhy pravděpodobně liší od průměru.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
Pokud vykreslíme histogram vygenerovaných vzorků, uvidíme obrázek velmi podobný tomu, který je uveden výše. A pokud zvýšíme počet vzorků a počet binů, můžeme vytvořit obrázek normálního rozdělení, který je blíže ideálu:
![Normální rozdělení s průměrem=0 a směrodatnou odchylkou=1](../../../../translated_images/cs/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Normální rozdělení s průměrem=0 a směrodatnou odchylkou=1](../../../../translated_images/cs/normal-histogram.dfae0d67c202137d.webp)
*Normální rozdělení s průměrem=0 a směrodatnou odchylkou=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
V našem případě hodnota 0.53 naznačuje, že existuje určitá korelace mezi váhou a výškou osoby. Můžeme také vytvořit scatter plot jedné hodnoty proti druhé, abychom viděli vztah vizuálně:
![Vztah mezi váhou a výškou](../../../../translated_images/cs/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Vztah mezi váhou a výškou](../../../../translated_images/cs/weight-height-relationship.3f06bde4ca2aba99.webp)
> Další příklady korelace a kovariance najdete v [doprovodném poznámkovém bloku](notebook.ipynb).

@ -1,6 +1,6 @@
# Úvod do datové vědy
![data v akci](../../../translated_images/cs/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![data v akci](../../../translated_images/cs/data.48e22bb7617d8d92.webp)
> Foto od <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephena Dawsona</a> na <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
V těchto lekcích objevíte, jak je datová věda definována, a seznámíte se s etickými otázkami, které musí datový vědec zohlednit. Také se naučíte, jak jsou data definována, a získáte základní znalosti o statistice a pravděpodobnosti, což jsou klíčové akademické oblasti datové vědy.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Práce s Pythonem - _Sketchnote od [@nitya](https://twitter.com/nitya)_ |
[![Úvodní video](../../../../translated_images/cs/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Úvodní video](../../../../translated_images/cs/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Databáze nabízejí velmi efektivní způsoby ukládání dat a jejich dotazování pomocí dotazovacích jazyků, ale nejflexibilnějším způsobem zpracování dat je napsání vlastního programu pro manipulaci s daty. V mnoha případech by bylo efektivnější použít dotaz na databázi. Nicméně v některých situacích, kdy je potřeba složitější zpracování dat, to nelze snadno provést pomocí SQL.
Zpracování dat lze naprogramovat v jakémkoli programovacím jazyce, ale existují určité jazyky, které jsou na vyšší úrovni, pokud jde o práci s daty. Datoví vědci obvykle preferují jeden z následujících jazyků:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Graf časové řady](../../../../translated_images/cs/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Graf časové řady](../../../../translated_images/cs/timeseries-1.80de678ab1cf727e.webp)
Předpokládejme, že každý týden pořádáme večírek pro přátele a bereme dalších 10 balení zmrzliny na večírek. Můžeme vytvořit další sérii, indexovanou podle týdne, abychom to ukázali:
```python
@ -75,7 +75,7 @@ Když sečteme dvě série dohromady, získáme celkový počet:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Graf časové řady](../../../../translated_images/cs/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Graf časové řady](../../../../translated_images/cs/timeseries-2.aae51d575c55181c.webp)
> **Poznámka**: Nepoužíváme jednoduchou syntaxi `total_items+additional_items`. Pokud bychom to udělali, dostali bychom mnoho hodnot `NaN` (*Not a Number*) v výsledné sérii. To je proto, že některé hodnoty indexu v sérii `additional_items` chybí, a přičtení `NaN` k čemukoli vede k `NaN`. Proto musíme při sčítání specifikovat parametr `fill_value`.
@ -84,7 +84,7 @@ U časových řad můžeme také **převzorkovat** sérii na různé časové in
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Měsíční průměry časové řady](../../../../translated_images/cs/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Měsíční průměry časové řady](../../../../translated_images/cs/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -210,7 +210,7 @@ Prvním problémem, na který se zaměříme, je modelování epidemického ší
Protože chceme ukázat, jak pracovat s daty, zveme vás k otevření [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) a jeho přečtení od začátku do konce. Můžete také spustit buňky a vyzkoušet některé výzvy, které jsme pro vás nechali na konci.
![COVID Spread](../../../../translated_images/cs/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/cs/covidspread.f3d131c4f1d260ab.webp)
> Pokud nevíte, jak spustit kód v Jupyter Notebooku, podívejte se na [tento článek](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Kompletní příklad analýzy tohoto datasetu pomocí [Text Analytics for Health
Otevřete [`notebook-papers.ipynb`](notebook-papers.ipynb) a přečtěte si jej od začátku do konce. Můžete také spustit buňky a vyzkoušet některé výzvy, které jsme pro vás nechali na konci.
![Covid Medical Treatment](../../../../translated_images/cs/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/cs/covidtreat.b2ba59f57ca45fbc.webp)
## Zpracování obrazových dat

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# Práce s daty
![data love](../../../translated_images/cs/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/cs/data-love.a22ef29e6742c852.webp)
> Foto od <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexandra Sinna</a> na <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
V těchto lekcích se naučíte některé způsoby, jak lze data spravovat, manipulovat s nimi a používat je v aplikacích. Naučíte se o relačních a nerelačních databázích a o tom, jak v nich lze data ukládat. Získáte základy práce s Pythonem pro správu dat a objevíte některé z mnoha způsobů, jak můžete Python využít k práci s daty a jejich analýze.

@ -42,7 +42,7 @@ Vytvořte základní bodový graf, který ukáže vztah mezi cenou za libru medu
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/cs/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/cs/scatter1.5e1aa5fd6706c5d1.webp)
Nyní zobrazte stejná data s barevným schématem připomínajícím med, abyste ukázali, jak se cena vyvíjela v průběhu let. Toho můžete dosáhnout přidáním parametru 'hue', který ukáže změnu rok od roku:
@ -51,7 +51,7 @@ Nyní zobrazte stejná data s barevným schématem připomínajícím med, abyst
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/cs/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/cs/scatter2.c0041a58621ca702.webp)
S touto změnou barevného schématu je zřejmé, že cena za libru medu v průběhu let výrazně stoupá. Pokud se podíváte na vzorek dat (například stát Arizona), můžete vidět vzorec zvyšování cen rok od roku s několika výjimkami:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Vidíte, že velikost bodů se postupně zvětšuje.
![scatterplot 3](../../../../translated_images/cs/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/cs/scatter3.3c160a3d1dcb36b3.webp)
Je to jednoduchý případ nabídky a poptávky? Kvůli faktorům, jako je změna klimatu a kolaps včelstev, je k dispozici méně medu k prodeji rok od roku, a proto cena stoupá?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Odpověď: Ano, s několika výjimkami kolem roku 2003:
![line chart 1](../../../../translated_images/cs/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/cs/line1.f36eb465229a3b1f.webp)
✅ Protože Seaborn agreguje data do jedné čáry, zobrazuje „vícenásobná měření pro každou hodnotu x vykreslením průměru a 95% intervalem spolehlivosti kolem průměru“. [Zdroj](https://seaborn.pydata.org/tutorial/relational.html). Toto časově náročné chování lze vypnout přidáním `ci=None`.
@ -105,7 +105,7 @@ Otázka: No, můžeme v roce 2003 také vidět nárůst zásob medu? Co když se
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/cs/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/cs/line2.a5b3493dc01058af.webp)
Odpověď: Ani ne. Pokud se podíváte na celkovou produkci, zdá se, že v tomto konkrétním roce skutečně vzrostla, i když obecně množství vyprodukovaného medu v těchto letech klesá.
@ -130,7 +130,7 @@ sns.relplot(
```
V této vizualizaci můžete porovnat výnos na včelstvo a počet včelstev rok od roku vedle sebe s nastavením wrap na 3 pro sloupce:
![facet grid](../../../../translated_images/cs/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/cs/facet.6a34851dcd540050.webp)
Pro tento dataset nic zvláštního nevyniká, pokud jde o počet včelstev a jejich výnos rok od roku a stát od státu. Existuje jiný způsob, jak hledat korelaci mezi těmito dvěma proměnnými?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/cs/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/cs/dual-line.a4c28ce659603fab.webp)
I když kolem roku 2003 nic zvláštního nevyniká, umožňuje nám to zakončit tuto lekci na trochu pozitivnější notě: i když celkový počet včelstev klesá, jejich počet se stabilizuje, i když jejich výnos na včelstvo klesá.

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Zde nainstalujete balíček `ggplot2` a poté jej importujete do pracovního prostoru pomocí příkazu `library("ggplot2")`. Pro vykreslení jakéhokoliv grafu v ggplot se používá funkce `ggplot()` a vy specifikujete dataset, proměnné x a y jako atributy. V tomto případě použijeme funkci `geom_line()`, protože chceme vykreslit čárový graf.
![MaxRozpětí-lineplot](../../../../../translated_images/cs/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxRozpětí-lineplot](../../../../../translated_images/cs/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
Co si okamžitě všimnete? Zdá se, že existuje alespoň jeden odlehlý bod - to je docela rozpětí křídel! Rozpětí křídel přesahující 2000 centimetrů odpovídá více než 20 metrům - potulují se v Minnesotě pterodaktylové? Pojďme to prozkoumat.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Specifikujeme úhel v `theme` a specifikujeme popisky os x a y pomocí `xlab()` a `ylab()` respektive. Funkce `ggtitle()` dává grafu/jednotce název.
![MaxRozpětí-lineplot-vylepšený](../../../../../translated_images/cs/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxRozpětí-lineplot-vylepšený](../../../../../translated_images/cs/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
I při rotaci popisků na 45 stupňů je jich příliš mnoho na čtení. Zkusme jinou strategii: označme pouze odlehlé body a nastavme popisky přímo v grafu. Můžete použít bodový graf, abyste vytvořili více prostoru pro popisky:
@ -91,7 +91,7 @@ Co se zde děje? Použili jste funkci `geom_point()` k vykreslení bodů. S tím
Co objevíte?
![MaxRozpětí-scatterplot](../../../../../translated_images/cs/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxRozpětí-scatterplot](../../../../../translated_images/cs/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## Filtrování dat
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Vytvořili jsme nový dataframe `birds_filtered` a poté vykreslili bodový graf. Filtrováním odlehlých bodů jsou vaše data nyní soudržnější a srozumitelnější.
![MaxRozpětí-scatterplot-vylepšený](../../../../../translated_images/cs/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxRozpětí-scatterplot-vylepšený](../../../../../translated_images/cs/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
Nyní, když máme čistší dataset alespoň z hlediska rozpětí křídel, pojďme objevit více o těchto ptácích.
@ -151,7 +151,7 @@ birds_filtered %>% group_by(Category) %>%
```
V následujícím úryvku instalujeme balíčky [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) a [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0), které pomáhají manipulovat a seskupovat data za účelem vykreslení seskupeného sloupcového grafu. Nejprve seskupíte data podle `Kategorie` ptáků a poté shrnete sloupce `MinDélka`, `MaxDélka`, `MinHmotnost`, `MaxHmotnost`, `MinRozpětí`, `MaxRozpětí`. Poté vykreslíte sloupcový graf pomocí balíčku `ggplot2` a specifikujete barvy pro různé kategorie a popisky.
![Seskupený sloupcový graf](../../../../../translated_images/cs/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Seskupený sloupcový graf](../../../../../translated_images/cs/stacked-bar-chart.0c92264e89da7b39.webp)
Tento sloupcový graf je však nečitelný, protože obsahuje příliš mnoho neseskupených dat. Musíte vybrat pouze data, která chcete vykreslit, takže se podívejme na délku ptáků podle jejich kategorie.
@ -166,7 +166,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Nejprve spočítáte unikátní hodnoty ve sloupci `Kategorie` a poté je seřadíte do nového dataframe `birds_count`. Tato seřazená data jsou poté faktorizována na stejné úrovni, aby byla vykreslena ve správném pořadí. Pomocí `ggplot2` poté vykreslíte data ve sloupcovém grafu. Funkce `coord_flip()` vykreslí horizontální sloupce.
![Kategorie-délka](../../../../../translated_images/cs/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![Kategorie-délka](../../../../../translated_images/cs/category-length.7e34c296690e85d6.webp)
Tento sloupcový graf poskytuje dobrý přehled o počtu ptáků v každé kategorii. Na první pohled vidíte, že největší počet ptáků v této oblasti patří do kategorie Kachny/Husy/Vodní ptáci. Minnesota je "země 10 000 jezer", takže to není překvapivé!
@ -189,7 +189,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
Seskupíme data `birds_filtered` podle `Kategorie` a poté vykreslíme sloupcový graf.
![Porovnávání dat](../../../../../translated_images/cs/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![Porovnávání dat](../../../../../translated_images/cs/comparingdata.f486a450d61c7ca5.webp)
Nic zde není překvapivé: kolibříci mají nejmenší MaxDélku ve srovnání s pelikány nebo husami. Je dobré, když data dávají logický smysl!
@ -201,7 +201,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![Překryté hodnoty](../../../../../translated_images/cs/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![Překryté hodnoty](../../../../../translated_images/cs/superimposed-values.5363f0705a1da416.webp)
## 🚀 Výzva

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![max délka podle řádu](../../../../../translated_images/cs/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![max délka podle řádu](../../../../../translated_images/cs/max-length-per-order.e5b283d952c78c12.webp)
Tento graf poskytuje přehled o obecné distribuci délky těla podle řádu ptáků, ale není to optimální způsob, jak zobrazit skutečné distribuce. Tento úkol se obvykle řeší vytvořením histogramu.
## Práce s histogramy
@ -47,7 +47,7 @@ Tento graf poskytuje přehled o obecné distribuci délky těla podle řádu pt
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![distribuce přes celý dataset](../../../../../translated_images/cs/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![distribuce přes celý dataset](../../../../../translated_images/cs/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
Jak vidíte, většina z více než 400 ptáků v tomto datasetu spadá do rozsahu pod 2000 pro jejich maximální tělesnou hmotnost. Získejte více informací o datech změnou parametru `bins` na vyšší číslo, například 30:
@ -55,7 +55,7 @@ Jak vidíte, většina z více než 400 ptáků v tomto datasetu spadá do rozsa
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![distribuce-30bins](../../../../../translated_images/cs/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![distribuce-30bins](../../../../../translated_images/cs/distribution-30bins.6a3921ea7a421bf7.webp)
Tento graf ukazuje distribuci trochu podrobněji. Méně zkreslený graf by mohl být vytvořen tím, že zajistíte, že vyberete pouze data v daném rozsahu:
@ -67,7 +67,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![filtrovaný histogram](../../../../../translated_images/cs/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![filtrovaný histogram](../../../../../translated_images/cs/filtered-histogram.6bf5d2bfd8253322.webp)
✅ Vyzkoušejte některé další filtry a datové body. Chcete-li vidět plnou distribuci dat, odstraňte filtr `['MaxBodyMass']`, abyste zobrazili označené distribuce.
@ -81,7 +81,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Zdá se, že existuje očekávaná korelace mezi těmito dvěma prvky podél očekávané osy, s jedním obzvláště silným bodem konvergence:
![2d graf](../../../../../translated_images/cs/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2d graf](../../../../../translated_images/cs/2d-plot.c504786f439bd7eb.webp)
Histogramy fungují dobře ve výchozím nastavení pro číselná data. Co když potřebujete vidět distribuce podle textových dat?
## Prozkoumejte dataset pro distribuce pomocí textových dat
@ -112,7 +112,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![rozpětí křídel a stav ochrany](../../../../../translated_images/cs/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![rozpětí křídel a stav ochrany](../../../../../translated_images/cs/wingspan-conservation-collation.4024e9aa6910866a.webp)
Zdá se, že neexistuje dobrá korelace mezi minimálním rozpětím křídel a stavem ochrany. Otestujte další prvky datasetu pomocí této metody. Můžete také vyzkoušet různé filtry. Najdete nějakou korelaci?
@ -126,7 +126,7 @@ Pojďme nyní pracovat s hustotními grafy!
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![hustotní graf](../../../../../translated_images/cs/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![hustotní graf](../../../../../translated_images/cs/density-plot.675ccf865b76c690.webp)
Vidíte, jak graf odráží ten předchozí pro data o minimálním rozpětí křídel; je jen trochu hladší. Pokud byste chtěli znovu vytvořit tu zubatou linii MaxBodyMass z druhého grafu, který jste vytvořili, mohli byste ji velmi dobře vyhladit pomocí této metody:
@ -134,7 +134,7 @@ Vidíte, jak graf odráží ten předchozí pro data o minimálním rozpětí k
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![hustota tělesné hmotnosti](../../../../../translated_images/cs/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![hustota tělesné hmotnosti](../../../../../translated_images/cs/bodymass-smooth.d31ce526d82b0a1f.webp)
Pokud byste chtěli hladkou, ale ne příliš hladkou linii, upravte parametr `adjust`:
@ -142,7 +142,7 @@ Pokud byste chtěli hladkou, ale ne příliš hladkou linii, upravte parametr `a
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![méně hladká tělesná hmotnost](../../../../../translated_images/cs/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![méně hladká tělesná hmotnost](../../../../../translated_images/cs/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ Přečtěte si o dostupných parametrech pro tento typ grafu a experimentujte!
@ -152,7 +152,7 @@ Tento typ grafu nabízí krásně vysvětlující vizualizace. Například něko
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![tělesná hmotnost podle řádu](../../../../../translated_images/cs/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![tělesná hmotnost podle řádu](../../../../../translated_images/cs/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 Výzva

@ -84,7 +84,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Voila, koláčový graf zobrazující proporce těchto dat podle těchto dvou tříd hub. Je velmi důležité správně nastavit pořadí štítků, zejména zde, takže si ověřte pořadí, ve kterém je pole štítků vytvořeno!
![koláčový graf](../../../../../translated_images/cs/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![koláčový graf](../../../../../translated_images/cs/pie1-wb.685df063673751f4.webp)
## Prstence!
@ -118,7 +118,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![prstencový graf](../../../../../translated_images/cs/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![prstencový graf](../../../../../translated_images/cs/donut-wb.34e6fb275da9d834.webp)
Tento kód používá dvě knihovny - ggplot2 a webr. Pomocí funkce PieDonut z knihovny webr můžeme snadno vytvořit prstencový graf!
@ -156,7 +156,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
Pomocí waflového grafu můžete jasně vidět proporce barev klobouků v této datové sadě hub. Zajímavé je, že existuje mnoho hub se zelenými klobouky!
![waflový graf](../../../../../translated_images/cs/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![waflový graf](../../../../../translated_images/cs/waffle.aaa75c5337735a6e.webp)
V této lekci jste se naučili tři způsoby vizualizace proporcí. Nejprve musíte svá data seskupit do kategorií a poté se rozhodnout, který způsob zobrazení dat je nejlepší - koláč, prstenec nebo wafle. Všechny jsou chutné a uživateli okamžitě poskytují přehled o datové sadě.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/cs/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/cs/scatter1.86b8900674d88b26.webp)
Nyní zobrazte stejná data s barevným schématem inspirovaným medem, abyste ukázali, jak se cena vyvíjí v průběhu let. Toho můžete dosáhnout přidáním parametru 'scale_color_gradientn', který ukáže změnu rok od roku:
@ -52,7 +52,7 @@ Nyní zobrazte stejná data s barevným schématem inspirovaným medem, abyste u
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/cs/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/cs/scatter2.4d1cbc693bad20e2.webp)
S touto změnou barevného schématu můžete vidět, že v průběhu let dochází k jasnému nárůstu ceny za libru medu. Pokud se podíváte na vzorek dat (například stát Arizona), můžete vidět vzorec zvyšování cen rok od roku s několika výjimkami:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Vidíte, že velikost bodů se postupně zvětšuje.
![scatterplot 3](../../../../../translated_images/cs/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/cs/scatter3.722d21e6f20b3ea2.webp)
Je to jednoduchý případ nabídky a poptávky? Kvůli faktorům, jako je změna klimatu a kolaps včelstev, je k dispozici méně medu k prodeji rok od roku, a proto cena stoupá?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Odpověď: Ano, s několika výjimkami kolem roku 2003:
![line chart 1](../../../../../translated_images/cs/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/cs/line1.299b576fbb2a59e6.webp)
Otázka: Vidíme v roce 2003 také nárůst zásob medu? Co když se podíváte na celkovou produkci rok od roku?
@ -106,7 +106,7 @@ Otázka: Vidíme v roce 2003 také nárůst zásob medu? Co když se podíváte
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/cs/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/cs/line2.3b18fcda7176ceba.webp)
Odpověď: Ne tak docela. Pokud se podíváte na celkovou produkci, zdá se, že v tomto konkrétním roce skutečně vzrostla, i když obecně produkce medu během těchto let klesá.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
V této vizualizaci můžete porovnat výnos na včelstvo a počet včelstev rok od roku vedle sebe s nastavením wrap na 3 pro sloupce:
![facet grid](../../../../../translated_images/cs/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/cs/facet.491ad90d61c2a7cc.webp)
Pro tento dataset nic zvláštního nevyniká, pokud jde o počet včelstev a jejich výnos rok od roku a stát od státu. Existuje jiný způsob, jak najít korelaci mezi těmito dvěma proměnnými?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/cs/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/cs/dual-line.fc4665f360a54018.webp)
I když kolem roku 2003 nic výrazně nevyniká, umožňuje nám to zakončit tuto lekci na trochu pozitivnější notě: i když celkový počet včelstev klesá, jejich počet se stabilizuje, i když jejich výnos na včelstvo klesá.

@ -38,25 +38,25 @@ V předchozích lekcích jste experimentovali s vytvářením různých zajímav
I když datový vědec pečlivě vybere správný graf pro správná data, existuje mnoho způsobů, jak mohou být data zobrazena tak, aby podporovala určitý názor, často na úkor samotných dat. Existuje mnoho příkladů klamavých grafů a infografik!
[![Jak grafy lžou od Alberta Caira](../../../../../translated_images/cs/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Jak grafy lžou")
[![Jak grafy lžou od Alberta Caira](../../../../../translated_images/cs/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Jak grafy lžou")
> 🎥 Klikněte na obrázek výše pro konferenční přednášku o klamavých grafech
Tento graf obrací osu X, aby ukázal opak pravdy na základě data:
![špatný graf 1](../../../../../translated_images/cs/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![špatný graf 1](../../../../../translated_images/cs/bad-chart-1.596bc93425a8ac30.webp)
[Tento graf](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) je ještě klamavější, protože oko je přitahováno doprava, aby dospělo k závěru, že počet případů COVID v různých okresech v průběhu času klesal. Ve skutečnosti, pokud se podíváte pozorně na data, zjistíte, že byla přeskupena, aby vytvořila klamavý sestupný trend.
![špatný graf 2](../../../../../translated_images/cs/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![špatný graf 2](../../../../../translated_images/cs/bad-chart-2.62edf4d2f30f4e51.webp)
Tento notoricky známý příklad používá barvy A obrácenou osu Y k oklamání: místo závěru, že počet úmrtí na střelné zbraně vzrostl po přijetí legislativy podporující zbraně, je oko oklamáno, aby si myslelo, že opak je pravdou:
![špatný graf 3](../../../../../translated_images/cs/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![špatný graf 3](../../../../../translated_images/cs/bad-chart-3.e201e2e915a230bc.webp)
Tento podivný graf ukazuje, jak lze manipulovat s proporcemi, a to k humornému efektu:
![špatný graf 4](../../../../../translated_images/cs/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![špatný graf 4](../../../../../translated_images/cs/bad-chart-4.8872b2b881ffa96c.webp)
Porovnávání neporovnatelného je další pochybný trik. Existuje [úžasná webová stránka](https://tylervigen.com/spurious-correlations) plná 'nesmyslných korelací', která zobrazuje 'fakta' korelující například míru rozvodovosti v Maine a spotřebu margarínu. Skupina na Redditu také sbírá [ošklivé použití](https://www.reddit.com/r/dataisugly/top/?t=all) dat.
@ -91,13 +91,13 @@ Označte osy, poskytněte legendu, pokud je to nutné, a nabídněte tooltipy pr
Pokud jsou vaše data textová a na ose X příliš dlouhá, můžete text naklonit pro lepší čitelnost. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) nabízí 3D grafy, pokud vaše data podporují jejich zobrazení. Pomocí této knihovny lze vytvořit sofistikované vizualizace dat.
![3D grafy](../../../../../translated_images/cs/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3D grafy](../../../../../translated_images/cs/3d.db1734c151eee87d.webp)
## Animace a 3D zobrazení grafů
Některé z nejlepších vizualizací dat dnes jsou animované. Shirley Wu vytvořila úžasné vizualizace pomocí D3, například '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kde každá květina představuje vizualizaci filmu. Dalším příkladem pro Guardian je 'bussed out', interaktivní zážitek kombinující vizualizace s Greensock a D3 plus formát článku typu scrollytelling, který ukazuje, jak NYC řeší problém bezdomovectví tím, že lidi vyváží z města.
![busing](../../../../../translated_images/cs/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/cs/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: Jak Amerika přesouvá své bezdomovce" od [Guardianu](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Vizualizace od Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ I když tato lekce není dostatečně podrobná, aby vás naučila používat ty
Dokončíte webovou aplikaci, která zobrazí animovaný pohled na tuto sociální síť. Používá knihovnu, která byla vytvořena pro [vizualizaci sítě](https://github.com/emiliorizzo/vue-d3-network) pomocí Vue.js a D3. Když aplikace běží, můžete uzly na obrazovce přetahovat a měnit jejich uspořádání.
![liaisons](../../../../../translated_images/cs/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/cs/liaisons.90ce7360bcf84765.webp)
## Projekt: Vytvořte graf zobrazující síť pomocí D3.js

@ -1,6 +1,6 @@
# Vizualizace
![včela na květu levandule](../../../translated_images/cs/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![včela na květu levandule](../../../translated_images/cs/bee.0aa1d91132b12e3a.webp)
> Fotografie od <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenny Lee</a> na <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Vizualizace dat je jedním z nejdůležitějších úkolů datového vědce. Obrázky mají hodnotu tisíce slov a vizualizace vám může pomoci identifikovat různé zajímavé aspekty vašich dat, jako jsou výkyvy, odlehlé hodnoty, seskupení, tendence a další, které vám mohou pomoci pochopit příběh, který vaše data vyprávějí.

@ -16,7 +16,7 @@ V tuto chvíli jste si pravděpodobně uvědomili, že datová věda je proces.
Tato lekce se zaměřuje na 3 části životního cyklu: zachycení, zpracování a údržbu.
![Diagram životního cyklu datové vědy](../../../../translated_images/cs/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Diagram životního cyklu datové vědy](../../../../translated_images/cs/data-science-lifecycle.a1e362637503c4fb.webp)
> Foto od [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Zachycení
@ -92,7 +92,7 @@ Prozkoumejte [životní cyklus procesu týmové datové vědy](https://docs.micr
|Proces týmové datové vědy (TDSP)|Průmyslový standardní proces pro dolování dat (CRISP-DM)|
|--|--|
|![Životní cyklus týmové datové vědy](../../../../translated_images/cs/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Obrázek od Data Science Process Alliance](../../../../translated_images/cs/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Životní cyklus týmové datové vědy](../../../../translated_images/cs/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Obrázek od Data Science Process Alliance](../../../../translated_images/cs/CRISP-DM.8bad2b4c66e62aa7.webp) |
| Obrázek od [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Obrázek od [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Kvíz po lekci](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# Životní cyklus datové vědy
![communication](../../../translated_images/cs/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/cs/communication.06d8e2a88d30d168.webp)
> Foto od <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> na <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
V těchto lekcích prozkoumáte některé aspekty životního cyklu datové vědy, včetně analýzy a komunikace kolem dat.

@ -1,12 +1,12 @@
# Data Science v cloudu
![cloud-picture](../../../translated_images/cs/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/cs/cloud-picture.f5526de3c6c6387b.webp)
> Foto od [Jelleke Vanooteghem](https://unsplash.com/@ilumire) z [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Pokud jde o práci s datovou vědou a velkými daty, cloud může být skutečným průlomem. V následujících třech lekcích si vysvětlíme, co je to cloud a proč může být velmi užitečný. Také prozkoumáme dataset o srdečním selhání a vytvoříme model, který pomůže odhadnout pravděpodobnost, že někdo trpí srdečním selháním. Využijeme sílu cloudu k trénování, nasazení a využití modelu dvěma různými způsoby. Jeden způsob bude využívat pouze uživatelské rozhraní v režimu Low code/No code, druhý způsob bude využívat Azure Machine Learning Software Developer Kit (Azure ML SDK).
![project-schema](../../../translated_images/cs/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/cs/project-schema.420e56d495624541.webp)
### Témata

@ -32,7 +32,7 @@ Díky demokratizaci AI je pro vývojáře nyní snazší navrhovat a integrovat
* [Datová věda ve zdravotnictví](https://data-flair.training/blogs/data-science-in-healthcare/) - zdůrazňuje aplikace jako lékařské zobrazování (např. MRI, rentgen, CT-sken), genomiku (sekvenování DNA), vývoj léků (hodnocení rizik, predikce úspěchu), prediktivní analytiku (péče o pacienty a logistika zásob), sledování a prevence nemocí atd.
![Aplikace datové vědy v reálném světě](../../../../translated_images/cs/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Zdroj obrázku: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Aplikace datové vědy v reálném světě](../../../../translated_images/cs/data-science-applications.4e5019cd8790ebac.webp) Zdroj obrázku: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Obrázek ukazuje další oblasti a příklady aplikace technik datové vědy. Chcete prozkoumat další aplikace? Podívejte se na sekci [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) níže.

@ -13,7 +13,7 @@ Rozhraní Explorer (zobrazené na snímku obrazovky níže) vám umožňuje vybr
2. Prozkoumat [katalog datasetů](https://planetarycomputer.microsoft.com/catalog) zjistit účel každého datasetu.
3. Použít Explorer vybrat dataset, který vás zajímá, zvolit relevantní dotaz a možnost vykreslení.
![Explorer Planetary Computer](../../../../translated_images/cs/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![Explorer Planetary Computer](../../../../translated_images/cs/planetary-computer-explorer.c1e95a9b053167d6.webp)
`Váš úkol:`
Nyní prostudujte vizualizaci, která se zobrazí v prohlížeči, a odpovězte na následující otázky:

@ -1,130 +1,140 @@
# Data Science pro začátečníky učební plán
# Data Science pro začátečníky - Kurikulum
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![Otevřít v GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![Licence GitHub](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![Přispěvatelé GitHub](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![Problémy GitHub](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![Pull requesty GitHub](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![Vítáme PR](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Sledující GitHub](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![Rozvětvení GitHub](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![Hvězdy GitHub](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Zástupci Azure Cloud ve společnosti Microsoft s potěšením představují desetitýdenní, dvacetilekční učební plán zaměřený na Data Science. Každá lekce obsahuje kvízy před lekcí a po lekci, psaný návod k dokončení lekce, řešení a úkol. Náš projektově orientovaný způsob výuky umožňuje učit se při tvorbě projektů, což je osvědčený způsob, jak si nové dovednosti skutečně osvojit.
Azure Cloud Advocates ve společnosti Microsoft s potěšením nabízejí 10týdenní, 20lekční kurikulum věnované Data Science. Každá lekce obsahuje před- a po-lekční kvízy, písemné instrukce k dokončení lekce, řešení a úkol. Naše projektově orientovaná pedagogika vám umožní učit se při budování, což je osvědčený způsob, jak si nové dovednosti zapamatovat.
**Srdečné díky našim autorům:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**Upřímné díky našim autorům:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Zvláštní poděkování 🙏 patří našim autorům, recenzentům a přispěvatelům obsahu z řad [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** zejména Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Zvláštní poděkování 🙏 našim [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) autorům, recenzentům a přispěvatelům obsahu,** zejména Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Myšlenková mapa od @sketchthedocs https://sketchthedocs.dev](../../translated_images/cs/00-Title.8af36cd35da1ac55.webp)|
|![Sketchnote od @sketchthedocs https://sketchthedocs.dev](../../translated_images/cs/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Data Science pro začátečníky _Myšlenková mapa od [@nitya](https://twitter.com/nitya)_ |
| Data Science pro začátečníky - _Sketchnote od [@nitya](https://twitter.com/nitya)_ |
### 🌐 Podpora více jazyků
#### Podporováno pomocí GitHub Action (automatizované & stále aktuální)
#### Podporováno pomocí GitHub Action (automatizováno a vždy aktuální)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabština](../ar/README.md) | [Bengálština](../bn/README.md) | [Bulharština](../bg/README.md) | [Barmština (Myanmar)](../my/README.md) | [Čínština (zjednodušená)](../zh-CN/README.md) | [Čínština (tradiční, Hongkong)](../zh-HK/README.md) | [Čínština (tradiční, Macao)](../zh-MO/README.md) | [Čínština (tradiční, Taiwan)](../zh-TW/README.md) | [Chorvatština](../hr/README.md) | [Čeština](./README.md) | [Dánština](../da/README.md) | [Nizozemština](../nl/README.md) | [Estonština](../et/README.md) | [Finština](../fi/README.md) | [Francouzština](../fr/README.md) | [Němčina](../de/README.md) | [Řečtina](../el/README.md) | [Hebrejština](../he/README.md) | [Hindština](../hi/README.md) | [Maďarština](../hu/README.md) | [Indonéština](../id/README.md) | [Italyština](../it/README.md) | [Japonština](../ja/README.md) | [Kannadština](../kn/README.md) | [Korejština](../ko/README.md) | [Litevština](../lt/README.md) | [Malajština](../ms/README.md) | [Malajalámština](../ml/README.md) | [Maráthština](../mr/README.md) | [Nepálština](../ne/README.md) | [Nigerská Pidgin](../pcm/README.md) | [Norština](../no/README.md) | [Perština (Fársí)](../fa/README.md) | [Polština](../pl/README.md) | [Portugalština (Brazílie)](../pt-BR/README.md) | [Portugalština (Portugalsko)](../pt-PT/README.md) | [Paňdžábština (Gurmukhi)](../pa/README.md) | [Rumunština](../ro/README.md) | [Ruština](../ru/README.md) | [Srbština (cyrilice)](../sr/README.md) | [Slovenština](../sk/README.md) | [Slovinština](../sl/README.md) | [Španělština](../es/README.md) | [Svahilština](../sw/README.md) | [Švédština](../sv/README.md) | [Tagalog (filipínština)](../tl/README.md) | [Tamilština](../ta/README.md) | [Telugština](../te/README.md) | [Thajština](../th/README.md) | [Turečtina](../tr/README.md) | [Ukrajinština](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamština](../vi/README.md)
[Arabština](../ar/README.md) | [Bengálština](../bn/README.md) | [Bulharština](../bg/README.md) | [Barmsky (Myanmar)](../my/README.md) | [Čínština (zjednodušená)](../zh-CN/README.md) | [Čínština (tradiční, Hong Kong)](../zh-HK/README.md) | [Čínština (tradiční, Macau)](../zh-MO/README.md) | [Čínština (tradiční, Taiwan)](../zh-TW/README.md) | [Chorvatština](../hr/README.md) | [Čeština](./README.md) | [Dánština](../da/README.md) | [Nizozemština](../nl/README.md) | [Estonština](../et/README.md) | [Finština](../fi/README.md) | [Francouzština](../fr/README.md) | [Němčina](../de/README.md) | [Řečtina](../el/README.md) | [Hebrejština](../he/README.md) | [Hindština](../hi/README.md) | [Maďarština](../hu/README.md) | [Indonéština](../id/README.md) | [Italština](../it/README.md) | [Japonština](../ja/README.md) | [Kannada](../kn/README.md) | [Korejština](../ko/README.md) | [Litevština](../lt/README.md) | [Malajština](../ms/README.md) | [Malajalámština](../ml/README.md) | [Maráthština](../mr/README.md) | [Nepálština](../ne/README.md) | [Nigerijský pidžin](../pcm/README.md) | [Norština](../no/README.md) | [Perština (Farsi)](../fa/README.md) | [Polština](../pl/README.md) | [Portugalština (Brazílie)](../pt-BR/README.md) | [Portugalština (Portugalsko)](../pt-PT/README.md) | [Paňdžábština (Gurmukhi)](../pa/README.md) | [Rumunština](../ro/README.md) | [Ruština](../ru/README.md) | [Srbština (cyrilice)](../sr/README.md) | [Slovenština](../sk/README.md) | [Slovinština](../sl/README.md) | [Španělština](../es/README.md) | [Svahilština](../sw/README.md) | [Švédština](../sv/README.md) | [Tagalog (Filipíny)](../tl/README.md) | [Tamilština](../ta/README.md) | [Telugština](../te/README.md) | [Thajština](../th/README.md) | [Turečtina](../tr/README.md) | [Ukrajinština](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamština](../vi/README.md)
> **Dáváte přednost klonování lokálně?**
> Tento repozitář obsahuje více než 50 jazykových překladů, což výrazně zvyšuje velikost stahování. Pro klonování bez překladů použijte sparse checkout:
> **Radši klonovat lokálně?**
>
> Tento repozitář obsahuje 50+ jazykových překladů, což výrazně zvětšuje velikost stahování. Pro klonování bez překladů použijte sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> Toto vám zajistí vše potřebné k dokončení kurzu s mnohem rychlejším stažením.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> To vám poskytne vše potřebné ke zvládnutí kurzu s mnohem rychlejším stažením.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Pokud si přejete mít podporu dalších jazyků, podporované jazyky najdete [zde](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Pokud chcete podporu dalších jazyků, jsou seznam podporovaných jazyků uveden [zde](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Přidejte se k naší komunitě
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Máme probíhající sérii Learn with AI na Discordu, dozvíte se více a přidejte se k nám na [Learn with AI Series](https://aka.ms/learnwithai/discord) od 18. do 30. září 2025. Získáte tipy a triky používání GitHub Copilot pro Data Science.
Máme probíhající sérii „Learn with AI“ na Discordu, dozvíte se více a připojte se na [Learn with AI Series](https://aka.ms/learnwithai/discord) od 18. do 30. září 2025. Získáte tipy a triky pro používání GitHub Copilot pro Data Science.
![Learn with AI series](../../translated_images/cs/1.2b28cdc6205e26fe.webp)
![Série Learn with AI](../../translated_images/cs/1.2b28cdc6205e26fe.webp)
# Jste student?
Začněte s následujícími zdroji:
- [Stránka Studentského centra](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Na této stránce najdete zdroje pro začátečníky, studentské balíčky a dokonce i způsoby, jak získat bezplatný certifikační voucher. Tuto stránku si určitě uložte mezi záložky a občas ji zkontrolujte, protože obsah obměňujeme alespoň jednou měsíčně.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Přidejte se k mezinárodní komunitě studentských ambasadorů, může to být vaše cesta do Microsoftu.
- [Stránka Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Na této stránce najdete zdroje pro začátečníky, studentské balíčky a dokonce i způsoby, jak získat bezplatný certifikační voucher. Tuto stránku si chcete uložit do záložek a čas od času ji kontrolovat, protože obsah měníme alespoň každý měsíc.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Připojte se k celosvětové komunitě studentských velvyslanců, může to být vaše cesta do Microsoftu.
# Začínáme
## 📚 Dokumentace
- **[Instalační příručka](INSTALLATION.md)** Podrobné pokyny k nastavení pro začátečníky
- **[Příručka k použití](USAGE.md)** Příklady a běžné pracovní postupy
- **[Řešení problémů](TROUBLESHOOTING.md)** Řešení běžných problémů
- **[Příručka přispívání](CONTRIBUTING.md)** Jak přispět do tohoto projektu
- **[Pro učitele](for-teachers.md)** Pokyny k výuce a zdroje pro třídu
- **[Průvodce instalací](INSTALLATION.md)** - Krok za krokem instrukce pro začátečníky
- **[Průvodce používáním](USAGE.md)** - Příklady a běžné pracovní postupy
- **[Řešení problémů](TROUBLESHOOTING.md)** - Řešení běžných problémů
- **[Příručka přispěvatelů](CONTRIBUTING.md)** - Jak přispívat do tohoto projektu
- **[Pro učitele](for-teachers.md)** - Pokyny pro výuku a zdroje do tříd
## 👨‍🎓 Pro studenty
> **Úplní začátečníci**: Jste v oblasti data science nováčkem? Začněte s našimi [příklady vhodnými pro začátečníky](examples/README.md)! Tyto jednoduché, dobře komentované příklady vám pomohou pochopit základy ještě před tím, než se pustíte do celého učebního plánu.
> **[Studenti](https://aka.ms/student-page)**: abyste mohli tento učební plán využívat sami, naklonujte celý repozitář a vypracujte úkoly samostatně, počínaje kvízem před přednáškou. Pak si přečtěte přednášku a dokončete zbývající aktivity. Snažte se projekty vytvářet tak, že lekce pochopíte, místo pouhého kopírování řešení; řešení jsou však k dispozici ve složkách /solutions v každé lekci zaměřené na projekt. Další možností je založit studijní skupinu s přáteli a projít obsah společně. Pro další studium doporučujeme [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Úplní začátečníci**: Noví v oblasti data science? Začněte s našimi [příklady vhodnými pro začátečníky](examples/README.md)! Tyto jednoduché, dobře komentované příklady vám pomohou pochopit základy před tím, než se pustíte do celého kurikula.
> **[Studenti](https://aka.ms/student-page)**: pro samostatné užití tohoto kurikula, forkněte celý repozitář a dokončujte cvičení sami, začněte přednáškovým kvízem. Potom si přečtěte přednášku a dokončete ostatní aktivity. Snažte se projekty vytvářet na základě pochopení lekcí, nikoli pouze kopírováním kódu řešení; kód však najdete ve složkách /solutions v každé lekci orientované na projekt. Další možností je vytvořit studijní skupinu s přáteli a projít obsah spolu. Pro další studium doporučujeme [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Rychlý start:**
1. Podívejte se do [Instalační příručky](INSTALLATION.md) pro nastavení vašeho prostředí
2. Prostudujte [Příručku k použití](USAGE.md), jak pracovat s učebním plánem
1. Podívejte se na [Průvodce instalací](INSTALLATION.md) k nastavení prostředí
2. Prostudujte [Průvodce používáním](USAGE.md), jak s kurikulem pracovat
3. Začněte Lekcí 1 a pokračujte postupně
4. Přidejte se k naší [Discord komunitě](https://aka.ms/ds4beginners/discord) pro podporu
4. Připojte se k naší [Discord komunitě](https://aka.ms/ds4beginners/discord) pro podporu
## 👩‍🏫 Pro učitele
> **Učitelé**: zahrnuli jsme [několik návrhů](for-teachers.md), jak tento učební plán používat. Budeme rádi za vaši zpětnou vazbu [v našem diskusním fóru](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Učitelé**: zahrnuli jsme [některá doporučení](for-teachers.md), jak tento učební plán používat. Budeme rádi za vaši zpětnou vazbu [v našem diskusním fóru](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Seznamte se s týmem
[![Promo video](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Promo video")
**Gif od** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Klikněte na obrázek výše pro video o projektu a lidech, kteří jej vytvořili!
> 🎥 Klikněte na obrázek výše pro video o projektu a lidech, kteří ho vytvořili!
## Pedagogika
Při tvorbě této kurikula jsme zvolili dvě pedagogické zásady: zajistit, aby bylo založeno na projektech, a aby obsahovalo časté kvízy. Na konci této série se studenti naučí základní principy datové vědy, včetně etických konceptů, přípravy dat, různých způsobů práce s daty, vizualizace dat, analýzy dat, reálných případů použití datové vědy a dalších.
Při tvorbě tohoto učebního plánu jsme zvolili dvě pedagogické zásady: zajistit, aby byl založen na projektech, a zahrnout časté kvízy. Na konci tohoto cyklu se studenti naučí základní principy datové vědy, včetně etických konceptů, přípravy dat, různých způsobů práce s daty, vizualizace dat, analýzy dat, reálných případů použití datové vědy a mnohem více.
Navíc nízkorizikový kvíz před hodinou nastavuje záměr studenta učit se dané téma, zatímco druhý kvíz po hodině zajišťuje lepší zapamatování. Toto kurikulum je navrženo tak, aby bylo flexibilní a zábavné a může být absolvováno celé nebo částečně. Projekty začínají malé a postupně se ve 10týdenním cyklu stávají složitějšími.
Navíc nízkorizikový kvíz před hodinou nastavuje záměr studenta k naučení tématu, zatímco druhý kvíz po hodině zajišťuje další zapamatování. Tento učební plán byl navržen tak, aby byl flexibilní a zábavný a může být absolvován celý nebo zčásti. Projekty začínají jednoduše a postupně se během 10týdenního cyklu stávají složitějšími.
> Najděte náš [Kodex chování](CODE_OF_CONDUCT.md), [Pravidla přispívání](CONTRIBUTING.md), [Pokyny k překladům](TRANSLATIONS.md). Vítáme vaši konstruktivní zpětnou vazbu!
> Najděte náš [Kodex chování](CODE_OF_CONDUCT.md), [Příspěvky](CONTRIBUTING.md), [Překlady](TRANSLATIONS.md) a pravidla. Vítáme vaše konstruktivní připomínky!
## Každá lekce obsahuje:
- Nepovinnou sketchnotu
- Nepovinné doplňkové video
- Kvíz na rozehřátí před lekcí
- Psanou lekci
- Pro projektové lekce krok za krokem návody, jak vytvořit projekt
- Zahřívací kvíz před lekcí
- Písemnou lekci
- U projektových lekcí krok za krokem návody, jak projekt vybudovat
- Kontroly znalostí
- Výzvu
- Doplňující čtení
- Zadání
- [Kvíz po lekci](https://ff-quizzes.netlify.app/en/)
> **Poznámka ke kvízům**: Všechny kvízy jsou v složce Quiz-App, je jich celkem 40, každý s třemi otázkami. Jsou propojeny z lekcí, ale kvízovou aplikaci lze spustit lokálně nebo nasadit na Azure; následujte instrukce ve složce `quiz-app`. Postupně se překládají.
> **Poznámka o kvízech**: Všechny kvízy jsou v adresáři Quiz-App, celkem 40 kvízů po třech otázkách. Jsou propojeny v lekcích, ale quiz app lze spustit lokálně nebo nasadit do Azure; postupujte podle pokynů v složce `quiz-app`. Kvízy jsou postupně lokalizovány.
## 🎓 Příklady přátelské k začátečníkům
## 🎓 Příklady vhodné pro začátečníky
**Jste nový v datové vědě?** Vytvořili jsme speciální [adresář příkladů](examples/README.md) s jednoduchým, dobře okomentovaným kódem, který vám pomůže začít:
**Jste nováček v datové vědě?** Vytvořili jsme speciální [adresář příkladů](examples/README.md) s jednoduchým, dobře okomentovaným kódem, který vám pomůže začít:
- 🌟 **Hello World** - Váš první program pro datovou vědu
- 📂 **Načítání dat** - Naučte se číst a prozkoumávat datové sady
- 📊 **Jednoduchá analýza** - Spočítejte statistiky a objevte vzory
- 📈 **Základní vizualizace** - Vytvářejte grafy a diagramy
- 🔬 **Projekt z reálného světa** - Kompletní pracovní postup od začátku do konce
- 🌟 **Hello World** váš první program v datové vědě
- 📂 **Načítání dat** naučte se číst a zkoumat datové sady
- 📊 **Jednoduchá analýza** vypočítejte statistiky a hledejte vzory
- 📈 **Základní vizualizace** vytvářejte grafy a diagramy
- 🔬 **Projekt z reálného světa** kompletní pracovní postup od začátku do konce
Každý příklad obsahuje podrobné komentáře vysvětlující každý krok, což je ideální pro úplné začátečníky!
@ -133,69 +143,69 @@ Každý příklad obsahuje podrobné komentáře vysvětlující každý krok, c
## Lekce
|![ Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/cs/00-Roadmap.4905d6567dff4753.webp)|
|![ Sketchnota od @sketchthedocs https://sketchthedocs.dev](../../translated_images/cs/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Data Science For Beginners: Plán - _Sketchnote od [@nitya](https://twitter.com/nitya)_ |
| Datová věda pro začátečníky: Plán cesty - _Sketchnota od [@nitya](https://twitter.com/nitya)_ |
| Číslo lekce | Téma | Skupina lekcí | Cíle učení | Propojená lekce | Autor |
| Číslo lekce | Téma | Skupina lekcí | Vzdělávací cíle | Propojená lekce | Autor |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Definování datové vědy | [Úvod](1-Introduction/README.md) | Naučte se základní pojmy datové vědy a jak souvisí s umělou inteligencí, strojovým učením a velkými daty. | [lekce](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 01 | Definování datové vědy | [Úvod](1-Introduction/README.md) | Naučit se základní koncepty datové vědy a jak souvisí s umělou inteligencí, strojovým učením a big data. | [lekce](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etika datové vědy | [Úvod](1-Introduction/README.md) | Koncepty, výzvy a rámce etiky dat. | [lekce](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definování dat | [Úvod](1-Introduction/README.md) | Jak jsou data klasifikována a jejich běžné zdroje. | [lekce](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 03 | Definování dat | [Úvod](1-Introduction/README.md) | Jak se data klasifikují a jaké jsou jejich běžné zdroje. | [lekce](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Úvod do statistiky a pravděpodobnosti | [Úvod](1-Introduction/README.md) | Matematické techniky pravděpodobnosti a statistiky pro pochopení dat. | [lekce](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Práce s relačními daty | [Práce s daty](2-Working-With-Data/README.md) | Úvod do relačních dat a základy průzkumu a analýzy relačních dat pomocí strukturovaného dotazovacího jazyka, známého jako SQL (vyslovuje se "ess-kju-el"). | [lekce](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Práce s NoSQL daty | [Práce s daty](2-Working-With-Data/README.md) | Úvod do nerelačních dat, jejich různých typů a základy průzkumu a analýzy dokumentových databází. | [lekce](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 05 | Práce s relačními daty | [Práce s daty](2-Working-With-Data/README.md) | Úvod do relačních dat a základy prozkoumávání a analýzy relačních dat pomocí jazyka SQL (Structured Query Language, vyslovuje se „si-kvel“). | [lekce](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Práce s NoSQL daty | [Práce s daty](2-Working-With-Data/README.md) | Úvod do nereálnací (NoSQL) dat, jejich typů a základy prozkoumávání a analýzy dokumentových databází. | [lekce](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Práce s Pythonem | [Práce s daty](2-Working-With-Data/README.md) | Základy použití Pythonu pro průzkum dat s knihovnami jako Pandas. Doporučuje se základní znalost programování v Pythonu. | [lekce](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Příprava dat | [Práce s daty](2-Working-With-Data/README.md) | Témata týkající se technik čištění a transformace dat k řešení problémů s chybějícími, nepřesnými nebo neúplnými daty. | [lekce](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Vizualizace množství | [Vizualizace dat](3-Data-Visualization/README.md) | Naučte se používat Matplotlib k vizualizaci dat o ptácích 🦆 | [lekce](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Vizualizace rozložení dat | [Vizualizace dat](3-Data-Visualization/README.md) | Vizualizace pozorování a trendů v intervalu. | [lekce](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Vizualizace proporcí | [Vizualizace dat](3-Data-Visualization/README.md) | Vizualizace diskrétních a seskupených procent. | [lekce](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 08 | Příprava dat | [Práce s daty](2-Working-With-Data/README.md) | Techniky čištění a transformace dat k řešení problémů s chybějícími, nepřesnými nebo neúplnými daty. | [lekce](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Vizualizace množství | [Vizualizace dat](3-Data-Visualization/README.md) | Naučte se používat Matplotlib pro vizualizaci dat ptáků 🦆 | [lekce](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Vizualizace rozložení dat | [Vizualizace dat](3-Data-Visualization/README.md) | Vizualizace pozorování a trendů v rámci intervalu. | [lekce](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Vizualizace poměrů | [Vizualizace dat](3-Data-Visualization/README.md) | Vizualizace diskrétních a seskupených procent. | [lekce](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Vizualizace vztahů | [Vizualizace dat](3-Data-Visualization/README.md) | Vizualizace spojení a korelací mezi sadami dat a jejich proměnnými. | [lekce](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Smysluplné vizualizace | [Vizualizace dat](3-Data-Visualization/README.md) | Techniky a návody, jak učinit vaše vizualizace hodnotnými pro efektivní řešení problémů a získání poznatků. | [lekce](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Úvod do životního cyklu datové vědy | [Životní cyklus](4-Data-Science-Lifecycle/README.md) | Úvod do životního cyklu datové vědy a jeho první fáze získávání a extrakce dat. | [lekce](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analýza | [Životní cyklus](4-Data-Science-Lifecycle/README.md) | Tato fáze životního cyklu datové vědy se zaměřuje na techniky analýzy dat. | [lekce](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikace | [Životní cyklus](4-Data-Science-Lifecycle/README.md) | Tato fáze životního cyklu datové vědy se zaměřuje na prezentaci poznatků z dat tak, aby bylo snazší je pochopit rozhodovacím orgánům. | [lekce](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Datová věda v cloudu | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Tato série lekcí představuje datovou vědu v cloudu a její výhody. | [lekce](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 18 | Datová věda v cloudu | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Trénování modelů pomocí nástrojů Low Code. |[lekce](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 19 | Datová věda v cloudu | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Nasazení modelů pomocí Azure Machine Learning Studio. | [lekce](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 20 | Datová věda v praxi | [In the Wild](6-Data-Science-In-Wild/README.md) | Projekty založené na datové vědě v reálném světě. | [lekce](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 13 | Smysluplné vizualizace | [Vizualizace dat](3-Data-Visualization/README.md) | Techniky a pokyny, jak udělat vizualizace cennými pro efektivní řešení problémů a získání poznatků. | [lekce](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Úvod do životního cyklu datové vědy | [Životní cyklus](4-Data-Science-Lifecycle/README.md) | Úvod do životního cyklu datové vědy a jeho první krok získávání a vytahování dat. | [lekce](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analýza | [Životní cyklus](4-Data-Science-Lifecycle/README.md) | Fáze životního cyklu datové vědy zaměřená na techniky analýzy dat. | [lekce](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikace | [Životní cyklus](4-Data-Science-Lifecycle/README.md) | Fáze životního cyklu datové vědy zaměřená na prezentaci poznatků z dat tak, aby byly snadněji pochopitelné pro rozhodující osoby. | [lekce](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Datová věda v cloudu | [Data v cloudu](5-Data-Science-In-Cloud/README.md) | Tato série lekcí představuje datovou vědu v cloudu a její výhody. | [lekce](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 18 | Datová věda v cloudu | [Data v cloudu](5-Data-Science-In-Cloud/README.md) | Trénování modelů pomocí nástrojů Low Code. |[lekce](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 19 | Datová věda v cloudu | [Data v cloudu](5-Data-Science-In-Cloud/README.md) | Nasazení modelů pomocí Azure Machine Learning Studio. | [lekce](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 20 | Datová věda v praxi | [V praxi](6-Data-Science-In-Wild/README.md) | Projekty datové vědy v reálném světě. | [lekce](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Postupujte podle těchto kroků pro otevření tohoto vzoru v Codespace:
1. Klikněte na rozbalovací menu Code a vyberte možnost Open with Codespaces.
2. Vyberte + New codespace v dolní části panelu.
Pro více informací se podívejte na [dokumentaci GitHubu](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
Postupujte podle těchto kroků pro otevření tohoto vzorku v Codespace:
1. Klikněte na rozbalovací menu Kód a vyberte možnost Otevřít v Codespaces.
2. Vyberte + Nový codespace ve spodní části panelu.
Pro více informací si přečtěte [dokumentaci GitHubu](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
## VSCode Remote - kontejnery
Postupujte podle těchto kroků pro otevření tohoto repozitáře v kontejneru pomocí vašeho lokálního počítače a VSCode s rozšířením VS Code Remote - Containers:
1. Pokud používáte vývojový kontejner poprvé, ujistěte se, že váš systém splňuje požadavky (tzn. máte nainstalovaný Docker) v [dokumentaci pro začátečníky](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Pokud používáte vývojářský kontejner poprvé, ujistěte se, že váš systém splňuje předpoklady (např. má nainstalovaný Docker) v [dokumentaci pro začátečníky](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Pro použití tohoto repozitáře můžete repozitář otevřít v izolovaném Docker svazku:
Pro použití tohoto repozitáře můžete buď otevřít repozitář v izolovaném Docker svazku:
**Poznámka**: Pod pokličkou toto používá příkaz Remote-Containers: **Clone Repository in Container Volume...** pro klonování zdrojového kódu do Docker svazku místo lokálního souborového systému. [Svazky](https://docs.docker.com/storage/volumes/) jsou preferovaným mechanismem pro perzistenci dat kontejneru.
**Poznámka**: Pod kapotou bude použito příkazu Remote-Containers: **Clone Repository in Container Volume...** pro naklonování zdrojového kódu do Docker svazku místo lokálního souborového systému. [Svazky](https://docs.docker.com/storage/volumes/) jsou preferovaný mechanismus pro uchovávání dat kontejneru.
Nebo otevřete lokálně klonovanou či staženou verzi repozitáře:
- Naklonujte tento repozitář do svého lokálního souborového systému.
- Stiskněte F1 a vyberte příkaz **Remote-Containers: Open Folder in Container...**.
- Vyberte naklonovanou kopii této složky, počkejte, až se kontejner spustí, a vyzkoušejte to.
- Vyberte klonovanou kopii této složky, počkejte na spuštění kontejneru a vyzkoušejte to.
## Offline přístup
Tuto dokumentaci můžete spustit offline pomocí [Docsify](https://docsify.js.org/#/). Vytvořte fork tohoto repozitáře, [nainstalujte Docsify](https://docsify.js.org/#/quickstart) na svůj počítač, pak v kořenové složce tohoto repozitáře zadejte `docsify serve`. Web bude dostupný na portu 3000 na vašem localhostu: `localhost:3000`.
Tuto dokumentaci můžete spustit offline pomocí [Docsify](https://docsify.js.org/#/). Vytvořte fork tohoto repozitáře, [nainstalujte Docsify](https://docsify.js.org/#/quickstart) na vašem počítači, poté zadejte v kořenové složce tohoto repozitáře příkaz `docsify serve`. Web bude servírován na portu 3000 na vaší localhost adrese: `localhost:3000`.
> Poznámka, zápisníky (notebooks) nebudou renderovány přes Docsify, takže pokud potřebujete notebook spustit, dělejte to zvlášť ve VS Code s Python kernelem.
> Poznámka, notebooky nebudou renderovány přes Docsify, takže když potřebujete spustit notebook, dělejte to zvlášť ve VS Code s běžícím Python kernel.
## Jiná kurikula
## Další učební plány
Náš tým tvoří i další kurikula! Podívejte se:
Náš tým vytváří i další učební plány! Podívejte se na:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain4j pro začátečníky](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js pro začátečníky](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain pro začátečníky](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
@ -204,7 +214,7 @@ Náš tým tvoří i další kurikula! Podívejte se:
[![AZD pro začátečníky](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI pro začátečníky](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP pro začátečníky](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI Agenti pro začátečníky](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI agenti pro začátečníky](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
@ -223,21 +233,21 @@ Náš tým tvoří i další kurikula! Podívejte se:
[![Kybernetická bezpečnost pro začátečníky](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Webový vývoj pro začátečníky](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT pro začátečníky](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![XR vývoj pro začátečníky](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Vývoj XR pro začátečníky](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Série Copilot
[![Copilot pro AI párové programování](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot pro párové programování s AI](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot pro C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot Dobrodružství](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## Získání pomoci
**Setkáváte se s problémy?** Podívejte se na náš [Průvodce odstraňováním problémů](TROUBLESHOOTING.md) pro řešení běžných problémů.
**Máte problémy?** Podívejte se na naši [Příručku řešení problémů](TROUBLESHOOTING.md) pro řešení běžných potíží.
Pokud uvíznete nebo máte jakékoli dotazy ohledně vytváření AI aplikací, připojte se k dalším studentům a zkušeným vývojářům v diskusích o MCP. Je to podporující komunita, kde jsou otázky vítány a znalosti jsou sdíleny volně.
Pokud uvíznete nebo máte jakékoli otázky ohledně tvorby AI aplikací, připojte se ke komunitě dalších studentů a zkušených vývojářů v diskusích o MCP. Je to podpůrná komunita, kde jsou otázky vítány a znalosti se volně sdílejí.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
@ -248,6 +258,6 @@ Pokud máte zpětnou vazbu k produktu nebo narazíte na chyby během vývoje, na
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Upozornění**:
Tento dokument byl přeložen pomocí AI překladatelské služby [Co-op Translator](https://github.com/Azure/co-op-translator). I když usilujeme o přesnost, mějte prosím na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho mateřském jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Nejsme zodpovědní za žádné nedorozumění či chybné interpretace vzniklé z použití tohoto překladu.
**Prohlášení o vyloučení odpovědnosti**:
Tento dokument byl přeložen pomocí AI překladatelské služby [Co-op Translator](https://github.com/Azure/co-op-translator). Přestože usilujeme o přesnost, mějte na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho mateřském jazyce by měl být považován za autoritativní zdroj. Pro kritické informace se doporučuje profesionální lidský překlad. Nepřebíráme odpovědnost za jakákoliv nedorozumění nebo chybné interpretace vyplývající z použití tohoto překladu.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@ Najděte všechny sketchnoty zde!
Nitya Narasimhan, umělkyně
![sketchnote plánu](../../../translated_images/cs/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![sketchnote plánu](../../../translated_images/cs/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "hu"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T11:12:03+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "hu"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-26T15:26:04+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "hu"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T11:12:42+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "hu"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:53:07+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "hu"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T11:13:43+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "hu"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T17:28:40+00:00",
@ -360,8 +378,8 @@
"language_code": "hu"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T08:48:26+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T11:19:09+00:00",
"source_file": "README.md",
"language_code": "hu"
},

@ -6,7 +6,7 @@
---
[![Az adattudomány meghatározása videó](../../../../translated_images/hu/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Az adattudomány meghatározása videó](../../../../translated_images/hu/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Előadás előtti kvíz](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -136,7 +136,7 @@ Ha még bonyolultabbá szeretnénk tenni az elemzést, ábrázolhatjuk az egyes
Ebben a kihívásban megpróbálunk a Data Science területéhez kapcsolódó fogalmakat azonosítani szövegek elemzésével. Egy Wikipedia-cikket fogunk használni a Data Science témájában, letöltjük és feldolgozzuk a szöveget, majd készítünk egy szófelhőt, amely így néz ki:
![Szófelhő a Data Science témában](../../../../translated_images/hu/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Szófelhő a Data Science témában](../../../../translated_images/hu/ds_wordcloud.664a7c07dca57de0.webp)
Látogass el a [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') fájlhoz, hogy átnézd a kódot. A kódot futtathatod is, és valós időben láthatod, hogyan hajtja végre az adattranszformációkat.

@ -5,13 +5,13 @@
"source": [
"# Kihívás: Szövegelemzés az Adattudományról\n",
"\n",
"Ebben a példában végezzünk el egy egyszerű gyakorlatot, amely lefedi az adattudomány hagyományos folyamatának minden lépését. Nem kell kódot írnod, egyszerűen kattints az alábbi cellákra, hogy végrehajtsd őket, és figyeld meg az eredményt. Kihívásként bátorítunk, hogy próbáld ki ezt a kódot különböző adatokkal is.\n",
"Ebben a példában csináljunk egy egyszerű gyakorlatot, ami lefedi egy hagyományos adattudományi folyamat összes lépését. Nem kell kódot írnod, csak kattints a lent látható cellákra, hogy végrehajtsd azokat és megfigyeld az eredményt. Kihívásként ajánljuk, hogy próbáld ki ezt a kódot különböző adatokkal is.\n",
"\n",
"## Cél\n",
"\n",
"Ebben a leckében különböző, az adattudományhoz kapcsolódó fogalmakról beszéltünk. Próbáljunk meg további kapcsolódó fogalmakat felfedezni egy kis **szövegbányászat** segítségével. Egy adattudományról szóló szöveggel kezdünk, kulcsszavakat vonunk ki belőle, majd megpróbáljuk vizualizálni az eredményt.\n",
"Ebben a leckében különböző, az Adattudományhoz kapcsolódó fogalmakat vettünk át. Próbáljunk meg még több kapcsolódó fogalmat felfedezni a **szövegbányászat** segítségével. Egy az Adattudományról szóló szöveggel kezdünk, kivonjuk belőle a kulcsszavakat, majd megpróbáljuk vizualizálni az eredményt.\n",
"\n",
"A szöveghez a Wikipédia Adattudományról szóló oldalát fogom használni:\n"
"Szövegként a Wikipedia Adattudományról szóló oldalát fogom használni:\n"
],
"metadata": {}
},
@ -34,7 +34,7 @@
"source": [
"## 1. lépés: Az adatok beszerzése\n",
"\n",
"Az adatkutatási folyamat első lépése az adatok beszerzése. Ehhez a `requests` könyvtárat fogjuk használni:\n"
"Az adatszolgáltatás első lépése minden adatkutatási folyamatban az adatok beszerzése. Ehhez a `requests` könyvtárat fogjuk használni:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## 2. lépés: Az adatok átalakítása\n",
"\n",
"A következő lépés az adatok olyan formába történő átalakítása, amely alkalmas a feldolgozásra. Esetünkben letöltöttük az oldal HTML forráskódját, és ezt egyszerű szöveggé kell alakítanunk.\n",
"A következő lépés az adatok olyan formára hozatala, amely alkalmas a feldolgozásra. Ebben az esetben letöltöttük az oldal HTML forráskódját, és azt tiszta szöveggé kell alakítanunk.\n",
"\n",
"Számos módja van ennek megvalósítására. Mi a legegyszerűbb beépített [HTMLParser](https://docs.python.org/3/library/html.parser.html) objektumot fogjuk használni Pythonból. Ehhez alosztályt kell létrehoznunk az `HTMLParser` osztályból, és meg kell határoznunk a kódot, amely összegyűjti az összes szöveget a HTML tagek között, kivéve a `<script>` és `<style>` tageket.\n"
"Számos módja van ennek a megvalósítására. Mi a [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) nevű, népszerű Python könyvtárat fogjuk használni a HTML elemzéséhez. A BeautifulSoup lehetővé teszi, hogy konkrét HTML elemekre célozzunk, így a fő cikk tartalmára koncentrálhatunk a Wikipédiából, miközben csökkenthetjük a navigációs menüket, oldalsávokat, lábléceket és egyéb nem releváns tartalmakat (bár néhány sablon szöveg még mindig megmaradhat).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Először telepítenünk kell a BeautifulSoup könyvtárat HTML elemzéshez:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## 3. lépés: Elemzések nyerése\n",
"## 3. lépés: Elemzések készítése\n",
"\n",
"A legfontosabb lépés az, hogy az adatainkat olyan formába hozzuk, amelyből következtetéseket vonhatunk le. Esetünkben kulcsszavakat szeretnénk kinyerni a szövegből, és megvizsgálni, mely kulcsszavak a legjelentősebbek.\n",
"A legfontosabb lépés az, hogy adatainkat olyan formává alakítsuk, amelyből következtetéseket tudunk levonni. Esetünkben kulcsszavakat szeretnénk kivonni a szövegből, és megnézni, mely kulcsszavak a legjelentősebbek.\n",
"\n",
"Egy Python könyvtárat fogunk használni, amelynek neve [RAKE](https://github.com/aneesha/RAKE), kulcsszókivonásra. Először telepítsük ezt a könyvtárat, ha még nincs telepítve:\n"
"Ehhez a kulcsszó-kivonathoz a Python [RAKE](https://github.com/aneesha/RAKE) nevű könyvtárát fogjuk használni. Először is telepítsük ezt a könyvtárat, ha még nincs fent:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"A fő funkció az `Rake` objektumból érhető el, amelyet néhány paraméter segítségével testre szabhatunk. Esetünkben a kulcsszó minimális hosszát 5 karakterre, a kulcsszó minimális gyakoriságát a dokumentumban 3-ra, és a kulcsszó maximális szavainak számát 2-re állítjuk. Nyugodtan kísérletezz más értékekkel, és figyeld meg az eredményt.\n"
"A fő funkció elérhető az `Rake` objektumból, amelyet néhány paraméter segítségével testreszabhatunk. Ebben az esetben a kulcsszó minimális hosszát 5 karakterre, a kulcsszó minimális előfordulását a dokumentumban 3-ra, és a kulcsszóban szereplő szavak maximális számát 2-re állítjuk. Nyugodtan kísérletezz más értékekkel, és figyeld meg az eredményt.\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"Megszereztünk egy listát a kifejezésekről azok fontossági fokával együtt. Ahogy látható, a legrelevánsabb területek, mint például a gépi tanulás és a big data, a lista élén szerepelnek.\n",
"\n",
"Megkaptuk egy fogalmakból álló listát a hozzájuk tartozó fontossági fokkal együtt. Mint látható, a legrelevánsabb tudományterületek, mint a gépi tanulás és a big data, a lista elején találhatók.\n",
"\n",
"## 4. lépés: Az eredmény vizualizálása\n",
"\n",
"Az emberek vizuális formában tudják a legjobban értelmezni az adatokat. Ezért gyakran van értelme az adatok vizualizálásának, hogy bizonyos következtetéseket vonhassunk le. Használhatjuk a `matplotlib` könyvtárat Pythonban, hogy egyszerűen ábrázoljuk a kulcsszavak eloszlását azok relevanciájával együtt:\n"
"Az emberek a legjobban vizuális formában tudják értelmezni az adatokat. Ezért gyakran érdemes az adatokat megjeleníteni, hogy néhány következtetést levonjunk. A Pythonban a `matplotlib` könyvtárat használhatjuk, hogy egyszerű eloszlását ábrázoljuk a kulcsszavaknak a relevanciájukkal együtt:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"Van azonban egy még jobb módja a szavak gyakoriságának vizualizálására - a **Word Cloud** használatával. Szükségünk lesz egy másik könyvtár telepítésére, hogy a kulcsszólistánkból szófelhőt készítsünk.\n"
"Van azonban egy még jobb módja a szós gyakoriságok vizualizálásának - a **Szófelhő** használata. Telepítenünk kell egy másik könyvtárat, hogy a kulcsszólistánkból szófelhőt készíthessünk.\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"A `WordCloud` objektum feladata, hogy vagy az eredeti szöveget, vagy az előre kiszámított szavak listáját azok gyakoriságával fogadja, és egy képet ad vissza, amelyet ezután a `matplotlib` segítségével lehet megjeleníteni:\n"
"A `WordCloud` objektum felelős azért, hogy vagy eredeti szöveget, vagy előre kiszámított szavak listáját azok gyakoriságaival fogadja, és visszaad egy képet, amely ezután megjeleníthető a `matplotlib` használatával:\n"
],
"metadata": {}
},
@ -372,11 +371,11 @@
{
"cell_type": "markdown",
"source": [
"Látható, hogy a szófelhő most sokkal lenyűgözőbb, de ugyanakkor sok zajt is tartalmaz (például olyan nem kapcsolódó szavakat, mint `Retrieved on`). Emellett kevesebb olyan kulcsszót kapunk, amelyek két szóból állnak, mint például *data scientist* vagy *computer science*. Ennek az az oka, hogy a RAKE algoritmus sokkal jobb munkát végez a jó kulcsszavak kiválasztásában a szövegből. Ez a példa jól szemlélteti az adat-előfeldolgozás és tisztítás fontosságát, mivel a végén egy tiszta kép lehetővé teszi számunkra, hogy jobb döntéseket hozzunk.\n",
"Látható, hogy a szófelhő most már lenyűgözőbbnek tűnik, de ugyanakkor sok zajt is tartalmaz (pl. nem kapcsolódó szavakat, mint például a `Retrieved on`). Emellett kevesebb kétszavas kulcsszót kapunk, mint például *data scientist* vagy *computer science*. Ennek oka, hogy a RAKE algoritmus sokkal jobban teljesít a jó kulcsszavak kiválasztásában a szövegből. Ez a példa jól szemlélteti az adatok előfeldolgozásának és tisztításának fontosságát, mert a végén kapott tiszta kép lehetővé teszi a jobb döntéshozatalt.\n",
"\n",
"Ebben a gyakorlatban egy egyszerű folyamatot követtünk végig, amely során némi jelentést nyertünk ki a Wikipédia szövegéből kulcsszavak és szófelhő formájában. Ez a példa meglehetősen egyszerű, de jól bemutatja azokat a tipikus lépéseket, amelyeket egy adatkutató megtesz, amikor adatokkal dolgozik, kezdve az adatgyűjtéstől egészen a vizualizációig.\n",
"Ebben a gyakorlatban átvettünk egy egyszerű folyamatot, amely során jelentést nyerünk a Wikipédia szövegből kulcsszavak és szófelhő formájában. Ez a példa elég egyszerű, de jól bemutatja az összes tipikus lépést, amelyet egy adatkutató megtesz, amikor adatokat kezel, az adatgyűjtéstől egészen a vizualizációig.\n",
"\n",
"A kurzusunk során részletesen megvitatjuk ezeket a lépéseket.\n"
"A tanfolyamunk során mindezeket a lépéseket részletesen meg fogjuk vitatni.\n"
],
"metadata": {}
},
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Felelősség kizárása**: \nEz a dokumentum az AI fordítási szolgáltatás, a [Co-op Translator](https://github.com/Azure/co-op-translator) segítségével lett lefordítva. Bár törekszünk a pontosságra, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az eredeti nyelvén tekintendő hiteles forrásnak. Kritikus információk esetén javasolt professzionális emberi fordítást igénybe venni. Nem vállalunk felelősséget semmilyen félreértésért vagy téves értelmezésért, amely a fordítás használatából eredhet.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Jognyilatkozat**:\nEz a dokumentum az AI fordítószolgáltatás, a [Co-op Translator](https://github.com/Azure/co-op-translator) segítségével készült. Bár igyekszünk a pontosságra, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti, anyanyelvi dokumentum tekintendő hivatalos forrásnak. Fontos információk esetén professzionális emberi fordítást javaslunk. Nem vállalunk felelősséget a fordítás használatából eredő félreértésekért vagy félreértelmezésekért.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +417,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:35:05+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "hu"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# Kihívás: Szövegelemzés az Adattudományról\n",
"# Kihívás: Szövegelemzés az adattudományról\n",
"\n",
"> *Ebben a jegyzetfüzetben különböző URL-ekkel kísérletezünk - a Wikipédia gépi tanulásról szóló cikkével. Látható, hogy az Adattudománnyal ellentétben ez a cikk rengeteg szakkifejezést tartalmaz, ami megnehezíti az elemzést. Ki kell találnunk egy másik módszert az adatok tisztítására a kulcsszavak kinyerése után, hogy megszabaduljunk néhány gyakori, de nem jelentős szókapcsolattól.*\n",
"> *Ebben a jegyzetfüzetben különböző URL-eket a gépi tanulásról szóló Wikipédia cikket próbálunk ki. Látható, hogy az Adattudományhoz képest ez a cikk sok kifejezést tartalmaz, ami problémásabbá teszi az elemzést. Ki kell találnunk egy másik módszert az adatok megtisztítására a kulcsszókinyerés után, hogy megszabaduljunk néhány gyakori, de nem jelentős szókapcsolattól.*\n",
"\n",
"Ebben a példában végezzünk el egy egyszerű gyakorlatot, amely lefedi az adattudomány hagyományos folyamatának minden lépését. Nem kell kódot írnod, egyszerűen kattints az alábbi cellákra, hogy végrehajtsd őket, és figyeld meg az eredményt. Kihívásként arra bátorítunk, hogy próbáld ki ezt a kódot különböző adatokkal.\n",
"Ebben a példában egy egyszerű gyakorlatot végzünk, amely lefedi a hagyományos adattudományi folyamat minden lépését. Nem kell kódot írnia, csak kattintson az alábbi cellákra a végrehajtásukhoz, és figyelje az eredményt. Kihívásként arra ösztönzünk, hogy próbálja ki ezt a kódot más adatokkal is.\n",
"\n",
"## Cél\n",
"\n",
"Ebben a leckében különböző, az Adattudományhoz kapcsolódó fogalmakról beszéltünk. Próbáljunk meg további kapcsolódó fogalmakat felfedezni **szövegbányászat** segítségével. Egy Adattudományról szóló szöveggel kezdünk, kulcsszavakat nyerünk ki belőle, majd megpróbáljuk vizualizálni az eredményt.\n",
"Ebben a leckében különböző, az adattudományhoz kapcsolódó fogalmakról beszéltünk. Próbáljunk meg több kapcsolódó fogalmat felfedezni szövegbányászattal. Kezdjük egy adattudományról szóló szöveggel, nyerjünk ki kulcsszavakat, majd próbáljuk meg megjeleníteni az eredményt.\n",
"\n",
"A szöveghez a Wikipédia Adattudományról szóló oldalát fogom használni:\n"
"Szövegként az adattudományról szóló Wikipédia oldalt fogom használni:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## 1. lépés: Az adatok beszerzése\n",
"\n",
"Az adatelemzési folyamat első lépése az adatok beszerzése. Ehhez a `requests` könyvtárat fogjuk használni:\n"
"Minden adat tudományi folyamat első lépése az adatok beszerzése. Ehhez a `requests` könyvtárat fogjuk használni:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## 2. lépés: Az adatok átalakítása\n",
"\n",
"A következő lépés az adatok olyan formára való átalakítása, amely alkalmas a feldolgozásra. Esetünkben letöltöttük az oldal HTML forráskódját, és ezt egyszerű szöveggé kell alakítanunk.\n",
"A következő lépés az adatok olyan formába alakítása, amely feldolgozásra alkalmas. Esetünkben letöltöttük az oldal HTML forráskódját, és azt sima szöveggé kell alakítanunk.\n",
"\n",
"Számos módja van ennek megvalósítására. Mi a legegyszerűbb, beépített [HTMLParser](https://docs.python.org/3/library/html.parser.html) objektumot fogjuk használni Pythonból. Ehhez alosztályt kell létrehoznunk az `HTMLParser` osztályból, és meg kell határoznunk azt a kódot, amely összegyűjti az összes szöveget a HTML tagek között, kivéve a `<script>` és `<style>` tageket.\n"
"Ennek számos módja létezik. Mi a [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) nevű népszerű Python könyvtárat fogjuk használni a HTML feldolgozására. A BeautifulSoup lehetővé teszi, hogy konkrét HTML elemekre célozzunk, így a Wikipedia fő cikk tartalmára koncentrálhatunk, és csökkenthetjük a navigációs menük, oldalsávok, láblécek és egyéb nem releváns tartalmak mennyiségét (bár némi sablon szöveg még megmaradhat).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Először telepítenünk kell a BeautifulSoup könyvtárat HTML elemzéshez:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## 3. lépés: Elemzések nyerése\n",
"## 3. lépés: Elemzések beszerzése\n",
"\n",
"A legfontosabb lépés az, hogy az adatainkat olyan formába hozzuk, amelyből következtetéseket vonhatunk le. Esetünkben kulcsszavakat szeretnénk kinyerni a szövegből, és megnézni, mely kulcsszavak a legjelentősebbek.\n",
"A legfontosabb lépés, hogy az adatainkat olyan formába alakítsuk, amelyből következtetéseket vonhatunk le. Esetünkben kulcsszavakat szeretnénk kinyerni a szövegből, és megnézni, mely kulcsszavak a legjelentősebbek.\n",
"\n",
"A kulcsszavak kinyeréséhez a [RAKE](https://github.com/aneesha/RAKE) nevű Python könyvtárat fogjuk használni. Először telepítsük ezt a könyvtárat, ha még nincs jelen:\n"
"A kulcsszavak kinyeréséhez a Python [RAKE](https://github.com/aneesha/RAKE) nevű könyvtárát fogjuk használni. Először is telepítsük ezt a könyvtárat, ha még nincs meg:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"A fő funkció az `Rake` objektumból érhető el, amelyet néhány paraméter segítségével testre szabhatunk. Esetünkben a kulcsszó minimális hosszát 5 karakterre, a kulcsszó minimális előfordulási gyakoriságát a dokumentumban 3-ra, és a kulcsszó maximális szószámát 2-re állítjuk. Nyugodtan kísérletezz más értékekkel, és figyeld meg az eredményt.\n"
"A fő funkció az `Rake` objektumból érhető el, amelyet néhány paraméter beállításával testreszabhatunk. Esetünkben a kulcsszó minimális hosszát 5 karakterre, a dokumentumban előforduló kulcsszó minimális gyakoriságát 3-ra, valamint a kulcsszóban szereplő maximális szavak számát 2-re állítjuk be. Nyugodtan próbálkozz más értékekkel is, és figyeld meg az eredményt.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Megszereztünk egy listát a kifejezésekről azok fontossági fokával együtt. Ahogy látható, a legrelevánsabb területek, mint például a gépi tanulás és a big data, a lista élén szerepelnek.\n",
"\n",
"Megkaptunk egy kifejezésekből álló listát a hozzájuk tartozó fontossági fokokkal együtt. Ahogy látható, a legrelevánsabb tudományterületek, mint például a gépi tanulás és a nagy adatok, a lista élén szerepelnek.\n",
"\n",
"## 4. lépés: Az eredmény vizualizálása\n",
"\n",
"Az emberek vizuális formában tudják a legjobban értelmezni az adatokat. Ezért gyakran van értelme az adatok vizualizálásának, hogy bizonyos következtetéseket vonhassunk le. Használhatjuk a `matplotlib` könyvtárat Pythonban, hogy egyszerűen ábrázoljuk a kulcsszavak eloszlását azok relevanciájával együtt:\n"
"Az emberek a legjobban vizuális formában értelmezik az adatokat. Ezért gyakran érdemes az adatokat vizualizálni, hogy bizonyos következtetéseket vonhassunk le. A `matplotlib` könyvtárat használhatjuk Pythonban, hogy egyszerű eloszlást ábrázoljunk a kulcsszavak relevanciájával együtt:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"Van azonban egy még jobb módja a szavak gyakoriságának szemléltetésére - a **Word Cloud** használata. Szükségünk lesz egy másik könyvtár telepítésére, hogy a kulcsszólistánkból szófelhőt készíthessünk.\n"
"Van azonban egy még jobb módja a szavak gyakoriságának vizualizálására **Word Cloud** használatával. A szófelhő ábrázolásához a kulcsszavaink listájából egy másik könyvtárat kell telepítenünk.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"A `WordCloud` objektum felelős azért, hogy vagy az eredeti szöveget, vagy az előre kiszámított szavak listáját azok gyakoriságával fogadja, és egy képet ad vissza, amelyet aztán a `matplotlib` segítségével lehet megjeleníteni:\n"
"A `WordCloud` objektum felelős azért, hogy bevegye az eredeti szöveget, vagy előre kiszámított szavak és azok gyakoriságának listáját, és visszaadjon egy képet, amely aztán megjeleníthető a `matplotlib` használatával:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"Látható, hogy a szófelhő most sokkal lenyűgözőbb, de ugyanakkor sok zajt is tartalmaz (például olyan nem kapcsolódó szavakat, mint `Retrieved on`). Emellett kevesebb olyan kulcsszót kapunk, amelyek két szóból állnak, mint például *data scientist* vagy *computer science*. Ennek az az oka, hogy a RAKE algoritmus sokkal jobb munkát végez a jó kulcsszavak kiválasztásában a szövegből. Ez a példa jól szemlélteti az adat-előfeldolgozás és tisztítás fontosságát, mivel a végén kapott tiszta kép lehetővé teszi számunkra, hogy jobb döntéseket hozzunk.\n",
"Látható, hogy a szófelhő most már sokkal lenyűgözőbbnek tűnik, de sok zajt is tartalmaz (például nem kapcsolódó szavakat, mint a `Retrieved on`). Emellett kevesebb két szóból álló kulcsszót kapunk, mint például *data scientist* vagy *computer science*. Ennek az az oka, hogy a RAKE algoritmus sokkal jobb munkát végez a jó kulcsszavak kiválasztásában a szövegből. Ez a példa szemlélteti az adatelőfeldolgozás és tisztítás fontosságát, mert a végén kapott tiszta kép jobb döntések meghozatalát teszi lehetővé.\n",
"\n",
"Ebben a gyakorlatban egy egyszerű folyamatot követtünk végig, amelynek során némi jelentést vontunk ki a Wikipédia szövegéből kulcsszavak és szófelhő formájában. Ez a példa meglehetősen egyszerű, de jól bemutatja azokat a tipikus lépéseket, amelyeket egy adatkutató megtesz, amikor adatokkal dolgozik, az adatgyűjtéstől egészen a vizualizációig.\n",
"Ebben a gyakorlatban végigmentünk egy egyszerű folyamaton, amely során értelmet nyerünk egy Wikipedia szövegből kulcsszavak és szófelhő formájában. Ez a példa meglehetősen egyszerű, de jól bemutatja mindazokat a tipikus lépéseket, amelyeket egy adatszakértő tesz az adatokkal való munkavégzés során, az adatgyűjtéstől kezdve a vizualizációig.\n",
"\n",
"A kurzusunk során részletesen megvitatjuk ezeket a lépéseket.\n"
"A tanfolyamunk során részletesen meg fogjuk beszélni ezeket a lépéseket.\n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Felelősség kizárása**: \nEz a dokumentum az AI fordítási szolgáltatás, a [Co-op Translator](https://github.com/Azure/co-op-translator) segítségével lett lefordítva. Bár törekszünk a pontosságra, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az eredeti nyelvén tekintendő hiteles forrásnak. Kritikus információk esetén javasolt professzionális emberi fordítást igénybe venni. Nem vállalunk felelősséget semmilyen félreértésért vagy téves értelmezésért, amely a fordítás használatából eredhet.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Felelősségkizárás**:\nEz a dokumentum az [Co-op Translator](https://github.com/Azure/co-op-translator) AI fordító szolgáltatás segítségével készült. Bár a pontosságra törekszünk, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az anyanyelvén tekintendő hivatalos forrásnak. Kritikus információk esetén szakmai, emberi fordítást javasolunk. Nem vállalunk felelősséget az ebből eredő félreértésekért vagy félreértelmezésekért.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +525,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:47:00+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "hu"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
A statisztika és a valószínűségelmélet a matematika két szorosan összefüggő területe, amelyek rendkívül fontosak az adatelemzés szempontjából. Bár lehetséges adatokkal dolgozni mély matematikai ismeretek nélkül, mégis hasznos, ha legalább az alapfogalmakkal tisztában vagyunk. Itt egy rövid bevezetőt nyújtunk, amely segít az indulásban.
[![Bevezető videó](../../../../translated_images/hu/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Bevezető videó](../../../../translated_images/hu/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Előadás előtti kvíz](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Folytonos változók esetén nehezebb leírni a valószínűségi eloszlást, ha
Csak arról beszélhetünk, hogy egy változó egy adott értéktartományba esik, például P(t<sub>1</sub>≤X<t<sub>2</sub>). Ebben az esetben a valószínűségi eloszlást egy **sűrűségfüggvény** p(x) írja le, amelyre igaz, hogy
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/hu/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/hu/probability-density.a8aad29f17a14afb.webp)
Az egyenletes eloszlás folytonos megfelelőjét **folytonos egyenletes eloszlásnak** nevezzük, amely egy véges intervallumon van definiálva. Annak a valószínűsége, hogy az X érték egy l hosszúságú intervallumba esik, arányos l-lel, és legfeljebb 1 lehet.
@ -73,11 +73,11 @@ Amikor valós életből származó adatokat elemzünk, azok gyakran nem véletle
Itt látható egy dobozdiagram, amely az adatok átlagát, mediánját és kvartilisét mutatja:
![Súly dobozdiagram](../../../../translated_images/hu/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Súly dobozdiagram](../../../../translated_images/hu/weight-boxplot.1dbab1c03af26f8a.webp)
Mivel adataink különböző játékos **szerepekről** tartalmaznak információt, készíthetünk szerepenkénti dobozdiagramot is - ez lehetővé teszi számunkra, hogy megértsük, hogyan különböznek az értékek a szerepek között. Ezúttal a magasságot vizsgáljuk:
![Dobozdiagram szerepek szerint](../../../../translated_images/hu/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Dobozdiagram szerepek szerint](../../../../translated_images/hu/boxplot_byrole.036b27a1c3f52d42.webp)
Ez a diagram azt sugallja, hogy átlagosan az első bázisjátékosok magasabbak, mint a második bázisjátékosok. Később az órán megtanuljuk, hogyan tesztelhetjük ezt a hipotézist formálisabban, és hogyan bizonyíthatjuk, hogy adataink statisztikailag szignifikánsak ennek kimutatására.
@ -85,7 +85,7 @@ Ez a diagram azt sugallja, hogy átlagosan az első bázisjátékosok magasabbak
Adataink eloszlásának megértéséhez készíthetünk egy **hisztogramot**. Az X-tengely különböző súlytartományokat (úgynevezett **bin-eket**) tartalmaz, míg a függőleges tengely azt mutatja, hogy véletlen változónk mintája hányszor esett egy adott tartományba.
![Valós adatok hisztogramja](../../../../translated_images/hu/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Valós adatok hisztogramja](../../../../translated_images/hu/weight-histogram.bfd00caf7fc30b14.webp)
Ebből a hisztogramból látható, hogy az összes érték egy bizonyos átlagos súly körül koncentrálódik, és minél távolabb megyünk ettől a súlytól, annál kevesebb ilyen érték fordul elő. Azaz nagyon valószínűtlen, hogy egy baseballjátékos súlya jelentősen eltér az átlagos súlytól. A súlyok szórása azt mutatja, hogy a súlyok mennyire térhetnek el az átlagtól.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
Ha a generált minták hisztogramját ábrázoljuk, nagyon hasonló képet kapunk, mint amit fentebb láttunk. Ha növeljük a minták és a bin-ek számát, egy ideális normális eloszláshoz közelebb álló képet kapunk:
![Normális eloszlás átlag=0 és szórás=1](../../../../translated_images/hu/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Normális eloszlás átlag=0 és szórás=1](../../../../translated_images/hu/normal-histogram.dfae0d67c202137d.webp)
*Normális eloszlás átlag=0 és szórás=1*
@ -222,7 +222,7 @@ array([[1. , 0.52959196],
Esetünkben a 0.53 érték azt jelzi, hogy van némi korreláció egy személy súlya és magassága között. Készíthetünk egy szórási diagramot az egyik értékről a másik ellen, hogy vizuálisan lássuk a kapcsolatot:
![Kapcsolat a súly és magasság között](../../../../translated_images/hu/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Kapcsolat a súly és magasság között](../../../../translated_images/hu/weight-height-relationship.3f06bde4ca2aba99.webp)
> További példák a korrelációra és kovarianciára az [kísérő jegyzetfüzetben](notebook.ipynb) találhatók.

@ -1,6 +1,6 @@
# Bevezetés az adattudományba
![adatok működés közben](../../../translated_images/hu/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![adatok működés közben](../../../translated_images/hu/data.48e22bb7617d8d92.webp)
> Fotó: <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> az <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> oldalán
Ezekben a leckékben felfedezheted, hogyan definiálják az adattudományt, és megismerheted azokat az etikai szempontokat, amelyeket egy adattudósnak figyelembe kell vennie. Emellett megtudhatod, hogyan definiálják az adatokat, és betekintést nyerhetsz a statisztika és valószínűség világába, amelyek az adattudomány alapvető tudományterületei.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Python használata - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
[![Bevezető videó](../../../../translated_images/hu/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Bevezető videó](../../../../translated_images/hu/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Bár az adatbázisok hatékony módot kínálnak az adatok tárolására és lekérdezésére lekérdezési nyelvek segítségével, az adatok feldolgozásának legflexibilisebb módja az, ha saját programot írunk az adatok manipulálására. Sok esetben egy adatbázis-lekérdezés hatékonyabb megoldás lehet. Azonban, ha összetettebb adatfeldolgozásra van szükség, azt nem lehet könnyen SQL segítségével megvalósítani.
Az adatfeldolgozást bármely programozási nyelven meg lehet valósítani, de vannak olyan nyelvek, amelyek magasabb szintűek az adatokkal való munka szempontjából. Az adatelemzők általában az alábbi nyelvek egyikét részesítik előnyben:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Idősor grafikon](../../../../translated_images/hu/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Idősor grafikon](../../../../translated_images/hu/timeseries-1.80de678ab1cf727e.webp)
Tegyük fel, hogy minden héten szervezünk egy baráti összejövetelt, és további 10 csomag fagylaltot viszünk a bulira. Létrehozhatunk egy másik sorozatot, amelyet hetek szerint indexelünk, hogy ezt bemutassuk:
```python
@ -75,7 +75,7 @@ Amikor összeadjuk a két sorozatot, megkapjuk a teljes számot:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Idősor grafikon](../../../../translated_images/hu/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Idősor grafikon](../../../../translated_images/hu/timeseries-2.aae51d575c55181c.webp)
> **Megjegyzés**: Nem használjuk az egyszerű `total_items+additional_items` szintaxist. Ha ezt tennénk, sok `NaN` (*Not a Number*) értéket kapnánk az eredményül kapott sorozatban. Ennek oka, hogy az `additional_items` sorozatban hiányzó értékek vannak néhány indexpontnál, és ha `NaN`-t adunk hozzá bármihez, az eredmény `NaN` lesz. Ezért meg kell adnunk a `fill_value` paramétert az összeadás során.
@ -84,7 +84,7 @@ Az idősorokkal különböző időintervallumokkal is **újramintázhatjuk** a s
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Havi idősor átlagok](../../../../translated_images/hu/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Havi idősor átlagok](../../../../translated_images/hu/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -210,7 +210,7 @@ Az első probléma, amire összpontosítunk, a COVID-19 járvány terjedésének
Mivel meg szeretnénk mutatni, hogyan kell az adatokkal dolgozni, arra kérünk, hogy nyisd meg a [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) fájlt, és olvasd el elejétől a végéig. A cellákat is végrehajthatod, és néhány kihívást is megoldhatsz, amelyeket a végén hagytunk neked.
![COVID Terjedés](../../../../translated_images/hu/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Terjedés](../../../../translated_images/hu/covidspread.f3d131c4f1d260ab.webp)
> Ha nem tudod, hogyan kell kódot futtatni Jupyter Notebookban, nézd meg [ezt a cikket](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ A dataset elemzésének teljes példája a [Text Analytics for Health](https://d
Nyisd meg a [`notebook-papers.ipynb`](notebook-papers.ipynb) fájlt, és olvasd el elejétől a végéig. A cellákat is végrehajthatod, és néhány kihívást is megoldhatsz, amelyeket a végén hagytunk neked.
![Covid Orvosi Kezelés](../../../../translated_images/hu/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Orvosi Kezelés](../../../../translated_images/hu/covidtreat.b2ba59f57ca45fbc.webp)
## Képadatok feldolgozása

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# Adatokkal való munka
![data love](../../../translated_images/hu/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/hu/data-love.a22ef29e6742c852.webp)
> Fotó: <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> az <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> oldalán
Ezekben a leckékben megtanulhatod, hogyan lehet az adatokat kezelni, manipulálni és alkalmazásokban felhasználni. Megismerheted a relációs és nem relációs adatbázisokat, valamint azt, hogyan tárolhatók bennük az adatok. Elsajátíthatod az alapokat a Python használatához az adatok kezelésében, és felfedezheted a számos módot, ahogyan a Python segítségével adatokat kezelhetsz és bányászhatsz.

@ -42,7 +42,7 @@ Készíts egy alap szórásdiagramot, amely bemutatja a méz fontonkénti ára
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![szórásdiagram 1](../../../../translated_images/hu/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![szórásdiagram 1](../../../../translated_images/hu/scatter1.5e1aa5fd6706c5d1.webp)
Most mutasd meg ugyanazt az adatot méz színvilággal, hogy bemutasd, hogyan változik az ár az évek során. Ezt úgy teheted meg, hogy hozzáadsz egy 'hue' paramétert, amely az évről évre történő változást mutatja:
@ -51,7 +51,7 @@ Most mutasd meg ugyanazt az adatot méz színvilággal, hogy bemutasd, hogyan v
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![szórásdiagram 2](../../../../translated_images/hu/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![szórásdiagram 2](../../../../translated_images/hu/scatter2.c0041a58621ca702.webp)
Ezzel a színvilág változtatással egyértelműen látható az évek során a méz fontonkénti árának erős növekedése. Valóban, ha az adatok egy mintáját megvizsgálod (például Arizona államot), láthatod az árak évről évre történő növekedésének mintázatát, néhány kivétellel:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Láthatod, hogy a pontok mérete fokozatosan növekszik.
![szórásdiagram 3](../../../../translated_images/hu/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![szórásdiagram 3](../../../../translated_images/hu/scatter3.3c160a3d1dcb36b3.webp)
Ez egyszerűen a kereslet és kínálat esete? Az olyan tényezők, mint az éghajlatváltozás és a méhcsalád összeomlása miatt kevesebb méz áll rendelkezésre évről évre, és ezért nő az ára?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Válasz: Igen, néhány kivétellel 2003 körül:
![vonaldiagram 1](../../../../translated_images/hu/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![vonaldiagram 1](../../../../translated_images/hu/line1.f36eb465229a3b1f.webp)
✅ Mivel a Seaborn egyetlen vonal köré aggregálja az adatokat, "az x értékeknél lévő többszörös méréseket az átlag és az átlag körüli 95%-os konfidencia intervallum megjelenítésével ábrázolja". [Forrás](https://seaborn.pydata.org/tutorial/relational.html). Ez az időigényes viselkedés kikapcsolható a `ci=None` hozzáadásával.
@ -105,7 +105,7 @@ Kérdés: Nos, 2003-ban láthatunk-e egy ugrást a mézkínálatban? Mi történ
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![vonaldiagram 2](../../../../translated_images/hu/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![vonaldiagram 2](../../../../translated_images/hu/line2.a5b3493dc01058af.webp)
Válasz: Nem igazán. Ha megnézzük a teljes termelést, úgy tűnik, hogy az adott évben valójában növekedett, bár általánosságban a méztermelés csökkenő tendenciát mutat ezekben az években.
@ -130,7 +130,7 @@ sns.relplot(
```
Ebben a vizualizációban összehasonlíthatod a családonkénti hozamot és a méhcsaládok számát évről évre, egymás mellett, 3 oszlopos elrendezéssel:
![facet grid](../../../../translated_images/hu/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/hu/facet.6a34851dcd540050.webp)
Ebben az adatbázisban semmi különös nem tűnik ki a méhcsaládok számával és hozamával kapcsolatban évről évre és államonként. Van-e más módja annak, hogy korrelációt találjunk e két változó között?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![egymásra helyezett diagramok](../../../../translated_images/hu/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![egymásra helyezett diagramok](../../../../translated_images/hu/dual-line.a4c28ce659603fab.webp)
Bár semmi különös nem tűnik ki 2003 körül, ez lehetőséget ad arra, hogy egy kicsit pozitívabb hangvétellel zárjuk a leckét: bár a méhcsaládok száma általánosságban csökken, a méhcsaládok száma stabilizálódik, még ha a családonkénti hozam csökken is.

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Itt telepítjük a `ggplot2` csomagot, majd importáljuk a munkaterületre a `library("ggplot2")` paranccsal. Bármilyen diagramot a ggplotban a `ggplot()` függvénnyel készítünk, és megadjuk az adatállományt, az x és y változókat attribútumként. Ebben az esetben a `geom_line()` függvényt használjuk, mivel vonaldiagramot szeretnénk ábrázolni.
![MaxWingspan-lineplot](../../../../../translated_images/hu/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/hu/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
Mit veszel észre azonnal? Úgy tűnik, van legalább egy kiugró érték - ez elég nagy szárnyfesztáv! Egy 2000+ centiméteres szárnyfesztáv több mint 20 métert jelent - vajon Pterodactylusok kószálnak Minnesotában? Vizsgáljuk meg.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
A szögek megadását a `theme`-ben végezzük, az x és y tengely címkéit pedig a `xlab()` és `ylab()` segítségével adjuk meg. A `ggtitle()` nevet ad a diagramnak/grafikonnak.
![MaxWingspan-lineplot-improved](../../../../../translated_images/hu/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/hu/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
Még a címkék 45 fokos elforgatásával is túl sok van ahhoz, hogy olvasható legyen. Próbáljunk ki egy másik stratégiát: csak a kiugró értékeket címkézzük meg, és helyezzük el a címkéket a diagramon belül. Használhatunk szórásdiagramot, hogy több helyet biztosítsunk a címkézéshez:
@ -91,7 +91,7 @@ Mi történik itt? A `geom_point()` függvényt használjuk szóráspontok ábr
Mit fedezel fel?
![MaxWingspan-scatterplot](../../../../../translated_images/hu/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/hu/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## Szűrd az adataidat
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Létrehoztunk egy új adatkeretet `birds_filtered` néven, majd szórásdiagramot ábrázoltunk. A kiugró értékek kiszűrésével az adataid most összefüggőbbek és érthetőbbek.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/hu/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/hu/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
Most, hogy legalább a szárnyfesztáv szempontjából tisztább adatállományunk van, fedezzünk fel többet ezekről a madarakról.
@ -151,7 +151,7 @@ birds_filtered %>% group_by(Category) %>%
```
A következő kódrészletben telepítjük a [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) és [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) csomagokat, hogy segítsenek az adatok manipulálásában és csoportosításában, majd egy halmozott oszlopdiagramot ábrázolunk. Először csoportosítjuk az adatokat a madár `Category` szerint, majd összesítjük a `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` oszlopokat. Ezután a `ggplot2` csomag segítségével ábrázoljuk az oszlopdiagramot, megadva a különböző kategóriák színeit és címkéit.
![Halmozott oszlopdiagram](../../../../../translated_images/hu/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Halmozott oszlopdiagram](../../../../../translated_images/hu/stacked-bar-chart.0c92264e89da7b39.webp)
Ez az oszlopdiagram azonban olvashatatlan, mert túl sok nem csoportosított adat van. Ki kell választanunk csak azokat az adatokat, amelyeket ábrázolni szeretnénk, így nézzük meg a madarak hosszát kategóriájuk alapján.
@ -166,7 +166,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Először megszámoljuk az egyedi értékeket a `Category` oszlopban, majd egy új adatkeretbe `birds_count` néven rendezzük őket. Ez a rendezett adat ugyanazon szinten van faktorizálva, hogy rendezett módon ábrázoljuk. A `ggplot2` segítségével ezután oszlopdiagramot ábrázolunk. A `coord_flip()` vízszintes oszlopokat ábrázol.
![Kategória-hossz](../../../../../translated_images/hu/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![Kategória-hossz](../../../../../translated_images/hu/category-length.7e34c296690e85d6.webp)
Ez az oszlopdiagram jó képet ad arról, hogy hány madár van az egyes kategóriákban. Egy pillantás alatt látható, hogy ebben a régióban a legtöbb madár a Kacsák/Ludak/Vízimadarak kategóriába tartozik. Minnesota a "10,000 tó földje", így ez nem meglepő!
@ -189,7 +189,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
Csoportosítjuk a `birds_filtered` adatokat `Category` szerint, majd oszlopdiagramot ábrázolunk.
![Adatok összehasonlítása](../../../../../translated_images/hu/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![Adatok összehasonlítása](../../../../../translated_images/hu/comparingdata.f486a450d61c7ca5.webp)
Semmi meglepő: a kolibriknek van a legkisebb MaxLength értéke a pelikánokhoz vagy ludakhoz képest. Jó, ha az adatok logikusak!
@ -201,7 +201,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![Egymásra helyezett értékek](../../../../../translated_images/hu/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![Egymásra helyezett értékek](../../../../../translated_images/hu/superimposed-values.5363f0705a1da416.webp)
## 🚀 Kihívás

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![max hosszúság rendenként](../../../../../translated_images/hu/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![max hosszúság rendenként](../../../../../translated_images/hu/max-length-per-order.e5b283d952c78c12.webp)
Ez egy áttekintést ad a madarak testhosszának eloszlásáról rendenként, de nem a legoptimálisabb módja az igazi eloszlások megjelenítésének. Ezt a feladatot általában hisztogramokkal oldják meg.
@ -48,7 +48,7 @@ A `ggplot2` kiváló eszközöket kínál az adatok eloszlásának vizualizálá
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![eloszlás az egész adathalmazon](../../../../../translated_images/hu/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![eloszlás az egész adathalmazon](../../../../../translated_images/hu/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
Ahogy látható, a több mint 400 madár többsége ebben az adathalmazban 2000 alatti MaxTestTömeg tartományba esik. Mélyebb betekintést nyerhetsz az adatokba, ha a `bins` paramétert magasabb számra, például 30-ra állítod:
@ -56,7 +56,7 @@ Ahogy látható, a több mint 400 madár többsége ebben az adathalmazban 2000
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![eloszlás 30 bin-nel](../../../../../translated_images/hu/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![eloszlás 30 bin-nel](../../../../../translated_images/hu/distribution-30bins.6a3921ea7a421bf7.webp)
Ez a diagram kicsit részletesebb módon mutatja az eloszlást. Egy kevésbé balra torzított diagramot hozhatsz létre, ha csak egy adott tartományon belüli adatokat választasz ki:
@ -68,7 +68,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![szűrt hisztogram](../../../../../translated_images/hu/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![szűrt hisztogram](../../../../../translated_images/hu/filtered-histogram.6bf5d2bfd8253322.webp)
✅ Próbálj ki más szűrőket és adatpontokat. Az adatok teljes eloszlásának megtekintéséhez távolítsd el a `['MaxBodyMass']` szűrőt, hogy címkézett eloszlásokat mutass.
@ -82,7 +82,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Úgy tűnik, hogy van egy várható korreláció a két elem között egy előre látható tengely mentén, egy különösen erős konvergencia ponttal:
![2d diagram](../../../../../translated_images/hu/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2d diagram](../../../../../translated_images/hu/2d-plot.c504786f439bd7eb.webp)
A hisztogramok alapértelmezés szerint jól működnek numerikus adatokkal. Mi van akkor, ha szöveges adatok szerint szeretnéd látni az eloszlásokat?
## Az adathalmaz eloszlásának vizsgálata szöveges adatok alapján
@ -113,7 +113,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![szárnyfesztáv és természetvédelmi státusz](../../../../../translated_images/hu/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![szárnyfesztáv és természetvédelmi státusz](../../../../../translated_images/hu/wingspan-conservation-collation.4024e9aa6910866a.webp)
Úgy tűnik, hogy nincs jó korreláció a minimális szárnyfesztáv és a természetvédelmi státusz között. Tesztelj más elemeket az adathalmazból ezzel a módszerrel. Próbálj ki különböző szűrőket is. Találsz bármilyen korrelációt?
@ -127,7 +127,7 @@ Most dolgozzunk sűrűségdiagramokkal!
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![sűrűségdiagram](../../../../../translated_images/hu/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![sűrűségdiagram](../../../../../translated_images/hu/density-plot.675ccf865b76c690.webp)
Láthatod, hogy a diagram visszatükrözi a korábbi Minimális Szárnyfesztáv adatokat; csak egy kicsit simább. Ha szeretnéd újraalkotni a második diagramon látott MaxTestTömeg "szaggatott" vonalat, nagyon jól kisimíthatod ezt a módszert használva:
@ -135,7 +135,7 @@ Láthatod, hogy a diagram visszatükrözi a korábbi Minimális Szárnyfesztáv
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![testtömeg sűrűség](../../../../../translated_images/hu/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![testtömeg sűrűség](../../../../../translated_images/hu/bodymass-smooth.d31ce526d82b0a1f.webp)
Ha sima, de nem túl sima vonalat szeretnél, szerkeszd az `adjust` paramétert:
@ -143,7 +143,7 @@ Ha sima, de nem túl sima vonalat szeretnél, szerkeszd az `adjust` paramétert:
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![kevésbé sima testtömeg](../../../../../translated_images/hu/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![kevésbé sima testtömeg](../../../../../translated_images/hu/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ Olvass utána az elérhető paramétereknek ehhez a diagramtípushoz, és kísérletezz!
@ -153,7 +153,7 @@ Ez a diagramtípus gyönyörűen magyarázó vizualizációkat kínál. Példáu
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![testtömeg rendenként](../../../../../translated_images/hu/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![testtömeg rendenként](../../../../../translated_images/hu/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 Kihívás

@ -86,7 +86,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Voilá, egy torta diagram, amely bemutatja az adatok arányait a gombák két osztálya szerint. Nagyon fontos, hogy a címkék sorrendje helyes legyen, különösen itt, ezért ellenőrizd a címke tömb létrehozásának sorrendjét!
![torta diagram](../../../../../translated_images/hu/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![torta diagram](../../../../../translated_images/hu/pie1-wb.685df063673751f4.webp)
## Fánkok!
@ -121,7 +121,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![fánk diagram](../../../../../translated_images/hu/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![fánk diagram](../../../../../translated_images/hu/donut-wb.34e6fb275da9d834.webp)
Ez a kód két könyvtárat használ - ggplot2 és webr. A webr könyvtár PieDonut függvényével könnyen készíthetünk fánk diagramot!
@ -158,7 +158,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
A waffle diagram segítségével egyértelműen láthatod a gombakalap színek arányait ebben az adatállományban. Érdekes módon sok zöld kalapú gomba van!
![waffle diagram](../../../../../translated_images/hu/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![waffle diagram](../../../../../translated_images/hu/waffle.aaa75c5337735a6e.webp)
Ebben a leckében három módot tanultál meg az arányok vizualizálására. Először csoportosítanod kell az adatokat kategóriákba, majd eldönteni, hogy melyik a legjobb módja az adatok megjelenítésének - torta, fánk vagy waffle. Mindegyik ínycsiklandó, és azonnali pillanatképet nyújt az adatállományról.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![szórásdiagram 1](../../../../../translated_images/hu/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![szórásdiagram 1](../../../../../translated_images/hu/scatter1.86b8900674d88b26.webp)
Most mutasd meg ugyanazt az adatot méz színsémával, hogy bemutasd, hogyan változik az ár az évek során. Ezt úgy teheted meg, hogy hozzáadsz egy 'scale_color_gradientn' paramétert, amely megmutatja az évről évre történő változást:
@ -52,7 +52,7 @@ Most mutasd meg ugyanazt az adatot méz színsémával, hogy bemutasd, hogyan v
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![szórásdiagram 2](../../../../../translated_images/hu/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![szórásdiagram 2](../../../../../translated_images/hu/scatter2.4d1cbc693bad20e2.webp)
Ezzel a színséma változtatással egyértelműen látható az évek során a méz fontonkénti árának erős növekedése. Valóban, ha az adatbázis egy mintáját megvizsgálod (például Arizona államot), láthatod az árak évről évre történő növekedésének mintázatát, néhány kivétellel:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Láthatod, hogy a pontok mérete fokozatosan növekszik.
![szórásdiagram 3](../../../../../translated_images/hu/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![szórásdiagram 3](../../../../../translated_images/hu/scatter3.722d21e6f20b3ea2.webp)
Ez egyszerűen a kereslet és kínálat esete? Az olyan tényezők, mint az éghajlatváltozás és a kolóniák összeomlása miatt kevesebb méz áll rendelkezésre évről évre, és ezért nő az ára?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Válasz: Igen, néhány kivétellel 2003 körül:
![vonaldiagram 1](../../../../../translated_images/hu/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![vonaldiagram 1](../../../../../translated_images/hu/line1.299b576fbb2a59e6.webp)
Kérdés: Nos, 2003-ban láthatunk egy kiugrást a mézkészletben is? Mi történik, ha megvizsgáljuk a teljes termelést évről évre?
@ -106,7 +106,7 @@ Kérdés: Nos, 2003-ban láthatunk egy kiugrást a mézkészletben is? Mi tört
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![vonaldiagram 2](../../../../../translated_images/hu/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![vonaldiagram 2](../../../../../translated_images/hu/line2.3b18fcda7176ceba.webp)
Válasz: Nem igazán. Ha megnézzük a teljes termelést, úgy tűnik, hogy az valójában növekedett abban az évben, bár általánosságban a méztermelés csökkenő tendenciát mutat ezekben az években.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
Ebben a vizualizációban összehasonlíthatod a kolóniánkénti hozamot és a kolóniák számát évről évre, egymás mellett, 3 oszlopra állítva a wrap-et:
![facet grid](../../../../../translated_images/hu/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/hu/facet.491ad90d61c2a7cc.webp)
Ebben az adatbázisban semmi különös nem tűnik ki a kolóniák számával és hozamával kapcsolatban évről évre és államonként. Van más módja annak, hogy összefüggést találjunk e két változó között?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![egymásra helyezett diagramok](../../../../../translated_images/hu/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![egymásra helyezett diagramok](../../../../../translated_images/hu/dual-line.fc4665f360a54018.webp)
Bár semmi különös nem tűnik ki 2003 körül, ez lehetőséget ad arra, hogy egy kicsit vidámabb hangon zárjuk ezt a leckét: bár a kolóniák száma általánosságban csökken, a kolóniák száma stabilizálódik, még akkor is, ha a kolóniánkénti hozam csökken.

@ -38,25 +38,25 @@ A korábbi leckékben különféle érdekes adatvizualizációkat készítettél
Még ha az adatelemző gondosan választja is ki a megfelelő diagramot az adatokhoz, számos módon lehet az adatokat úgy megjeleníteni, hogy azok egy bizonyos állítást támasszanak alá, gyakran az adatok hitelességének rovására. Számos példát találhatunk megtévesztő diagramokra és infografikákra!
[![Hogyan hazudnak a diagramok - Alberto Cairo](../../../../../translated_images/hu/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Hogyan hazudnak a diagramok")
[![Hogyan hazudnak a diagramok - Alberto Cairo](../../../../../translated_images/hu/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Hogyan hazudnak a diagramok")
> 🎥 Kattints a fenti képre egy konferenciaelőadásért a megtévesztő diagramokról
Ez a diagram megfordítja az X tengelyt, hogy az igazság ellentétét mutassa, az időpontok alapján:
![rossz diagram 1](../../../../../translated_images/hu/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![rossz diagram 1](../../../../../translated_images/hu/bad-chart-1.596bc93425a8ac30.webp)
[Ez a diagram](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) még megtévesztőbb, mivel a szem a jobb oldalra fókuszál, és azt a következtetést vonja le, hogy az idő múlásával a COVID-esetek csökkentek a különböző megyékben. Valójában, ha alaposan megnézed a dátumokat, észreveszed, hogy azokat átrendezték, hogy megtévesztő csökkenő trendet mutassanak.
![rossz diagram 2](../../../../../translated_images/hu/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![rossz diagram 2](../../../../../translated_images/hu/bad-chart-2.62edf4d2f30f4e51.webp)
Ez a hírhedt példa színeket ÉS egy megfordított Y tengelyt használ a megtévesztéshez: ahelyett, hogy azt a következtetést vonnánk le, hogy a fegyveres halálesetek megugrottak a fegyverbarát törvények elfogadása után, a szemünket megtévesztik, hogy az ellenkezőjét higgyük:
![rossz diagram 3](../../../../../translated_images/hu/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![rossz diagram 3](../../../../../translated_images/hu/bad-chart-3.e201e2e915a230bc.webp)
Ez a furcsa diagram azt mutatja, hogyan lehet az arányokat manipulálni, komikus hatást keltve:
![rossz diagram 4](../../../../../translated_images/hu/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![rossz diagram 4](../../../../../translated_images/hu/bad-chart-4.8872b2b881ffa96c.webp)
Az összehasonlíthatatlan dolgok összehasonlítása egy másik árnyas trükk. Van egy [csodálatos weboldal](https://tylervigen.com/spurious-correlations), amely "hamis korrelációkat" mutat be, például a Maine-i válási arány és a margarin fogyasztása közötti "tényeket". Egy Reddit csoport is gyűjti az [adatok csúnya felhasználásait](https://www.reddit.com/r/dataisugly/top/?t=all).
@ -91,13 +91,13 @@ Címkézd fel a tengelyeket, adj meg egy jelmagyarázatot, ha szükséges, és b
Ha az adataid szövegesek és hosszúak az X tengelyen, döntsd meg a szöveget az olvashatóság érdekében. A [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D ábrázolást kínál, ha az adataid támogatják. Kifinomult adatvizualizációk készíthetők vele.
![3D diagramok](../../../../../translated_images/hu/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3D diagramok](../../../../../translated_images/hu/3d.db1734c151eee87d.webp)
## Animáció és 3D diagramok megjelenítése
Napjaink legjobb adatvizualizációi közül néhány animált. Shirley Wu lenyűgöző példákat készített D3-mal, például a '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)'-t, ahol minden virág egy filmet ábrázol. Egy másik példa a Guardian számára készült 'bussed out', egy interaktív élmény, amely vizualizációkat kombinál Greensockkal és D3-mal, valamint egy görgethető cikkformátummal, hogy bemutassa, hogyan kezeli New York City a hajléktalanproblémát az emberek városon kívülre szállításával.
![busing](../../../../../translated_images/hu/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/hu/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: Hogyan mozgatja Amerika a hajléktalanjait" a [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) cikkéből. Vizualizációk: Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Bár ez a lecke nem elég mély ahhoz, hogy megtanítsa ezeket az erőteljes viz
Egy webalkalmazást fogsz elkészíteni, amely animált nézetet jelenít meg erről a társadalmi hálózatról. Egy könyvtárat használ, amelyet egy [hálózat vizualizálására](https://github.com/emiliorizzo/vue-d3-network) hoztak létre Vue.js és D3 segítségével. Amikor az alkalmazás fut, az adatokat a képernyőn húzogatva átrendezheted.
![liaisons](../../../../../translated_images/hu/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/hu/liaisons.90ce7360bcf84765.webp)
## Projekt: Hálózatot ábrázoló diagram készítése D3.js segítségével

@ -1,6 +1,6 @@
# Vizualizációk
![egy méh egy levendulavirágon](../../../translated_images/hu/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![egy méh egy levendulavirágon](../../../translated_images/hu/bee.0aa1d91132b12e3a.webp)
> Fotó: <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> az <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> oldalán

@ -16,7 +16,7 @@ Ezen a ponton valószínűleg már rájöttél, hogy az adattudomány egy folyam
Ez a lecke az életciklus három részére összpontosít: adatgyűjtés, feldolgozás és karbantartás.
![Az adattudomány életciklusának diagramja](../../../../translated_images/hu/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Az adattudomány életciklusának diagramja](../../../../translated_images/hu/data-science-lifecycle.a1e362637503c4fb.webp)
> Fotó: [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Adatgyűjtés
@ -92,7 +92,7 @@ Fedezd fel a [Team Data Science Process életciklust](https://docs.microsoft.com
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
|![Team Data Science Lifecycle](../../../../translated_images/hu/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Data Science Process Alliance Image](../../../../translated_images/hu/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Team Data Science Lifecycle](../../../../translated_images/hu/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Data Science Process Alliance Image](../../../../translated_images/hu/CRISP-DM.8bad2b4c66e62aa7.webp) |
| Kép: [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Kép: [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Előadás utáni kvíz](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# Az Adattudomány Életciklusa
![kommunikáció](../../../translated_images/hu/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![kommunikáció](../../../translated_images/hu/communication.06d8e2a88d30d168.webp)
> Fotó: <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> az <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> oldalán
Ezekben a leckékben az Adattudomány életciklusának néhány aspektusát fogod megismerni, beleértve az adatok elemzését és a kommunikációt.

@ -1,12 +1,12 @@
# Adattudomány a felhőben
![cloud-picture](../../../translated_images/hu/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/hu/cloud-picture.f5526de3c6c6387b.webp)
> Fotó: [Jelleke Vanooteghem](https://unsplash.com/@ilumire) az [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) oldaláról
Amikor nagy adathalmazokkal végzünk adattudományi munkát, a felhő igazi fordulópont lehet. A következő három leckében megnézzük, mi is az a felhő, és miért lehet rendkívül hasznos. Emellett megvizsgálunk egy szívelégtelenséggel kapcsolatos adathalmazt, és készítünk egy modellt, amely segít felmérni valakinek a szívelégtelenség valószínűségét. A felhő erejét fogjuk használni a modell betanítására, telepítésére és használatára két különböző módon. Az egyik módszer kizárólag a felhasználói felületet használja egy Low code/No code megközelítésben, a másik pedig az Azure Machine Learning Software Developer Kit (Azure ML SDK) segítségével történik.
![project-schema](../../../translated_images/hu/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/hu/project-schema.420e56d495624541.webp)
### Témakörök

@ -32,7 +32,7 @@ Az AI demokratizálásának köszönhetően a fejlesztők számára egyre könny
* [Adattudomány az egészségügyben](https://data-flair.training/blogs/data-science-in-healthcare/) - olyan alkalmazásokat emel ki, mint orvosi képalkotás (pl. MRI, röntgen, CT-vizsgálat), genomika (DNS szekvenálás), gyógyszerfejlesztés (kockázatértékelés, siker előrejelzés), prediktív analitika (betegellátás és ellátási logisztika), betegségek nyomon követése és megelőzése stb.
![Adattudomány alkalmazásai a való világban](../../../../translated_images/hu/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Kép forrása: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Adattudomány alkalmazásai a való világban](../../../../translated_images/hu/data-science-applications.4e5019cd8790ebac.webp) Kép forrása: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
A fenti ábra további területeket és példákat mutat be az adattudományi technikák alkalmazására. Szeretnél további alkalmazásokat felfedezni? Nézd meg az [Áttekintés és önálló tanulás](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) szekciót alább.

@ -13,7 +13,7 @@ Az Explorer felület (az alábbi képernyőképen látható) lehetővé teszi, h
2. Fedezd fel az adatállományok [katalógusát](https://planetarycomputer.microsoft.com/catalog) ismerd meg mindegyik célját.
3. Használd az Explorert válassz egy érdekes adatállományt, válassz egy releváns lekérdezést és megjelenítési opciót.
![A Planetary Computer Explorer](../../../../translated_images/hu/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![A Planetary Computer Explorer](../../../../translated_images/hu/planetary-computer-explorer.c1e95a9b053167d6.webp)
`Feladatod:`
Tanulmányozd a böngészőben megjelenített vizualizációt, és válaszolj az alábbiakra:

@ -1,4 +1,4 @@
# Adattudomány kezdőknek Egy tananyag
# Adattudomány kezdőknek Tanterv
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
@ -17,181 +17,190 @@
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
A Microsoft Azure Cloud Advocates örömmel kínál egy 10 hetes, 20 leckéből álló tananyagot, amely kizárólag az adattudománnyal foglalkozik. Minden leckéhez tartozik elő- és utóteszt, írásos utasítások a lecke elvégzéséhez, megoldás és egy feladat. Projektalapú oktatásunk lehetővé teszi, hogy tanulj miközben építesz, ami bevált módszer az új készségek elsajátítására.
A Microsoft Azure Cloud Advocates örömmel kínál egy 10 hetes, 20 leckéből álló tantervet, amely teljes egészében az adattudományról szól. Minden leckéhez tartozik elő- és utóvizsga, írott útmutató a lecke elvégzéséhez, megoldás és feladat. Projektalapú tanítási módszerünk lehetővé teszi, hogy tanulás közben építsd fel a tudásodat, ami bevált módja az új készségek „megragadásának”.
**Köszönet szerzőinknek:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**Hálás köszönet a szerzőinknek:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Külön köszönet 🙏 a [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) szerzőinek, lektorainak és tartalomközreműködőinek,** köztük Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Külön köszönet 🙏 [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) szerzőinknek, lektorainknak és tartalomszolgáltatóinknak,** különösen Aaryan Arorának, [Aditya Garg](https://github.com/AdityaGarg00) -nak, [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/) -nak, [Ankita Singh](https://www.linkedin.com/in/ankitasingh007) -nek, [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/) -nak, [Arpita Das](https://www.linkedin.com/in/arpitadas01/) -nak, ChhailBihari Dubey-nek, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor) -nak, [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb) -nek, [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/hu/00-Title.8af36cd35da1ac55.webp)|
|![Szabadkézi jegyzet @sketchthedocs https://sketchthedocs.dev által](../../translated_images/hu/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Adattudomány kezdőknek _Vázlat @nitya ([https://twitter.com/nitya](https://twitter.com/nitya))_ |
| Adattudomány kezdőknek - _Szabadkézi jegyzet [@nitya](https://twitter.com/nitya) által_ |
### 🌐 Többnyelvű támogatás
#### GitHub Action révén támogatott (automatikus és mindig naprakész)
#### GitHub Action révén támogatott (Automatizált & Mindig naprakész)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](./README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
[Arab](../ar/README.md) | [Bengáli](../bn/README.md) | [Bolgár](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Kínai (Egyszerűsített)](../zh-CN/README.md) | [Kínai (Hagyományos, Hongkong)](../zh-HK/README.md) | [Kínai (Hagyományos, Makaó)](../zh-MO/README.md) | [Kínai (Hagyományos, Tajvan)](../zh-TW/README.md) | [Horvát](../hr/README.md) | [Cseh](../cs/README.md) | [Dán](../da/README.md) | [Holland](../nl/README.md) | [Észt](../et/README.md) | [Finn](../fi/README.md) | [Francia](../fr/README.md) | [Német](../de/README.md) | [Görög](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Magyar](./README.md) | [Indonéz](../id/README.md) | [Olasz](../it/README.md) | [Japán](../ja/README.md) | [Kannada](../kn/README.md) | [Koreai](../ko/README.md) | [Litván](../lt/README.md) | [Maláj](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepáli](../ne/README.md) | [Nigériai Pidgin](../pcm/README.md) | [Norvég](../no/README.md) | [Perzsa (Farsi)](../fa/README.md) | [Lengyel](../pl/README.md) | [Portugál (Brazília)](../pt-BR/README.md) | [Portugál (Portugália)](../pt-PT/README.md) | [Pandzsábi (Gurmukhi)](../pa/README.md) | [Román](../ro/README.md) | [Orosz](../ru/README.md) | [Szerb (Cirill)](../sr/README.md) | [Szlovák](../sk/README.md) | [Szlovén](../sl/README.md) | [Spanyol](../es/README.md) | [Svahili](../sw/README.md) | [Svéd](../sv/README.md) | [Tagalog (Filippínó)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Török](../tr/README.md) | [Ukrán](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnami](../vi/README.md)
> **Szeretnéd helyben klónozni?**
> Ez a tár több mint 50 nyelvre fordított változatot tartalmaz, ami jelentősen megnöveli a letöltési méretet. Ha a fordítások nélkül szeretnéd klónozni, használd a sparse checkoutot:
> **Előnyben részesíted a helyi klónozást?**
>
> Ez a tárhely 50+ nyelvű fordítást tartalmaz, ami jelentősen megnöveli a letöltési méretet. Ha fordítások nélkül szeretnéd letölteni, használd a szelektív checkoutot:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Ez mindent megad, amire szükséged van a tanfolyam elvégzéséhez, sokkal gyorsabb letöltéssel.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Ha további fordítási nyelveket szeretnél, azok fel vannak sorolva [itt](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Ha további fordítási nyelveket szeretnél, a támogatott nyelvek itt találhatók: [itt](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Csatlakozz közösségünkhöz
#### Csatlakozz közösségünkhöz
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Jelenleg is fut egy Discord-os AI tanuló sorozatunk, tanulj többet és csatlakozz hozzánk szeptember 18-30 között a [Learn with AI Series](https://aka.ms/learnwithai/discord) oldalon. Tippeket és trükköket kapsz a GitHub Copilot adattudományban való használatáról.
Discord tanulj AI-val sorozatunk folyamatos, ismerd meg és csatlakozz hozzánk a [Learn with AI Series](https://aka.ms/learnwithai/discord) oldalon 2025. szeptember 18-30 között. Tippeket és trükköket kapsz a GitHub Copilot használatához adattudományban.
![Learn with AI series](../../translated_images/hu/1.2b28cdc6205e26fe.webp)
![Tanulj AI-val sorozat](../../translated_images/hu/1.2b28cdc6205e26fe.webp)
# Diák vagy?
Kezdd a következő forrásokkal:
Indulj el az alábbi forrásokkal:
- [Diák-központ oldal](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Itt megtalálod a kezdőknek szóló anyagokat, diákcsomagokat, sőt ingyenes minősítésigénylési lehetőségeket is. Érdemes elmentened ezt az oldalt, és időről időre visszanézni, mivel havonta frissítjük a tartalmat.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Csatlakozz a diák nagykövetek globális közösségéhez, ez lehet a kapud a Microsofthoz.
- [Diák központ oldal](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Ezen az oldalon kezdő erőforrásokat, diákcsomagokat, sőt módokat is találsz ingyenes tanúsítvány utalvány megszerzésére. Ezt az oldalt érdemes könyvjelzőzni és időről időre megnézni, mert legalább havonta frissítjük a tartalmat.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Csatlakozz egy globális diákközösséghez, ez lehet a belépőd a Microsofthoz.
# Első lépések
# Kezdés
## 📚 Dokumentáció
- **[Telepítési útmutató](INSTALLATION.md)** Lépésről lépésre útmutató kezdőknek a beállításhoz
- **[Telepítési útmutató](INSTALLATION.md)** Lépésről lépésre szóló beállítási útmutató kezdőknek
- **[Használati útmutató](USAGE.md)** Példák és gyakori munkafolyamatok
- **[Hibaelhárítás](TROUBLESHOOTING.md)** Gyakori problémák megoldásai
- **[Közreműködési útmutató](CONTRIBUTING.md)** Hogyan járulhatsz hozzá ehhez a projekthez
- **[Tanároknak](for-teachers.md)** Oktatási útmutató és osztálytermi anyagok
- **[Hozzájárulási útmutató](CONTRIBUTING.md)** Hogyan járulhatsz hozzá ehhez a projekthez
- **[Tanári segédanyagok](for-teachers.md)** Oktatási útmutatók és tantermi erőforrások
## 👨‍🎓 Diákoknak
> **Teljes kezdőknek**: Új vagy az adattudományban? Kezdd a [kezdőbarát példáinkkal](examples/README.md)! Ezek az egyszerű, jól kommentált példák segítenek megérteni az alapokat, mielőtt belevágnál az egész tananyagba.
> **[Diákok](https://aka.ms/student-page)**: hogy egyedül használd ezt a tananyagot, forkold le az egész repót és végezd el a feladatokat egymás után, kezdve egy előadás előtti teszttel. Olvasd el az előadást és végezd el a további tevékenységeket. Próbáld megérteni az leckéket és azok alapján létrehozni a projekteket, ahelyett, hogy csak a megoldás kódját másolnád; ez a kód ugyanakkor elérhető a /solutions mappákban minden projekt-orientált leckénél. Egy másik ötlet, hogy barátokkal tanulócsoportot alkotva közösen menjétek végig a tartalmat. További tanuláshoz ajánljuk a [Microsoft Learnt](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Teljesen kezdőknek:** Új vagy az adattudományban? Kezdd a [kezdőbarát példáinkkal](examples/README.md)! Ezek az egyszerű, jól kommentált példák segítenek megérteni az alapokat, mielőtt belevágsz az egész tantervbe.
> **[Diákok](https://aka.ms/student-page):** hogy önállóan használd ezt a tantervet, forkolj le az egész repót, és végezd el egyedül a gyakorlatokat, kezdve egy előadás előtti kvízzel. Ezután olvasd el az előadást, és végezd el a többi tevékenységet. Próbáld meg a projekteket a leckék megértésével elkészíteni, ne csak másold a megoldás kódokat; ez a kód azonban elérhető a /solutions mappákban minden projektorientált leckénél. Egy másik ötlet lehet barátokkal tanulócsoportot alakítani és együtt átmenni a tartalmon. További gyakorláshoz ajánljuk a [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) szolgáltatást.
**Gyors kezdés:**
1. Nézd meg a [Telepítési útmutatót](INSTALLATION.md) a környezeted beállításához
2. Tanulmányozd a [Használati útmutatót](USAGE.md), hogy megtudd, hogyan dolgozz a tananyaggal
3. Kezdd az 1. leckével és haladj sorban
4. Csatlakozz [Discord közösségünkhöz](https://aka.ms/ds4beginners/discord) segítségért
1. Nézd át a [Telepítési útmutatót](INSTALLATION.md), hogy beállítsd a környezetedet
2. Tekintsd át a [Használati útmutatót](USAGE.md), hogy megtanuld kezelni a tananyagot
3. Kezdj az 1. leckével, és haladj sorban
4. Csatlakozz Discord közösségünkhöz támogatásért: [Discord közösség](https://aka.ms/ds4beginners/discord)
## 👩‍🏫 Tanároknak
> **Tanárok**: [beletettünk néhány javaslatot](for-teachers.md) arra vonatkozóan, hogyan használjátok ezt a tananyagot. Nagyon örülnénk a visszajelzéseteknek [a vitafórumunkon](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Tanárként**: [megtalálod benne az ajánlásokat](for-teachers.md), hogyan használd ezt a tananyagot. Nagyon örülnénk, ha visszajelzést adnál [a vitafórumunkon](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Ismerd meg a csapatot
[![Promóciós videó](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Promóciós videó")
**Gif készítője:** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Kattints a fenti képre, hogy megnézd a projektet és az azt létrehozó embereket bemutató videót!
> 🎥 Kattints a fenti képre egy videóért a projektről és az alkotóiról!
## Pedagógia
Két pedagógiai alapelvet választottunk ennek a tantervnek az elkészítésekor: hogy projektalapú legyen, és hogy gyakori kvízeket tartalmazzon. A sorozat végére a diákok elsajátítják az adattudomány alapelveit, beleértve az etikai fogalmakat, az adatok előkészítését, az adatkezelés különböző módjait, az adatvizualizációt, az adatelemzést, az adattudomány valódi alkalmazási eseteit és még sok mást.
A tananyag felépítése során két pedagógiai alaptételt választottunk: hogy projektalapú legyen, és hogy gyakori kvízeket tartalmazzon. A sorozat végére a tanulók elsajátítják az adattudomány alapelveit, beleértve az etikai fogalmakat, adat-előkészítést, az adatokkal való különféle munkamódszereket, adatvizualizációt, adatelemzést, az adattudomány valós világban való alkalmazási eseteit és még sok mást.
Ezen felül, egy alacsony tétű kvíz az óra előtt beállítja a tanuló szándékát a tématankulásra, míg egy második kvíz az óra után biztosítja a tudás további megerősítését. Ez a tanterv rugalmas és szórakoztató, az egész teljes egészében vagy részletekben is elsajátítható. A projektek kicsiben kezdődnek és a 10 hetes ciklus végére egyre összetettebbé válnak.
Ezen felül az óra előtti alacsony kockázatú kvíz beállítja a tanuló szándékát egy téma megismerésére, míg a második kvíz az óra után segíti a további megőrzést. A tananyagot rugalmasra és szórakoztatóra terveztük, és egészében vagy részleteiben is elvégezhető. A projektek kicsiben indulnak, és a 10 hetes ciklus végére egyre összetettebbé válnak.
> Találd meg [Viselkedési kódexünket](CODE_OF_CONDUCT.md), [Hozzájárulási útmutatónkat](CONTRIBUTING.md), [Fordítási irányelveinket](TRANSLATIONS.md)! Várjuk építő jellegű visszajelzéseidet!
> Találd meg a [Magatartási kódexünket](CODE_OF_CONDUCT.md), a [Hozzájárulási](CONTRIBUTING.md) és a [Fordítási](TRANSLATIONS.md) irányelveket. Várjuk építő jellegű visszajelzéseiteket!
## Minden leckében szerepel:
## Minden lecke tartalmazza:
- Opcionális rajzjegyzet
- Opcionális összefoglaló
- Opcionális kiegészítő videó
- Óra előtti bemelegítő kvíz
- Írott lecke
- Projektalapú leckékhez lépésről lépésre útmutató a projekt elkészítéséhez
- Tudásellenőrző feladatok
- Projektalapú leckékhez lépésről lépésre útmutatók a projekt elkészítéséhez
- Tudásellenőrzések
- Egy kihívás
- Kiegészítő olvasnivaló
- Feladat
- Kiegészítő olvasmány
- [Óra utáni kvíz](https://ff-quizzes.netlify.app/en/)
> **Megjegyzés a kvízekről**: Minden kvíz a Quiz-App mappában található, összesen 40 kvíz, mindegyik három kérdéssel. A leckékből vannak összekapcsolva, de a kvíz alkalmazás helyileg is futtatható vagy Azure-ra telepíthető; kövesd az útmutatót a `quiz-app` mappában. Folyamatosan lokalizálás alatt állnak.
> **Megjegyzés a kvízekről**: Minden kvíz a Quiz-App mappában található, összesen 40, három kérdésből álló kvíz. Ezek be vannak linkelve a leckékben, de a kvízalkalmazás helyileg is futtatható vagy telepíthető az Azure-ba; kövesd az útmutatást a `quiz-app` mappában. Folyamatosan lokalizáljuk őket.
## 🎓 Kezdőbarát példák
## 🎓 Kezdőknek szánt példák
**Új vagy az adattudományban?** Létrehoztunk egy külön [példakönyvtárat](examples/README.md), egyszerű és jól kommentált kódokkal, hogy segítsen elindulni:
**Új vagy az adatelemzésben?** Külön [példakönyvtárat](examples/README.md) hoztunk létre egyszerű, jól kommentált kóddal, hogy segítsünk az indulásban:
- 🌟 **Hello World** - Az első adattudományi programod
- 📂 **Adatok betöltése** - Tanuld meg beolvasni és felfedezni az adatállományokat
- 📊 **Egyszerű elemzés** - Statisztikák számítása és mintázatok keresése
- 📈 **Alapvető vizualizáció** - Készíts diagramokat és grafikonokat
- 🔬 **Valódi projekt** - Teljes munkafolyamat kezdőtől végéig
- 🌟 **Hello World** - Az első adatelemző programod
- 📂 **Adatok betöltése** - Tanuld meg adatállományok olvasását és feltérképezését
- 📊 **Egyszerű elemzés** - Statisztikák számítása és minták keresése
- 📈 **Alapvető vizualizáció** - Diagramok és grafikonok készítése
- 🔬 **Valós projektek** - Teljes munkafolyamat az elejétől a végéig
Minden példában részletes kommentárok magyarázzák el az egyes lépéseket, így tökéletes az abszolút kezdőknek!
Minden példa részletes kommentárokat tartalmaz, amelyek minden lépést elmagyaráznak, így tökéletesek abszolút kezdőknek!
👉 **[Kezdj a példákkal](examples/README.md)** 👈
## Leckék
|![ Rajzjegyzet készítette: @sketchthedocs https://sketchthedocs.dev](../../translated_images/hu/00-Roadmap.4905d6567dff4753.webp)|
|![ Összefoglaló @sketchthedocs https://sketchthedocs.dev](../../translated_images/hu/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Adattudomány kezdőknek: Útvonalterv - _Rajzjegyzet készítette: [@nitya](https://twitter.com/nitya)_ |
| Adatelemzés kezdőknek: Útvonalterv - _Összefoglaló [@nitya](https://twitter.com/nitya) tollából_ |
| Lecke száma | Téma | Lecke csoportosítás | Tanulási célok | Kapcsolódó lecke | Szerző |
| Lecke száma | Téma | Lecke csoportosítás | Tanulási célok | Link a leckéhez | Szerző |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Az adattudomány meghatározása | [Bevezető](1-Introduction/README.md) | Ismerkedés az adattudomány alapfogalmaival, valamint a mesterséges intelligencia, gépi tanulás és big data kapcsolatával. | [lecke](1-Introduction/01-defining-data-science/README.md) [videó](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Az adattudomány etikája | [Bevezető](1-Introduction/README.md) | Az adat-etika fogalmai, kihívásai és keretrendszerei. | [lecke](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Az adatok meghatározása | [Bevezető](1-Introduction/README.md) | Hogyan osztályozzuk az adatokat és milyen gyakori forrásaik vannak. | [lecke](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Statisztika és valószínűség alapjai | [Bevezető](1-Introduction/README.md) | A valószínűség és statisztika matematikai módszerei az adatok megértéséhez. | [lecke](1-Introduction/04-stats-and-probability/README.md) [videó](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Relációs adatok kezelése | [Adatkezelés](2-Working-With-Data/README.md) | Bevezetés a relációs adatokba és az SQL (Structured Query Language, kiejtve "szí-kel") alapjaiba az adatok feltárására és elemzésére. | [lecke](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL adatok kezelése | [Adatkezelés](2-Working-With-Data/README.md) | Bevezetés a nem-relációs adatok típusaihoz és a dokumentum adatbázisok feltárásának, elemzésének alapjaihoz. | [lecke](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Python használata | [Adatkezelés](2-Working-With-Data/README.md) | A Python alapjai adatfeltáráshoz, például a Pandas könyvtár használata. Ajánlott az alapvető Python programozási ismeretek megszerzése. | [lecke](2-Working-With-Data/07-python/README.md) [videó](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Adatelőkészítés | [Adatkezelés](2-Working-With-Data/README.md) | Adattisztítási és átalakítási technikák a hiányos, pontatlan vagy töredékes adatok kezelése érdekében. | [lecke](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Mennyiségek vizualizálása | [Adatvizualizáció](3-Data-Visualization/README.md) | Tanuld meg a Matplotlib használatát madáradatok 🦆 vizualizálásához | [lecke](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Adatok eloszlásának ábrázolása | [Adatvizualizáció](3-Data-Visualization/README.md) | Megfigyelések és trendek vizualizálása egy intervallumon belül. | [lecke](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Arányok vizualizálása | [Adatvizualizáció](3-Data-Visualization/README.md) | Diszkrét és csoportosított százalékok vizualizálása. | [lecke](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Kapcsolatok vizualizálása | [Adatvizualizáció](3-Data-Visualization/README.md) | Adathalmazok és változóik közötti kapcsolatok, korrelációk ábrázolása. | [lecke](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Értelmes vizualizációk | [Adatvizualizáció](3-Data-Visualization/README.md) | Technikák és útmutatók arra, hogyan tegyük vizualizációinkat hasznossá hatékony problémamegoldáshoz és betekintéshez. | [lecke](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Bevezetés az adattudományi életciklusba | [Életciklus](4-Data-Science-Lifecycle/README.md) | Bevezetés az adattudományi életciklusba és az első lépésbe, amely az adatok beszerzése és kinyerése. | [lecke](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Elemzés | [Életciklus](4-Data-Science-Lifecycle/README.md) | Az életciklus ezen szakasza az adatelemzési technikákra fókuszál. | [lecke](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Kommunikáció | [Életciklus](4-Data-Science-Lifecycle/README.md) | Az életciklus ezen szakasza az adatokból származó eredmények bemutatására koncentrál, hogy az döntéshozók számára könnyebben érthető legyen. | [lecke](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Adattudomány a felhőben | [Felhő alapú adatok](5-Data-Science-In-Cloud/README.md) | Ez a leckesorozat bevezeti az adattudományt a felhőben és annak előnyeit. | [lecke](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) és [Maud](https://twitter.com/maudstweets) |
| 18 | Adattudomány a felhőben | [Felhő alapú adatok](5-Data-Science-In-Cloud/README.md) | Alacsony kódú (Low Code) eszközökkel modelltréning. |[lecke](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) és [Maud](https://twitter.com/maudstweets) |
| 19 | Adattudomány a felhőben | [Felhő alapú adatok](5-Data-Science-In-Cloud/README.md) | Modellek telepítése az Azure Machine Learning Studio segítségével. | [lecke](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) és [Maud](https://twitter.com/maudstweets) |
| 20 | Adattudomány a gyakorlatban | [A valóságban](6-Data-Science-In-Wild/README.md) | Adattudományi projektek a valós világban. | [lecke](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 01 | Adatelemzés meghatározása | [Bevezetés](1-Introduction/README.md) | Tanuld meg az adatelemzés alapfogalmait és hogy mi a kapcsolata a mesterséges intelligenciával, gépi tanulással és a big datával. | [lecke](1-Introduction/01-defining-data-science/README.md) [videó](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Adatelemzési etika | [Bevezetés](1-Introduction/README.md) | Az adatetikával kapcsolatos fogalmak, kihívások és keretrendszerek. | [lecke](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Adat meghatározása | [Bevezetés](1-Introduction/README.md) | Hogyan osztályozzuk az adatokat és milyen gyakori forrásaik vannak. | [lecke](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Bevezetés a statisztikába és valószínűségszámításba | [Bevezetés](1-Introduction/README.md) | A valószínűség és statisztika matematikai módszerei az adatok megértéséhez. | [lecke](1-Introduction/04-stats-and-probability/README.md) [videó](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Relációs adatok kezelése | [Adatok kezelése](2-Working-With-Data/README.md) | Bevezetés a relációs adatokba és alapok a relációs adatok felfedezéséhez és elemzéséhez a Strukturált Lekérdező Nyelv, azaz SQL (ejtsd: "szíkvel") segítségével. | [lecke](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Nem relációs adatok kezelése | [Adatok kezelése](2-Working-With-Data/README.md) | Bevezetés a nem relációs adatokba, ezek fajtáiba és a dokumentum adatbázisok felfedezésének, elemzésének alapjaiba. | [lecke](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Python használata | [Adatok kezelése](2-Working-With-Data/README.md) | Python alapjai adatfeltárásra, például a Pandas könyvtárakkal. Ajánlott a Python programozás alapjainak ismerete. | [lecke](2-Working-With-Data/07-python/README.md) [videó](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Adatelőkészítés | [Adatok kezelése](2-Working-With-Data/README.md) | Témák az adattisztításról és az adat átalakításáról a hiányzó, pontatlan vagy hiányos adatok kezeléséhez. | [lecke](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Mennyiségek vizualizálása | [Adatvizualizáció](3-Data-Visualization/README.md) | Tanuld meg, hogyan használjuk a Matplotlib-et madáradatok vizualizálásához 🦆 | [lecke](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Az adatok eloszlásának vizualizálása | [Adatvizualizáció](3-Data-Visualization/README.md) | Megfigyelések és trendek vizualizálása egy intervallumon belül. | [lecke](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Arányok vizualizálása | [Adatvizualizáció](3-Data-Visualization/README.md) | Diszkrét és csoportos százalékok vizualizálása. | [lecke](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Kapcsolatok vizualizálása | [Adatvizualizáció](3-Data-Visualization/README.md) | Az adathalmazok és változóik közötti kapcsolatok és korrelációk vizualizálása. | [lecke](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Értelmes vizualizációk | [Adatvizualizáció](3-Data-Visualization/README.md) | Technológiák és útmutató az értékes vizualizációk készítéséhez a hatékony problémamegoldás és betekintés érdekében. | [lecke](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Bevezetés az adatelemzési életciklusba | [Életciklus](4-Data-Science-Lifecycle/README.md) | Bevezetés az adatelemzés életciklusába és az első lépésbe: adatgyűjtés és -kivonás. | [lecke](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Elemzés | [Életciklus](4-Data-Science-Lifecycle/README.md) | Az adatelemzési életciklus ezen szakasza az adatokat elemző technikákra koncentrál. | [lecke](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Kommunikáció | [Életciklus](4-Data-Science-Lifecycle/README.md) | Az adatelemzési életciklus ezen szakasza az adatból származó felismerések bemutatására fókuszál úgy, hogy az döntéshozók számára könnyebben érthető legyen. | [lecke](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Adattudomány a felhőben | [Felhőadatok](5-Data-Science-In-Cloud/README.md) | Ez a leckesorozat bemutatja az adatelemzést a felhőben és annak előnyeit. | [lecke](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) és [Maud](https://twitter.com/maudstweets) |
| 18 | Adattudomány a felhőben | [Felhőadatok](5-Data-Science-In-Cloud/README.md) | Modellek tanítása Low Code eszközökkel. |[lecke](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) és [Maud](https://twitter.com/maudstweets) |
| 19 | Adattudomány a felhőben | [Felhőadatok](5-Data-Science-In-Cloud/README.md) | Modellek telepítése az Azure Machine Learning Studio segítségével. | [lecke](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) és [Maud](https://twitter.com/maudstweets) |
| 20 | Adattudomány a valóságban | [A valóságban](6-Data-Science-In-Wild/README.md) | Valós világban végzett adattudományi projektek. | [lecke](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Kövesd az alábbi lépéseket a minta megnyitásához Codespace-ben:
1. Kattints a Code legördülő menüre, és válaszd az Open with Codespaces opciót.
2. A panel alján válaszd a + New codespace opciót.
További információkért nézd meg a [GitHub dokumentációját](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
Kövessük az alábbi lépéseket ennek a mintának a Codespace-ben való megnyitásához:
1. Kattints a Code legördülő menüre és válaszd az Open with Codespaces opciót.
2. Válaszd a + New codespace lehetőséget az ablak alján.
További információért tekintsd meg a [GitHub dokumentációját](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Konténerek
Kövesd az alábbi lépéseket, hogy helyileg a gépeden, VSCode segítségével és a VS Code Remote - Containers kiterjesztéssel futtasd ezt a repót egy konténerben:
Kövessük az alábbi lépéseket ennek a tárolónak a helyi gépről és a VSCode-ból a VS Code Remote - Containers kiterjesztéssel történő megnyitásához:
1. Ha először használsz fejlesztői konténert, győződj meg róla, hogy a rendszered megfelel az előfeltételeknek (pl. Docker telepítve van), a [kezdő dokumentáció](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) szerint.
1. Ha ez az első alkalom, hogy fejlesztési konténert használsz, győződj meg róla, hogy a rendszered megfelel az előfeltételeknek (pl. telepítve van a Docker) a [kezdő dokumentációban](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Használhatod ezt a repót úgy, hogy vagy egy izolált Docker kötetben nyitod meg:
A tárház használatához megnyithatod azt izolált Docker kötetben:
**Megjegyzés**: A háttérben a Remote-Containers: **Clone Repository in Container Volume...** parancsot használja, ami a forráskódot egy Docker kötetbe klónozza a helyi fájlrendszer helyett. A [kötetek](https://docs.docker.com/storage/volumes/) a konténeradatok tárolásának ajánlott módjai.
**Megjegyzés**: A háttérben a Remote-Containers: **Clone Repository in Container Volume...** parancsot használja a forráskód Docker kötetbe történő klónozásához, ahelyett, hogy a helyi fájlrendszerbe másolná. A [Tömeges tárolók](https://docs.docker.com/storage/volumes/) a rendszertartalom megőrzésének preferált módja.
Vagy megnyithatsz egy helyileg klónozott vagy letöltött példányt:
Vagy megnyithatsz a tárház helyi példányt vagy letöltött változatát:
- Klónozd ezt a repót a helyi gépedre.
- Nyomj F1-et, majd válaszd a **Remote-Containers: Open Folder in Container...** parancsot.
- Válaszd ki a klónozott mappát, várd meg, míg elindul a konténer, és próbálj ki mindent.
- Klónozd a tárházat helyi fájlrendszeredre.
- Nyomj F1-et, és válaszd a **Remote-Containers: Open Folder in Container...** parancsot.
- Válaszd ki a klónozott mappa másolatát, várd meg, amíg a konténer elindul, és próbáld ki.
## Offline hozzáférés
## Offline elérés
Ezt a dokumentációt offline is futtathatod a [Docsify](https://docsify.js.org/#/) használatával. Fork-old ezt a repót, [telepítsd a Docsify-t](https://docsify.js.org/#/quickstart) a helyi gépeden, majd ebben a repo gyökérmappájában írd be: `docsify serve`. A weboldal a 3000-es porton lesz elérhető helyileg: `localhost:3000`.
Offline is futtathatod ezt a dokumentációt a [Docsify](https://docsify.js.org/#/) segítségével. Forkold ezt a repo-t, [telepítsd a Docsify-t](https://docsify.js.org/#/quickstart) a helyi gépeden, majd a repo gyökérmappájában indítsd el a `docsify serve` parancsot. A weboldal a 3000-es porton lesz elérhető a localhoston: `localhost:3000`.
> Megjegyzés: a jegyzetfüzetek (notebooks) nem jelennek meg Docsify-val, így amennyiben notebookot kell futtatnod, azt külön, VS Code-ban, Python kernellel tedd.
> Megjegyzés: a jegyzetfüzetek nem jelennek meg Docsify-val, így ha jegyzetfüzetet kell futtatnod, azt külön tedd meg VS Code-ban Python kernel használatával.
## Egyéb tantervek
## Egyéb tananyagok
Csapatunk más tanterveket is készít! Nézd meg:
Csapatunk más tananyagokat is készít! Nézd meg:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
@ -204,7 +213,7 @@ Csapatunk más tanterveket is készít! Nézd meg:
[![AZD kezdőknek](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI kezdőknek](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP kezdőknek](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI Ügynökök kezdőknek](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI ügynökök kezdőknek](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
@ -217,9 +226,9 @@ Csapatunk más tanterveket is készít! Nézd meg:
---
### Alapvető tanulás
[![ML kezdőknek](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Gépi tanulás kezdőknek](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Adattudomány kezdőknek](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI kezdőknek](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Mesterséges intelligencia kezdőknek](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Kiberbiztonság kezdőknek](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Webfejlesztés kezdőknek](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT kezdőknek](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
@ -229,25 +238,25 @@ Csapatunk más tanterveket is készít! Nézd meg:
### Copilot sorozat
[![Copilot AI páros programozáshoz](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot C#/.NET-hez](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot kaland](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
[![Copilot C#/.NET fejlesztéshez](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot kalandok](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## Segítség kérése
**Problémák merülnek fel?** Nézze meg a [Hibaelhárítási útmutatónkat](TROUBLESHOOTING.md), ahol a gyakori problémák megoldásait találhatja.
**Problémába ütköztél?** Nézd meg [Hibakeresési útmutatónkat](TROUBLESHOOTING.md), ahol gyakori problémák megoldásait találod.
Ha elakad, vagy kérdése van az AI alkalmazások építésével kapcsolatban, csatlakozzon a tanulók és tapasztalt fejlesztők közösségéhez az MCP kapcsán folytatott beszélgetésekhez. Ez egy támogató közösség, ahol a kérdések szívesen látottak, és a tudás szabadon megosztott.
Ha elakadsz, vagy kérdésed van az AI alkalmazások fejlesztésével kapcsolatban, csatlakozz tanulótársaidhoz és tapasztalt fejlesztőkhöz az MCP-ről folytatott beszélgetésekben. Ez egy támogató közösség, ahol a kérdések szívesen látottak, és a tudás szabadon megosztásra kerül.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Ha termék visszajelzése vagy hibák jelentkeznek a fejlesztés során, látogasson el ide:
Ha termék visszajelzésed vagy hibajelentésed van fejlesztés közben, látogass el ide:
[![Microsoft Foundry fejlesztői fórum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![Microsoft Foundry Fejlesztői Fórum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Nyilatkozat**:
Ezt a dokumentumot az AI fordító szolgáltatás, a [Co-op Translator](https://github.com/Azure/co-op-translator) segítségével fordítottuk. Bár a pontosságra törekszünk, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum anyanyelvén tekintendő hiteles forrásnak. Fontos információk esetén profi emberi fordítást javaslunk. Nem vállalunk felelősséget a fordítás használatából eredő félreértésekért vagy félreértelmezésekért.
Ezt a dokumentumot az AI fordító szolgáltatás, a [Co-op Translator](https://github.com/Azure/co-op-translator) segítségével fordítottuk le. Bár igyekszünk a pontosságra, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum anyanyelvi változatát tekintse a hiteles forrásnak. Kritikus információk esetén professzionális, emberi fordítást javaslunk. Semmilyen felelősséget nem vállalunk az ebből a fordításból eredő félreértésekért vagy téves értelmezésekért.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@ Találd meg az összes sketchnote-ot itt!
Nitya Narasimhan, művész
![roadmap sketchnote](../../../translated_images/hu/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![roadmap sketchnote](../../../translated_images/hu/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "sw"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T11:10:02+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "sw"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-26T15:25:48+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "sw"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T11:10:35+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "sw"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:50:20+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "sw"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T11:11:28+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "sw"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T17:08:39+00:00",
@ -360,8 +378,8 @@
"language_code": "sw"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T08:46:20+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T11:17:23+00:00",
"source_file": "README.md",
"language_code": "sw"
},

@ -6,7 +6,7 @@
---
[![Video ya Kufafanua Sayansi ya Takwimu](../../../../translated_images/sw/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Video ya Kufafanua Sayansi ya Takwimu](../../../../translated_images/sw/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Jaribio la kabla ya somo](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Ikiwa tunataka kufanya uchambuzi wa kina zaidi, tunaweza kuchora muda unaotumika
Katika changamoto hii, tutajaribu kutafuta dhana zinazohusiana na uwanja wa Sayansi ya Takwimu kwa kuangalia maandishi. Tutachukua makala ya Wikipedia kuhusu Sayansi ya Takwimu, kupakua na kuchakata maandishi, kisha kujenga wingu la maneno kama hili:
![Wingu la Maneno kwa Sayansi ya Takwimu](../../../../translated_images/sw/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Wingu la Maneno kwa Sayansi ya Takwimu](../../../../translated_images/sw/ds_wordcloud.664a7c07dca57de0.webp)
Tembelea [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') kusoma kupitia msimbo. Unaweza pia kuendesha msimbo huo, na kuona jinsi unavyofanya mabadiliko yote ya data kwa wakati halisi.

@ -3,15 +3,15 @@
{
"cell_type": "markdown",
"source": [
"# Changamoto: Kuchambua Maandishi Kuhusu Sayansi ya Takwimu\n",
"# Changamoto: Kuchambua Maandishi Kuhusu Sayansi ya Data\n",
"\n",
"Katika mfano huu, hebu tufanye zoezi rahisi linalojumuisha hatua zote za mchakato wa jadi wa sayansi ya takwimu. Huna haja ya kuandika msimbo wowote, unaweza kubonyeza tu seli zilizo hapa chini ili kuzitekeleza na kuona matokeo. Kama changamoto, unahimizwa kujaribu msimbo huu na data tofauti.\n",
"Katika mfano huu, tufanye zoezi rahisi linalohusisha hatua zote za mchakato wa jadi wa sayansi ya data. Huna haja ya kuandika msimbo wowote, unaweza tu kubofya kwenye seli zilizo hapa chini kuziendesha na kuangalia matokeo. Kama changamoto, unahamasishwa kujaribu msimbo huu na data tofauti.\n",
"\n",
"## Lengo\n",
"\n",
"Katika somo hili, tumekuwa tukijadili dhana mbalimbali zinazohusiana na Sayansi ya Takwimu. Hebu tujaribu kugundua dhana zaidi zinazohusiana kwa kufanya **uchimbaji wa maandishi**. Tutaanza na maandishi kuhusu Sayansi ya Takwimu, tutatoa maneno muhimu kutoka humo, na kisha tutajaribu kuonyesha matokeo kwa njia ya picha.\n",
"Katika somo hili, tumekuwa tukijadili dhana mbalimbali zinazohusiana na Sayansi ya Data. Hebu tujaribu kugundua dhana zaidi zinazohusiana kwa kufanya **uchimbaji wa maandishi**. Tutaanza na maandishi kuhusu Sayansi ya Data, kutoa maneno muhimu kutoka kwake, na kisha kujaribu kuona matokeo hayo kwa njia ya muonekano.\n",
"\n",
"Kama maandishi, nitatumia ukurasa kuhusu Sayansi ya Takwimu kutoka Wikipedia:\n"
"Kama maandishi, nitumie ukurasa kuhusu Sayansi ya Data kutoka Wikipedia:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Hatua ya 2: Kubadilisha Data\n",
"\n",
"Hatua inayofuata ni kubadilisha data kuwa katika muundo unaofaa kwa usindikaji. Katika hali yetu, tumepakua msimbo wa chanzo wa HTML kutoka kwenye ukurasa, na tunahitaji kuibadilisha kuwa maandishi ya kawaida.\n",
"Hatua inayofuata ni kubadilisha data kuwa fomu inayofaa kwa usindikaji. Katika kesi yetu, tumepakua kanuni chanzo ya HTML kutoka kwenye ukurasa, na tunahitaji kuibadilisha kuwa maandishi ya kawaida.\n",
"\n",
"Kuna njia nyingi za kufanya hili. Tutatumia [HTMLParser](https://docs.python.org/3/library/html.parser.html) rahisi iliyojengwa ndani ya Python. Tunahitaji kurithi darasa la `HTMLParser` na kufafanua msimbo ambao utakusanya maandishi yote ndani ya lebo za HTML, isipokuwa lebo za `<script>` na `<style>`.\n"
"Kuna njia nyingi za kufanya hili. Tutatumia [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), maktaba maarufu ya Python kwa kuchanganua HTML. BeautifulSoup huturuhusu kulenga vipengele maalum vya HTML, kwa hivyo tunaweza kuelekeza kwenye maudhui kuu ya makala kutoka Wikipedia na kupunguza baadhi ya menyu za urambazaji, mabara za pembeni, miguu ya ukurasa, na maudhui mengine yasiyo ya muhimu (ingawa baadhi ya maandishi ya msingi bado yanaweza kubaki).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Kwanza, tunahitaji kusakinisha maktaba ya BeautifulSoup kwa ajili ya kuchambua HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Hatua ya 3: Kupata Maarifa\n",
"## Hatua ya 3: Kupata Ufafanuzi\n",
"\n",
"Hatua muhimu zaidi ni kubadilisha data yetu kuwa katika mfumo ambao tunaweza kupata maarifa. Katika hali yetu, tunataka kutoa maneno muhimu kutoka kwenye maandishi, na kuona ni maneno gani yenye maana zaidi.\n",
"Hatua muhimu zaidi ni kubadilisha data yetu katika aina fulani ambayo tunaweza kupata ufafanuzi. Katika kesi yetu, tunataka kutoa maneno muhimu kutoka kwenye maandishi, na kuona ni maneno gani muhimu zaidi.\n",
"\n",
"Tutatumia maktaba ya Python inayoitwa [RAKE](https://github.com/aneesha/RAKE) kwa ajili ya kutoa maneno muhimu. Kwanza, hebu tusakinishe maktaba hii iwapo haipo:\n"
"Tutatumia maktaba ya Python iitwayo [RAKE](https://github.com/aneesha/RAKE) kwa ajili ya uondoaji wa maneno muhimu. Kwanza, wacha tufanye usakinishaji wa maktaba hii ikiwa haijafikiwa: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Kazi kuu inapatikana kutoka kwa `Rake` kitu, ambacho tunaweza kubinafsisha kwa kutumia vigezo fulani. Katika hali yetu, tutaweka urefu wa chini wa neno kuu kuwa herufi 5, marudio ya chini ya neno kuu katika hati kuwa 3, na idadi ya juu ya maneno katika neno kuu - kuwa 2. Jisikie huru kucheza na thamani nyingine na uangalie matokeo.\n"
"Kazi kuu inapatikana kutoka kwa kitu cha `Rake`, ambacho tunaweza kubadilisha kwa kutumia vigezo fulani. Katika kesi yetu, tutaweka urefu wa chini wa neno kuu kuwa herufi 5, mara za chini kabisa za neno kuu katika hati kuwa 3, na idadi kubwa ya maneno katika neno kuu - kuwa 2. Huwezi huru kujaribu na thamani nyingine na kutazama matokeo.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Tulipata orodha ya maneno pamoja na kiwango cha umuhimu kilichohusishwa. Kama unavyoona, taaluma muhimu zaidi, kama vile kujifunza kwa mashine na big data, zipo kwenye nafasi za juu katika orodha.\n",
"Tulipata orodha ya maneno pamoja na kiwango cha umuhimu kinachohusiana. Kama unavyoona, fani zinazohusiana zaidi, kama vile ujifunzaji wa mashine na data kubwa, zipo katika nafasi za juu katika orodha.\n",
"\n",
"## Hatua ya 4: Kuonyesha Matokeo\n",
"## Hatua ya 4: Kuonyesha Matokeo Kwa Picha\n",
"\n",
"Watu wanaweza kufasiri data vyema zaidi katika mfumo wa picha. Kwa hivyo mara nyingi ina mantiki kuonyesha data ili kupata maarifa fulani. Tunaweza kutumia maktaba ya `matplotlib` katika Python kuchora usambazaji rahisi wa maneno muhimu na umuhimu wao:\n"
"Watu wanaweza kufasiri data vyema zaidi kwa njia ya kuona. Hivyo mara nyingi ina maana kuonyesha data ili kupata baadhi ya maarifa. Tunaweza kutumia maktaba ya `matplotlib` katika Python kuchora mgawanyo rahisi wa maneno muhimu pamoja na umuhimu wao:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Kuna, hata hivyo, njia bora zaidi ya kuonyesha marudio ya maneno - kutumia **Word Cloud**. Tutahitaji kusakinisha maktaba nyingine ili kuchora word cloud kutoka kwenye orodha yetu ya maneno muhimu.\n"
"Hata hivyo, kuna njia bora zaidi ya kuonyesha mara kwa mara za maneno - kutumia **Word Cloud**. Tutahitaji kusanikisha maktaba nyingine kuonyesha wingu la maneno kutoka kwenye orodha yetu ya maneno muhimu.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`Kipengele cha WordCloud` kinahusika na kupokea maandishi ya asili, au orodha ya maneno iliyohesabiwa tayari pamoja na marudio yake, na kurudisha picha, ambayo inaweza kuonyeshwa kwa kutumia `matplotlib`:\n"
"Kitu cha `WordCloud` kinahusika na kupokea ama maandishi asili, au orodha iliyohesabiwa tayari ya maneno na mara yao za kutokea, na kurudisha picha, ambayo inaweza kisha kuonyeshwa kwa kutumia `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Tunaweza pia kupitisha maandishi ya awali kwa `WordCloud` - wacha tuone kama tunaweza kupata matokeo yanayofanana:\n"
"Tunaweza pia kupitisha maandishi asili kwa `WordCloud` - hebu tuone kama tunaweza kupata matokeo yanayofanana:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"Unaweza kuona kwamba neno wingu sasa linaonekana kuvutia zaidi, lakini pia lina kelele nyingi (mfano, maneno yasiyohusiana kama `Retrieved on`). Pia, tunapata maneno machache muhimu yanayojumuisha maneno mawili, kama *data scientist* au *computer science*. Hii ni kwa sababu algoriti ya RAKE inafanya kazi bora zaidi katika kuchagua maneno muhimu kutoka kwa maandishi. Mfano huu unaonyesha umuhimu wa kusafisha na kuandaa data, kwa sababu picha iliyo wazi mwishoni itatuwezesha kufanya maamuzi bora.\n",
"Unaweza kuona kwamba wingu la maneno sasa linaonekana kuvutia zaidi, lakini pia lina kelele nyingi (kwa mfano maneno yasiyohusiana kama `Retrieved on`). Pia, tunapata maneno machache muhimu yanayotokana na maneno mawili, kama *mtafiti wa data*, au *sayansi ya kompyuta*. Hii ni kwa sababu algoriti ya RAKE hufanya kazi bora zaidi katika kuchagua maneno muhimu mazuri kutoka kwenye maandishi. Mfano huu unaonyesha umuhimu wa utayarishaji na usafi wa data, kwa sababu picha wazi mwishoni itatuwezesha kufanya maamuzi bora zaidi.\n",
"\n",
"Katika zoezi hili tumepitia mchakato rahisi wa kutoa maana fulani kutoka kwa maandishi ya Wikipedia, kwa njia ya maneno muhimu na wingu la maneno. Mfano huu ni rahisi sana, lakini unaonyesha vizuri hatua zote za kawaida ambazo mwanasayansi wa data huchukua anapofanya kazi na data, kuanzia upatikanaji wa data hadi uonyeshaji wa picha.\n",
"Katika zoezi hili tumepitia mchakato rahisi wa kutoa maana fulani kutoka kwenye maandishi ya Wikipedia, katika mfumo wa maneno muhimu na wingu la maneno. Mfano huu ni rahisi sana, lakini unaonyesha vizuri hatua zote za kawaida ambazo mtafiti wa data hupitia anapofanya kazi na data, kuanzia upatikanaji wa data, hadi uwasilishaji wa matokeo.\n",
"\n",
"Katika kozi yetu tutajadili hatua zote hizo kwa undani.\n"
"Katika kozi yetu tutajadili hatua zote hizo kwa kina.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Kanusho**: \nHati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kwa usahihi, tafadhali fahamu kuwa tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwa sahihi. Hati ya asili katika lugha yake ya awali inapaswa kuzingatiwa kama chanzo cha mamlaka. Kwa taarifa muhimu, inashauriwa kutumia huduma ya tafsiri ya kitaalamu ya binadamu. Hatutawajibika kwa maelewano mabaya au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Kiarifu cha Kukataa**:\nNyaraka hii imetafsiriwa kwa kutumia huduma ya utafsiri wa AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kuhakikisha usahihi, tafadhali fahamu kuwa tafsiri za moja kwa moja zinaweza kuwa na makosa au kasoro. Nyaraka asilia katika lugha yake ya asili inapaswa kuchukuliwa kama chanzo cha mamlaka. Kwa taarifa muhimu, inashauriwa kutumia utafsiri wa mtaalamu wa binadamu. Hatuna dhamana kwa kutoelewana au tafsiri potovu zitokanazo na matumizi ya tafsiri hii.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-02T10:08:26+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "sw"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# Changamoto: Kuchambua Maandishi Kuhusu Sayansi ya Takwimu\n",
"# Changamoto: Kuchambua Maandishi Kuhusu Sayansi ya Data\n",
"\n",
"> *Katika daftari hili, tunajaribu kutumia URL tofauti - makala ya Wikipedia kuhusu Kujifunza kwa Mashine. Unaweza kuona kwamba, tofauti na Sayansi ya Takwimu, makala hii ina maneno mengi ya kitaalamu, jambo linalofanya uchambuzi kuwa mgumu zaidi. Tunahitaji kubuni njia nyingine ya kusafisha data baada ya kutoa maneno muhimu, ili kuondoa baadhi ya mchanganyiko wa maneno yanayojirudia lakini yasiyo na maana.*\n",
"> *Katika daftari hili la kumbukumbu, tunajaribu kutumia URL tofauti - makala ya Wikipedia kuhusu Kujifunza kwa Mashine. Unaweza kuona kwamba, tofauti na Sayansi ya Data, makala hii ina maneno mengi, hii ikifanya uchambuzi kuwa na changamoto zaidi. Tunahitaji kufikiria njia nyingine ya kusafisha data baada ya kuchukua maneno muhimu, ili kuondoa mchanganyiko wa maneno yanayotokea mara nyingi, lakini yasiyo na maana.*\n",
"\n",
"Katika mfano huu, hebu tufanye zoezi rahisi linalojumuisha hatua zote za mchakato wa jadi wa sayansi ya takwimu. Huna haja ya kuandika msimbo wowote, unaweza kubofya tu seli zilizo hapa chini ili kuzitekeleza na kuona matokeo. Kama changamoto, unahimizwa kujaribu msimbo huu na data tofauti.\n",
"Katika mfano huu, tufanye zoezi rahisi linalojumuisha hatua zote za mchakato wa jadi wa sayansi ya data. Huna haja ya kuandika msimbo wowote, unaweza kubofya seli zilizo hapa chini kuziendesha na kuangalia matokeo. Kama changamoto, unahimizwa kujaribu msimbo huu kwa data tofauti.\n",
"\n",
"## Lengo\n",
"\n",
"Katika somo hili, tumekuwa tukijadili dhana mbalimbali zinazohusiana na Sayansi ya Takwimu. Hebu tujaribu kugundua dhana zaidi zinazohusiana kwa kufanya **uchimbaji wa maandishi**. Tutaanza na maandishi kuhusu Sayansi ya Takwimu, tutatoa maneno muhimu kutoka humo, kisha tutajaribu kuonyesha matokeo kwa njia ya picha.\n",
"Katika somo hili, tumekuwa tukijadili dhana mbalimbali zinazohusiana na Sayansi ya Data. Hebu tujifunze zaidi kuhusu dhana zinazohusiana kwa kufanya **uchimbaji wa maandishi**. Tutaanza na maandishi kuhusu Sayansi ya Data, kuchukua maneno muhimu kutoka ndani yake, na kisha kujaribu kuona matokeo hayo kwa njia ya picha.\n",
"\n",
"Kama maandishi, nitatumia ukurasa kuhusu Sayansi ya Takwimu kutoka Wikipedia:\n"
"Kama maandishi, nitumie ukurasa wa Sayansi ya Data kutoka Wikipedia:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Hatua ya 2: Kubadilisha Data\n",
"\n",
"Hatua inayofuata ni kubadilisha data kuwa katika muundo unaofaa kwa usindikaji. Katika hali yetu, tumepakua msimbo wa chanzo wa HTML kutoka ukurasa, na tunahitaji kuibadilisha kuwa maandishi ya kawaida.\n",
"Hatua inayofuata ni kubadilisha data iwe katika fomu inayofaa kwa ajili ya usindikaji. Katika kesi yetu, tumeshuka msimbo wa chanzo wa HTML kutoka ukurasa, na tunahitaji kuubadilisha kuwa maandishi rahisi.\n",
"\n",
"Kuna njia nyingi za kufanya hili. Tutatumia kitu rahisi zaidi kilichojengwa ndani, [HTMLParser](https://docs.python.org/3/library/html.parser.html) kutoka Python. Tunahitaji kurithi darasa la `HTMLParser` na kufafanua msimbo ambao utakusanya maandishi yote ndani ya lebo za HTML, isipokuwa lebo za `<script>` na `<style>`.\n"
"Kuna njia nyingi za kufanikisha hili. Tutatumia [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), maktaba maarufu ya Python kwa uchambuzi wa HTML. BeautifulSoup inaturuhusu kulenga vipengele maalum vya HTML, hivyo tunaweza kuzingatia maudhui kuu ya makala kutoka Wikipedia na kupunguza baadhi ya menyu za urambazaji, bar za pembeni, miguso, na maudhui mengine yasiyohusiana (ingawa baadhi ya maandishi ya boilerplate yanaweza kubaki).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Kwanza, tunahitaji kusakinisha maktaba ya BeautifulSoup kwa uchambuzi wa HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -118,9 +116,9 @@
"source": [
"## Hatua ya 3: Kupata Maarifa\n",
"\n",
"Hatua muhimu zaidi ni kubadilisha data yetu kuwa aina fulani ambayo tunaweza kupata maarifa. Katika hali yetu, tunataka kutoa maneno muhimu kutoka kwa maandishi, na kuona ni maneno gani yana maana zaidi.\n",
"Hatua muhimu zaidi ni kubadilisha data yetu kuwa aina fulani ambayo tunaweza kutoa maarifa kutoka. Katika kesi yetu, tunataka kutoa maneno muhimu kutoka kwenye maandishi, na kuona ni maneno gani muhimu zaidi.\n",
"\n",
"Tutatumia maktaba ya Python inayoitwa [RAKE](https://github.com/aneesha/RAKE) kwa uchimbaji wa maneno muhimu. Kwanza, wacha tusakinishe maktaba hii iwapo haipo:\n"
"Tutatumia maktaba ya Python inayoitwa [RAKE](https://github.com/aneesha/RAKE) kwa ajili ya kutoa maneno muhimu. Kwanza, wacha tuitishe maktaba hii kama haipo: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Kazi kuu inapatikana kutoka kwa `Rake` kitu, ambacho tunaweza kubinafsisha kwa kutumia vigezo fulani. Katika hali yetu, tutaweka urefu wa chini wa neno kuu kuwa herufi 5, marudio ya chini ya neno kuu katika hati kuwa 3, na idadi ya juu ya maneno katika neno kuu - kuwa 2. Jisikie huru kucheza na thamani nyingine na uangalie matokeo.\n"
"Kazi kuu inapatikana kutoka kwa kitu cha `Rake`, ambacho tunaweza kubadilisha kwa kutumia baadhi ya vigezo. Katika kesi yetu, tutaweka urefu wa chini wa neno kuu kuwa herufi 5, marudio ya chini ya neno kuu katika hati kuwa 3, na idadi ya juu ya maneno katika neno kuu - kuwa 2. Jisikie huru kujaribu thamani nyingine na kutazama matokeo.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Tulipata orodha ya maneno pamoja na kiwango cha umuhimu kilichohusishwa. Kama unavyoona, taaluma muhimu zaidi, kama vile kujifunza kwa mashine na big data, zipo kwenye orodha katika nafasi za juu.\n",
"Tulipata orodha ya maneno pamoja na kiwango kinachohusiana cha umuhimu. Kama unavyoweza kuona, fani zinazohusiana zaidi, kama vile ujifunzaji wa mashine na data kubwa, zipo katika orodha kwenye nafasi za juu.\n",
"\n",
"## Hatua ya 4: Kuonyesha Matokeo\n",
"## Hatua ya 4: Kuonyesha Matokeo kwa Picha\n",
"\n",
"Watu wanaweza kufasiri data vyema zaidi katika mfumo wa picha. Kwa hivyo mara nyingi ina mantiki kuonyesha data ili kupata maarifa fulani. Tunaweza kutumia maktaba ya `matplotlib` katika Python kuchora usambazaji rahisi wa maneno muhimu na umuhimu wao:\n"
"Watu wanaweza kuelewa data vizuri zaidi kwa njia ya picha. Kwa hivyo mara nyingi inakuwa na maana kuonyesha data kwa ajili ya kupata baadhi ya maarifa. Tunaweza kutumia maktaba ya `matplotlib` katika Python kuchora usambazaji rahisi wa maneno muhimu pamoja na umuhimu wao:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Kuna, hata hivyo, njia bora zaidi ya kuonyesha marudio ya maneno - kutumia **Word Cloud**. Tutahitaji kusakinisha maktaba nyingine ili kuchora word cloud kutoka kwenye orodha yetu ya maneno muhimu.\n"
"Hata hivyo, kuna njia bora zaidi ya kuona mara ngapi maneno yanatumika - kwa kutumia **Word Cloud**. Tutahitaji kufunga maktaba nyingine ili kuchora wingu la maneno kutoka kwa orodha yetu ya maneno kuu.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`Kipengele cha WordCloud` kinahusika na kupokea maandishi ya asili, au orodha ya maneno yaliyochakatwa tayari pamoja na marudio yake, na kurudisha picha, ambayo inaweza kuonyeshwa kwa kutumia `matplotlib`:\n"
"Kipengele cha `WordCloud` kinahusika na kuchukua ama maandishi ya asili, au orodha ya maneno yaliyo hesabiwa tayari na mara ngapi yanatokea, na kurudisha picha, ambayo inaweza kuonyeshwa kwa kutumia `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"Tunaweza pia kupitisha maandishi asilia kwa `WordCloud` - wacha tuone kama tunaweza kupata matokeo yanayofanana:\n"
"Tunaweza pia kuingiza maandishi ya asili kwenye `WordCloud` - hebu tuone kama tunaweza kupata matokeo yanayofanana:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Unaweza kuona kwamba neno wingu sasa linaonekana kuvutia zaidi, lakini pia lina kelele nyingi (mfano, maneno yasiyohusiana kama `Retrieved on`). Pia, tunapata maneno machache muhimu yanayojumuisha maneno mawili, kama *data scientist* au *computer science*. Hii ni kwa sababu algoriti ya RAKE inafanya kazi bora zaidi katika kuchagua maneno muhimu kutoka kwa maandishi. Mfano huu unaonyesha umuhimu wa kusafisha na kuandaa data, kwa sababu picha iliyo wazi mwishoni itatuwezesha kufanya maamuzi bora.\n",
"Unaweza kuona kuwa wingu la maneno sasa linaonekana kuvutia zaidi, lakini pia lina kelele nyingi (km. maneno yasiyohusiana kama `Retrieved on`). Pia, tunapata maneno machache ya msingi yanayojumuisha maneno mawili, kama *data scientist*, au *computer science*. Hii ni kwa sababu algoriti ya RAKE hufanya kazi nzuri zaidi katika kuchagua maneno mazuri ya msingi kutoka kwa maandishi. Mfano huu unaonyesha umuhimu wa utayarishaji na usafi wa data, kwa sababu picha wazi mwishoni itatuwezesha kufanya maamuzi bora.\n",
"\n",
"Katika zoezi hili tumepitia mchakato rahisi wa kutoa maana fulani kutoka kwa maandishi ya Wikipedia, kwa njia ya maneno muhimu na wingu la maneno. Mfano huu ni rahisi sana, lakini unaonyesha vizuri hatua zote za kawaida ambazo mtaalamu wa data huchukua anapofanya kazi na data, kuanzia upatikanaji wa data hadi uwasilishaji wa picha.\n",
"Katika zoezi hili tumepitia mchakato rahisi wa kutoa maana fulani kutoka kwa maandishi ya Wikipedia, kwa njia ya maneno ya msingi na wingu la maneno. Mfano huu ni rahisi sana, lakini unaonyesha vizuri hatua zote za kawaida ambazo mtaalamu wa data atazichukua anapofanya kazi na data, kuanzia upokeaji wa data, hadi uonyeshaji.\n",
"\n",
"Katika kozi yetu tutajadili hatua zote hizo kwa undani.\n"
"Katika kozi yetu tutajadili hatua zote hizo kwa kina.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Kanusho**: \nHati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kwa usahihi, tafadhali fahamu kuwa tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwa sahihi. Hati ya asili katika lugha yake ya awali inapaswa kuzingatiwa kama chanzo cha mamlaka. Kwa taarifa muhimu, inashauriwa kutumia tafsiri ya kitaalamu ya binadamu. Hatutawajibika kwa maelewano mabaya au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Tangazo la Kukataa**:\nHati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kuhakikisha usahihi, tafadhali fahamu kuwa tafsiri za kiotomatiki zinaweza kuwa na makosa au ukosefu wa usahihi. Hati ya asili katika lugha yake ya asili inapaswa kuchukuliwa kama chanzo cha kuaminika. Kwa taarifa muhimu, tafsiri ya kitaalamu ya binadamu inapendekezwa. Hatubebeshi lawama kwa kutoelewana au tafsiri potofu zinazotokana na matumizi ya tafsiri hii.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-02T10:22:40+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "sw"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
Nadharia ya Takwimu na Uwezekano ni maeneo mawili yanayohusiana sana ya Hisabati ambayo ni muhimu sana kwa Sayansi ya Data. Inawezekana kufanya kazi na data bila uelewa wa kina wa hisabati, lakini ni bora kujua angalau dhana za msingi. Hapa tutatoa utangulizi mfupi ambao utakusaidia kuanza.
[![Video ya Utangulizi](../../../../translated_images/sw/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Video ya Utangulizi](../../../../translated_images/sw/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Jaribio la Kabla ya Somo](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Ni vigumu zaidi kuelezea usambazaji wa uwezekano wa mabadiliko endelevu, yenye t
Tunaweza tu kuzungumzia uwezekano wa mabadiliko kuangukia katika kipengele fulani cha thamani, kwa mfano P(t<sub>1</sub>≤X<t<sub>2</sub>). Katika kesi hii, usambazaji wa uwezekano unaelezewa na **kazi ya msongamano wa uwezekano** p(x), ambapo
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/sw/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/sw/probability-density.a8aad29f17a14afb.webp)
Mfano wa usambazaji wa sare endelevu unaitwa **sare endelevu**, ambao hufafanuliwa kwenye kipengele kilichofungwa. Uwezekano kwamba thamani X itaangukia kwenye kipengele cha urefu l ni sawia na l, na huongezeka hadi 1.
@ -73,11 +73,11 @@ Tunapochambua data kutoka maisha halisi, mara nyingi si mabadiliko ya kawaida ka
Hapa kuna mchoro wa box plot unaoonyesha wastani, median na robo kwa data yetu:
![Box Plot ya Uzito](../../../../translated_images/sw/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Box Plot ya Uzito](../../../../translated_images/sw/weight-boxplot.1dbab1c03af26f8a.webp)
Kwa kuwa data yetu ina taarifa kuhusu **majukumu** tofauti ya wachezaji, tunaweza pia kufanya box plot kwa mujibu wa jukumu - hii itaturuhusu kupata wazo la jinsi thamani zinavyotofautiana kati ya majukumu. Wakati huu tutazingatia urefu:
![Box plot kwa mujibu wa jukumu](../../../../translated_images/sw/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Box plot kwa mujibu wa jukumu](../../../../translated_images/sw/boxplot_byrole.036b27a1c3f52d42.webp)
Mchoro huu unaonyesha kwamba, kwa wastani, urefu wa wachezaji wa nafasi ya kwanza ni mrefu zaidi kuliko wa nafasi ya pili. Baadaye katika somo hili tutajifunza jinsi tunavyoweza kuthibitisha dhana hii kwa njia rasmi zaidi, na jinsi ya kuonyesha kwamba data yetu ni muhimu kitaalamu kuonyesha hilo.
@ -85,7 +85,7 @@ Mchoro huu unaonyesha kwamba, kwa wastani, urefu wa wachezaji wa nafasi ya kwanz
Ili kuona usambazaji wa data yetu, tunaweza kuchora mchoro unaoitwa **histogramu**. Mhimili wa X ungekuwa na idadi ya vipengele tofauti vya uzito (vinavyoitwa **bins**), na mhimili wa wima ungeonyesha idadi ya mara mabadiliko yetu ya kawaida yalikuwa ndani ya kipengele fulani.
![Histogramu ya data halisi](../../../../translated_images/sw/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Histogramu ya data halisi](../../../../translated_images/sw/weight-histogram.bfd00caf7fc30b14.webp)
Kutoka kwenye histogramu hii unaweza kuona kwamba thamani zote ziko katikati ya wastani fulani wa uzito, na kadri tunavyoenda mbali na uzito huo - ndivyo uzito wa thamani hiyo unavyopungua. Yaani, ni nadra sana kwamba uzito wa mchezaji wa baseball utakuwa tofauti sana na wastani wa uzito. Tofauti ya uzito inaonyesha kiwango ambacho uzito unaweza kutofautiana na wastani.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
Tukichora histogramu ya sampuli zilizozalishwa tutaona picha inayofanana sana na ile iliyoonyeshwa hapo juu. Na tukiongeza idadi ya sampuli na idadi ya bins, tunaweza kuzalisha picha ya usambazaji wa kawaida inayokaribia ile bora zaidi:
![Usambazaji wa Kawaida na wastani=0 na std.dev=1](../../../../translated_images/sw/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Usambazaji wa Kawaida na wastani=0 na std.dev=1](../../../../translated_images/sw/normal-histogram.dfae0d67c202137d.webp)
*Usambazaji wa Kawaida na wastani=0 na std.dev=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
Katika kesi yetu, thamani 0.53 inaonyesha kwamba kuna uhusiano fulani kati ya uzito na urefu wa mtu. Tunaweza pia kutengeneza mchoro wa kutawanyika wa thamani moja dhidi ya nyingine ili kuona uhusiano kwa macho:
![Uhusiano kati ya uzito na urefu](../../../../translated_images/sw/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Uhusiano kati ya uzito na urefu](../../../../translated_images/sw/weight-height-relationship.3f06bde4ca2aba99.webp)
> Mifano zaidi ya uwiano wa pamoja na uhusiano wa pamoja inaweza kupatikana katika [majarida yanayoambatana](notebook.ipynb).

@ -1,6 +1,6 @@
# Utangulizi wa Sayansi ya Takwimu
![data in action](../../../translated_images/sw/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![data in action](../../../translated_images/sw/data.48e22bb7617d8d92.webp)
> Picha na <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> kwenye <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Katika masomo haya, utagundua jinsi Sayansi ya Takwimu inavyofafanuliwa na kujifunza kuhusu masuala ya kimaadili ambayo lazima yazingatiwe na mwanasayansi wa takwimu. Pia utajifunza jinsi takwimu zinavyofafanuliwa na kupata maarifa kidogo kuhusu takwimu na uwezekano, maeneo ya msingi ya kitaaluma ya Sayansi ya Takwimu.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Kufanya Kazi na Python - _Sketchnote na [@nitya](https://twitter.com/nitya)_ |
[![Video ya Utangulizi](../../../../translated_images/sw/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Video ya Utangulizi](../../../../translated_images/sw/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Ingawa hifadhidata zinatoa njia bora za kuhifadhi data na kuziuliza kwa kutumia lugha za maswali, njia inayobadilika zaidi ya kuchakata data ni kuandika programu yako mwenyewe ili kuibadilisha. Katika hali nyingi, kufanya maswali ya hifadhidata kungekuwa njia bora zaidi. Hata hivyo, katika baadhi ya hali ambapo uchakataji wa data changamani unahitajika, haiwezi kufanyika kwa urahisi kwa kutumia SQL.
Uchakataji wa data unaweza kupangwa kwa lugha yoyote ya programu, lakini kuna lugha fulani ambazo ni za kiwango cha juu zaidi linapokuja suala la kufanya kazi na data. Wanasayansi wa data mara nyingi hupendelea mojawapo ya lugha zifuatazo:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Mchoro wa Mfululizo wa Muda](../../../../translated_images/sw/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Mchoro wa Mfululizo wa Muda](../../../../translated_images/sw/timeseries-1.80de678ab1cf727e.webp)
Sasa fikiria kwamba kila wiki tunaandaa sherehe kwa marafiki, na tunachukua pakiti 10 za ziada za ice-cream kwa ajili ya sherehe. Tunaweza kuunda series nyingine, iliyoorodheshwa kwa wiki, kuonyesha hilo:
```python
@ -75,7 +75,7 @@ Tunapoongeza series mbili pamoja, tunapata jumla ya idadi:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Mchoro wa Mfululizo wa Muda](../../../../translated_images/sw/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Mchoro wa Mfululizo wa Muda](../../../../translated_images/sw/timeseries-2.aae51d575c55181c.webp)
> **Kumbuka** kwamba hatutumii sintaksia rahisi `total_items+additional_items`. Ikiwa tungefanya hivyo, tungepata thamani nyingi za `NaN` (*Not a Number*) katika series inayotokana. Hii ni kwa sababu kuna thamani zinazokosekana kwa baadhi ya pointi za index katika series ya `additional_items`, na kuongeza `NaN` kwa chochote husababisha `NaN`. Kwa hivyo tunahitaji kubainisha parameter ya `fill_value` wakati wa kuongeza.
@ -84,7 +84,7 @@ Kwa mfululizo wa muda, tunaweza pia **kurekebisha upya** series kwa vipindi tofa
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Wastani wa Mfululizo wa Muda wa Kila Mwezi](../../../../translated_images/sw/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Wastani wa Mfululizo wa Muda wa Kila Mwezi](../../../../translated_images/sw/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -210,7 +210,7 @@ Tatizo la kwanza ambalo tutalenga ni uundaji wa kuenea kwa janga la COVID-19. Il
Kwa kuwa tunataka kuonyesha jinsi ya kushughulikia data, tunakualika kufungua [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) na kuisoma kutoka juu hadi chini. Unaweza pia kutekeleza seli, na kufanya changamoto ambazo tumeacha kwa ajili yako mwishoni.
![COVID Spread](../../../../translated_images/sw/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/sw/covidspread.f3d131c4f1d260ab.webp)
> Ikiwa hujui jinsi ya kuendesha msimbo katika Jupyter Notebook, angalia [makala hii](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Mfano kamili wa kuchambua dataset hii kwa kutumia huduma ya kiakili ya [Text Ana
Fungua [`notebook-papers.ipynb`](notebook-papers.ipynb) na isome kutoka juu hadi chini. Unaweza pia kutekeleza seli, na kufanya changamoto ambazo tumeacha kwa ajili yako mwishoni.
![Covid Medical Treatment](../../../../translated_images/sw/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/sw/covidtreat.b2ba59f57ca45fbc.webp)
## Usindikaji wa Data ya Picha

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# Kufanya Kazi na Data
![data love](../../../translated_images/sw/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/sw/data-love.a22ef29e6742c852.webp)
> Picha na <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> kwenye <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Katika masomo haya, utajifunza baadhi ya njia ambazo data inaweza kusimamiwa, kubadilishwa, na kutumika katika programu. Utajifunza kuhusu hifadhidata za uhusiano (relational) na zisizo za uhusiano (non-relational) na jinsi data inaweza kuhifadhiwa ndani yake. Pia, utajifunza misingi ya kufanya kazi na Python kusimamia data, na kugundua baadhi ya njia nyingi ambazo unaweza kutumia Python kusimamia na kuchimba data.

@ -42,7 +42,7 @@ Unda grafu ya msingi ya alama kuonyesha mahusiano kati ya bei kwa pauni ya asali
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/sw/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/sw/scatter1.5e1aa5fd6706c5d1.webp)
Sasa, onyesha data hiyo hiyo kwa mpangilio wa rangi ya asali ili kuonyesha jinsi bei inavyobadilika mwaka hadi mwaka. Unaweza kufanya hivi kwa kuongeza kipengele cha 'hue' kuonyesha mabadiliko, mwaka hadi mwaka:
@ -51,7 +51,7 @@ Sasa, onyesha data hiyo hiyo kwa mpangilio wa rangi ya asali ili kuonyesha jinsi
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/sw/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/sw/scatter2.c0041a58621ca702.webp)
Kwa mabadiliko haya ya mpangilio wa rangi, unaweza kuona wazi kuwa kuna mwelekeo wa ongezeko la bei kwa pauni ya asali mwaka hadi mwaka. Kwa kweli, ukichunguza seti ya sampuli katika data ili kuthibitisha (chagua jimbo fulani, Arizona kwa mfano) unaweza kuona mwelekeo wa ongezeko la bei mwaka hadi mwaka, isipokuwa kwa baadhi ya miaka:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Unaweza kuona ukubwa wa alama ukiongezeka hatua kwa hatua.
![scatterplot 3](../../../../translated_images/sw/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/sw/scatter3.3c160a3d1dcb36b3.webp)
Je, hili ni suala rahisi la mahitaji na usambazaji? Kutokana na mambo kama mabadiliko ya hali ya hewa na kuporomoka kwa makoloni, je, kuna asali kidogo inayopatikana kwa ununuzi mwaka hadi mwaka, na hivyo bei kuongezeka?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Jibu: Ndiyo, isipokuwa kwa baadhi ya miaka kama 2003:
![line chart 1](../../../../translated_images/sw/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/sw/line1.f36eb465229a3b1f.webp)
✅ Kwa sababu Seaborn inakusanya data kuzunguka mstari mmoja, inaonyesha "vipimo vingi kwa kila thamani ya x kwa kuonyesha wastani na kipimo cha kujiamini cha 95% kuzunguka wastani". [Chanzo](https://seaborn.pydata.org/tutorial/relational.html). Tabia hii inayochukua muda inaweza kuzimwa kwa kuongeza `ci=None`.
@ -105,7 +105,7 @@ Swali: Vema, mwaka 2003 tunaweza pia kuona ongezeko la usambazaji wa asali? Je,
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/sw/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/sw/line2.a5b3493dc01058af.webp)
Jibu: Sio kweli. Ukitazama uzalishaji wa jumla, inaonekana kuwa uliongezeka katika mwaka huo, ingawa kwa ujumla uzalishaji wa asali unaonekana kupungua katika miaka hiyo.
@ -130,7 +130,7 @@ sns.relplot(
```
Katika grafu hii, unaweza kulinganisha mavuno kwa kila koloni na idadi ya makoloni mwaka hadi mwaka, sambamba na mpangilio wa safu 3:
![facet grid](../../../../translated_images/sw/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/sw/facet.6a34851dcd540050.webp)
Kwa seti hii ya data, hakuna kitu kinachojitokeza hasa kuhusu idadi ya makoloni na mavuno yao, mwaka hadi mwaka na jimbo hadi jimbo. Je, kuna njia tofauti ya kutazama uhusiano kati ya vigezo hivi viwili?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/sw/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/sw/dual-line.a4c28ce659603fab.webp)
Ingawa hakuna kitu kinachojitokeza kwa macho karibu na mwaka 2003, inaturuhusu kumaliza somo hili kwa maelezo ya furaha kidogo: ingawa kuna idadi inayopungua ya makoloni, idadi ya makoloni inastabilisha hata kama mavuno yao kwa kila koloni yanapungua.

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Hapa, unasakinisha kifurushi cha `ggplot2` na kisha unakileta kwenye workspace kwa kutumia amri `library("ggplot2")`. Ili kuchora mchoro wowote katika ggplot, kazi ya `ggplot()` inatumika na unataja seti ya data, vigezo vya x na y kama sifa. Katika kesi hii, tunatumia kazi ya `geom_line()` kwa kuwa tunalenga kuchora mchoro wa mstari.
![MaxWingspan-lineplot](../../../../../translated_images/sw/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/sw/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
Unagundua nini mara moja? Inaonekana kuna angalau kipengele kimoja cha nje - huo ni upana wa mabawa wa ajabu! Upana wa mabawa wa zaidi ya sentimita 2000 ni zaidi ya mita 20 - kuna Pterodactyls wanaozunguka Minnesota? Hebu tuchunguze.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Tunataja pembe katika `theme` na tunataja lebo za mhimili wa x na y katika `xlab()` na `ylab()` mtawalia. `ggtitle()` inatoa jina kwa grafu/mchoro.
![MaxWingspan-lineplot-improved](../../../../../translated_images/sw/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/sw/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
Hata kwa mzunguko wa lebo uliowekwa kwa digrii 45, kuna nyingi sana kusoma. Hebu jaribu mkakati tofauti: lebo tu kwa vipengele vya nje na weka lebo ndani ya mchoro. Unaweza kutumia mchoro wa scatter ili kutoa nafasi zaidi kwa kuweka lebo:
@ -91,7 +91,7 @@ Nini kinaendelea hapa? Ulitumia kazi ya `geom_point()` kuchora alama za scatter.
Unagundua nini?
![MaxWingspan-scatterplot](../../../../../translated_images/sw/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/sw/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## Chuja data yako
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Tulitengeneza dataframe mpya `birds_filtered` na kisha tukachora mchoro wa scatter. Kwa kuchuja vipengele vya nje, data yako sasa ni ya mshikamano zaidi na inayoeleweka.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/sw/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/sw/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
Sasa kwa kuwa tuna seti ya data safi angalau kwa suala la upana wa mabawa, hebu tujifunze zaidi kuhusu ndege hawa.
@ -151,7 +151,7 @@ birds_filtered %>% group_by(Category) %>%
```
Katika kipande kinachofuata, tunasakinisha vifurushi vya [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) na [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) ili kusaidia kudhibiti na kuunda data kwa lengo la kuchora mchoro wa bar uliojaa. Kwanza, unagawanya data kwa `Category` ya ndege na kisha unatoa muhtasari wa safu za `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Kisha, unachora mchoro wa bar kwa kutumia kifurushi cha `ggplot2` na kutaja rangi kwa kategoria tofauti na lebo.
![Stacked bar chart](../../../../../translated_images/sw/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/sw/stacked-bar-chart.0c92264e89da7b39.webp)
Hata hivyo, mchoro huu wa bar hauwezi kusomeka kwa sababu kuna data nyingi isiyogawanywa. Unahitaji kuchagua tu data unayotaka kuchora, kwa hivyo hebu tuangalie urefu wa ndege kulingana na kategoria yao.
@ -166,7 +166,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Kwanza unahesabu thamani za kipekee katika safu ya `Category` na kisha unazipanga katika dataframe mpya `birds_count`. Data hii iliyopangwa kisha inafanywa kuwa ya kiwango sawa ili iweze kuchorwa kwa mpangilio uliopangwa. Kwa kutumia `ggplot2` unachora data katika mchoro wa bar. `coord_flip()` inachora bar wima.
![category-length](../../../../../translated_images/sw/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/sw/category-length.7e34c296690e85d6.webp)
Mchoro huu wa bar unaonyesha mtazamo mzuri wa idadi ya ndege katika kila kategoria. Kwa haraka, unaona kwamba idadi kubwa ya ndege katika eneo hili wako katika kategoria ya Ducks/Geese/Waterfowl. Minnesota ni 'ardhi ya maziwa 10,000' kwa hivyo hili si la kushangaza!
@ -189,7 +189,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
Tunagawanya data ya `birds_filtered` kwa `Category` na kisha tunachora mchoro wa bar.
![comparing data](../../../../../translated_images/sw/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/sw/comparingdata.f486a450d61c7ca5.webp)
Hakuna la kushangaza hapa: hummingbirds wana MaxLength ndogo zaidi ikilinganishwa na Pelicans au Geese. Ni vizuri wakati data ina mantiki!
@ -201,7 +201,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/sw/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/sw/superimposed-values.5363f0705a1da416.webp)
## 🚀 Changamoto

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![urefu wa juu kwa oda](../../../../../translated_images/sw/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![urefu wa juu kwa oda](../../../../../translated_images/sw/max-length-per-order.e5b283d952c78c12.webp)
Hii inatoa muhtasari wa usambazaji wa jumla wa urefu wa mwili kwa kila Oda ya ndege, lakini si njia bora ya kuonyesha usambazaji wa kweli. Kazi hii kawaida hufanywa kwa kuunda Histogramu.
@ -48,7 +48,7 @@ Hii inatoa muhtasari wa usambazaji wa jumla wa urefu wa mwili kwa kila Oda ya nd
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![usambazaji wa seti nzima ya data](../../../../../translated_images/sw/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![usambazaji wa seti nzima ya data](../../../../../translated_images/sw/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
Kama unavyoona, ndege wengi zaidi ya 400 katika seti hii ya data wanaangukia katika safu ya chini ya 2000 kwa UzitoMkuu wa Mwili wao. Pata ufahamu zaidi kuhusu data kwa kubadilisha kipengele cha `bins` kuwa namba kubwa zaidi, kama 30:
@ -56,7 +56,7 @@ Kama unavyoona, ndege wengi zaidi ya 400 katika seti hii ya data wanaangukia kat
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![usambazaji-30bins](../../../../../translated_images/sw/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![usambazaji-30bins](../../../../../translated_images/sw/distribution-30bins.6a3921ea7a421bf7.webp)
Mchoro huu unaonyesha usambazaji kwa undani zaidi. Mchoro usioegemea sana upande wa kushoto unaweza kuundwa kwa kuhakikisha kuwa unachagua tu data ndani ya safu fulani:
@ -68,7 +68,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![histogramu iliyochujwa](../../../../../translated_images/sw/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![histogramu iliyochujwa](../../../../../translated_images/sw/filtered-histogram.6bf5d2bfd8253322.webp)
✅ Jaribu vichujio vingine na pointi za data. Ili kuona usambazaji kamili wa data, ondoa kichujio cha `['MaxBodyMass']` ili kuonyesha usambazaji ulio na lebo.
@ -82,7 +82,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Inaonekana kuna uhusiano unaotarajiwa kati ya vipengele hivi viwili kwenye mhimili unaotarajiwa, na sehemu moja yenye nguvu ya mwelekeo:
![mchoro wa 2d](../../../../../translated_images/sw/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![mchoro wa 2d](../../../../../translated_images/sw/2d-plot.c504786f439bd7eb.webp)
Histogramu hufanya kazi vizuri kwa chaguo-msingi kwa data ya namba. Je, unahitaji kuona usambazaji kulingana na data ya maandishi?
@ -114,7 +114,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![mabawa na hali ya uhifadhi](../../../../../translated_images/sw/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![mabawa na hali ya uhifadhi](../../../../../translated_images/sw/wingspan-conservation-collation.4024e9aa6910866a.webp)
Haionekani kuwa na uhusiano mzuri kati ya mabawa madogo na hali ya uhifadhi. Jaribu vipengele vingine vya seti ya data kwa kutumia njia hii. Je, unapata uhusiano wowote?
@ -128,7 +128,7 @@ Hebu tufanye kazi na mchoro wa msongamano sasa!
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![mchoro wa msongamano](../../../../../translated_images/sw/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![mchoro wa msongamano](../../../../../translated_images/sw/density-plot.675ccf865b76c690.webp)
Unaweza kuona jinsi mchoro unavyoakisi ule wa awali wa data ya MabawaMdogo; ni laini kidogo tu. Ikiwa ungependa kurejea mstari wa vipande wa UzitoMkuu wa Mwili katika mchoro wa pili uliounda, ungeweza kuulainisha vizuri kwa kuunda upya kwa kutumia njia hii:
@ -136,7 +136,7 @@ Unaweza kuona jinsi mchoro unavyoakisi ule wa awali wa data ya MabawaMdogo; ni l
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![msongamano wa uzito wa mwili](../../../../../translated_images/sw/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![msongamano wa uzito wa mwili](../../../../../translated_images/sw/bodymass-smooth.d31ce526d82b0a1f.webp)
Ikiwa ungependa mstari ulio laini, lakini si laini sana, hariri kipengele cha `adjust`:
@ -144,7 +144,7 @@ Ikiwa ungependa mstari ulio laini, lakini si laini sana, hariri kipengele cha `a
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![msongamano wa uzito wa mwili usio laini sana](../../../../../translated_images/sw/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![msongamano wa uzito wa mwili usio laini sana](../../../../../translated_images/sw/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ Soma kuhusu vigezo vinavyopatikana kwa aina hii ya mchoro na ujaribu!
@ -154,7 +154,7 @@ Aina hii ya mchoro inatoa vielelezo vya kuelezea vizuri. Kwa mistari michache ya
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![uzito wa mwili kwa oda](../../../../../translated_images/sw/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![uzito wa mwili kwa oda](../../../../../translated_images/sw/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 Changamoto

@ -88,7 +88,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Voila, chati ya pai inayoonyesha uwiano wa data hii kulingana na madarasa haya mawili ya uyoga. Ni muhimu sana kupata mpangilio wa lebo sahihi, hasa hapa, kwa hivyo hakikisha unathibitisha mpangilio ambao safu ya lebo imejengwa!
![chati ya pai](../../../../../translated_images/sw/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![chati ya pai](../../../../../translated_images/sw/pie1-wb.685df063673751f4.webp)
## Donati!
@ -123,7 +123,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![chati ya donati](../../../../../translated_images/sw/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![chati ya donati](../../../../../translated_images/sw/donut-wb.34e6fb275da9d834.webp)
Msimbo huu unatumia maktaba mbili - ggplot2 na webr. Kwa kutumia kipengele cha PieDonut cha maktaba ya webr, tunaweza kuunda chati ya donati kwa urahisi!
@ -161,7 +161,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
Kwa kutumia chati ya waffle, unaweza kuona wazi uwiano wa rangi za kofia za uyoga katika seti hii ya data. Cha kuvutia, kuna uyoga wengi wenye kofia za kijani!
![chati ya waffle](../../../../../translated_images/sw/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![chati ya waffle](../../../../../translated_images/sw/waffle.aaa75c5337735a6e.webp)
Katika somo hili, ulijifunza njia tatu za kuonyesha uwiano. Kwanza, unahitaji kupanga data yako katika kategoria na kisha kuamua ni njia gani bora ya kuonyesha data - pai, donati, au waffle. Zote ni tamu na zinamfurahisha mtumiaji kwa muhtasari wa haraka wa seti ya data.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/sw/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/sw/scatter1.86b8900674d88b26.webp)
Sasa, onyesha data hiyo hiyo kwa mpangilio wa rangi ya asali ili kuonyesha jinsi bei inavyobadilika mwaka hadi mwaka. Unaweza kufanya hivi kwa kuongeza kipengele cha 'scale_color_gradientn' kuonyesha mabadiliko, mwaka hadi mwaka:
@ -52,7 +52,7 @@ Sasa, onyesha data hiyo hiyo kwa mpangilio wa rangi ya asali ili kuonyesha jinsi
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/sw/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/sw/scatter2.4d1cbc693bad20e2.webp)
Kwa mabadiliko haya ya mpangilio wa rangi, unaweza kuona wazi kuwa kuna mwelekeo wa kuongezeka kwa bei ya asali kwa pauni mwaka hadi mwaka. Kwa kweli, ukichunguza seti ya sampuli katika data ili kuthibitisha (chagua jimbo fulani, Arizona kwa mfano) unaweza kuona mwelekeo wa ongezeko la bei mwaka hadi mwaka, isipokuwa kwa baadhi ya miaka:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Unaweza kuona ukubwa wa alama ukiongezeka polepole.
![scatterplot 3](../../../../../translated_images/sw/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/sw/scatter3.722d21e6f20b3ea2.webp)
Je, hili ni suala rahisi la mahitaji na usambazaji? Kutokana na sababu kama mabadiliko ya hali ya hewa na kuporomoka kwa makoloni, je, kuna asali kidogo inayopatikana kwa ununuzi mwaka hadi mwaka, na hivyo bei kuongezeka?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Jibu: Ndiyo, isipokuwa kwa baadhi ya miaka kama 2003:
![line chart 1](../../../../../translated_images/sw/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/sw/line1.299b576fbb2a59e6.webp)
Swali: Vema, mwaka 2003 tunaweza pia kuona ongezeko la usambazaji wa asali? Je, ukichunguza uzalishaji wa jumla mwaka hadi mwaka?
@ -106,7 +106,7 @@ Swali: Vema, mwaka 2003 tunaweza pia kuona ongezeko la usambazaji wa asali? Je,
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/sw/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/sw/line2.3b18fcda7176ceba.webp)
Jibu: Sio kweli. Ukichunguza uzalishaji wa jumla, inaonekana kuwa uliongezeka katika mwaka huo, ingawa kwa ujumla uzalishaji wa asali unaonekana kupungua katika miaka hiyo.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
Katika mchoro huu, unaweza kulinganisha mavuno kwa koloni na idadi ya makoloni mwaka hadi mwaka, sambamba na mpangilio wa safu 3:
![facet grid](../../../../../translated_images/sw/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/sw/facet.491ad90d61c2a7cc.webp)
Kwa seti hii ya data, hakuna kitu kinachojitokeza hasa kuhusu idadi ya makoloni na mavuno yao, mwaka hadi mwaka na jimbo hadi jimbo. Je, kuna njia tofauti ya kutafuta uhusiano kati ya vigezo hivi viwili?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/sw/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/sw/dual-line.fc4665f360a54018.webp)
Ingawa hakuna kitu kinachojitokeza karibu na mwaka 2003, inaturuhusu kumaliza somo hili kwa maelezo ya furaha kidogo: ingawa kuna kupungua kwa idadi ya makoloni kwa ujumla, idadi ya makoloni inaimarika hata kama mavuno yao kwa koloni yanapungua.

@ -38,25 +38,25 @@ Katika masomo yaliyopita, ulijaribu kujenga aina mbalimbali za uwasilishaji wa t
Hata kama mwanasayansi wa takwimu atakuwa makini kuchagua chati sahihi kwa data sahihi, kuna njia nyingi ambazo data inaweza kuwasilishwa kwa njia ya kuthibitisha hoja fulani, mara nyingi kwa gharama ya kudhoofisha data yenyewe. Kuna mifano mingi ya chati na infografiki za kupotosha!
[![Jinsi Chati Zinavyodanganya na Alberto Cairo](../../../../../translated_images/sw/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Jinsi chati zinavyodanganya")
[![Jinsi Chati Zinavyodanganya na Alberto Cairo](../../../../../translated_images/sw/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Jinsi chati zinavyodanganya")
> 🎥 Bofya picha hapo juu kwa mazungumzo ya mkutano kuhusu chati za kupotosha
Chati hii inageuza mhimili wa X ili kuonyesha kinyume cha ukweli, kulingana na tarehe:
![chati mbaya 1](../../../../../translated_images/sw/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![chati mbaya 1](../../../../../translated_images/sw/bad-chart-1.596bc93425a8ac30.webp)
[Chati hii](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) ni ya kupotosha zaidi, kwani jicho linaelekezwa upande wa kulia kuhitimisha kuwa, kwa muda, kesi za COVID zimepungua katika kaunti mbalimbali. Kwa kweli, ukitazama kwa makini tarehe, utagundua kuwa zimepangwa upya ili kuonyesha mwenendo wa kupungua ambao si wa kweli.
![chati mbaya 2](../../../../../translated_images/sw/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![chati mbaya 2](../../../../../translated_images/sw/bad-chart-2.62edf4d2f30f4e51.webp)
Mfano huu maarufu unatumia rangi NA mhimili wa Y uliogeuzwa ili kudanganya: badala ya kuhitimisha kuwa vifo vya bunduki viliongezeka baada ya kupitishwa kwa sheria zinazounga mkono bunduki, jicho linadanganywa kufikiri kinyume chake:
![chati mbaya 3](../../../../../translated_images/sw/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![chati mbaya 3](../../../../../translated_images/sw/bad-chart-3.e201e2e915a230bc.webp)
Chati hii ya ajabu inaonyesha jinsi uwiano unavyoweza kudanganywa, kwa njia ya kuchekesha:
![chati mbaya 4](../../../../../translated_images/sw/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![chati mbaya 4](../../../../../translated_images/sw/bad-chart-4.8872b2b881ffa96c.webp)
Kulinganisha vitu visivyolinganishika ni mbinu nyingine ya hila. Kuna [tovuti nzuri](https://tylervigen.com/spurious-correlations) inayohusu 'uwiano wa uongo' ikionyesha 'ukweli' unaohusisha mambo kama kiwango cha talaka huko Maine na matumizi ya siagi ya margarine. Kikundi cha Reddit pia hukusanya [matumizi mabaya](https://www.reddit.com/r/dataisugly/top/?t=all) ya data.
@ -91,13 +91,13 @@ Weka lebo kwenye mhimili wako, toa ufafanuzi ikiwa ni lazima, na toa vidokezo vy
Ikiwa data yako ni ya maandishi na ndefu kwenye mhimili wa X, unaweza kuipangilia kwa pembe kwa usomaji bora. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) inatoa uwezekano wa kuchora kwa 3D, ikiwa data yako inaunga mkono. Uwasilishaji wa takwimu wa hali ya juu unaweza kuzalishwa kwa kutumia maktaba hii.
![chati za 3D](../../../../../translated_images/sw/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![chati za 3D](../../../../../translated_images/sw/3d.db1734c151eee87d.webp)
## Uhuishaji na maonyesho ya chati za 3D
Baadhi ya uwasilishaji bora wa takwimu leo ni wa kuhuishwa. Shirley Wu ana mifano ya kushangaza iliyofanywa na D3, kama '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', ambapo kila ua ni uwasilishaji wa filamu. Mfano mwingine kwa Guardian ni 'bussed out', uzoefu wa maingiliano unaochanganya uwasilishaji na Greensock na D3 pamoja na makala ya scrollytelling kuonyesha jinsi NYC inavyoshughulikia tatizo la watu wasio na makazi kwa kuwahamisha nje ya jiji.
![busing](../../../../../translated_images/sw/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/sw/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: Jinsi Marekani Inavyohamisha Watu Wasio na Makazi" kutoka [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Uwasilishaji na Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Ingawa somo hili halitoshi kufundisha kwa kina maktaba hizi zenye nguvu za uwasi
Utakamilisha programu ya wavuti ambayo itaonyesha mtazamo wa kuhuishwa wa mtandao huu wa kijamii. Inatumia maktaba iliyojengwa kuunda [uwasilishaji wa mtandao](https://github.com/emiliorizzo/vue-d3-network) kwa kutumia Vue.js na D3. Wakati programu inafanya kazi, unaweza kuvuta nodi kwenye skrini ili kupanga upya data.
![liaisons](../../../../../translated_images/sw/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/sw/liaisons.90ce7360bcf84765.webp)
## Mradi: Jenga chati kuonyesha mtandao kwa kutumia D3.js

@ -1,6 +1,6 @@
# Uakisi
![nyuki juu ya ua la lavenda](../../../translated_images/sw/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![nyuki juu ya ua la lavenda](../../../translated_images/sw/bee.0aa1d91132b12e3a.webp)
> Picha na <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> kwenye <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Kuakisi data ni moja ya kazi muhimu zaidi kwa mwanasayansi wa data. Picha zina thamani ya maneno 1000, na uakisi unaweza kukusaidia kutambua aina zote za sehemu za kuvutia katika data yako kama vile miinuko, data zisizo za kawaida, makundi, mwelekeo, na zaidi, ambavyo vinaweza kukusaidia kuelewa hadithi ambayo data yako inajaribu kusimulia.

@ -16,7 +16,7 @@ Hadi kufikia hatua hii, labda umebaini kuwa sayansi ya takwimu ni mchakato. Mcha
Somo hili linazingatia sehemu tatu za mzunguko wa maisha: kukusanya, kuchakata, na kudumisha.
![Mchoro wa mzunguko wa maisha wa sayansi ya takwimu](../../../../translated_images/sw/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Mchoro wa mzunguko wa maisha wa sayansi ya takwimu](../../../../translated_images/sw/data-science-lifecycle.a1e362637503c4fb.webp)
> Picha na [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Kukusanya
@ -92,7 +92,7 @@ Chunguza [Mzunguko wa Maisha wa Mchakato wa Timu ya Sayansi ya Takwimu](https://
|Mchakato wa Timu ya Sayansi ya Takwimu (TDSP)|Mchakato wa Kawaida wa Viwanda kwa Uchimbaji wa Takwimu (CRISP-DM)|
|--|--|
|![Mzunguko wa Maisha wa Timu ya Sayansi ya Takwimu](../../../../translated_images/sw/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Picha ya Mchakato wa Sayansi ya Takwimu](../../../../translated_images/sw/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Mzunguko wa Maisha wa Timu ya Sayansi ya Takwimu](../../../../translated_images/sw/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Picha ya Mchakato wa Sayansi ya Takwimu](../../../../translated_images/sw/CRISP-DM.8bad2b4c66e62aa7.webp) |
| Picha na [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Picha na [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Jaribio la Baada ya Somo](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# Mzunguko wa Maisha wa Sayansi ya Takwimu
![communication](../../../translated_images/sw/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/sw/communication.06d8e2a88d30d168.webp)
> Picha na <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> kwenye <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Katika masomo haya, utachunguza baadhi ya vipengele vya mzunguko wa maisha wa Sayansi ya Takwimu, ikiwa ni pamoja na uchambuzi na mawasiliano kuhusu data.

@ -1,12 +1,12 @@
# Sayansi ya Takwimu kwenye Wingu
![cloud-picture](../../../translated_images/sw/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/sw/cloud-picture.f5526de3c6c6387b.webp)
> Picha na [Jelleke Vanooteghem](https://unsplash.com/@ilumire) kutoka [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Linapokuja suala la kufanya sayansi ya takwimu na data kubwa, wingu linaweza kuwa mabadiliko makubwa. Katika masomo matatu yajayo, tutaangalia wingu ni nini na kwa nini linaweza kuwa msaada mkubwa. Pia tutaangazia seti ya data ya kushindwa kwa moyo na kujenga mfano wa kusaidia kutathmini uwezekano wa mtu kupata kushindwa kwa moyo. Tutatumia nguvu ya wingu kufundisha, kupeleka, na kutumia mfano kwa njia mbili tofauti. Njia moja ni kwa kutumia tu kiolesura cha mtumiaji kwa mtindo wa "Low code/No code", na njia nyingine ni kwa kutumia Azure Machine Learning Software Developer Kit (Azure ML SDK).
![project-schema](../../../translated_images/sw/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/sw/project-schema.420e56d495624541.webp)
### Mada

@ -32,7 +32,7 @@ Shukrani kwa upatikanaji wa AI kwa urahisi, sasa watengenezaji wanapata urahisi
* [Sayansi ya Takwimu katika Afya](https://data-flair.training/blogs/data-science-in-healthcare/) - inaonyesha matumizi kama picha za matibabu (mfano, MRI, X-Ray, CT-Scan), genomics (mpangilio wa DNA), maendeleo ya dawa (tathmini ya hatari, utabiri wa mafanikio), uchambuzi wa utabiri (huduma ya mgonjwa na vifaa vya usambazaji), ufuatiliaji wa magonjwa na kuzuia n.k.
![Matumizi ya Sayansi ya Takwimu Katika Ulimwengu Halisi](../../../../translated_images/sw/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Picha: [Data Flair: Matumizi 6 ya Kushangaza ya Sayansi ya Takwimu ](https://data-flair.training/blogs/data-science-applications/)
![Matumizi ya Sayansi ya Takwimu Katika Ulimwengu Halisi](../../../../translated_images/sw/data-science-applications.4e5019cd8790ebac.webp) Picha: [Data Flair: Matumizi 6 ya Kushangaza ya Sayansi ya Takwimu ](https://data-flair.training/blogs/data-science-applications/)
Mchoro unaonyesha maeneo mengine na mifano ya kutumia mbinu za sayansi ya takwimu. Unataka kuchunguza matumizi mengine? Angalia sehemu ya [Mapitio na Kujisomea](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) hapa chini.

@ -13,7 +13,7 @@ Kiolesura cha Explorer (kinachoonyeshwa kwenye picha hapa chini) kinakuruhusu ku
2. Chunguza [Catalog ya dataset](https://planetarycomputer.microsoft.com/catalog) - elewa madhumuni ya kila moja.
3. Tumia Explorer - chagua dataset inayokuvutia, chagua swali linalofaa na chaguo la uwasilishaji.
![The Planetary Computer Explorer](../../../../translated_images/sw/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![The Planetary Computer Explorer](../../../../translated_images/sw/planetary-computer-explorer.c1e95a9b053167d6.webp)
`Jukumu Lako:`
Sasa chunguza taswira inayotolewa kwenye kivinjari na jibu yafuatayo:

@ -1,251 +1,263 @@
# Sayansi ya Takwimu kwa Waanzilishi - Mtaala
# Sayansi ya Data kwa Waanzizi - Mtaala
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![Fungua katika GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![Leseni ya GitHub](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![Wachangiaji wa GitHub](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![Masuala ya GitHub](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![Maombi ya kuburuta ya GitHub](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![Karibu PRs](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Watazamaji wa GitHub](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![Wanatawi wa GitHub](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![Nyota za GitHub](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![Jukwaa la Waendelezaji Microsoft Foundry](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Wahubiri wa Azure Cloud huko Microsoft wanafurahia kutoa mtaala wa wiki 10, masomo 20 yote kuhusu Sayansi ya Takwimu. Kila somo linajumuisha maswali ya kabla ya somo na baada ya somo, maelekezo yaliyoandikwa ya kumaliza somo, suluhisho, na kazi ya nyumbani. Njia yetu ya kujifunza kwa msingi wa miradi inakuwezesha kujifunza wakati unajenga, njia thabiti ya ujuzi mpya "kubaki".
Wafuasi wa Azure Cloud huko Microsoft wanafurahia kutoa mtaala wa wiki 10, masomo 20 yote kuhusu Sayansi ya Data. Kila somo linajumuisha vipimo kabla ya somo na baada ya somo, maagizo yaliyoandikwa ya kumaliza somo, suluhisho, na kazi ya nyumbani. Mbinu yetu ya kujifunza kwa miradi hukuruhusu kujifunza huku ukiunda, njia iliyothibitishwa ya ujuzi mpya 'kubaki'.
**Shukrani nyingi kwa waandishi wetu:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**Shukrani kali kwa waandishi wetu:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Shukrani maalum 🙏 kwa waandishi, wakaguzi na wachangiaji wa maudhui wa [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** hasa Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Shukrani maalum 🙏 kwa waandishi, wakagua na wachangiaji wa maudhui wa [Balozi wa Wanafunzi wa Microsoft](https://studentambassadors.microsoft.com/),** hasa Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/sw/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Sayansi ya Takwimu kwa Waanzilishi - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
| Sayansi ya Data kwa Waanzizi - _Sketchnote na [@nitya](https://twitter.com/nitya)_ |
### 🌐 Msaada wa Lugha Nyingi
#### Imetangazwa kupitia GitHub Action (Moja kwa moja & Daima Imeboreshwa)
#### Inaungwa mkono kupitia Hatua ya GitHub (Kiotomatiki & Mara zote Imesasishwa)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](./README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **Unapendelea Kuchomeka Kwenye Kompyuta?**
[Kiarabu](../ar/README.md) | [Kibengali](../bn/README.md) | [Kibulgaria](../bg/README.md) | [Kiburma (Myanmar)](../my/README.md) | [Kichina (Rahisi)](../zh-CN/README.md) | [Kichina (Kiutamaduni, Hong Kong)](../zh-HK/README.md) | [Kichina (Kiutamaduni, Macau)](../zh-MO/README.md) | [Kichina (Kiutamaduni, Taiwan)](../zh-TW/README.md) | [Kikroeshia](../hr/README.md) | [Kicheki](../cs/README.md) | [Kidenmaki](../da/README.md) | [Kiholanzi](../nl/README.md) | [Kiestonia](../et/README.md) | [Kifini](../fi/README.md) | [Kifaransa](../fr/README.md) | [Kijerumani](../de/README.md) | [Kigiriki](../el/README.md) | [Kiebrania](../he/README.md) | [Kihindi](../hi/README.md) | [Kihungaria](../hu/README.md) | [Kiindonesia](../id/README.md) | [Kiitaliano](../it/README.md) | [Kijapani](../ja/README.md) | [Kikannada](../kn/README.md) | [Kikorea](../ko/README.md) | [Kilitwania](../lt/README.md) | [Kimalaezi](../ms/README.md) | [Kimalayalam](../ml/README.md) | [Kimarathi](../mr/README.md) | [Kinepali](../ne/README.md) | [Kipidgin cha Nigeria](../pcm/README.md) | [Kinorwe](../no/README.md) | [Kiajemi (Farsi)](../fa/README.md) | [Kipolishi](../pl/README.md) | [Kireno (Brazili)](../pt-BR/README.md) | [Kireno (Ureno)](../pt-PT/README.md) | [Kipunjabi (Gurmukhi)](../pa/README.md) | [Kiromania](../ro/README.md) | [Kirusi](../ru/README.md) | [Kiservia (Siriliki)](../sr/README.md) | [Kislovakia](../sk/README.md) | [Kislovenia](../sl/README.md) | [Kihispania](../es/README.md) | [Kiswahili](./README.md) | [Kiswidi](../sv/README.md) | [Kitagalog (Filipino)](../tl/README.md) | [Kitamili](../ta/README.md) | [Kitelugu](../te/README.md) | [Kithai](../th/README.md) | [Kituruki](../tr/README.md) | [Kiukraini](../uk/README.md) | [Kiurdu](../ur/README.md) | [Kivietinamu](../vi/README.md)
> Hifadhi hii ina tafsiri za lugha zaidi ya 50 ambazo huongeza kiasi kikubwa cha kupakua. Ili kuchomeka bila tafsiri, tumia sparse checkout:
> **Unapendelea Kuiga Kwa Ndani?**
>
> Hifadhidata hii ina tafsiri zaidi ya 50 za lugha ambazo huongeza kwa kiasi kikubwa ukubwa wa kupakua. Ili kuiga bila tafsiri, tumia sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> Hii inakupa kila kitu unachohitaji kukamilisha kozi kwa upakuaji wa haraka zaidi.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Hii inakupa kila kitu unachohitaji kumaliza kozi kwa upakuaji wa haraka zaidi.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Ikiwa unataka lugha za ziada za tafsiri zinazoungwa mkono, zimetajwa [hapa](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Kama unataka kuwa na lugha za ziada za tafsiri zinazoungiwa mkono ziko [hapa](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Jiunge na Jamii Yetu
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Tuna mfululizo wa kujifunza kwenye Discord kuhusu AI unaoendelea, jifunze zaidi na jiunge nasi kwenye [Mfululizo wa Kujifunza na AI](https://aka.ms/learnwithai/discord) kuanzia 18 - 30 Septemba, 2025. Utapata vidokezo na mbinu za kutumia GitHub Copilot kwa Sayansi ya Takwimu.
Tuna mfululizo wa kujifunza Discord na AI unaoendelea, jifunze zaidi na ujiunge nasi katika [Mfululizo wa Kujifunza na AI](https://aka.ms/learnwithai/discord) kuanzia tarehe 18 - 30 Septemba, 2025. Utapata vidokezo na mbinu za kutumia GitHub Copilot kwa Sayansi ya Data.
![Learn with AI series](../../translated_images/sw/1.2b28cdc6205e26fe.webp)
![Mfululizo wa Kujifunza na AI](../../translated_images/sw/1.2b28cdc6205e26fe.webp)
# Je, wewe ni mwanafunzi?
Anza na rasilimali zifuatazo:
- [Ukumbi wa Wanafunzi](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Ukurasa huu, utapata rasilimali za waanzilishi, vifurushi vya wanafunzi na hata njia za kupata vocha ya cheti bure. Huu ni ukurasa mmoja unaotaka kuhifadhi na kuangalia mara kwa mara kwa kuwa hubadilisha maudhui kila mwezi.
- [Mabalozi wa Wanafunzi wa Microsoft Learn](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Jiunge na jamii ya mabalozi wanafunzi duniani kote, hii inaweza kuwa njia yako ya kuingia Microsoft.
- [Ukurasa wa Kituo cha Wanafunzi](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Katika ukurasa huu, utapata rasilimali za wanaoanza, vifurushi vya Wanafunzi na hata njia za kupata vocha za cheti bure. Huu ni ukurasa unaotaka kuweka alama na kuangalia mara kwa mara tunapobadilisha maudhui angalau kila mwezi.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Jiunge na jamii ya kimataifa ya mabalozi wanafunzi, hii inaweza kuwa njia yako ya kuingia Microsoft.
# Kuanzia
## 📚 Nyaraka
- **[Mwongozo wa Usanidi](INSTALLATION.md)** - Maelekezo ya hatua kwa hatua kwa waanzilishi
- **[Mwongozo wa Matumizi](USAGE.md)** - Mifano na taratibu za kawaida za kazi
- **[Ushughulikiaji wa Matatizo](TROUBLESHOOTING.md)** - Suluhisho za matatizo ya kawaida
- **[Mwongozo wa Usanidi](INSTALLATION.md)** - Maelekezo hatua kwa hatua kwa waanzizi
- **[Mwongozo wa Matumizi](USAGE.md)** - Mifano na michakato ya kawaida
- **[Utatuzi wa Matatizo](TROUBLESHOOTING.md)** - Suluhisho za masuala ya kawaida
- **[Mwongozo wa Kuchangia](CONTRIBUTING.md)** - Jinsi ya kuchangia mradi huu
- **[Kwa Walimu](for-teachers.md)** - Mwongozo wa kufundisha na rasilimali za darasani
## 👨‍🎓 Kwa Wanafunzi
> **Waanzilishi Kabisa**: Mpya kwa sayansi ya takwimu? Anza na [mifano rahisi kwa waanzilishi](examples/README.md)! Mifano hii rahisi, yenye maelezo yatakusaidia kuelewa misingi kabla ya kuingia kwenye mtaala mzima.
> **[Wanafunzi](https://aka.ms/student-page)**: kutumia mtaala huu kwa wenyewe, tengeneza nakala ya ripo yote na ukamilishe mazoezi mwenyewe, kuanzia kwa jaribio la kabla ya mihadhara. Kisha soma mihadhara na ukamilishe shughuli zote. Jaribu kuunda miradi kwa kuelewa masomo badala ya kunakili msimbo wa suluhisho; hata hivyo, msimbo huo upo katika folda za /solutions kwa kila somo linalolenga mradi. Wazo jingine ni kuunda kikundi cha kusoma na marafiki na kupitia maudhui pamoja. Kwa masomo zaidi, tunapendekeza [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Waanzizi Wapya**: Mpya katika sayansi ya data? Anza na [mifano rahisi kwa wanaoanza](examples/README.md)! Mifano hii rahisi, yenye maelezo itakusaidia kuelewa misingi kabla ya kuingia mtaala mzima.
> **[Wanafunzi](https://aka.ms/student-page)**: kutumia mtaala huu peke yako, tengeneza nakala ya repo nzima na maliza mazoezi kwa wewe mwenyewe, ukianza na jaribio la kabla ya mihadhara. Kisha soma mihadhara na maliza shughuli nyingine. Jaribu kuunda miradi kwa kuelewa masomo badala ya kunakili msimbo wa suluhisho; hata hivyo, msimbo huo upo katika folda za /solutions katika kila somo linalolenga mradi. Wazo jingine ni kuunda kikundi cha masomo na marafiki na kupitia maudhui pamoja. Kwa masomo zaidi, tunapendekeza [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Anza Haraka:**
1. Angalia [Mwongozo wa Usanidi](INSTALLATION.md) kuanzisha mazingira yako
1. Angalia [Mwongozo wa Usanidi](INSTALLATION.md) kuweka mazingira yako
2. Pitia [Mwongozo wa Matumizi](USAGE.md) kujifunza jinsi ya kufanya kazi na mtaala
3. Anza na Somo 1 na ufanye mfululizo
3. Anza na Somo la 1 na fanya kazi mfululizo
4. Jiunge na [jamii yetu ya Discord](https://aka.ms/ds4beginners/discord) kwa msaada
## 👩‍🏫 Kwa Walimu
> **Walimu**: tumekuwa [tukiongeza mapendekezo kadhaa](for-teachers.md) kuhusu jinsi ya kutumia mtaala huu. Tunatarajia maoni yako [katika jukwaa letu la majadiliano](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Walimu**: tumejumuisha [mapendekezo kadhaa](for-teachers.md) juu ya jinsi ya kutumia mtaala huu. Tunapenda maoni yako [katika jukwaa letu la majadiliano](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Kutana na Timu
[![Video ya Promo](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Video ya Promo")
[![Video ya utangulizi](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Video ya utangulizi")
**Gif na** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Bonyeza picha hapo juu kwa video kuhusu mradi na watu waliouunda!
## Mafundisho
## Pedagojia
Tumechagua kanuni mbili za kufundisha wakati wa kujenga mtaala huu: kuhakikisha kuwa ni wenye msingi wa miradi na kwamba unajumuisha mtihani wa mara kwa mara. Mwisho wa mfululizo huu, wanafunzi watajifunza kanuni za msingi za sayansi ya data, ikiwa ni pamoja na dhana za maadili, maandalizi ya data, njia mbalimbali za kufanya kazi na data, uonyesho wa data, uchambuzi wa data, matumizi halisi ya sayansi ya data, na zaidi.
Tumechagua kanuni mbili za kufundisha wakati wa kuunda mtaala huu: kuhakikisha unategemea miradi na unajumuisha maswali ya mara kwa mara. Mwishoni mwa mfululizo huu, wanafunzi watakuwa wamejifunza misingi ya sayansi ya data, ikijumuisha dhana za kimaadili, maandalizi ya data, njia tofauti za kufanya kazi na data, uwasilishaji wa data, uchambuzi wa data, matumizi halisi ya sayansi ya data, na zaidi.
Zaidi ya hayo, mtihani wa chini kabla ya darasa huweka nia ya mwanafunzi kuelekea kujifunza mada, wakati mtihani wa pili baada ya darasa huhakikisha uhifadhi zaidi. Mtaala huu umeundwa kuwa rahisi na wa kufurahisha na unaweza kuchukuliwa kwa jumla au sehemu. Miradi huanza mdogo na kuwa mgumu zaidi mwishoni mwa mzunguko wa wiki 10.
Zaidi ya hayo, jaribio la chini la hatari kabla ya darasa linaweka nia ya mwanafunzi kuelekea kujifunza mada, wakati jaribio la pili baada ya darasa linahakikisha kuhifadhi zaidi. Mtaala huu umeundwa kuwa rahisi kubadilika na kufurahisha na unaweza kuchukuliwa kwa jumla au kwa sehemu. Miradi huanza ndogo na kuwa changamano zaidi mwishoni mwa mzunguko wa wiki 10.
> Pata [Kanuni Zetu za Maadili](CODE_OF_CONDUCT.md), [Kushiriki](CONTRIBUTING.md), [Miongozo ya Tafsiri](TRANSLATIONS.md). Tunakaribisha mrejesho wako wenye kujenga!
> Pata [Kanuni Zetu za Maadili](CODE_OF_CONDUCT.md), [Kushirikiana](CONTRIBUTING.md), [Mwongozo wa Tafsiri](TRANSLATIONS.md). Tunakukaribisha maoni yako yenye kujenga!
## Kila somo linajumuisha:
- Sketchnote hiari
- Video ya ziada hiari
- Mtihani wa kujiandaa kabla ya somo
- Jaribio la msingi kabla ya somo
- Somo lililoandikwa
- Kwa masomo ya msingi wa mradi, miongozo hatua kwa hatua juu ya jinsi ya kujenga mradi
- Kwa masomo yanayotegemea mradi, mwongozo hatua kwa hatua wa jinsi ya kuunda mradi
- Ukaguzi wa maarifa
- Changamoto
- Usomaji wa ziada
- Kazi ya nyumbani
- [Mtihani baada ya somo](https://ff-quizzes.netlify.app/en/)
- [Jaribio baada ya somo](https://ff-quizzes.netlify.app/en/)
> **Kumbuka kuhusu mitihani:** Mitihani yote iko katika folda ya Quiz-App, kwa jumla ya mitihani 40 yenye maswali matatu kila moja. Imeunganishwa ndani ya masomo, lakini programu ya mtihani inaweza kuendeshwa kwa karibu au kuwasilishwa Azure; fuata maelekezo katika folda ya `quiz-app`. Yanaendelea kutafsiriwa kwa taratibu.
> **Kumbuka kuhusu maswali**: Maswali yote yamo kwenye folda ya Quiz-App, kwa maswali 40 ya jumla yenye maswali matatu kila moja. Yameunganishwa kutoka ndani ya masomo, lakini programu ya jaribio inaweza kuendeshwa kwa ndani au kusambazwa kwenye Azure; fuata maelekezo katika folda ya `quiz-app`. Yanazunguka tafsiri polepole.
## 🎓 Mifano Rafiki kwa Waanzilishi
## 🎓 Mifano Rafiki kwa Waanziaji
**Mpya kwa Sayansi ya Data?** Tumetengeneza [folda ya mifano](examples/README.md) maalum yenye msimbo rahisi na maelezo mazuri kusaidia kuanza:
**Mpya kwa Sayansi ya Data?** Tumeunda [folda ya mifano](examples/README.md) maalum yenye msimbo rahisi na wenye maelezo mazuri kusaidia kuanza:
- 🌟 **Hello World** - Programu yako ya kwanza ya sayansi ya data
- 📂 **Kupakia Data** - Jifunze kusoma na kuchunguza seti za data
- 📂 **Kupakia Data** - Jifunze kusoma na kuchambua datasets
- 📊 **Uchambuzi Rahisi** - Hesabu takwimu na tafuta mifumo
- 📈 **Uonyesho Msingi** - Tengeneza chati na grafu
- 🔬 **Mradi wa Dunia Halisi** - Mchakato kamili kutoka mwanzo hadi mwisho
- 📈 **Uwasilishaji wa Msingi** - Tengeneza chati na grafu
- 🔬 **Mradi wa Dunia Halisi** - Mchakato kamili kuanzia mwanzo hadi mwisho
Kila mfano una maelezo ya kina yanayofafanua kila hatua, hivyo ni mzuri kwa wanaoanza kabisa!
Kila mfano una maelezo ya kina yanayoelezea kila hatua, ukifanya iwe nzuri kwa waanziaji kabisa!
👉 **[Anza na mifano](examples/README.md)** 👈
## Masomo
|![ Sketchnote na @sketchthedocs https://sketchthedocs.dev](../../translated_images/sw/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Sayansi ya Data kwa Waanzilishi: Ramani - _Sketchnote na [@nitya](https://twitter.com/nitya)_ |
| Sayansi ya Data kwa Waanziaji: Ramani ya Njia - _Sketchnote na [@nitya](https://twitter.com/nitya)_ |
| Nambari ya Somo | Mada | Ugawaji wa Somo | Malengo ya Kujifunza | Somo Lililoambatanishwa | Mwandishi |
| Nambari ya Somo | Mada | Kundi la Somo | Malengo ya Kujifunza | Somo Lililounganishwa | Mwandishi |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Kueleza Sayansi ya Data | [Utangulizi](1-Introduction/README.md) | Jifunze dhana za msingi za sayansi ya data na jinsi inavyohusiana na akili bandia, ujifunzaji wa mashine, na data kubwa. | [somo](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Maadili ya Sayansi ya Data | [Utangulizi](1-Introduction/README.md) | Dhana za Maadili ya Data, Changamoto & Miundombinu. | [somo](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Kueleza Data | [Utangulizi](1-Introduction/README.md) | Jinsi data inavyoainishwa na vyanzo vyake vya kawaida. | [somo](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Utangulizi wa Takwimu & Uwezekano | [Utangulizi](1-Introduction/README.md) | Mbinu za hisabati za uwezekano na takwimu kuelewa data. | [somo](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Kufanya kazi na Data ya Mahusiano | [Kufanya Kazi na Data](2-Working-With-Data/README.md) | Utangulizi wa data ya mahusiano na misingi ya kuchunguza na kuchambua data ya mahusiano kwa kutumia Structured Query Language, inayojulikana kama SQL (inasomwa “see-quell”). | [somo](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Kufanya kazi na Data isiyo ya SQL | [Kufanya Kazi na Data](2-Working-With-Data/README.md) | Utangulizi wa data isiyo ya mahusiano, aina zake mbalimbali na misingi ya kuchunguza na kuchambua hifadhidata za hati. | [somo](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Kufanya kazi na Python | [Kufanya Kazi na Data](2-Working-With-Data/README.md) | Misingi ya kutumia Python kwa uchunguzi wa data kwa maktaba kama Pandas. Uelewa wa msingi wa programu ya Python unashauriwa. | [somo](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Maandalizi ya Data | [Kufanya Kazi na Data](2-Working-With-Data/README.md) | Mada juu ya mbinu za kusafisha na kubadilisha data kushughulikia changamoto za data kutokuwepo, yenye makosa, au ambayo haijakamilika. | [somo](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Uonyesho wa Kiasi | [Uonyesho wa Data](3-Data-Visualization/README.md) | Jifunze jinsi ya kutumia Matplotlib kuonyesha data ya ndege 🦆 | [somo](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Uonyesho wa Mgawanyo wa Data | [Uonyesho wa Data](3-Data-Visualization/README.md) | Onyesha mashahidi na mwenendo ndani ya kipindi. | [somo](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Uonyesho wa Sehemu | [Uonyesho wa Data](3-Data-Visualization/README.md) | Onyesha asilimia zilizojitenga na zilizopangwa. | [somo](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Uonyesho wa Uhusiano | [Uonyesho wa Data](3-Data-Visualization/README.md) | Onyesha uhusiano na uambatano kati ya seti za data na vigezo vyake. | [somo](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Uonyesho Zenye Maana | [Uonyesho wa Data](3-Data-Visualization/README.md) | Mbinu na mwongozo wa kufanya uonyesho wako kuwa na thamani kwa ajili ya kutatua matatizo kwa ufanisi na kupata maarifa. | [somo](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Utangulizi wa mzunguko wa maisha wa Sayansi ya Data | [Mzunguko wa Maisha](4-Data-Science-Lifecycle/README.md) | Utangulizi wa mzunguko wa maisha wa sayansi ya data na hatua yake ya kwanza ya kupata na kutoa data. | [somo](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Kuchambua | [Mzunguko wa Maisha](4-Data-Science-Lifecycle/README.md) | Awamu hii ya mzunguko wa maisha ya sayansi ya data inalenga mbinu za kuchambua data. | [somo](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Mawasiliano | [Mzunguko wa Maisha](4-Data-Science-Lifecycle/README.md) | Awamu hii ya mzunguko wa maisha ya sayansi ya data inalenga kuwasilisha maarifa kutoka kwa data kwa njia inayorahisisha watunga maamuzi kuelewa. | [somo](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Sayansi ya Data katika Mawingu | [Data ya Mawingu](5-Data-Science-In-Cloud/README.md) | Mfululizo huu wa masomo unaanzisha sayansi ya data katika wingu na faida zake. | [somo](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) na [Maud](https://twitter.com/maudstweets) |
| 18 | Sayansi ya Data katika Mawingu | [Data ya Mawingu](5-Data-Science-In-Cloud/README.md) | Mafunzo ya mifano kwa kutumia zana za Low Code. |[somo](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) na [Maud](https://twitter.com/maudstweets) |
| 19 | Sayansi ya Data katika Mawingu | [Data ya Mawingu](5-Data-Science-In-Cloud/README.md) | Kuweka mifano kwa kutumia Azure Machine Learning Studio. | [somo](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) na [Maud](https://twitter.com/maudstweets) |
| 20 | Sayansi ya Data kwa Maisha Halisi | [Maisha Halisi](6-Data-Science-In-Wild/README.md) | Miradi inayotumia sayansi ya data katika dunia halisi. | [somo](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 01 | Kufafanua Sayansi ya Data | [Utangulizi](1-Introduction/README.md) | Jifunze dhana za msingi za sayansi ya data na jinsi inavyohusiana na akili bandia, ujifunzaji mashine, na data kubwa. | [somo](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Maadili ya Sayansi ya Data | [Utangulizi](1-Introduction/README.md) | Dhana za Maadili ya Data, Changamoto na Miundo. | [somo](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Kufafanua Data | [Utangulizi](1-Introduction/README.md) | Jinsi data inavyoainishwa na vyanzo vyake vya kawaida. | [somo](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Utangulizi wa Takwimu na Uwezekano | [Utangulizi](1-Introduction/README.md) | Mbinu za kihisabati za uwezekano na takwimu kuelewa data. | [somo](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Kufanya kazi na Data ya Uhusiano | [Kufanya kazi na Data](2-Working-With-Data/README.md) | Utangulizi wa data ya uhusiano na misingi ya kuchambua na kuchunguza data ya uhusiano kwa kutumia Structured Query Language, inayojulikana pia kama SQL (inayosemwa “see-quell”). | [somo](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Kufanya kazi na Data isiyo ya NoSQL | [Kufanya kazi na Data](2-Working-With-Data/README.md) | Utangulizi wa data isiyo ya uhusiano, aina zake mbalimbali na misingi ya kuchambua na kuchunguza database za hati. | [somo](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Kufanya kazi na Python | [Kufanya kazi na Data](2-Working-With-Data/README.md) | Misingi ya kutumia Python katika uchambuzi wa data kwa maktaba kama Pandas. Uelewa wa msingi wa programu ya Python unahitajika. | [somo](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Maandalizi ya Data | [Kufanya kazi na Data](2-Working-With-Data/README.md) | Mada kuhusu mbinu za kusafisha na kubadilisha data kushughulikia changamoto za data kupungufu, isiyo sahihi au isiyo kamili. | [somo](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Kuonyesha Viwango | [Uwasilishaji wa Data](3-Data-Visualization/README.md) | Jifunze jinsi ya kutumia Matplotlib kuonyesha data za ndege 🦆 | [somo](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Kuonyesha Mgawanyo wa Data | [Uwasilishaji wa Data](3-Data-Visualization/README.md) | Kuonyesha maoni na mwenendo ndani ya kipindi. | [somo](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Kuonyesha Asilimia | [Uwasilishaji wa Data](3-Data-Visualization/README.md) | Kuonyesha asilimia za kujitenga na zilizokusanywa. | [somo](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Kuonyesha Uhusiano | [Uwasilishaji wa Data](3-Data-Visualization/README.md) | Kuonyesha uhusiano na uhusiano kati ya seti za data na mabadiliko yao. | [somo](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Uwasilishaji wenye Thamani | [Uwasilishaji wa Data](3-Data-Visualization/README.md) | Mbinu na mwongozo wa kufanya uwasilishaji wako kuwa na thamani kwa kutatua matatizo kwa ufanisi na kupata maarifa. | [somo](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Utangulizi wa mzunguko wa maisha ya Sayansi ya Data | [Mzunguko wa Maisha](4-Data-Science-Lifecycle/README.md) | Utangulizi wa mzunguko wa maisha ya sayansi ya data na hatua yake ya kwanza ya kupata na kutoa data. | [somo](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Kuchambua | [Mzunguko wa Maisha](4-Data-Science-Lifecycle/README.md) | Awamu hii ya mzunguko wa maisha ya sayansi ya data inazingatia mbinu za kuchambua data. | [somo](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Mawasiliano | [Mzunguko wa Maisha](4-Data-Science-Lifecycle/README.md) | Awamu hii inahusu kuwasilisha maarifa yanayotokana na data kwa njia inayorahisisha watoa maamuzi kuelewa. | [somo](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Sayansi ya Data katika Wingu | [Data ya Wingu](5-Data-Science-In-Cloud/README.md) | Mfululizo huu wa masomo yaanzisha sayansi ya data katika wingu na faida zake. | [somo](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) na [Maud](https://twitter.com/maudstweets) |
| 18 | Sayansi ya Data katika Wingu | [Data ya Wingu](5-Data-Science-In-Cloud/README.md) | Mafunzo ya modeli kwa kutumia zana za Low Code. |[somo](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) na [Maud](https://twitter.com/maudstweets) |
| 19 | Sayansi ya Data katika Wingu | [Data ya Wingu](5-Data-Science-In-Cloud/README.md) | Kusambaza modeli kwa kutumia Azure Machine Learning Studio. | [somo](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) na [Maud](https://twitter.com/maudstweets) |
| 20 | Sayansi ya Data Kwenye Ulimwengu Halisi | [Kwenye Ulimwengu Halisi](6-Data-Science-In-Wild/README.md) | Miradi ya sayansi ya data katika dunia halisi. | [somo](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Fuata hatua hizi kufungua sampuli hii katika Codespace:
1. Bonyeza menyu ya kushuka ya Code na chagua chaguo la Open with Codespaces.
2. Chagua + New codespace chini kwenye pane.
Kwa habari zaidi, angalia [nyaraka za GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
1. Bonyeza menyu ya Code na chagua chaguo la Open with Codespaces.
2. Chagua + New codespace chini kwenye sehemu ya kidirisha.
Kwa maelezo zaidi, angalia [nyaraka za GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Fuata hatua hizi kufungua repo hii katika kontena kwa kutumia mashine yako ya eneo na VSCode ukitumia ugani wa VS Code Remote - Containers:
Fuata hatua hizi kufungua repo hii kwenye chombo (container) kwa kutumia mashine yako ya ndani na VSCode ukitumia ugani wa VS Code Remote - Containers:
1. Ikiwa ni mara yako ya kwanza kutumia kontena la maendeleo, tafadhali hakikisha mfumo wako unakidhi mahitaji (yaani kuwa na Docker imewekwa) katika [nyaraka za kuanza](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Ikiwa ni mara yako ya kwanza kutumia chombo cha maendeleo (development container), hakikisha mfumo wako unakidhi vigezo (yaani, kuwa na Docker imewekwa) katika [nyaraka za kuanza](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Ili kutumia hazina hii, unaweza kufungua hazina hiyo katika sauti ya Docker iliyotengwa:
Ili kutumia repozitori hii, unaweza kufungua repozitori kwa kutumia gari la Docker ambalo limejitenga:
**Kumbuka**: Kwa ndani, itatumia amri ya Remote-Containers: **Clone Repository in Container Volume...** kunakili msimbo wa chanzo katika sauti ya Docker badala ya mfumo wa faili wa eneo. [Volumes](https://docs.docker.com/storage/volumes/) ni njia inayopendekezwa kuhifadhi data za kontena.
**Kumbuka**: Chini ya kifuniko, hii itatumia amri ya Remote-Containers: **Clone Repository in Container Volume...** ili kunakili msimbo wa chanzo kwenye gari la Docker badala ya mfumo wa faili wa ndani. [Gari (Volumes)](https://docs.docker.com/storage/volumes/) ni njia iliyopendekezwa kuhifadhi data ya chombo.
Au fungua toleo lililonakiliwa au kupakuliwa la hazina hii kwa eneo lako:
Au fungua toleo lililonakiliwa au kupakuliwa la repozitori kwa ndani:
- Nakili hazina hii kwenye mfumo wako wa faili wa eneo.
- Bonyeza F1 na chagua amri ya **Remote-Containers: Open Folder in Container...**
- Chagua nakala iliyonakiliwa ya folda hii, subiri kontena iaanze, na jaribu vitu.
- Nakili repozitori hii kwenye mfumo wako wa faili wa ndani.
- Bonyeza F1 na chagua amri ya **Remote-Containers: Open Folder in Container...**.
- Chagua toleo lililonakiliwa la folda hii, subiri chombo kuanza, kisha jaribu vitu.
## Ufikiaji bila Mtandao
## Ufikiaji wa Nje ya Mtandao
Unaweza kuendesha nyaraka hizi bila mtandao kwa kutumia [Docsify](https://docsify.js.org/#/). Tenganisha repo hii, [sakinisha Docsify](https://docsify.js.org/#/quickstart) kwenye mashine yako ya eneo, kisha katika folda kuu ya repo hii, andika `docsify serve`. Tovuti itahudumiwa kwenye bandari 3000 kwenye localhost yako: `localhost:3000`.
Unaweza kuendesha nyaraka hii nje ya mtandao kwa kutumia [Docsify](https://docsify.js.org/#/). Fanya nakala ya repozitori hii, [sakinisha Docsify](https://docsify.js.org/#/quickstart) kwenye mashine yako ya ndani, kisha kwenye folda kuu ya repozitori hii, andika `docsify serve`. Tovuti itashirikiwa kwenye port 3000 kwenye localhost yako: `localhost:3000`.
> Kumbuka, daftari hazitatengenezwa kupitia Docsify, hivyo unapohitaji kuendesha daftari, fanya hivyo kwa tofauti katika VS Code ukitumia kernel ya Python.
> Kumbuka, vitabu vya daftari hayatatumwa kupitia Docsify, kwa hivyo unapohitaji kuendesha daftari, fanya hivyo tofauti ndani ya VS Code ukitumia kernel ya Python.
## Mitaala Mingine
## Mtaala Mwingine
Timu yetu hutengeneza mitaala mingine! Angalia:
Timu yetu inatengeneza mtaala mingine! Angalia:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js kwa Waanzishaji](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain kwa Waanzishaji](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain4j kwa Waanziaji](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js kwa Waanzilishi](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain kwa Waanzilishi](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Maajenti
[![AZD kwa Waanzishaji](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI kwa Waanzishaji](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP kwa Waanzishaji](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Maajenti wa AI kwa Waanzishaji](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AZD kwa Waanzilishi](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI kwa Waanzilishi](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP kwa Waanzilishi](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Maajenti wa AI kwa Waanzilishi](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Mfululizo wa AI Inazalisha
[![AI Inazalisha kwa Waanzishaji](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI Inazalisha (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![AI Inazalisha (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![AI Inazalisha (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### Mfululizo wa AI Inayotengeneza
[![AI Inayotengeneza kwa Waanzilishi](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI Inayotengeneza (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![AI Inayotengeneza (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![AI Inayotengeneza (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### Kujifunza Msingi
[![ML kwa Waanzishaji](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Sayansi ya Takwimu kwa Waanzishaji](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI kwa Waanzishaji](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Usalama wa Mtandao kwa Waanzishaji](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Maendeleo ya Mtandao kwa Waanzishaji](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT kwa Waanzishaji](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![Maendeleo ya XR kwa Waanzishaji](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
### Mafunzo Msingi
[![ML kwa Waanzilishi](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Sayansi ya Takwimu kwa Waanzilishi](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI kwa Waanzilishi](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Usalama wa Mtandao kwa Waanzilishi](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Maendeleo ya Tovuti kwa Waanzilishi](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT kwa Waanzilishi](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![Maendeleo ya XR kwa Waanzilishi](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Mfululizo wa Copilot
[![Copilot kwa Programu ya Pamoja ya AI](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot kwa Uandishi wa Programu kwa Pamoja na AI](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot kwa C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Adventures ya Copilot](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
[![Mvituko wa Copilot](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## Kupata Msaada
**Unapata matatizo?** Angalia [Mwongozo wa Kutatua Matatizo](TROUBLESHOOTING.md) kwa suluhisho za matatizo ya kawaida.
**Unakutana na matatizo?** Angalia [Mwongozo wa Kutatua Matatizo](TROUBLESHOOTING.md) kwa suluhisho la matatizo ya kawaida.
Kama umekwama au una maswali kuhusu ujenzi wa programu za AI. Jiunge na wanafunzi wenzako na waendelezaji wenye uzoefu katika majadiliano kuhusu MCP. Ni jamii yenye msaada ambapo maswali yanakaribishwa na maarifa yanashirikiwa kwa uhuru.
Ikiwa unashindwa au una maswali yoyote kuhusu kujenga programu za AI. Jiunge na wenzako wanaojifunza na waendelezaji wenye uzoefu katika mijadala kuhusu MCP. Ni jumuiya inayounga mkono ambapo maswali yanakaribishwa na maarifa hushirikiwa kwa uhuru.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Ikiwa una maoni kuhusu bidhaa au makosa wakati wa ujenzi tembelea:
Ikiwa una maoni kuhusu bidhaa au makosa wakati wa kujenga tembelea:
[![Jukwaa la Waendelezaji wa Microsoft Foundry GitHub](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Tangazo la Hukumu**:
Nyaraka hii imetafsiriwa kwa kutumia huduma ya utafsiri wa AI [Co-op Translator](https://github.com/Azure/co-op-translator). Wakati tunajitahidi kupata usahihi, tafadhali fahamu kwamba tafsiri za kiotomatiki zinaweza kuwa na makosa au upungufu wa usahihi. Nyaraka ya asili katika lugha yake ya asili inapaswa kuchukuliwa kama chanzo chenye mamlaka. Kwa taarifa muhimu, tafsiri ya kitaalamu kutoka kwa wanadamu inashauriwa. Hatutojibu kwa maelezo yoyote potofu au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii.
**Kionyesha Kutokuwepo Dhidi ya Makosa**:
Hati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kupata usahihi, tafadhali fahamu kwamba tafsiri zilizotengenezwa moja kwa moja zinaweza kuwa na makosa au upungufu wa usahihi. Hati asilia katika lugha yake ya asili inapaswa kuzingatiwa kama chanzo cha mamlaka. Kwa taarifa muhimu, inapendekezwa kutumia tafsiri za kitaalamu za binadamu. Hatuna dhamana kwa kutoelewana au tafsiri potofu zitokanazo na matumizi ya tafsiri hii.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@ Pata sketchnoti zote hapa!
Nitya Narasimhan, msanii
![sketchnoti ya ramani ya barabara](../../../translated_images/sw/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![sketchnoti ya ramani ya barabara](../../../translated_images/sw/00-Roadmap.4905d6567dff4753.webp)
---

Loading…
Cancel
Save