[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [Тест преди лекцията](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -142,7 +142,7 @@
В това предизвикателство ще се опитаме да намерим концепции, свързани с областта на науката за данни, като разгледаме текстове. Ще вземем статия от Wikipedia за науката за данни, ще изтеглим и обработим текста, и след това ще създадем облак от думи като този:


Посетете [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), за да разгледате кода. Можете също така да изпълните кода и да видите как той извършва всички трансформации на данни в реално време.
"# Предизвикателство: Анализ на текст за наука за данни\n",
"\n",
"В този пример ще направим просто упражнение, което обхваща всички стъпки на традиционния процес в науката за данни. Нее необходимо да пишете код, просто можете да кликнете върху клетките по-долу, за да ги изпълните и да наблюдавате резултата. Като предизвикателство, се насърчавате да изпробвате този код с различни данни.\n",
"\n",
"## Цел\n",
"\n",
"В този урок обсъждахме различни концепции, свързани снауката за данни. Нека се опитаме да открием още свързани концепции, като направим **текстов анализ**. Ще започнем с текст за науката за данни, ще извлечем ключови думи от него и след това щесе опитаме да визуализираме резултата.\n",
"\n",
"Като текст ще използвам страницата за науката за данни от Wikipedia:\n"
"# Предизвикателство: Анализ на текст за дата сайънс\r\n",
"\r\n",
"В този пример, нека направим просто упражнение, покриващо всички стъпки на традиционния процес на дата сайънс. Нее необходимо да пишете код, просто можете да кликнете върху клетките по-долу, за да ги изпълните и да наблюдавате резултата. Като предизвикателство, се насърчавате да опитате този код с различни данни.\r\n",
"\r\n",
"## Цел\r\n",
"\r\n",
"В този урок обсъждахме различни концепции, свързани сдата сайънс. Нека опитаме да открием още свързани концепции чрез **текстов минен анализ**. Ще започнем с текст за дата сайънс, ще извлечем ключови думи от него и после ще опитаме да визуализираме резултата.\r\n",
"\r\n",
"Като текст ще използвам страницата за Data Science от Уикипедия:\n"
],
"metadata": {}
},
@ -34,7 +34,7 @@
"source": [
"## Стъпка 1: Получаване на данните\n",
"\n",
"Първата стъпка във всеки процес на анализ на данние получаването на данните. Ще използваме библиотеката `requests`, за да направим това:\n"
"Първата стъпка във всеки процес на наука за даннитее получаването на данните. Ще използваме библиотеката `requests` за тази цел:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Стъпка 2: Преобразуване на данните\n",
"\n",
"Следващата стъпка еда преобразуваме данните във форма, подходяща за обработка. В нашия случай сме изтеглили HTML изходния код от страницата и трябва да го преобразуваме в обикновен текст.\n",
"Следващата стъпка епреобразуването на данните във формата, подходящ за обработка. В нашия случай, ние сме изтеглили HTML изходния код от страницата и трябва да го преобразуваме в обикновен текст.\n",
"\n",
"Има много начини, по които това може да се направи. Ще използваме най-простия вграден обект [HTMLParser](https://docs.python.org/3/library/html.parser.html) от Python. Трябва да наследим класа `HTMLParser` и да дефинираме код, който ще събира целия текст вътре в HTML таговете, с изключение на таговете `<script>` и `<style>`.\n"
"Има много начини, по които това може да бъде направено. Ще използваме [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), популярна Python библиотека за парсване на HTML. BeautifulSoup ни позволява да насочваме към конкретни HTML елементи, така че да се фокусираме върху основното съдържание на статията от Wikipedia и да намалим някои навигационни менюта, странични панели, футъри и друго нерелевантно съдържание (въпреки че може да остане част от шаблонен текст).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Първо, трябва да инсталираме библиотеката BeautifulSoup за парсване на HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## Стъпка 3: Получаване на прозрения\n",
"\n",
"Най-важната стъпка е да преобразуваме данните си в някаква форма, от която можем да извлечем прозрения. В нашия случай искаме да извлечем ключови думи от текста и да видим кои ключови думи са по-съществени.\n",
"Най-важната стъпка е да преобразуваме нашите данни в някаква форма, от която можем да изведем прозрения. В нашия случай искаме да извлечем ключови думи от текста и да видим кои ключови думи са по-смислени.\n",
"\n",
"Ще използваме библиотеката на Python, наречена [RAKE](https://github.com/aneesha/RAKE), за извличане на ключови думи. Първо, нека инсталираме тази библиотека, ако все още не е налична:\n"
"Ще използваме Python библиотеката, наречена [RAKE](https://github.com/aneesha/RAKE), за извличане на ключови думи. Първо, нека инсталираме тази библиотека, ако не е налична:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Основната функционалност е достъпна от обекта `Rake`, който можем да персонализираме с помощта на някои параметри. В нашия случай ще зададем минималната дължина на ключова дума на 5 символа, минималната честота на ключова дума в документа на 3 и максималния брой думи в ключова дума - на 2. Чувствайте се свободни да експериментирате с други стойности и да наблюдавате резултата.\n"
"Основната функционалност е достъпна от обекта `Rake`, който можем да персонализираме с помощта на някои параметри. В нашия случай ще зададем минималната дължина на ключова дума да бъде 5 символа, минималната честота на ключова дума в документа да бъде 3 и максималния брой думи в ключова дума - 2. Чувствайте се свободни да експериментирате с други стойности и да наблюдавате резултата.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Получихме списък с термини заедно със съответната степен на важност. Както можете да видите, най-значимите дисциплини, като машинно обучение и големи данни, са представени в списъка на водещи позиции.\n",
"Получихме списък с термини заедно със съответната степен на важност. Както виждате, най-значимите дисциплини, като машинно обучение и големи данни, присъстват в списъка на водещи позиции.\n",
"\n",
"## Стъпка 4: Визуализиране на резултата\n",
"\n",
"Хората разбират данните най-добре, когато са представени визуално. Затова често има смисъл да се визуализират данните, за да се извлекат определени прозрения. Можем да използваме библиотеката `matplotlib` в Python, за да начертаем проста дистрибуция на ключовите думи с тяхната релевантност:\n"
"Хората най-добре разбират данните във визуална форма. Поради това често има смисъл да се визуализират данните, за да се изведат някои изводи. Можем да използваме библиотеката `matplotlib` в Python, за да начертаем просто разпределение на ключовите думи с тяхната релевантност:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Има обаче още по-добър начин за визуализиране на честотата на думите - използвайки **Word Cloud**. Ще трябва да инсталираме друга библиотека, за да създадем облак от думи от нашия списък с ключови думи.\n"
"Има обаче още по-добър начин да визуализираме честотата на думите - чрез **Word Cloud**. Ще трябва да инсталираме друга библиотека, за да начертаем word cloud от нашия списък с ключови думи.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` обектът е отговорен за приемането на оригинален текст или предварително изчислен списък от думи с техните честоти и връща изображение, което след това може да бъде показано с помощта на `matplotlib`:\n"
"`WordCloud` обектът е отговорен за приемане на оригинален текст или предварително изчислен списък с думи и техните честоти и връща изображение, което след това може да бъде показано с помощта на `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Можем също да предадем оригиналния текст на `WordCloud` - нека видим дали можем да получим подобен резултат:\n"
"Можем също да подадем оригиналния текст на `WordCloud` - нека видим дали ще успеем да получим подобен резултат:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"Можете да видите, че облакът от думисега изглежда по-впечатляващ, но също така съдържа много шум (например несвързани думи като `Retrieved on`). Освен това получаваме по-малко ключови думи, състоящи се от две думи, като *data scientist* или *computer science*. Това е така, защото алгоритъмът RAKE се справя много по-добре с избора на подходящи ключови думи от текста. Този пример илюстрира важността на предварителната обработка и почистването на данни, тъй като ясната картина в края ще ни позволи да вземаме по-добри решения.\n",
"Вече можете да видите, че облакът от думи изглежда по-впечатляващ, но той също съдържа много шум (например, несвързани думи като `Retrieved on`). Също така получаваме по-малко ключови думи, съставени от две думи, като *data scientist* или *computer science*. Това се дължи на факта, че алгоритъмът RAKE се справя много по-добре с избора на добри ключови думи от текста. Този пример илюстрира важността на предварителната обработка и почистване на данните, защото ясната картина накрая ще ни позволи да вземаме по-добри решения.\n",
"\n",
"В това упражнение преминахме през прост процес на извличане на смисъл от текст в Wikipedia, под формата на ключови думи и облак от думи. Този пример е доста прост, но добре демонстрира всички типични стъпки, които един специалист по данни предприема при работа с данни, започвайки от придобиването на данни до визуализацията.\n",
"В това упражнение преминахме през прост процес на извличане на смисъл от текста на Уикипедия, под формата на ключови думи и облак от думи. Този пример е доста прост, но добре демонстрира всички типични стъпки, които един data scientist предприема при работа с данни, започвайки от придобиването на данни и стигайки до визуализацията.\n",
"\n",
"В нашия курс ще обсъдим всички тези стъпки подробно.\n"
"В нашия курс ще обсъдим всички тези стъпки в детайли.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Отказ от отговорност**:\nТози документ е преведен с помощта на AI услуга за превод [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за каквито и да е недоразумения или погрешни интерпретации, произтичащи от използването на този превод.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Отказ от отговорност**:\nТози документ е преведен с помощта на AI преводаческа услуга [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, имайте предвид, че автоматичните преводи могат да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за всякакви недоразумения или неправилни тълкувания, произтичащи от използването на този превод.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"# Предизвикателство: Анализ на текст за наука за данни\n",
"# Предизвикателство: Анализ на текст за Данни Наука\n",
"\n",
"> *В тази тетрадка експериментираме с използването на различни URL адреси - статия от Уикипедия за машинно обучение. Можете да видите, че за разлика от науката за данни, тази статия съдържа много термини, което прави анализа по-проблематичен. Трябва да измислим друг начин за почистване на данните след извличането на ключови думи, за да се отървем от някои често срещани, но незначителни словосъчетания.*\n",
"> *В този бележник експериментираме с използването на различен URL - статия от Уикипедия за Машинно Обучение. Можете да видите, че за разлика от Данни Наука, тази статия съдържа много термини, което прави анализа по-проблематичен. Трябва да измислим друг начин за изчистване на данните след извличането на ключови думи, за да се отървем от някои чести, но незначими комбинации от думи.*\n",
"\n",
"В този пример ще направим просто упражнение, което обхваща всички стъпки на традиционния процес в науката за данни. Нее необходимо да пишете код, просто можете да кликнете върху клетките по-долу, за да ги изпълните и да наблюдавате резултата. Като предизвикателство, ви насърчаваме да изпробвате този код с различни данни.\n",
"В този пример нека направим просто упражнение, което обхваща всички стъпки на традиционния процес на наука за данни. Нее нужно да пишете код, можете просто да кликнете върху клетките по-долу, за да ги изпълните и да наблюдавате резултата. Като предизвикателство, насърчаваме ви да опитате този код с различни данни.\n",
"\n",
"## Цел\n",
"\n",
"В този урок обсъждахме различни концепции, свързани снауката за данни. Нека се опитаме да открием повече свързани концепции, като направим **текстов анализ**. Ще започнем с текст за науката за данни, ще извлечем ключови думи от него и след това ще се опитаме да визуализираме резултата.\n",
"В този урок обсъждахме различни концепции, свързани сДанни Наука. Нека опитаме да открием още свързани концепции чрез **текстов минен анализ**. Ще започнем с текст за Данни Наука, ще извлечем ключови думи от него и след това ще се опитаме да визуализираме резултата.\n",
"\n",
"Като текст ще използвам страницата за науката за данни от Уикипедия:\n"
"Като текст ще използвам страницата за Данни Наука от Уикипедия:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## Стъпка 1: Получаване на данните\n",
"\n",
"Първата стъпка във всеки процес на анализ на данни е получаването на данните. Ще използваме библиотеката `requests`, за да направим това:\n"
"Първата стъпка във всеки процес на анализ на данни е получаването на данните. Ще използваме библиотеката `requests` за това:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Стъпка 2: Преобразуване на данните\n",
"## Стъпка 2: Трансформиране на данните\n",
"\n",
"Следващата стъпка е да преобразуваме данните във форма, подходяща за обработка. В нашия случай сме изтеглили HTML изходния код от страницата и трябва да го преобразуваме в обикновен текст.\n",
"Следващата стъпка е да преобразуваме данните в подходяща за обработка форма. В нашия случай изтеглихме HTML изходния код от страницата и трябва да го преобразуваме в обикновен текст.\n",
"\n",
"Има много начини, по които това може да се направи. Ще използваме най-простия вграден обект [HTMLParser](https://docs.python.org/3/library/html.parser.html) от Python. Трябва да наследим класа `HTMLParser` и да дефинираме код, който ще събира целия текст вътре в HTML таговете, с изключение на `<script>` и `<style>` таговете.\n"
"Има много начини да се направи това. Ще използваме [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), популярна Python библиотека за парсване на HTML. BeautifulSoup ни позволява да насочваме определени HTML елементи, така че да се съсредоточим върху основното съдържание на статията от Wikipedia и да намалим някои навигационни менюта, странични ленти, футъри и друго неуместно съдържание (въпреки че някакъв шаблонен текст все още може да остане).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Първо, трябва да инсталираме библиотеката BeautifulSoup за парсване на HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Стъпка 3: Получаване на прозрения\n",
"## Step 3: Получаване на прозрения\n",
"\n",
"Най-важната стъпка е да превърнем нашите данни във форма, от която можем да извлечем прозрения. В нашия случай искаме да извлечем ключови думи от текста и да видим кои ключови думи са по-съществени.\n",
"Най-важната стъпка е да превърнем нашите данни в някаква форма, от която можем да изведем прозрения. В нашия случай искаме да извлечем ключови думи от текста и да видим кои ключови думи са по-съществени.\n",
"\n",
"Ще използваме Python библиотека, наречена [RAKE](https://github.com/aneesha/RAKE), за извличане на ключови думи. Първо, нека инсталираме тази библиотека, ако не е налична:\n"
"Ще използваме Python библиотека, наречена [RAKE](https://github.com/aneesha/RAKE) за извличане на ключови думи. Първо, нека инсталираме тази библиотека в случай, че не е налична: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Основната функционалност едостъпна от обекта `Rake`, който можем да персонализираме с помощта на някои параметри. В нашия случай ще зададем минималната дължина на ключова дума на 5 символа, минималната честота на ключова дума в документа на 3 и максималния брой думи в ключова дума - на 2. Чувствайте се свободни да експериментирате с други стойности и да наблюдавате резултата.\n"
"Основната функционалност еналична от обекта `Rake`, който можем да персонализираме чрез някои параметри. В нашия случай ще зададем минималната дължина на ключова дума да бъде 5 символа, минималната честота на ключова дума в документа да е 3 и максималния брой думи в ключова дума - 2. Чувствайте се свободни да експериментирате с други стойности и да наблюдавате резултата.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Получихме списък с термини заедно със свързаната степен на важност. Както можете да видите, най-важните дисциплини, като машинно обучение и големи данни, са представени в списъка на водещи позиции.\n",
"\n",
"Получихме списък с термини заедно със съответната степен на важност. Както можете да видите, най-значимите дисциплини, като машинно обучение и големи данни, присъстват в списъка на водещи позиции.\n",
"\n",
"## Стъпка 4: Визуализация на резултата\n",
"\n",
"Хората най-добре интерпретират данните в визуална форма. Затова често има смисъл да се визуализират данните, за да се извлекат някои прозрения. Можем да използваме библиотеката `matplotlib` в Python, за да начертаем проста дистрибуция на ключовите думи с тяхната релевантност:\n"
"Хората могат най-добре да интерпретират данните във визуална форма. Затова често е разумно да се визуализират данните, за да се извлекат някои изводи. Можем да използваме библиотеката `matplotlib` в Python, за да начертаем проста разпределение на ключовите думи с тяхната релевантност:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"Има обаче още по-добър начин за визуализиране на честотата на думите - използване на **Word Cloud**. Ще трябва да инсталираме друга библиотека, за да създадем облак от думи от нашия списък с ключови думи.\n"
"Има обаче още по-добър начин за визуализиране на честотата на думите - чрез **Word Cloud**. Ще трябва да инсталираме още една библиотека, за да начертаем word cloud от нашия списък с ключови думи.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` обектът е отговорен за приемането на оригинален текст или предварително изчислен списък от думи с техните честоти и връща изображение, което след това може да бъде показано с помощта на `matplotlib`:\n"
"Обектът `WordCloud` отговаря за приемане на оригинален текст или предварително изчислен списък с думи и техните честоти, и връща изображение, което след това може да бъде показано с помощта на `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"Можем също да подадем оригиналния текст на `WordCloud` - нека видим дали ще успеем да получим подобен резултат:\n"
"Можем също така да подадем оригиналния текст на `WordCloud` - нека видим дали ще успеем да получим подобен резултат:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"Можете да видите, че облакът от думисега изглежда по-впечатляващ, но също така съдържа много шум (например несвързани думи като `Retrieved on`). Освен това получаваме по-малко ключови думи, състоящи се от две думи, като *data scientist* или *computer science*. Това е така, защото алгоритъмът RAKE се справя много по-добре с избора на подходящи ключови думи от текста. Този пример илюстрира важността на предварителната обработка и почистването на данни, защото ясната картина в края ще ни позволи да вземаме по-добри решения.\n",
"Вече можете да видите, че облакът от думи изглежда по-впечатляващ, но също така съдържа много шум (напр. нерелевантни думи като `Retrieved on`). Също така получаваме по-малко ключови думи, съставени от две думи, като *data scientist* или *computer science*. Това е защото алгоритъмът RAKE извършва много по-добра селекция на добри ключови думи от текста. Този пример илюстрира значението на предварителната обработка и почистване на данните, тъй като ясната картина накрая ще ни позволи да вземем по-добри решения.\n",
"\n",
"В това упражнение преминахме през прост процес на извличане на смисъл от текст в Уикипедия под формата на ключови думи и облак от думи. Този пример е доста опростен, но добре демонстрира всички типични стъпки, които един специалист по данни предприема при работа с данни, започвайки от придобиването на данни до визуализацията.\n",
"В това упражнение преминахме през прост процес на извличане на смисъл от текста на Уикипедия, под формата на ключови думи и облак от думи. Този пример е доста прост, но добре демонстрира всички типични стъпки, които един data scientist ще предприеме при работа с данни, започвайки от придобиването на данните до визуализацията.\n",
"\n",
"В нашия курс ще обсъдим всички тези стъпки в детайли.\n"
"В нашия курс ще обсъдим всички тези стъпки подробно. \n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Отказ от отговорност**: \nТози документ е преведен с помощта на AI услуга за превод [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Не носим отговорност за недоразумения или погрешни интерпретации, произтичащи от използването на този превод.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Отказ от отговорност**: \nТози документ е преведен с помощта на AI преводаческа услуга [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи могат да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за каквито и да е недоразумения или неправилни тълкувания, възникнали от използването на този превод.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
Статистиката и теорията на вероятностите са две силно свързани области на математиката, които са изключително важни за науката за данни. Възможно е да се работи с данни без задълбочени математически познания, но все пак е добре да се знаят поне основните концепции. Тук ще представим кратко въведение, което ще ви помогне да започнете.
## [Тест преди лекцията](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
Можем да говорим само за вероятността променливата да попадне в даден интервал от стойности, напр. P(t<sub>1</sub>≤X<t<sub>2</sub>). В този случай разпределението на вероятностите се описва чрез **функция на плътността на вероятностите** p(x), така че
Непрекъснат аналог на равномерното разпределение се нарича **непрекъснато равномерно**, което се дефинира върху краен интервал. Вероятността стойността X да попадне в интервал с дължина l е пропорционална на l и достига до 1.
@ -73,11 +73,11 @@
Ето диаграма кутия и мустаци, показваща средна стойност, медиана и квартилни стойности за нашите данни:


Тъй като нашите данни съдържат информация за различни **ролите** на играчите, можем също да направим диаграма кутия и мустаци по роли - това ще ни позволи да добием представа как стойностите на параметрите се различават между ролите. Този път ще разгледаме височината:


Тази диаграма предполага, че средно височината на първите базови играчи е по-голяма от височината на вторите базови играчи. По-късно в този урок ще научим как можем да тестваме тази хипотеза по-формално и как да демонстрираме, че нашите данни са статистически значими, за да покажем това.
@ -85,7 +85,7 @@
За да видим какво е разпределението на нашите данни, можем да начертаем графика, наречена **хистограма**. Оста X ще съдържа брой различни интервали за тегло (т.нар. **кофи**), а вертикалната ос ще показва броя на случаите, когато извадката на случайната променлива е попаднала в даден интервал.


От тази хистограма можете да видите, че всички стойности са съсредоточени около определено средно тегло, и колкото по-далеч от това тегло отиваме - толкова по-малко тегла с тази стойност се срещат. Т.е., много малко вероятно е теглото на бейзболен играч да бъде много различно от средното тегло. Дисперсията на теглата показва степента, до която теглата вероятно се различават от средното.
Ако начертаем хистограмата на генерираните извадки, ще видим картина, много подобна на показаната по-горе. И ако увеличим броя на извадките и броя на кофите, можем да генерираме картина на нормално разпределение, която е по-близка до идеалната:


*Нормално разпределение със средна стойност=0 и стандартно отклонение=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
В нашия случай стойността 0.53 показва, че има известна корелация между теглото и височината на човек. Можем също да направим диаграма на разсейване на една стойност спрямо другата, за да видим връзката визуално:


> Повече примери за корелация и ковариация можете да намерите в [придружаващата тетрадка](notebook.ipynb).


> Снимка от <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> на <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
В тези уроци ще откриете как се дефинира науката за данните и ще научите за етичните съображения, които трябва да бъдат взети предвид от специалиста по данни. Ще научите също как се дефинират данните и ще се запознаете с основите на статистиката и вероятностите, които са основни академични области на науката за данните.
Докато базите данни предлагат много ефективни начини за съхранение на данни и тяхното извличане чрез език за заявки, най-гъвкавият начин за обработка на данни е да напишете собствена програма за манипулиране на данните. В много случаи използването на заявка към база данни би било по-ефективно. Въпреки това, в някои случаи, когато е необходима по-сложна обработка на данни, това не може лесно да се направи с SQL.
Обработката на данни може да бъде програмирана на всеки език за програмиране, но има определени езици, които са по-високо ниво, когато става въпрос за работа с данни. Специалистите по данни обикновено предпочитат един от следните езици:
@ -66,7 +66,7 @@ print(f"Length of index is {len(idx)}")


Сега да предположим, че всяка седмица организираме парти за приятели и вземаме допълнителни 10 опаковки сладолед за партито. Можем да създадем друга серия, индексирана по седмици, за да демонстрираме това:


> **Забележка**: Не използваме простия синтаксис `total_items+additional_items`. Ако го направим, ще получим много стойности `NaN` (*Not a Number*) в резултатната серия. Това е така, защото липсват стойности за някои точки от индекса в серията `additional_items`, и добавянето на `NaN` към нещо води до `NaN`. Затова трябва да зададем параметъра `fill_value` по време на събирането.
@ -86,7 +86,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```


### DataFrame
@ -212,7 +212,7 @@ df = pd.read_csv('file.csv')
Тъй като искаме да демонстрираме как да работим с данни, ви каним да отворите [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) и да го прочетете от началото до края. Можете също така да изпълните клетките и да решите някои предизвикателства, които сме оставили за вас в края.
> Ако не знаете как да изпълнявате код в Jupyter Notebook, разгледайте [тази статия](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -234,7 +234,7 @@ df = pd.read_csv('file.csv')
Отворете [`notebook-papers.ipynb`](notebook-papers.ipynb) и го прочетете от началото до края. Можете също така да изпълните клетките и да решите някои предизвикателства, които сме оставили за вас в края.


> Снимка от <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> на <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
В тези уроци ще научите някои от начините, по които данните могат да бъдат управлявани, манипулирани и използвани в приложения. Ще се запознаете с релационни и нерелационни бази данни и как данните могат да се съхраняват в тях. Ще научите основите на работата с Python за управление на данни и ще откриете някои от многото начини, по които можете да използвате Python за управление и анализ на данни.
Сега покажете същите данни с цветова схема, свързана с меда, за да покажете как цената се променя през годините. Можете да направите това, като добавите параметър 'hue', който показва промяната година след година:
С тази промяна в цветовата схема можете да видите, че има очевидна силна прогресия през годините по отношение на цената на килограм мед. Всъщност, ако разгледате примерен набор от данни, за да проверите (например за щата Аризона), можете да видите модел на увеличение на цената година след година, с малки изключения:
Дали това е просто случай на търсене и предлагане? Поради фактори като климатични промени и колапс на колониите, има ли по-малко наличен мед за покупка година след година, което води до увеличение на цената?
✅ Тъй като Seaborn агрегира данните около една линия, той показва „многобройните измервания за всяка стойност на x, като изобразява средната стойност и 95% доверителен интервал около средната стойност“. [Източник](https://seaborn.pydata.org/tutorial/relational.html). Това поведение, което отнема време, може да бъде изключено, като добавите `ci=None`.
Отговор: Не съвсем. Ако разгледате общото производство, то всъщност изглежда, че сее увеличило през тази конкретна година, въпреки че като цяло количеството произведен мед намалява през тези години.
@ -130,7 +130,7 @@ sns.relplot(
```
В тази визуализация можете да сравните добива на колония и броя на колониите година след година, една до друга, с настройка на wrap на 3 за колоните:
За този набор от данни нищо особено не изпъква по отношение на броя на колониите и техния добив, година след година и щат след щат. Има ли друг начин да се намери корелация между тези две променливи?
Докато нищо не изпъква около 2003 година, това ни позволява да завършим урока с малко по-оптимистична нотка: въпреки че като цяло броят на колониите намалява, броят на колониите се стабилизира, дори ако техният добив на колония намалява.
Тук инсталирате пакета `ggplot2` и след това го импортирате в работната среда с командата `library("ggplot2")`. За да създадете графика в ggplot, използвате функцията `ggplot()` и задавате набора от данни, x и y променливите като атрибути. В този случай използваме функцията `geom_line()`, тъй като целим да създадем линейна графика.
Какво забелязвате веднага? Изглежда, че има поне един аутлайър – това е доста голям размах на крилата! Размах от над 2000 сантиметра е повече от 20 метра – дали в Минесота се разхождат птеродактили? Нека разследваме.
Дори с ротацията на етикетите, зададена на 45 градуса, те са твърде много, за да се четат. Нека опитаме различна стратегия: да етикетираме само аутлайърите и да поставим етикетите вътре в графиката. Можете да използвате точкова диаграма, за да освободите повече място за етикетиране:
Създадохме нов датафрейм `birds_filtered` и след това начертахме точкова диаграма. Чрез филтриране на аутлайърите, данните ви сегаса по-цялостни и разбираеми.
В следващия кодов фрагмент инсталираме пакетите [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) и [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0), за да помогнем при манипулирането и групирането на данни с цел начертаване на стълбовидна диаграма. Първо, групирате данните по `Category` на птиците и след това обобщавате колоните `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. След това начертавате стълбовидната диаграма, използвайки пакета `ggplot2`, и задавате цветовете за различните категории и етикетите.


Тази стълбовидна диаграма обаче е нечетлива, защото има твърде много негрупирани данни. Трябва да изберете само данните, които искате да визуализирате, така че нека разгледаме дължината на птиците въз основа на тяхната категория.
Първо преброявате уникалните стойности в колоната `Category` и след това ги сортирате в нов датафрейм `birds_count`. Тези сортирани данни след това се подреждат на същото ниво, за да бъдат начертани в сортиран вид. Използвайки `ggplot2`, след това начертавате данните в стълбовидна диаграма. `coord_flip()` начертава хоризонтални стълбове.
Тази стълбовидна диаграма показва добър изглед на броя на птиците във всяка категория. С един поглед виждате, че най-големият брой птици в този регион са в категорията Патици/Гъски/Водоплаващи. Минесота е "земята на 10 000 езера", така че това не е изненадващо!
Тук няма нищо изненадващо: колибритата имат най-малка максимална дължина в сравнение с пеликаните или гъските. Добре е, когато данните имат логически смисъл!


Това дава общ преглед на разпределението на дължината на тялото по разред на птиците, но не е най-добрият начин за показване на истински разпределения. Тази задача обикновено се изпълнява чрез създаване на хистограма.


Както виждате, повечето от 400+ птици в този набор от данни попадат в диапазона под 2000 за тяхната максимална телесна маса. Получете повече информация за данните, като промените параметъра `bins` на по-голямо число, например 30:
Тази диаграма показва разпределението по малко по-гранулиран начин. Диаграма, която е по-малко изкривена наляво, може да бъде създадена, като се уверите, че избирате само данни в даден диапазон:
✅ Опитайте някои други филтри и точки от данни. За да видите пълното разпределение на данните, премахнете филтъра `['MaxBodyMass']`, за да покажете етикетирани разпределения.


Не изглежда да има добра корелация между минималния размах на крилата и статуса на опазване. Тествайте други елементи от набора от данни, използвайки този метод. Можете да опитате различни филтри. Откривате ли някаква корелация?


Можете да видите как плотът отразява предишния за данните за минималния размах на крилата; той е просто малко по-гладък. Ако искате да преразгледате тази назъбена линия на MaxBodyMass във втората диаграма, която създадохте, можете да я изгладите много добре, като я пресъздадете, използвайки този метод:


Ако искате гладка, но не прекалено гладка линия, редактирайте параметъра `adjust`:
Voilà, кръгова диаграма, показваща пропорциите на тези данни според двата класа гъби. Много е важно да се уверите, че редът на етикетите е правилен, особено тук, така че проверете реда, с който е изградена масивът от етикети!
Този код използва две библиотеки - ggplot2 и webr. Използвайки функцията PieDonut от библиотеката webr, можем лесно да създадем пръстеновидна диаграма!
С помощта на вафлена диаграма можете ясно да видите пропорциите на цветовете на шапките в този набор от данни за гъби. Интересно е, че има много гъби със зелени шапки!
В този урок научихте три начина за визуализиране на пропорции. Първо, трябва да групирате данните си в категории и след това да решите кой е най-добрият начин за показване на данните - кръгова, пръстеновидна или вафлена диаграма. Всички са вкусни и предоставят на потребителя моментална снимка на набора от данни.
Сега покажете същите данни с цветова схема, вдъхновена от мед, за да покажете как цената се развива през годините. Можете да направите това, като добавите параметър 'scale_color_gradientn', който показва промяната година след година:
С тази промяна в цветовата схема можете да видите, че има очевидна прогресия през годините по отношение на цената на килограм мед. Всъщност, ако разгледате примерен набор от данни, за да проверите (например щат Аризона), можете да видите модел на увеличение на цената година след година, с малко изключения:
Дали това е просто случай на търсене и предлагане? Поради фактори като климатични промени и колапс на колониите, има ли по-малко мед за покупка година след година, и затова цената се увеличава?
Отговор: Не съвсем. Ако разгледате общото производство, всъщност изглежда, че то сее увеличило през тази конкретна година, въпреки че като цяло количеството произведен мед намалява през тези години.
За този набор от данни нищо особено не изпъква по отношение на броя на колониите и техния добив, година след година и щат след щат. Има ли различен начин за откриване на корелация между тези две променливи?
Докато нищо не изпъква около 2003 година, това ни позволява да завършим урока с малко по-щастлива нотка: въпреки че броят на колониите като цяло намалява, той се стабилизира, дори ако техният добив на колония намалява.
Дори ако специалистът по данни внимателно избере правилната диаграма за правилните данни, има много начини, по които данните могат да бъдат представени, за да докажат дадена теза, често за сметка на самите данни. Има много примери за подвеждащи диаграми и инфографики!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Как диаграмите лъжат")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Как диаграмите лъжат")
> 🎥 Кликнете върху изображението по-горе за конференция относно подвеждащи диаграми
Тази диаграма обръща оста X, за да покаже обратното на истината, базирано на дата:
[Тази диаграма](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) е още по-подвеждаща, тъй като окото се насочва към заключението, че с времето случаите на COVID са намалели в различните окръзи. Всъщност, ако погледнете внимателно датите, ще откриете, че те са пренаредени, за да създадат този подвеждащ низходящ тренд.
Този известен пример използва цветове И обърната ос Y, за да заблуди: вместо да заключите, че смъртните случаи от огнестрелни оръжия сасе увеличили след приемането на законодателство, благоприятстващо оръжията, окото е заблудено да мисли, че обратното е вярно:
Сравняването на несравними неща е още един съмнителен трик. Има [чудесен уебсайт](https://tylervigen.com/spurious-correlations), посветен на 'фалшиви корелации', показващ 'факти', които корелират неща като процента на разводите в Мейн и консумацията на маргарин. Група в Reddit също събира [грозни примери](https://www.reddit.com/r/dataisugly/top/?t=all) за използване на данни.
@ -91,13 +91,13 @@
Ако вашите данни са текстови и подробни на оста X, можете да наклоните текста за по-добра четливост. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) предлага 3D графики, ако вашите данни го поддържат. Сложни визуализации на данни могат да бъдат създадени с него.
Някои от най-добрите визуализации на данни днес са анимирани. Шърли Ву има невероятни примери, направени с D3, като '[цветя от филми](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', където всяко цвете е визуализация на филм. Друг пример за Guardian е 'bussed out', интерактивно преживяване, комбиниращо визуализации с Greensock и D3 плюс формат на статия с разказ, за да покаже как Ню Йорк се справя с проблема с бездомните, като ги изпраща извън града.
> "Bussed Out: Как Америка премества своите бездомни" от [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Визуализации от Надие Бремер и Шърли Ву
@ -107,7 +107,7 @@
Ще завършите уеб приложение, което ще показва анимиран изглед на тази социална мрежа. То използва библиотека, създадена за [визуализация на мрежа](https://github.com/emiliorizzo/vue-d3-network) с Vue.js и D3. Когато приложението работи, можете да местите възлите на екрана, за да пренареждате данните.


> Снимка от <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> на <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Визуализирането на данни е една от най-важните задачи на специалиста по данни. Една картина казва повече от хиляда думи, а визуализацията може да ви помогне да идентифицирате всякакви интересни аспекти на вашите данни, като пикове, отклонения, групирания, тенденции и други, които могат да ви помогнат да разберете историята, която вашите данни се опитват да разкажат.
Тази лекция се фокусира върху 3 части от жизнения цикъл: събиране, обработка и поддръжка.


> Снимка от [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Събиране
@ -92,7 +92,7 @@
|Процес за екипна наука за данни (TDSP)|Стандарт за процеса на извличане на данни в различни индустрии (CRISP-DM)|
|--|--|
| |  |
| |  |
| Изображение от [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Изображение от [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Тест след лекцията](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> Снимка от <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> на <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
В тези уроци ще разгледате някои аспекти на жизнения цикъл на науката за данни, включително анализ и комуникация, свързани с данните.
> Снимка от [Jelleke Vanooteghem](https://unsplash.com/@ilumire) от [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Когато става въпрос за работа с големи данни в науката за данни, облакът може да бъде истинска промяна. В следващите три урока ще разгледаме какво представлява облакът и защо може да бъде много полезен. Ще изследваме набор от данни за сърдечна недостатъчност и ще изградим модел, който да помогне за оценка на вероятността някой да има сърдечна недостатъчност. Ще използваме силата на облака, за да обучим, внедрим и използваме модел по два различни начина. Единият начин е чрез потребителския интерфейс в стил "Low code/No code", а другият - чрез Azure Machine Learning Software Developer Kit (Azure ML SDK).
* [Наука за данни в здравеопазването](https://data-flair.training/blogs/data-science-in-healthcare/) - подчертава приложения като медицинско изображение (напр. MRI, рентген, CT-сканиране), геномика (секвениране на ДНК), разработка на лекарства (оценка на риска, прогноза за успех), предсказателен анализ (грижа за пациенти и логистика на доставки), проследяване и предотвратяване на заболявания и др.
 Кредит за изображението: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Кредит за изображението: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Фигурата показва други области и примери за прилагане на техники за наука за данни. Искате ли да разгледате други приложения? Вижте секцията [Преглед и самостоятелно обучение](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) по-долу.
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
Azure Cloud Advocates в Microsoft с удоволствие предлагат 10-седмична, 20-урочна учебна програма, изцяло посветена на науката за данни. Всеки урок включва изпити преди и след урока, писмени инструкции за изпълнение на урока, решение и задача. Нашата проектно-ориентирана педагогика ви позволява да учите, докато изграждате, което е доказан начин новите умения да "закрепят".
Адвокатите на Azure Cloud в Microsoft с удоволствие предлагат 10-седмична учебна програма с 20 урока, изцяло посветена на Data Science. Всеки урок включва тест преди и след урока, писмени инструкции за изпълнение на урока, решение и задача. Нашата педагогика, базирана на проекти, ви позволява да учите, докато строите, което е доказан начин новите умения да "залепнат".
> Този репозиторий включва над 50 езикови превода, което значително увеличава размера за сваляне. За да клонирате без преводи, използвайте sparse checkout:
> **Предпочитате локално клониране?**
>
> Това хранилище включва над 50 езикови превода, което значително увеличава размера за изтегляне. За да клонирате без преводи, използвайте sparse checkout:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Това ви дава всичко необходимо за завършване на курса с много по-бързо изтегляне.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Ако желаете да има поддръжка на допълнителни езици за превод, те са изброени [тук](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
Имаме текуща Discord серия за учене с AI, научете повече и се присъединете към нас в [Learn with AI Series](https://aka.ms/learnwithai/discord) от 18 до 30 септември 2025 г. Ще получите съвети и трикове за използване на GitHub Copilot за науката за данни.
Имаме текуща Discord серия „учене с AI“, научете повече и се присъединете към нас на [Learn with AI Series](https://aka.ms/learnwithai/discord) от 18 до 30 септември, 2025 г. Ще получите съвети и трикове за използване на GitHub Copilot за Data Science.

# Студент ли сте?
# Вие студент ли сте?
Започнете с следните ресурси:
- [Страница на Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) На тази страница ще намерите ресурси за начинаещи, студентски пакети и дори начини за получаване на безплатен сертификат. Това е страница, която искате да маркирате и да проверявате от време на време, тъй като съдържанието се обновява поне веднъж месечно.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Присъединете се към глобална общност от студентски посланици, това може да е вашият път към Microsoft.
- [Student Hub страница](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Тук ще намерите ресурси за начинаещи, студентски пакети и дори начини да получите безплатен сертификатен ваучер. Това е страница, която искате да запазите и да проверявате от време на време, тъй като съдържанието се обновява поне веднъж месечно.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Присъединете се към глобална общност от студенти посланици, това може да е вашият път към Microsoft.
# Запознаване с курса
# Започване
## 📚 Документация
- **[Ръководство за инсталация](INSTALLATION.md)** - Стъпка по стъпка инструкции за начинаещи
- **[Ръководство за употреба](USAGE.md)** - Примери и често срещани работни потоци
- **[Ръководство за инсталиране](INSTALLATION.md)** - Стъпка по стъпка инструкции за настройка за начинаещи
- **[Ръководство за използване](USAGE.md)** - Примери и често използвани работни потоци
- **[Отстраняване на проблеми](TROUBLESHOOTING.md)** - Решения на често срещани проблеми
- **[Ръководство за принос](CONTRIBUTING.md)** - Как да се включите в този проект
- **[За учители](for-teachers.md)** - Насоки за преподаване и ресурси за класната стая
- **[Ръководство за принос](CONTRIBUTING.md)** - Как да допринесете за този проект
- **[За учители](for-teachers.md)** - Препоръки за преподаване и материали за класната стая
## 👨🎓 За студенти
> **Напълно начинаещи**: Нови сте в науката за данни? Започнете с нашите [примери за начинаещи](examples/README.md)! Тези прости, добре коментирани примери ще ви помогнат да разберете основите преди да се потопите в цялата учебна програма.
> **[Студенти](https://aka.ms/student-page)**: за да използвате тази учебна програма самостоятелно, форкнете целия репозиторий и изпълнете задачите самостоятелно, започвайки с предварителен тест преди лекцията. След това прочетете лекцията и завършете останалите активности. Опитайте да създадете проектите, като разбирате уроците, а не копирате кода на решенията; все пак този код е наличен в папките /solutions във всеки проектно-ориентиран урок. Друга идея е да сформирате учебна група с приятели и да преминете през съдържанието заедно. За по-нататъшно обучение препоръчваме [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Пълни начинаещи**: Нови ли сте в data science? Започнете с нашите [примери за начинаещи](examples/README.md)! Тези прости, добре коментирани примери ще ви помогнат да разберете основите преди да се потопите в цялата учебна програма.
> **[Студенти](https://aka.ms/student-page)**: за да използвате тази учебна програма самостоятелно, направете форк на цялото хранилище и направете упражненията сами, започвайки с тест преди лекцията. После прочетете лекцията и завършете останалите дейности. Опитайте се да създавате проектите, като разбирате уроците вместо да копирате кода за решения; въпреки това този код е наличен в папките /solutions във всеки урок, ориентиран към проект. Друга идея е да създадете учебна група с приятели и да преминете съдържанието заедно. За по-нататъшно учене препоръчваме [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Бърз старт:**
1. Прегледайте [Ръководството за инсталация](INSTALLATION.md), за да настроите средата си
2. Разгледайте [Ръководството за употреба](USAGE.md), за да научите как да работите с учебната програма
3. Започнете сУрок 1 и следвайте поредно
2. Прегледайте [Ръководството за използване](USAGE.md), за да научите как да работите с учебната програма
3. Започнете сурок 1 и продължете последователно
4. Присъединете се към нашата [Discord общност](https://aka.ms/ds4beginners/discord) за подкрепа
## 👩🏫 За учители
> **Учители**: ние сме [включили някои предложения](for-teachers.md) за това как да използвате тази учебна програма. Ще се радваме на вашата обратна връзка [в нашия дискусионен форум](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Учители**: включили сме [някои предложения](for-teachers.md) как да използвате тази учебна програма. Ще се радваме да чуем мнението ви [в нашия дискусионен форум](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> 🎥 Кликнете върху изображението по-горе за видео за проекта и хората, които го създадоха!
> 🎥 Кликнете на изображението по-горе за видео за проекта и хората, които саго създали!
## Педагогика
Избрахме две педагогически основи при изграждането на тази учебна програма: да бъде базирана на проекти и да включва чести викторини. Към края на тази серия, студентите ще са научили основните принципи на науката за данни, включително етични концепции, подготовка на данни, различни начини за работа с данни, визуализация на данни, анализ на данни, реални случаи на използване на науката за данни и още.
Избрахме два педагогически принципа при създаването на тази учебна програма: да бъде базирана на проект и да включва често повтарящи се тестове. В края на този курс студентите ще са научили основните принципи на науката за данните, включително етични концепции, подготовка на данни, различни начини за работа с данни, визуализация на данни, анализ на данни, реални случаи на използване на науката за данните и още.
Освен това ниско-рисковата викторина преди час задава намерението на студента към изучаване на темата, докато втора викторина след часа осигурява по-нататъшно задържане на знанията. Тази учебна програма е проектирана да бъде гъвкава и забавна и може да сеизучава цялостно или частично. Проектите започват малки и стават все по-сложни към края на 10-седмичния цикъл.
Освен това, тест с нисък залог преди урок задава намерението на студента да изучава дадена тема, докато втори тест след урок осигурява по-нататъшна запаметяемост. Тази учебна програма е проектирана да бъде гъвкава и забавна и може да сепремине изцяло или частично. Проектите започват малки и стават все по-сложни до края на 10-седмичния цикъл.
> Вижте нашите [Правила за поведение](CODE_OF_CONDUCT.md), [Указания за принос](CONTRIBUTING.md), [Превод](TRANSLATIONS.md). Очакваме вашата конструктивна обратна връзка!
- Предварителна викторина за затопляне преди урока
- Допълнителна скица (по желание)
- Допълнително видео (по желание)
- Предварителен тест за загряване преди урока
- Писмен урок
- За уроци на базата на проекти — стъпка по стъпка насоки за изграждане на проекта
- За уроци базирани на проекти – стъпка по стъпка ръководства за изграждане на проекта
- Проверки на знанията
- Предизвикателство
- Допълнително четиво
- Задача
- [Викторина след урока](https://ff-quizzes.netlify.app/en/)
- [Тест след урока](https://ff-quizzes.netlify.app/en/)
> **Забележка относно викторините**: Всички викторини се намират в папката Quiz-App, общо 40 викторини с по три въпроса всяка. Теса свързани от уроците, но приложението за викторини може да се изпълнява локално или да се разполага в Azure; следвайте инструкциите в папката `quiz-app`. Постепенно се локализират.
> **Забележка относно тестовете**: Всички тестове се съдържат в папката Quiz-App, общо 40 теста с по три въпроса всеки. Теса свързани от уроците, но приложението за тестове може да се изпълнява локално или да се деплойва в Azure; следвайте инструкциите в папката `quiz-app`. Те постепенно се локализират.
## 🎓 Примери, подходящи за начинаещи
## 🎓 Примери за начинаещи
**Новак в науката за данни?** Създадохме специална [директория с примери](examples/README.md) с прост, добре коментиран код, за да ви помогнем да започнете:
**Нов в науката за данните?** Създадохме специална [директория с примери](examples/README.md) с прост и добре коментиран код, който да ви помогне да започнете:
- 🌟 **Hello World** - Вашата първа програма за наука за данни
- 📂 **Зареждане на данни** - Научете се как да четете и разглеждате набори от данни
- 🌟 **Hello World** - Вашата първа програма по наука за данните
- 📂 **Зареждане на данни** - Научете как да четете и изследвате набори от данни
- 📊 **Прост анализ** - Изчисляване на статистики и намиране на модели
- 📈 **Базова визуализация** - Създаване на диаграми и графики
- 🔬 **Реален проект** - Пълен работен процес от начало до край
- 📈 **Основна визуализация** - Създаване на диаграми и графики
- 🔬 **Реален проект** - Цялостен работен процес от начало до край
Всеки пример включва подробни коментари, които обясняват всяка стъпка, което го прави перфектен за абсолютни начинаещи!
Всеки пример включва подробни коментари, обясняващи всяка стъпка, което го прави перфектен за абсолютни начинаещи!
👉 **[Започнете с примерите](examples/README.md)** 👈
## Уроци
||
||
|:---:|
| Наука за данни за начинаещи: Пътна карта - _Скичноут от [@nitya](https://twitter.com/nitya)_ |
| Наука за данни за начинаещи: План за обучение - _Скица от [@nitya](https://twitter.com/nitya)_ |
| Номер на урок | Тема | Група уроци | Учебни цели | Връзка към урок | Автор |
| Номер на урок | Тема | Групиране на урока | Учебни цели | Свързан урок | Автор |
| 01 | Определяне на науката за данни | [Въведение](1-Introduction/README.md) | Научете основните концепции зад науката за данни и как тя е свързанас изкуствения интелект, машинното обучение и големите данни. | [урок](1-Introduction/01-defining-data-science/README.md) [видео](https://youtu.be/beZ7Mb_oz9I) | [Дмитрий](http://soshnikov.com) |
| 02 | Етика в науката за данни | [Въведение](1-Introduction/README.md) | Концепции, предизвикателства и рамки за етиката на данните. | [урок](1-Introduction/02-ethics/README.md) | [Нитя](https://twitter.com/nitya) |
| 03 | Определяне на данни | [Въведение](1-Introduction/README.md) | Как се класифицират данните и техните често срещани източници. | [урок](1-Introduction/03-defining-data/README.md) | [Жасмин](https://www.twitter.com/paladique) |
| 04 | Въведение в статистиката и вероятностите | [Въведение](1-Introduction/README.md) | Математическите техники по вероятности и статистика за разбиране на данни. | [урок](1-Introduction/04-stats-and-probability/README.md) [видео](https://youtu.be/Z5Zy85g4Yjw) | [Дмитрий](http://soshnikov.com) |
| 05 | Работа с релационни данни | [Работа с данни](2-Working-With-Data/README.md) | Въведение в релационните данни и основи на изследване и анализ на релационни данни с езика за структурирани заявки, известен и като SQL (произнася се "си-квел"). | [урок](2-Working-With-Data/05-relational-databases/README.md) | [Кристофър](https://www.twitter.com/geektrainer) | | |
| 06 | Работа с NoSQL данни | [Работа с данни](2-Working-With-Data/README.md) | Въведение в нерелационните данни, различните им типове и основи на изследване и анализ на документирани бази данни. | [урок](2-Working-With-Data/06-non-relational/README.md) | [Жасмин](https://twitter.com/paladique)|
| 07 | Работа с Python | [Работа с данни](2-Working-With-Data/README.md) | Основи на използването на Python за изследване на данни с библиотеки като Pandas. Препоръчително е основно разбиране на програмирането с Python. | [урок](2-Working-With-Data/07-python/README.md) [видео](https://youtu.be/dZjWOGbsN4Y) | [Дмитрий](http://soshnikov.com) |
| 08 | Подготовка на данни | [Работа с данни](2-Working-With-Data/README.md) | Теми върху техники за почистване и трансформация на данни за справяне с предизвикателства като липсващи, неточни или непълни данни. | [урок](2-Working-With-Data/08-data-preparation/README.md) | [Жасмин](https://www.twitter.com/paladique) |
| 09 | Визуализация на количества | [Визуализация на данни](3-Data-Visualization/README.md) | Научете как да използвате Matplotlib за визуализация на данни за птици 🦆 | [урок](3-Data-Visualization/09-visualization-quantities/README.md) | [Джен](https://twitter.com/jenlooper) |
| 10 | Визуализация на разпределения на данни | [Визуализация на данни](3-Data-Visualization/README.md) | Визуализиране на наблюдения и тенденции в интервал. | [урок](3-Data-Visualization/10-visualization-distributions/README.md) | [Джен](https://twitter.com/jenlooper) |
| 01 | Дефиниране на науката за данни | [Въведение](1-Introduction/README.md) | Научете основните концепции зад науката за данни и как тя се свързвас изкуствения интелект, машинното обучение и големите данни. | [урок](1-Introduction/01-defining-data-science/README.md) [видео](https://youtu.be/beZ7Mb_oz9I) | [Дмитрий](http://soshnikov.com) |
| 02 | Етика в науката за данни | [Въведение](1-Introduction/README.md) | Концепции, предизвикателства и рамки на етиката в данните. | [урок](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Дефиниране на данни | [Въведение](1-Introduction/README.md) | Как се класифицират данните и техните чести източници. | [урок](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Въведение в статистиката и вероятността | [Въведение](1-Introduction/README.md) | Математическите техники на вероятността и статистиката за разбиране на данните. | [урок](1-Introduction/04-stats-and-probability/README.md) [видео](https://youtu.be/Z5Zy85g4Yjw) | [Дмитрий](http://soshnikov.com) |
| 05 | Работа с релационни данни | [Работа с данни](2-Working-With-Data/README.md) | Въведение в релационните данни и основите на изследване и анализ на релационни данни със структуриран език за заявки, известен като SQL (произнася се “си-куел”). | [урок](2-Working-With-Data/05-relational-databases/README.md) | [Кристофър](https://www.twitter.com/geektrainer) | | |
| 06 | Работа с NoSQL данни | [Работа с данни](2-Working-With-Data/README.md) | Въведение в нерелационните данни, техните различни типове и основите на изследване и анализ на документ-ориентирани бази данни. | [урок](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Работа с Python | [Работа с данни](2-Working-With-Data/README.md) | Основи на използване на Python за изследване на данни с библиотеки като Pandas. Препоръчва се основно разбиране на Python програмирането. | [урок](2-Working-With-Data/07-python/README.md) [видео](https://youtu.be/dZjWOGbsN4Y) | [Дмитрий](http://soshnikov.com) |
| 08 | Подготовка на данни | [Работа с данни](2-Working-With-Data/README.md) | Теми за техники за почистване и трансформиране на данните за справяне с проблемите на липсващи, неточни или непълни данни. | [урок](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Визуализация на количества | [Визуализация на данни](3-Data-Visualization/README.md) | Научете как да използвате Matplotlib за визуализиране на данни за птици 🦆 | [урок](3-Data-Visualization/09-visualization-quantities/README.md) | [Джен](https://twitter.com/jenlooper) |
| 10 | Визуализация на разпределение на данните | [Визуализация на данни](3-Data-Visualization/README.md) | Визуализиране на наблюдения и тенденции в интервал. | [урок](3-Data-Visualization/10-visualization-distributions/README.md) | [Джен](https://twitter.com/jenlooper) |
| 11 | Визуализация на пропорции | [Визуализация на данни](3-Data-Visualization/README.md) | Визуализиране на дискретни и групирани проценти. | [урок](3-Data-Visualization/11-visualization-proportions/README.md) | [Джен](https://twitter.com/jenlooper) |
| 12 | Визуализация на връзки | [Визуализация на данни](3-Data-Visualization/README.md) | Визуализиране на връзки и корелации между набори от данни и техните променливи. | [урок](3-Data-Visualization/12-visualization-relationships/README.md) | [Джен](https://twitter.com/jenlooper) |
| 13 | Значими визуализации | [Визуализация на данни](3-Data-Visualization/README.md) | Техники и насоки за създаване на визуализации, ценни за ефективно решаване на проблеми и извличане на прозрения. | [урок](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Джен](https://twitter.com/jenlooper) |
| 14 | Въведение в жизнения цикъл на науката за данни | [Жизнен цикъл](4-Data-Science-Lifecycle/README.md) | Въведение в жизнения цикъл на науката за данни и първата му стъпка - придобиване и извличане на данни. | [урок](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Жасмин](https://twitter.com/paladique) |
| 15 | Анализ | [Жизнен цикъл](4-Data-Science-Lifecycle/README.md) | Този етап от жизнения цикъл на науката за данни се фокусира върху техники за анализ на данни. | [урок](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Жасмин](https://twitter.com/paladique) | | |
| 16 | Комуникация | [Жизнен цикъл](4-Data-Science-Lifecycle/README.md) | Този етап от жизнения цикъл на науката за данни се фокусира върху представянето на извлечените прозрения от данните по начин, който го прави по-лесен за разбиране от вземащите решения. | [урок](4-Data-Science-Lifecycle/16-communication/README.md) | [Джален](https://twitter.com/JalenMcG) | | |
| 17 | Наука за данни в облака | [Облачни данни](5-Data-Science-In-Cloud/README.md) | Тази серия от уроци въвежда науката за данни в облака и нейните предимства. | [урок](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Тифани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 18 | Наука за данни в облака | [Облачни данни](5-Data-Science-In-Cloud/README.md) | Обучение на модели с инструменти Low Code. |[урок](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Тифани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 19 | Наука за данни в облака | [Облачни данни](5-Data-Science-In-Cloud/README.md) | Разгръщане на модели с Azure Machine Learning Studio. | [урок](5-Data-Science-In-Cloud/19-Azure/README.md)| [Тифани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 20 | Наука за данни в реалния свят | [В дивата природа](6-Data-Science-In-Wild/README.md) | Проекти, базирани на науката за данни, в реалния свят. | [урок](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Нитя](https://twitter.com/nitya) |
| 12 | Визуализация на взаимоотношения | [Визуализация на данни](3-Data-Visualization/README.md) | Визуализиране на връзки и корелации между набори от данни и техните променливи. | [урок](3-Data-Visualization/12-visualization-relationships/README.md) | [Джен](https://twitter.com/jenlooper) |
| 13 | Смислени визуализации | [Визуализация на данни](3-Data-Visualization/README.md) | Техники и насоки за правене на визуализациите стойностни за ефективно решаване на проблеми и изводи. | [урок](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Джен](https://twitter.com/jenlooper) |
| 14 | Въведение в жизнения цикъл на науката за данни | [Жизнен цикъл](4-Data-Science-Lifecycle/README.md) | Въведение в жизнения цикъл на науката за данни и първата му стъпка – придобиване и извличане на данни. | [урок](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Анализиране | [Жизнен цикъл](4-Data-Science-Lifecycle/README.md) | Тази фаза от жизнения цикъл на науката за данни се фокусира върху техники за анализ на данни. | [урок](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Комуникация | [Жизнен цикъл](4-Data-Science-Lifecycle/README.md) | Тази фаза от жизнения цикъл на науката за данни се фокусира върху представянето на изводите от данните по начин, който улеснява разбирането им от вземащите решения. | [урок](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Наука за данни в облака | [Облачни данни](5-Data-Science-In-Cloud/README.md) | Тази серия от уроци представя науката за данни в облака и нейните предимства. | [урок](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Тифани](https://twitter.com/TiffanySouterre) и [Мауд](https://twitter.com/maudstweets) |
| 18 | Наука за данни в облака | [Облачни данни](5-Data-Science-In-Cloud/README.md) | Обучение на модели с използване на Low Code инструменти. |[урок](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Тифани](https://twitter.com/TiffanySouterre) и [Мауд](https://twitter.com/maudstweets) |
| 19 | Наука за данни в облака | [Облачни данни](5-Data-Science-In-Cloud/README.md) | Деплойване на модели с Azure Machine Learning Studio. | [урок](5-Data-Science-In-Cloud/19-Azure/README.md)| [Тифани](https://twitter.com/TiffanySouterre) и [Мауд](https://twitter.com/maudstweets) |
| 20 | Наука за данни в реалния свят | [В дивата природа](6-Data-Science-In-Wild/README.md) | Проекти, базирани на науката за данните, в реалния свят. | [урок](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Следвайте тези стъпки, за да отворите този пример в Codespace:
1. Кликнете на падащото меню Code и изберете опцията Open with Codespaces.
2. Изберете + New codespace в долната част на панела.
За повече информация вижте [документацията на GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
За повече информация вижте [GitHub документацията](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Контейнери
Следвайте тези стъпки, за да отворите това хранилище в контейнер, използвайки локалния си компютър и VSCode чрез разширението VS Code Remote - Containers:
Следвайте тези стъпки, за да отворите това репо в контейнер, използвайки локалната си машина и VSCode чрез разширението VS Code Remote - Containers:
1. Ако това е първият ви път с development контейнер, уверете се, че системата ви отговаря на изискванията (например, че Docker е инсталиран) в [ръководството за започване](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Ако използвате контейнер за разработка за първи път, моля уверете се, че системата ви отговаря на изискванията (т.е. имате инсталиран Docker) в [документацията за начало](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
За да използвате това хранилище, можете да отворите хранилището в изолиран Docker обем:
За да използвате това репо, можете или да го отворите в изолиран Docker volume:
**Забележка**: Под капака, това използва командата Remote-Containers: **Clone Repository in Container Volume...**, за да клонира изходния код в Docker обем вместо в локалната файлова система. [Обемите](https://docs.docker.com/storage/volumes/) са предпочитаният механизъм за съхранение на данни на контейнер.
**Забележка**: Под капака това ще използва командата Remote-Containers: **Clone Repository in Container Volume...**, за да клонира изходния код в Docker volume вместо в локалната файлова система. [Volumes](https://docs.docker.com/storage/volumes/) са предпочитаният механизъм за съхранение на данни на контейнера.
Или отворете локално клонирана или изтеглена версия на хранилището:
Или да отворите локално клонирано или изтеглено копие на репото:
- Клонирайте това хранилище на локалната файлова система.
- Натиснете F1 и изберете командата**Remote-Containers: Open Folder in Container...**.
- Изберете клонираното копие на тази папка, изчакайте контейнерът да стартира и тествате.
- Клонирайте това репо на локалната файлова система.
- Натиснете F1 и изберете команда **Remote-Containers: Open Folder in Container...**.
- Изберете клонираното копие на тази папка, изчакайте да стартира контейнера и пробвайте.
## Офлайн достъп
Можете да използвате тази документация офлайн чрез [Docsify](https://docsify.js.org/#/). Форкнете това хранилище, [инсталирайте Docsify](https://docsify.js.org/#/quickstart) на локалната си машина и след това в основната папка на това хранилище въведете `docsify serve`. Уебсайтът ще се обслужва на порт 3000 на вашия локален хост: `localhost:3000`.
Можете да изпълнявате тази документация офлайн чрез [Docsify](https://docsify.js.org/#/). Форкнете това репо, [инсталирайте Docsify](https://docsify.js.org/#/quickstart) на локалната си машина, след това в основната папка на това репо, изпълнете `docsify serve`. Уебсайтът ще бъде обслужван на порт 3000 на localhost: `localhost:3000`.
> Забележка: бележниците няма да серендерират чрез Docsify, затова ако трябва да стартирате бележник, направете го отделно във VS Code с изпълняващ се Python kernel.
> Забележка: бележниците няма да севизуализират с Docsify, така че когато трябва да изпълните бележник, направете го отделно в VS Code, използвайки Python kernel.
## Други учебни програми
@ -200,54 +210,54 @@ Azure Cloud Advocates в Microsoft с удоволствие предлагат
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Агентии
### Azure / Edge / MCP / Агентите
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Серия за Генеративен AI
### Поредицата за генеративен AI
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### Основно обучение
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Серия Copilot
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
### Поредицата Copilot
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
**Имате проблеми?** Разгледайте нашето [Ръководство за отстраняване на проблеми](TROUBLESHOOTING.md) за решения на често срещани проблеми.
**Срещате проблеми?** Вижте нашето [Ръководство за отстраняване на проблеми](TROUBLESHOOTING.md) за решения на често срещани проблеми.
Ако се затруднявате или имате въпроси относно създаването на AI приложения, присъединете се към други учащи и опитни разработчици в дискусии за MCP. Това е подкрепяща общност, където въпросите са добре дошли и знанията се споделят свободно.
Ако забиете или имате въпроси относно създаването на AI приложения, присъединете се към други учащи и опитни разработчици в дискусиите за MCP. Това е подкрепяща общност, където въпросите са добре дошли и знанието се споделя свободно.
Този документ е преведен с помощта на AI преводаческа услуга [Co-op Translator](https://github.com/Azure/co-op-translator). Докато се стремим към точност, моля, имайте предвид, че автоматизираните преводи могат да съдържат грешки или неточности. Оригиналният документ на неговия оригинален език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Не носим отговорност за никакви недоразумения или неправилни тълкувания, възникнали при използването на този превод.
**Отказ от отговорност**:
Този документ е преведен с помощта на автоматизирана услуга за превод [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, имайте предвид, че автоматизираните преводи могат да съдържат грешки или неточности. Оригиналният документ на неговия първоначален език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Не носим отговорност за възникнали недоразумения или неправилни тълкувания вследствие на използването на този превод.
[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [Chestionar înainte de curs](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Dacă dorim să complicăm și mai mult lucrurile, putem reprezenta grafic timpu
În această provocare, vom încerca să identificăm concepte relevante pentru domeniul Științei Datelor analizând texte. Vom lua un articol de pe Wikipedia despre Știința Datelor, vom descărca și procesa textul, iar apoi vom construi un nor de cuvinte asemănător cu acesta:


Vizitează [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') pentru a parcurge codul. Poți, de asemenea, să rulezi codul și să vezi cum efectuează toate transformările de date în timp real.
"# Provocare: Analiza textului despre Știința Datelor\n",
"# Provocare: Analiza textului despre Știința datelor\n",
"\n",
"În acest exemplu, vom face un exercițiu simplu care acoperă toate etapele unui proces tradițional de știința datelor. Nu trebuie să scrii niciun cod, poți doar să dai clic pe celulele de mai jos pentru a le executa și a observa rezultatul. Ca provocare, ești încurajat să încerci acest cod cu date diferite.\n",
"În acest exemplu, să facem un exercițiu simplu care acoperă toți pașii unui proces tradițional de știință a datelor. Nu trebuie să scrii cod, poți doar să dai clic pe celulele de mai jos pentru a le executa și a observa rezultatul. Ca provocare, ești încurajat să încerci acest cod cu date diferite.\n",
"\n",
"## Scop\n",
"\n",
"În această lecție, am discutat diferite concepte legate de Știința Datelor. Haideți să încercăm să descoperim mai multe concepte conexe prin **analiza textului**. Vom începe cu un text despre Știința Datelor, vom extrage cuvinte-cheie din acesta și apoi vom încerca să vizualizăm rezultatul.\n",
"În această lecție, am discutat diverse concepte legate de Știința datelor. Să încercăm să descoperim mai multe concepte conexe prin efectuarea unei **extragere de text**. Vom începe cu un text despre Știința datelor, vom extrage cuvinte-cheie din acesta, și apoi vom încerca să vizualizăm rezultatul.\n",
"\n",
"Ca text, voi folosi pagina despre Știința Datelor de pe Wikipedia:\n"
"Ca text, voi folosi pagina despre Știința datelor de pe Wikipedia:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Pasul 1: Obținerea datelor\n",
"## Step 1: Obținerea datelor\n",
"\n",
"Primul pas în orice proces de știința datelor este obținerea datelor. Vom folosi biblioteca `requests` pentru a face acest lucru:\n"
"Primul pas în orice proces de știință a datelor este obținerea datelor. Vom folosi biblioteca `requests` pentru a face acest lucru:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Pasul 2: Transformarea datelor\n",
"\n",
"Următorul pas este să convertim datele într-o formă potrivită pentru procesare. În cazul nostru, am descărcat codul sursă HTML de pe pagină și trebuie să-l transformăm în text simplu.\n",
"Următorul pas este să convertim datele într-o formă potrivită pentru procesare. În cazul nostru, am descărcat codul sursă HTML de pe pagină și trebuie să îl convertim în text simplu.\n",
"\n",
"Există multe moduri prin care acest lucru poate fi realizat. Vom folosi cel mai simplu obiect [HTMLParser](https://docs.python.org/3/library/html.parser.html) integrat din Python. Trebuie să extindem clasa `HTMLParser` și să definim codul care va colecta tot textul din interiorul etichetelor HTML, cu excepția etichetelor `<script>` și `<style>`.\n"
"Există multe moduri prin care se poate face acest lucru. Vom folosi [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), o bibliotecă Python populară pentru parsarea HTML. BeautifulSoup ne permite să țintim anumite elemente HTML specifice, astfel încât să ne concentrăm pe conținutul principal al articolului de pe Wikipedia și să reducem unele meniuri de navigare, bare laterale, footere și alte conținuturi irelevante (deși unele texte tip boilerplate pot rămâne).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Mai întâi, trebuie să instalăm biblioteca BeautifulSoup pentru parsarea HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Pasul 3: Obținerea de informații\n",
"## Step 3: Obținerea informațiilor\n",
"\n",
"Cel mai important pas este să transformăm datele noastre într-o formă din care să putem extrage informații utile. În cazul nostru, dorim să extragem cuvinte cheie din text și să vedem care dintre acestea sunt mai semnificative.\n",
"Cel mai important pas este să transformăm datele într-o formă din care putem extrage informații. În cazul nostru, vrem să extragem cuvinte cheie din text și să vedem care cuvinte cheie sunt mai semnificative.\n",
"\n",
"Vom folosi o bibliotecă Python numită [RAKE](https://github.com/aneesha/RAKE) pentru extragerea cuvintelor cheie. Mai întâi, să instalăm această bibliotecă dacă nu este deja prezentă:\n"
"Vom folosi biblioteca Python numită [RAKE](https://github.com/aneesha/RAKE) pentru extragerea cuvintelor cheie. Mai întâi, să instalăm această bibliotecă în cazul în care nu este prezentă:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Funcționalitatea principală este disponibilă prin obiectul `Rake`, pe care îl putem personaliza folosind câțiva parametri. În cazul nostru, vom seta lungimea minimă a unui cuvânt cheie la 5 caractere, frecvența minimă a unui cuvânt cheie în document la 3 și numărul maxim de cuvinte dintr-un cuvânt cheie la 2. Simțiți-vă liber să experimentați cu alte valori și să observați rezultatul.\n"
"Funcționalitatea principală este disponibilă prin obiectul `Rake`, pe care îl putem personaliza folosind câțiva parametri. În cazul nostru, vom seta lungimea minimă a unui cuvânt-cheie la 5 caractere, frecvența minimă a unui cuvânt-cheie în document la 3 și numărul maxim de cuvinte într-un cuvânt-cheie - la 2. Simțiți-vă liber să experimentați cu alte valori și să observați rezultatul.\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"Am obținut o listă de termeni împreună cu gradul lor de importanță asociat. După cum puteți vedea, cele mai relevante discipline, cum ar fi machine learning și big data, sunt prezente în listă pe pozițiile de top.\n",
"\n",
"## Pasul 4: Vizualizarea Rezultatelor\n",
"Am obținut o listă de termeni împreună cu gradul asociat de importanță. După cum puteți vedea, disciplinele cele mai relevante, cum ar fi învățarea automată și big data, sunt prezente în listă în poziții de top.\n",
"\n",
"Oamenii interpretează cel mai bine datele în formă vizuală. Astfel, deseori are sens să vizualizăm datele pentru a obține anumite perspective. Putem folosi biblioteca `matplotlib` din Python pentru a reprezenta grafic distribuția simplă a cuvintelor cheie împreună cu relevanța lor:\n"
"## Pasul 4: Vizualizarea rezultatului\n",
"\n",
"Oamenii pot interpreta cel mai bine datele în formă vizuală. Astfel, adesea are sens să vizualizăm datele pentru a extrage unele concluzii. Putem folosi biblioteca `matplotlib` în Python pentru a reprezenta grafic distribuția simplă a cuvintelor cheie cu relevanța lor:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"Există, totuși, o modalitate și mai bună de a vizualiza frecvențele cuvintelor - folosind **Word Cloud**. Va trebui să instalăm o altă bibliotecă pentru a crea un word cloud din lista noastră de cuvinte cheie.\n"
"Există, totuși, o metodă și mai bună de a vizualiza frecvențele cuvintelor - utilizând **Nori de Cuvinte**. Va trebui să instalăm o altă bibliotecă pentru a genera norul de cuvinte din lista noastră de cuvinte cheie.\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"Obiectul `WordCloud` este responsabil pentru preluarea fie a textului original, fie a unei liste pre-calculate de cuvinte cu frecvențele lor, și returnează o imagine, care poate fi apoi afișată folosind `matplotlib`:\n"
"Obiectul `WordCloud` este responsabil pentru preluarea fie a textului original, fie a unei liste pre-computate de cuvinte cu frecvențele lor, și returnează o imagine, care poate fi apoi afișată folosind `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"Putem, de asemenea, să introducem textul original în `WordCloud` - să vedem dacă putem obține un rezultat similar:\n"
"Putem, de asemenea, să trecem textul original în `WordCloud` - să vedem dacă putem obține un rezultat similar:\n"
],
"metadata": {}
},
@ -372,11 +371,11 @@
{
"cell_type": "markdown",
"source": [
"Puteți observa că norul de cuvinte arată acum mai impresionant, dar conține și mult zgomot (de exemplu, cuvinte fără legătură precum `Retrieved on`). De asemenea, obținem mai puține cuvinte-cheie formate din două cuvinte, cum ar fi *data scientist* sau *computer science*. Acest lucru se întâmplă deoarece algoritmul RAKE face o treabă mult mai bună în selectarea cuvintelor-cheie relevante din text. Acest exemplu ilustrează importanța pre-procesării și curățării datelor, deoarece o imagine clară la final ne va permite să luăm decizii mai bune.\n",
"Puteți vedea că norul de cuvinte arată acum mai impresionant, dar conține și mult zgomot (de ex. cuvinte fără legătură, cum ar fi `Retrieved on`). De asemenea, obținem mai puține cuvinte cheie formate din două cuvinte, cum ar fi *data scientist* sau *computer science*. Acest lucru se datorează faptului că algoritmul RAKE face o treabă mult mai bună în selectarea cuvintelor cheie bune din text. Acest exemplu ilustrează importanța pre-procesării și curățării datelor, deoarece o imagine clară la final ne va permite să luăm decizii mai bune.\n",
"\n",
"În acest exercițiu am parcurs un proces simplu de extragere a unor semnificații dintr-un text de pe Wikipedia, sub forma cuvintelor-cheie și a unui nor de cuvinte. Acest exemplu este destul de simplu, dar demonstrează bine toate etapele tipice pe care un data scientist le parcurge atunci când lucrează cu date, începând de la achiziția datelor până la vizualizare.\n",
"În acest exercițiu am parcurs un proces simplu de extragere a unor semnificații din textul Wikipedia, sub forma de cuvinte cheie și nor de cuvinte. Acest exemplu este destul de simplu, dar demonstrează bine toate etapele tipice pe care un data scientist le parcurge când lucrează cu date, începând de la achiziția datelor, până la vizualizare.\n",
"\n",
"În cadrul cursului nostru vom discuta toate aceste etape în detaliu.\n"
"În cursul nostru vom discuta toate aceste etape în detaliu.\n"
],
"metadata": {}
},
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Declinarea responsabilității**:\nAcest document a fost tradus folosind serviciul de traducere AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși depunem eforturi pentru a asigura acuratețea, vă rugăm să rețineți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa nativă ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm răspunderea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Declinarea responsabilității**:\nAcest document a fost tradus folosind serviciul de traducere automată AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși ne străduim pentru acuratețe, vă rugăm să rețineți că traducerile automate pot conține erori sau inexactități. Documentul original, în limba sa nativă, trebuie considerat sursa autorizată. Pentru informații critice, se recomandă traducerea profesională realizată de un traducător uman. Nu ne asumăm responsabilitatea pentru eventualele neînțelegeri sau interpretări greșite care pot rezulta din utilizarea acestei traduceri.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"# Provocare: Analiza textului despre Știința Datelor\n",
"\n",
"> *În acest notebook, experimentăm cu utilizarea unui URL diferit - articolul Wikipedia despre Învățarea Automată. Puteți observa că, spre deosebire de Știința Datelor, acest articol conține o mulțime de termeni, ceea ce face analiza mai problematică. Trebuie să găsim o altă metodă pentru a curăța datele după extragerea cuvintelor cheie, pentru a elimina unele combinații de cuvinte frecvente, dar lipsite de semnificație.*\n",
"> *În acest caiet, experimentăm cu folosirea diferitelor URL-uri - articol Wikipedia despre Învățarea Automată. Se poate observa că, spre deosebire de Știința Datelor, acest articol conține o mulțime de termeni, ceea ce face analiza mai problematică. Trebuie să găsim o altă metodă de a curăța datele după extragerea cuvintelor cheie, pentru a scăpa de unele combinații frecvente, dar fără semnificație.*\n",
"\n",
"În acest exemplu, să facem un exercițiu simplu care acoperă toți pașii unui proces tradițional de știința datelor. Nu trebuie să scrieți niciun cod, puteți doar să faceți clic pe celulele de mai jos pentru a le executa și a observa rezultatul. Ca provocare, sunteți încurajați să încercați acest cod cu date diferite.\n",
"În acest exemplu, să facem un exercițiu simplu care acoperă toate etapele unui proces tradițional de știință a datelor. Nu trebuie să scrieți niciun cod, puteți doar să faceți clic pe celulele de mai jos pentru a le executa și a observa rezultatul. Ca provocare, sunteți încurajați să încercați acest cod cu date diferite.\n",
"\n",
"## Obiectiv\n",
"\n",
"În această lecție, am discutat diferite concepte legate de Știința Datelor. Să încercăm să descoperim mai multe concepte conexe prin **minarea textului**. Vom începe cu un text despre Știința Datelor, vom extrage cuvinte cheie din acesta și apoi vom încerca să vizualizăm rezultatul.\n",
"În această lecție, am discutat diferite concepte legate de Știința Datelor. Să încercăm să descoperim mai multe concepte aferente făcând o **extragere de text**. Vom începe cu un text despre Știința Datelor, vom extrage cuvintele cheie din acesta, apoi vom încerca să vizualizăm rezultatul.\n",
"\n",
"Ca text, voi folosi pagina despre Știința Datelor de pe Wikipedia:\n"
],
@ -37,7 +37,7 @@
"source": [
"## Pasul 1: Obținerea datelor\n",
"\n",
"Primul pas în orice proces de știința datelor este obținerea datelor. Vom folosi biblioteca `requests` pentru a face acest lucru:\n"
"Primul pas în orice proces de știință a datelor este obținerea datelor. Vom folosi biblioteca `requests` pentru asta:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Pasul 2: Transformarea datelor\n",
"\n",
"Următorul pas este să convertim datele într-o formă potrivită pentru procesare. În cazul nostru, am descărcat codul sursă HTML al paginii și trebuie să-l transformăm în text simplu.\n",
"Următorul pas este să convertim datele într-o formă potrivită pentru procesare. În cazul nostru, am descărcat codul sursă HTML al paginii și trebuie să îl transformăm în text simplu.\n",
"\n",
"Există multe moduri în care acest lucru poate fi realizat. Vom folosi cel mai simplu obiect [HTMLParser](https://docs.python.org/3/library/html.parser.html) integrat în Python. Trebuie să extindem clasa `HTMLParser` și să definim codul care va colecta tot textul din interiorul etichetelor HTML, cu excepția etichetelor `<script>` și `<style>`.\n"
"Există multe moduri în care acest lucru poate fi făcut. Vom folosi [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), o bibliotecă Python populară pentru parsarea HTML. BeautifulSoup ne permite să țintim elemente HTML specifice, astfel încât să ne putem concentra pe conținutul principal al articolului de pe Wikipedia și să reducem unele meniuri de navigare, bare laterale, subsoluri și alte conținuturi irelevante (deși poate rămâne încă unele texte standard).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Mai întâi, trebuie să instalăm biblioteca BeautifulSoup pentru analiza HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Pasul 3: Obținerea de informații\n",
"## Pasul 3: Obținerea Insight-urilor\n",
"\n",
"Cel mai important pas este să transformăm datele noastre într-o formă din care să putem extrage informații utile. În cazul nostru, dorim să extragem cuvinte cheie din text și să vedem care dintre acestea sunt mai semnificative.\n",
"Cel mai important pas este să transformăm datele noastre într-o formă din care putem extrage insight-uri. În cazul nostru, dorim să extragem cuvinte cheie din text și să vedem care cuvinte cheie sunt mai relevante.\n",
"\n",
"Vom folosi biblioteca Python numită [RAKE](https://github.com/aneesha/RAKE) pentru extragerea cuvintelor cheie. Mai întâi, să instalăm această bibliotecă în cazul în care nu este deja prezentă:\n"
"Vom folosi biblioteca Python numită [RAKE](https://github.com/aneesha/RAKE) pentru extragerea cuvintelor cheie. Mai întâi, să instalăm această bibliotecă în cazul în care nu este deja prezentă:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Funcționalitatea principală este disponibilă prin obiectul `Rake`, pe care îl putem personaliza folosind anumiți parametri. În cazul nostru, vom seta lungimea minimă a unui cuvânt cheie la 5 caractere, frecvența minimă a unui cuvânt cheie în document la 3 și numărul maxim de cuvinte dintr-un cuvânt cheie la 2. Simțiți-vă liber să experimentați cu alte valori și să observați rezultatul.\n"
"Funcționalitatea principală este disponibilă prin obiectul `Rake`, pe care îl putem personaliza folosind câțiva parametri. În cazul nostru, vom seta lungimea minimă a unui cuvânt cheie la 5 caractere, frecvența minimă a unui cuvânt cheie în document la 3 și numărul maxim de cuvinte într-un cuvânt cheie - la 2. Simțiți-vă liber să experimentați cu alte valori și să observați rezultatul.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Am obținut o listă de termeni împreună cu gradul lor de importanță asociat. După cum puteți observa, cele mai relevante discipline, precum machine learning și big data, sunt prezente în listă pe pozițiile de top.\n",
"\n",
"## Pasul 4: Vizualizarea Rezultatelor\n",
"Am obținut o listă de termeni împreună cu gradul asociat de importanță. După cum puteți observa, cele mai relevante discipline, cum ar fi învățarea automată și big data, sunt prezente în listă în poziții de top.\n",
"\n",
"Oamenii interpretează cel mai bine datele în formă vizuală. Prin urmare, deseori are sens să vizualizăm datele pentru a extrage anumite informații. Putem folosi biblioteca `matplotlib` din Python pentru a crea o distribuție simplă a cuvintelor cheie împreună cu relevanța lor:\n"
"## Pasul 4: Vizualizarea rezultatului\n",
"\n",
"Oamenii pot interpreta cel mai bine datele în formă vizuală. Prin urmare, adesea are sens să vizualizăm datele pentru a extrage unele concluzii. Putem folosi biblioteca `matplotlib` în Python pentru a reprezenta grafic distribuția simplă a cuvintelor cheie împreună cu relevanța lor:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"Există, totuși, o modalitate și mai bună de a vizualiza frecvențele cuvintelor - folosind **Word Cloud**. Va trebui să instalăm o altă bibliotecă pentru a crea un word cloud din lista noastră de cuvinte cheie.\n"
"Există, totuși, o metodă și mai bună de a vizualiza frecvențele cuvintelor - folosind **Nor de Cuvinte**. Va trebui să instalăm o altă bibliotecă pentru a reprezenta grafic norul de cuvinte din lista noastră de cuvinte cheie.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"Obiectul `WordCloud` este responsabil pentru preluarea fie a textului original, fie a unei liste pre-calculate de cuvinte cu frecvențele lor, și returnează o imagine, care poate fi apoi afișată folosind `matplotlib`:\n"
"Obiectul `WordCloud` este responsabil pentru preluarea fie a textului original, fie a unei liste pre-calculate de cuvinte cu frecvențele lor și returnează o imagine, care poate fi apoi afișată folosind `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"Putem, de asemenea, să introducem textul original în `WordCloud` - să vedem dacă putem obține un rezultat similar:\n"
"Putem, de asemenea, să transmitem textul original către `WordCloud` - să vedem dacă putem obține un rezultat similar:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"Poți observa că acum norul de cuvinte arată mai impresionant, dar conține și mult zgomot (de exemplu, cuvinte nerelevante precum `Retrieved on`). De asemenea, obținem mai puține cuvinte-cheie formate din două cuvinte, cum ar fi *data scientist* sau *computer science*. Acest lucru se întâmplă deoarece algoritmul RAKE face o treabă mult mai bună în selectarea cuvintelor-cheie relevante din text. Acest exemplu ilustrează importanța pre-procesării și curățării datelor, deoarece o imagine clară la final ne va permite să luăm decizii mai bune.\n",
"Puteți vedea că norul de cuvinte arată acum mai impresionant, dar conține și mult zgomot (de exemplu, cuvinte fără legătură precum `Retrieved on`). De asemenea, obținem mai puține cuvinte cheie formate din două cuvinte, cum ar fi *data scientist* sau *computer science*. Acest lucru se datorează faptului că algoritmul RAKE face o treabă mult mai bună la selectarea cuvintelor cheie bune din text. Acest exemplu ilustrează importanța preprocesării și curățării datelor, deoarece o imagine clară la final ne va permite să luăm decizii mai bune.\n",
"\n",
"În acest exercițiu am parcurs un proces simplu de extragere a unor informații dintr-un text de pe Wikipedia, sub forma cuvintelor-cheie și a unui nor de cuvinte. Acest exemplu este destul de simplu, dar demonstrează bine toți pașii tipici pe care un data scientist îi urmează atunci când lucrează cu date, începând de la achiziția datelor până la vizualizare.\n",
"În acest exercițiu am parcurs un proces simplu de extragere a unui anumit sens din textul Wikipedia, sub forma unor cuvinte cheie și a unui nor de cuvinte. Acest exemplu este destul de simplu, dar demonstrează bine toți pașii tipici pe care un data scientist îi va urma atunci când lucrează cu date, începând de la achiziția datelor și până la vizualizare.\n",
"\n",
"În cadrul cursului nostru vom discuta în detaliu toți acești pași.\n"
"În cursul nostru vom discuta toți acești pași în detaliu.\n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Declinarea responsabilității**: \nAcest document a fost tradus folosind serviciul de traducere AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși depunem eforturi pentru a asigura acuratețea, vă rugăm să aveți în vedere că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa nativă ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm răspunderea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Declinare de responsabilitate**:\nAcest document a fost tradus folosind serviciul de traducere AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși ne străduim să asigurăm acuratețea, vă rugăm să rețineți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa nativă trebuie considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm răspunderea pentru eventualele neînțelegeri sau interpretări greșite care pot rezulta din utilizarea acestei traduceri.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
Teoria statisticii și probabilității sunt două domenii strâns legate ale matematicii, extrem de relevante pentru știința datelor. Este posibil să lucrăm cu date fără o cunoaștere profundă a matematicii, dar este totuși mai bine să știm cel puțin câteva concepte de bază. Aici vom prezenta o scurtă introducere care te va ajuta să începi.
## [Chestionar înainte de lecție](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Este mai dificil să descriem distribuția probabilității unei variabile conti
Putem vorbi doar despre probabilitatea ca o variabilă să se încadreze într-un anumit interval de valori, de exemplu P(t<sub>1</sub>≤X<t<sub>2</sub>). În acest caz, distribuția probabilității este descrisă printr-o **funcție de densitate a probabilității** p(x), astfel încât
Un analog continuu al distribuției uniforme se numește **uniform continuu**, care este definit pe un interval finit. Probabilitatea ca valoarea X să se încadreze într-un interval de lungime l este proporțională cu l și crește până la 1.
@ -73,11 +73,11 @@ Când analizăm date din viața reală, acestea nu sunt adesea variabile aleatoa
Iată box plot-ul care arată media, mediana și quartilele pentru datele noastre:
Deoarece datele noastre conțin informații despre diferite **roluri** ale jucătorilor, putem face și un box plot pe roluri - acest lucru ne va permite să înțelegem cum diferă valorile parametrilor între roluri. De această dată vom considera înălțimea:


Acest diagramă sugerează că, în medie, înălțimea jucătorilor de primă bază este mai mare decât înălțimea jucătorilor de a doua bază. Mai târziu în această lecție vom învăța cum putem testa această ipoteză mai formal și cum să demonstrăm că datele noastre sunt semnificative din punct de vedere statistic pentru a arăta acest lucru.
@ -85,7 +85,7 @@ Acest diagramă sugerează că, în medie, înălțimea jucătorilor de primă b
Pentru a vedea ce distribuție au datele noastre, putem trasa un grafic numit **histogramă**. Axa X ar conține un număr de intervale de greutate diferite (așa-numitele **bin-uri**), iar axa verticală ar arăta numărul de ori când proba variabilei aleatoare a fost în acel interval.


Din această histogramă poți vedea că toate valorile sunt centrate în jurul unei anumite greutăți medii, iar cu cât ne îndepărtăm de acea greutate - cu atât mai puține greutăți de acea valoare sunt întâlnite. Adică, este foarte improbabil ca greutatea unui jucător de baseball să fie foarte diferită de greutatea medie. Varianța greutăților arată măsura în care greutățile sunt susceptibile să difere de medie.
Dacă trasăm histograma probelor generate, vom vedea o imagine foarte similară cu cea prezentată mai sus. Și dacă mărim numărul de probe și numărul de bin-uri, putem genera o imagine a unei distribuții normale care este mai aproape de ideal:


*Distribuție normală cu medie=0 și abatere standard=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
În cazul nostru, valoarea 0.53 indică faptul că există o anumită corelație între greutatea și înălțimea unei persoane. Putem, de asemenea, să realizăm un grafic scatter al unei valori în raport cu cealaltă pentru a vedea relația vizual:


> Mai multe exemple de corelație și covarianță pot fi găsite în [notebook-ul asociat](notebook.ipynb).


> Fotografie de <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> pe <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
În aceste lecții, vei descoperi cum este definită Știința Datelor și vei învăța despre considerațiile etice pe care trebuie să le ia în calcul un specialist în date. De asemenea, vei învăța cum sunt definite datele și vei afla câte ceva despre statistică și probabilitate, domeniile academice de bază ale Științei Datelor.
Deși bazele de date oferă modalități foarte eficiente de stocare a datelor și de interogare a acestora folosind limbaje de interogare, cea mai flexibilă metodă de procesare a datelor este scrierea propriului program pentru manipularea datelor. În multe cazuri, o interogare SQL ar fi o metodă mai eficientă. Totuși, în unele situații, când este necesară o procesare mai complexă a datelor, aceasta nu poate fi realizată ușor folosind SQL.
Procesarea datelor poate fi programată în orice limbaj de programare, dar există anumite limbaje care sunt mai potrivite pentru lucrul cu date. De obicei, oamenii de știință în domeniul datelor preferă unul dintre următoarele limbaje:
@ -66,7 +66,7 @@ print(f"Length of index is {len(idx)}")


Acum să presupunem că în fiecare săptămână organizăm o petrecere pentru prieteni și luăm 10 pachete suplimentare de înghețată pentru petrecere. Putem crea un alt series, indexat pe săptămână, pentru a demonstra acest lucru:
```python
@ -77,7 +77,7 @@ Când adunăm cele două series, obținem numărul total:


> **Notă** că nu folosim sintaxa simplă `total_items+additional_items`. Dacă am fi făcut acest lucru, am fi obținut multe valori `NaN` (*Not a Number*) în series-ul rezultat. Acest lucru se întâmplă deoarece lipsesc valori pentru unele puncte de index în series-ul `additional_items`, iar adunarea `NaN` cu orice altceva rezultă în `NaN`. Astfel, trebuie să specificăm parametrul `fill_value` în timpul adunării.
@ -86,7 +86,7 @@ Cu serii temporale, putem **resampla** series-ul cu intervale de timp diferite.
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```


### DataFrame
@ -212,7 +212,7 @@ Prima problemă pe care ne vom concentra este modelarea răspândirii epidemiei
Deoarece dorim să demonstrăm cum să lucrăm cu datele, vă invităm să deschideți [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) și să îl citiți de la început până la sfârșit. Puteți, de asemenea, să executați celulele și să rezolvați unele provocări pe care le-am lăsat pentru voi la final.
> Dacă nu știți cum să rulați codul în Jupyter Notebook, consultați [acest articol](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -234,7 +234,7 @@ Un exemplu complet de analiză a acestui set de date folosind serviciul cognitiv
Deschideți [`notebook-papers.ipynb`](notebook-papers.ipynb) și citiți-l de la început până la sfârșit. Puteți, de asemenea, să executați celulele și să rezolvați unele provocări pe care le-am lăsat pentru voi la final.


> Fotografie de <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> pe <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
În aceste lecții, vei învăța câteva dintre modurile în care datele pot fi gestionate, manipulate și utilizate în aplicații. Vei învăța despre bazele de date relaționale și non-relaționale și despre cum pot fi stocate datele în acestea. De asemenea, vei învăța elementele de bază ale lucrului cu Python pentru a gestiona datele și vei descoperi câteva dintre numeroasele moduri în care poți folosi Python pentru a gestiona și analiza datele.
Acum, afișează aceleași date cu o schemă de culori inspirată de miere pentru a arăta cum evoluează prețul de-a lungul anilor. Poți face acest lucru adăugând un parametru 'hue' pentru a evidenția schimbările anuale:
@ -51,7 +51,7 @@ Acum, afișează aceleași date cu o schemă de culori inspirată de miere pentr
Cu această schimbare de culori, poți observa clar o progresie puternică de-a lungul anilor în ceea ce privește prețul pe liră al mierii. De fapt, dacă verifici un set de date eșantion (de exemplu, statul Arizona), poți observa un model de creștere a prețului an de an, cu câteva excepții:
Este acesta un caz simplu de cerere și ofertă? Din cauza unor factori precum schimbările climatice și colapsul coloniilor, există mai puțină miere disponibilă pentru cumpărare an de an, ceea ce duce la creșterea prețului?
✅ Deoarece Seaborn agregă datele într-o singură linie, afișează "măsurătorile multiple pentru fiecare valoare x prin reprezentarea mediei și a intervalului de încredere de 95% în jurul mediei". [Sursa](https://seaborn.pydata.org/tutorial/relational.html). Acest comportament consumator de timp poate fi dezactivat adăugând `ci=None`.
@ -105,7 +105,7 @@ Răspuns: Da, cu câteva excepții în jurul anului 2003:
Răspuns: Nu chiar. Dacă te uiți la producția totală, aceasta pare să fi crescut în acel an, deși, în general, cantitatea de miere produsă este în scădere în acești ani.
@ -130,7 +130,7 @@ sns.relplot(
```
În această vizualizare, poți compara producția per colonie și numărul de colonii an de an, alăturat, cu o împărțire pe 3 coloane:
Pentru acest set de date, nimic nu iese în evidență în mod special în ceea ce privește numărul de colonii și producția lor, an de an și stat de stat. Există o altă modalitate de a analiza corelația dintre aceste două variabile?
Deși nimic nu sare în ochi în jurul anului 2003, acest grafic ne permite să încheiem lecția pe o notă mai optimistă: deși numărul coloniilor este în scădere, acesta pare să se stabilizeze, chiar dacă producția per colonie este în scădere.
Aici, instalezi pachetul `ggplot2` și apoi îl importi în spațiul de lucru folosind comanda `library("ggplot2")`. Pentru a crea orice grafic în ggplot, se folosește funcția `ggplot()` și specifici setul de date, variabilele x și y ca atribute. În acest caz, folosim funcția `geom_line()` deoarece dorim să creăm un grafic liniar.
Ce observi imediat? Pare să existe cel puțin un outlier - ce anvergură impresionantă! O anvergură de peste 2000 de centimetri înseamnă mai mult de 20 de metri - sunt Pterodactili care zboară prin Minnesota? Să investigăm.
Chiar și cu rotația etichetelor setată la 45 de grade, sunt prea multe pentru a fi citite. Să încercăm o strategie diferită: etichetează doar outlierii și setează etichetele în interiorul graficului. Poți folosi un grafic scatter pentru a face mai mult loc etichetării:
@ -91,7 +91,7 @@ Ce se întâmplă aici? Ai folosit funcția `geom_point()` pentru a reprezenta p
Am creat un nou cadru de date `birds_filtered` și apoi am reprezentat un grafic scatter. Prin filtrarea outlierilor, datele tale sunt acum mai coerente și mai ușor de înțeles.
În următorul fragment, instalăm pachetele [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) și [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) pentru a ajuta la manipularea și gruparea datelor în vederea creării unui grafic cu bare stivuite. Mai întâi, grupăm datele după `Category` și apoi sumarizăm coloanele `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Apoi, reprezentăm graficul cu bare folosind pachetul `ggplot2` și specificăm culorile pentru diferitele categorii și etichetele.


Acest grafic cu bare, totuși, este greu de citit deoarece există prea multe date negrupate. Trebuie să selectezi doar datele pe care vrei să le reprezinți grafic, așa că să analizăm lungimea păsărilor în funcție de categoria lor.
Mai întâi numeri valorile unice din coloana `Category` și apoi le sortezi într-un nou cadru de date `birds_count`. Aceste date sortate sunt apoi factorizate la același nivel pentru a fi reprezentate grafic în mod ordonat. Folosind `ggplot2`, reprezinți grafic datele într-un grafic cu bare. Funcția `coord_flip()` afișează barele orizontal.
Acest grafic cu bare oferă o vedere bună asupra numărului de păsări din fiecare categorie. Dintr-o privire, vezi că cel mai mare număr de păsări din această regiune sunt în categoria Rațe/Gâște/Păsări acvatice. Minnesota este 'țara celor 10.000 de lacuri', așa că acest lucru nu este surprinzător!


Acest grafic oferă o privire de ansamblu asupra distribuției generale a lungimii corpului per Ordin de păsări, dar nu este cea mai bună modalitate de a afișa distribuțiile reale. Această sarcină este de obicei realizată prin crearea unui histogramă.
## Lucrul cu histograme
@ -47,7 +47,7 @@ Acest grafic oferă o privire de ansamblu asupra distribuției generale a lungim


După cum poți vedea, majoritatea celor 400+ păsări din acest set de date se încadrează în intervalul de sub 2000 pentru masa corporală maximă. Obține mai multe informații despre date modificând parametrul `bins` la un număr mai mare, cum ar fi 30:
@ -55,7 +55,7 @@ După cum poți vedea, majoritatea celor 400+ păsări din acest set de date se
Acest grafic arată distribuția într-un mod puțin mai detaliat. Un grafic mai puțin înclinat spre stânga ar putea fi creat asigurându-te că selectezi doar datele dintr-un anumit interval:
✅ Încearcă alte filtre și puncte de date. Pentru a vedea distribuția completă a datelor, elimină filtrul `['MaxBodyMass']` pentru a afișa distribuțiile etichetate.


Nu pare să existe o corelație bună între anvergura minimă a aripilor și statusul de conservare. Testează alte elemente ale setului de date utilizând această metodă. Poți încerca diferite filtre. Găsești vreo corelație?
@ -126,7 +126,7 @@ Să lucrăm acum cu grafice de densitate!


Poți vedea cum graficul reflectă cel anterior pentru datele despre anvergura minimă a aripilor; este doar puțin mai lin. Dacă ai vrea să revizitezi acea linie „în trepte” a masei corporale maxime din al doilea grafic pe care l-ai construit, ai putea să o netezești foarte bine recreând-o utilizând această metodă:
@ -134,7 +134,7 @@ Poți vedea cum graficul reflectă cel anterior pentru datele despre anvergura m


✅ Citește despre parametrii disponibili pentru acest tip de grafic și experimentează!
@ -152,7 +152,7 @@ Acest tip de grafic oferă vizualizări explicative frumoase. Cu câteva linii d
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```


Voila, un grafic de tip plăcintă care arată proporțiile acestor date conform celor două clase de ciuperci. Este foarte important să obții ordinea corectă a etichetelor, mai ales aici, așa că asigură-te că verifici ordinea în care este construită matricea de etichete!
Folosind un grafic de tip vafă, poți vedea clar proporțiile culorilor pălăriilor din acest set de date despre ciuperci. Interesant, există multe ciuperci cu pălării verzi!
În această lecție, ai învățat trei modalități de a vizualiza proporțiile. Mai întâi, trebuie să grupezi datele în categorii și apoi să decizi care este cea mai bună modalitate de a afișa datele - plăcintă, gogoașă sau vafă. Toate sunt delicioase și oferă utilizatorului o imagine instantanee a unui set de date.
Acum, afișează aceleași date cu o schemă de culori inspirată de miere pentru a arăta cum evoluează prețul de-a lungul anilor. Poți face acest lucru adăugând un parametru 'scale_color_gradientn' pentru a arăta schimbarea, an după an:
@ -52,7 +52,7 @@ Acum, afișează aceleași date cu o schemă de culori inspirată de miere pentr
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
Cu această schimbare de schemă de culori, poți observa clar o progresie puternică de-a lungul anilor în ceea ce privește prețul mierii per kilogram. De fapt, dacă analizezi un set de date exemplu pentru a verifica (alege un stat, Arizona, de exemplu), poți observa un model de creștere a prețului an după an, cu câteva excepții:
Este acesta un caz simplu de cerere și ofertă? Din cauza unor factori precum schimbările climatice și colapsul coloniilor, există mai puțină miere disponibilă pentru cumpărare an după an, iar astfel prețul crește?
Răspuns: Nu chiar. Dacă te uiți la producția totală, pare să fi crescut în acel an, deși, în general, cantitatea de miere produsă este în scădere în acești ani.
Pentru acest set de date, nimic nu pare să iasă în evidență în ceea ce privește numărul de colonii și producția lor, an după an și stat după stat. Există o altă modalitate de a găsi o corelație între aceste două variabile?
Deși nimic nu sare în ochi în jurul anului 2003, acest lucru ne permite să încheiem lecția pe o notă puțin mai optimistă: deși numărul de colonii este în scădere, acesta pare să se stabilizeze, chiar dacă producția per colonie este în scădere.
@ -38,25 +38,25 @@ Una dintre abilitățile de bază ale unui specialist în date este capacitatea
Chiar dacă un specialist în date este atent să aleagă graficul potrivit pentru datele potrivite, există multe moduri în care datele pot fi afișate pentru a susține un punct de vedere, adesea în detrimentul datelor în sine. Există numeroase exemple de grafice și infografice înșelătoare!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Cum mint graficele")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Cum mint graficele")
> 🎥 Fă clic pe imaginea de mai sus pentru o prezentare despre graficele înșelătoare
Acest grafic inversează axa X pentru a arăta opusul adevărului, bazat pe date:
[Acest grafic](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) este chiar mai înșelător, deoarece privirea este atrasă spre dreapta pentru a concluziona că, în timp, cazurile de COVID au scăzut în diverse județe. De fapt, dacă te uiți atent la date, vei descoperi că acestea au fost rearanjate pentru a crea acea tendință descendentă înșelătoare.
Acest exemplu notoriu folosește culoarea ȘI o axă Y inversată pentru a înșela: în loc să concluzionezi că decesele cauzate de arme au crescut după adoptarea legislației favorabile armelor, privirea este păcălită să creadă că opusul este adevărat:
Compararea incomparabilului este o altă tactică dubioasă. Există un [site web minunat](https://tylervigen.com/spurious-correlations) dedicat 'corelațiilor false', care afișează 'fapte' ce corelează lucruri precum rata divorțurilor din Maine și consumul de margarină. Un grup Reddit colectează, de asemenea, [utilizările urâte](https://www.reddit.com/r/dataisugly/top/?t=all) ale datelor.
@ -91,13 +91,13 @@ Etichetează axele, oferă o legendă dacă este necesar și oferă tooltips pen
Dacă datele tale sunt textuale și verbose pe axa X, poți înclina textul pentru o mai bună lizibilitate. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) oferă graficare 3D, dacă datele tale o susțin. Vizualizări sofisticate de date pot fi produse folosind această metodă.
Unele dintre cele mai bune vizualizări de date de astăzi sunt animate. Shirley Wu are exemple uimitoare realizate cu D3, cum ar fi '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', unde fiecare floare este o vizualizare a unui film. Un alt exemplu pentru Guardian este 'bussed out', o experiență interactivă care combină vizualizările cu Greensock și D3 plus un format de articol narativ pentru a arăta cum NYC gestionează problema persoanelor fără adăpost, trimițându-le cu autobuzul în afara orașului.
> "Bussed Out: Cum America își mută persoanele fără adăpost" de la [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Vizualizări de Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Deși această lecție nu este suficientă pentru a intra în detalii despre ace
Vei finaliza o aplicație web care va afișa o vizualizare animată a acestei rețele sociale. Folosește o bibliotecă construită pentru a crea o [vizualizare a unei rețele](https://github.com/emiliorizzo/vue-d3-network) utilizând Vue.js și D3. Când aplicația rulează, poți trage nodurile pe ecran pentru a rearanja datele.


> Fotografie de <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> pe <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Vizualizarea datelor este una dintre cele mai importante sarcini ale unui specialist în date. Imaginile valorează cât 1000 de cuvinte, iar o vizualizare te poate ajuta să identifici tot felul de aspecte interesante ale datelor tale, cum ar fi vârfuri, valori extreme, grupări, tendințe și multe altele, care te pot ajuta să înțelegi povestea pe care datele tale încearcă să o spună.
@ -16,7 +16,7 @@ Până în acest moment, probabil ai realizat că știința datelor este un proc
Această lecție se concentrează pe 3 părți ale ciclului de viață: capturare, procesare și mentenanță.


> Fotografie de [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Capturare
@ -92,7 +92,7 @@ Explorează [Ciclul de viață al Procesului de Știința Datelor al Echipei](ht
|Procesul de Știința Datelor al Echipei (TDSP)|Procesul standard inter-industrial pentru mineritul datelor (CRISP-DM)|
|--|--|
| |  |
| |  |
| Imagine de [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Imagine de [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Chestionar după lecție](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> Fotografie de <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> pe <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
În aceste lecții, vei explora câteva aspecte ale ciclului de viață în Știința Datelor, inclusiv analiza și comunicarea legate de date.
> Fotografie de [Jelleke Vanooteghem](https://unsplash.com/@ilumire) de pe [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Când vine vorba de realizarea științei datelor cu seturi mari de date, cloud-ul poate fi o schimbare majoră. În următoarele trei lecții, vom vedea ce este cloud-ul și de ce poate fi foarte util. De asemenea, vom explora un set de date despre insuficiența cardiacă și vom construi un model pentru a ajuta la evaluarea probabilității ca cineva să sufere de insuficiență cardiacă. Vom folosi puterea cloud-ului pentru a antrena, implementa și utiliza un model în două moduri diferite. Un mod folosind doar interfața utilizatorului într-un stil Low code/No code, iar celălalt mod folosind Azure Machine Learning Software Developer Kit (Azure ML SDK).
@ -32,7 +32,7 @@ Datorită democratizării AI, dezvoltatorii găsesc acum mai ușor să proiectez
* [Știința datelor în sănătate](https://data-flair.training/blogs/data-science-in-healthcare/) - evidențiază aplicații precum imagistica medicală (de exemplu, RMN, radiografie, tomografie), genomica (secvențierea ADN-ului), dezvoltarea medicamentelor (evaluarea riscurilor, predicția succesului), analitica predictivă (îngrijirea pacienților și logistica aprovizionării), urmărirea și prevenirea bolilor etc.
 Credit imagine: [Data Flair: 6 Aplicații Uimitoare ale Științei Datelor ](https://data-flair.training/blogs/data-science-applications/)
 Credit imagine: [Data Flair: 6 Aplicații Uimitoare ale Științei Datelor ](https://data-flair.training/blogs/data-science-applications/)
Figura arată alte domenii și exemple de aplicare a tehnicilor de știința datelor. Vrei să explorezi alte aplicații? Consultă secțiunea [Revizuire & Studiu Individual](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) de mai jos.
Avocații Azure Cloud de la Microsoft sunt încântați să ofere un curriculum de 10 săptămâni, cu 20 de lecții, dedicat Științei Datelor. Fiecare lecție include chestionare înainte și după lecție, instrucțiuni scrise pentru completarea lecției, o soluție și o temă. Pedagogia noastră bazată pe proiecte vă permite să învățați în timp ce construiți, o metodă demonstrată pentru a face noile abilități să "rămână".
Avocații Azure Cloud de la Microsoft sunt încântați să ofere un curriculum de 10 săptămâni, 20 de lecții, toate despre Data Science. Fiecare lecție include chestionare înainte și după lecție, instrucțiuni scrise pentru a finaliza lecția, o soluție și o sarcină. Pedagogia noastră bazată pe proiecte vă permite să învățați construind, o metodă dovedită pentru a face noile abilități să „rămână”.
> Acest depozit include peste 50 de traduceri în limbi diferite, ceea ce crește semnificativ dimensiunea descărcării. Pentru a clona fără traduceri, folosește sparse checkout:
> **Preferi să Clonezi Local?**
>
> Acest depozit include traduceri în peste 50 de limbi, ceea ce crește semnificativ dimensiunea de descărcare. Pentru a clona fără traduceri, folosește sparse checkout:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Acest lucru îți oferă tot ce ai nevoie pentru a finaliza cursul cu o viteză de descărcare mult mai mare.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Dacă dorești să fie suportate limbi suplimentare de traducere, acestea sunt listate [aici](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Dacă dorești să se adauge limbi suplimentare de traducere, acestea sunt listate [aici](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
Avem o serie Discord “Învață cu AI” în desfășurare, află mai multe și alătură-te la [Learn with AI Series](https://aka.ms/learnwithai/discord) între 18 - 30 septembrie 2025. Vei primi trucuri și sfaturi pentru folosirea GitHub Copilot pentru Știința Datelor.
Avem o serie Discord „învățăm cu AI” în desfășurare, află mai multe și alătură-te nouă la [Learn with AI Series](https://aka.ms/learnwithai/discord) în perioada 18 - 30 septembrie 2025. Vei primi sfaturi și trucuri despre cum să folosești GitHub Copilot pentru Data Science.

@ -59,74 +69,74 @@ Avem o serie Discord “Învață cu AI” în desfășurare, află mai multe ș
Începe cu următoarele resurse:
- [Pagina Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Pe această pagină vei găsi resurse pentru începători, pachete pentru studenți și chiar modalități de a obține un voucher de certificare gratuit. Aceasta este o pagină pe care vrei să o adaugi la favorite și să o verifici din când în când, deoarece conținutul se schimbă cel puțin lunar.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Alătură-te unei comunități globale de ambasadori studenți, aceasta poate fi calea ta spre Microsoft.
- [Pagina Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Pe această pagină, vei găsi resurse pentru începători, pachete pentru studenți și chiar modalități de a obține un voucher gratuit pentru certificare. Aceasta este o pagină pe care vrei să o adaugi la favorite și să o verifici din când în când, deoarece conținutul este actualizat cel puțin lunar.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Alătură-te unei comunități globale de ambasadori studenți, ar putea fi drumul tău către Microsoft.
# Începutul
# Începem
## 📚 Documentație
- **[Ghid de Instalare](INSTALLATION.md)** - Instrucțiuni pas cu pas pentru configurarea mediului pentru începători
- **[Ghid de Instalare](INSTALLATION.md)** - Instrucțiuni pas cu pas pentru setare pentru începători
- **[Ghid de Utilizare](USAGE.md)** - Exemple și fluxuri de lucru comune
- **[Depanare](TROUBLESHOOTING.md)** - Soluții pentru probleme frecvente
- **[Ghid Contribuire](CONTRIBUTING.md)** - Cum să contribui la acest proiect
- **[Depanare](TROUBLESHOOTING.md)** - Soluții pentru probleme comune
- **[Ghid de Contribuire](CONTRIBUTING.md)** - Cum să contribui la acest proiect
- **[Pentru Profesori](for-teachers.md)** - Ghid pentru predare și resurse pentru clasă
## 👨🎓 Pentru Studenți
> **Începători Compleți**: Nou în știința datelor? Începe cu [exemplele noastre prietenoase pentru începători](examples/README.md)! Aceste exemple simple și bine comentate te vor ajuta să înțelegi elementele de bază înainte de a te adânci în curriculumul complet.
> **[Studenți](https://aka.ms/student-page)**: pentru a folosi acest curriculum pe cont propriu, fă un fork la întregul repo și completează exercițiile singur, începând cu un chestionar pre-lectură. Apoi citește lecția și finalizează restul activităților. Încearcă să creezi proiectele înțelegând lecțiile, mai degrabă decât să copiezi codul soluției; cu toate acestea, acel cod este disponibil în folderele /solutions din fiecare lecție orientată spre proiect. O altă idee ar fi să formezi un grup de studiu cu prietenii și să parcurgeți împreună conținutul. Pentru studiu suplimentar, recomandăm [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Începători Compleți**: Ești nou în data science? Începe cu exemplele noastre [prietenoase pentru începători](examples/README.md)! Aceste exemple simple, bine comentate te vor ajuta să înțelegi bazele înainte să începi cursul complet.
> **[Studenți](https://aka.ms/student-page)**: pentru a folosi acest curriculum pe cont propriu, forchează întregul repository și completează exercițiile singur, începând cu un quiz înainte de lecție. Apoi citește lecția și fă restul activităților. Încearcă să creezi proiectele înțelegând lecțiile, nu doar copiind codul soluției; totuși, acel cod este disponibil în folderele /solutions din fiecare lecție orientată pe proiecte. O altă idee ar fi să formezi un grup de studiu cu prietenii și să parcurgeți conținutul împreună. Pentru studiu suplimentar, recomandăm [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Pornire Rapidă:**
1. Verifică [Ghidul de Instalare](INSTALLATION.md) pentru a seta mediul
2. Revizuiește [Ghidul de Utilizare](USAGE.md) pentru a învăța cum să folosești curriculumul
3. Începe cu Lecția 1 și parcurge-le în ordine
4. Alătură-te comunității noastre pe [Discord](https://aka.ms/ds4beginners/discord) pentru suport
**Start rapid:**
1. Verifică [Ghidul de Instalare](INSTALLATION.md) pentru a-ți configura mediul
2. Consultă [Ghidul de Utilizare](USAGE.md) pentru a învăța cum să lucrezi cu curriculumul
3. Începe cu Lecția 1 și urmează în ordine
4. Alătură-te [comunității noastre Discord](https://aka.ms/ds4beginners/discord) pentru suport
## 👩🏫 Pentru Profesori
> **Profesorilor**: am [inclus câteva sugestii](for-teachers.md) despre cum să folosiți acest curriculum. Ne-ar plăcea să ne oferiți feedback [în forumul nostru de discuții](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Profesori**: am inclus [unele sugestii](for-teachers.md) despre cum să folosiți acest curriculum. Am aprecia feedback-ul dumneavoastră [în forumul nostru de discuții](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> 🎥 Dă clic pe imaginea de mai sus pentru un video despre proiect și oamenii care l-au creat!
> 🎥 Faceți click pe imaginea de mai sus pentru un videoclip despre proiect și persoanele care l-au creat!
## Pedagogie
Am ales două principii pedagogice în construirea acestui curriculum: să fie bazat pe proiecte și să includă teste frecvente. La finalul acestei serii, studenții vor fi învățat principii de bază ale științei datelor, inclusiv concepte etice, pregătirea datelor, diferite moduri de a lucra cu date, vizualizarea datelor, analiza datelor, cazuri de folosire reale ale științei datelor și altele.
Am ales două principii pedagogice în construirea acestui curriculum: asigurarea faptului că este bazat pe proiecte și că include teste frecvente. La finalul acestei serii, studenții vor fi învățat principii de bază ale științei datelor, inclusiv concepte etice, pregătirea datelor, diferite moduri de lucru cu datele, vizualizarea datelor, analiza datelor, cazuri de utilizare reală ale științei datelor și altele.
În plus, un test cu miză redusă înaintea unei clase setează intenția studentului față de învățarea unui subiect, în timp ce un al doilea test după clasă asigură o retenție suplimentară. Acest curriculum a fost conceput să fie flexibil și distractiv și poate fi urmat în totalitate sau parțial. Proiectele încep mici și devin din ce în ce mai complexe până la finalul ciclului de 10 săptămâni.
În plus, un test cu miză mică înainte de o lecție setează intenția studentului de a învăța un subiect, în timp ce un al doilea test după lecție asigură o retenție suplimentară. Acest curriculum a fost proiectat să fie flexibil și distractiv și poate fi parcurs integral sau parțial. Proiectele încep mici și devin din ce în ce mai complexe până la sfârșitul ciclului de 10 săptămâni.
> Găsește [Codul nostru de conduită](CODE_OF_CONDUCT.md), [Contribuții](CONTRIBUTING.md), ghidurile de [Traduceri](TRANSLATIONS.md). Apreciem feedback-ul tău constructiv!
> Găsiți [Codul nostru de conduită](CODE_OF_CONDUCT.md), [Contribuții](CONTRIBUTING.md), [Ghidurile de traducere](TRANSLATIONS.md). Așteptăm cu interes feedback-ul vostru constructiv!
## Fiecare lecție include:
- Sketchnote opțional
- Video suplimentar opțional
- Test de încălzire înaintea lecției
- Test de încălzire pre-lezare
- Lecție scrisă
- Pentru lecțiile bazate pe proiect, ghiduri pas cu pas pentru construirea proiectului
> **Un comentariu despre teste**: Toate testele se găsesc în folderul Quiz-App, cu 40 de teste în total a câte trei întrebări fiecare. Sunt legate din lecții, dar aplicația de test poate fi rulată local sau implementată în Azure; urmează instrucțiunile din folderul `quiz-app`. Se traduc progresiv.
> **O notă despre teste**: Toate testele se găsesc în folderul Quiz-App, în total 40 de teste cu câte trei întrebări fiecare. Sunt legate din interiorul lecțiilor, dar aplicația pentru teste poate fi rulată local sau implementată în Azure; urmați instrucțiunile din folderul `quiz-app`. Testele sunt treptat localizate.
## 🎓 Exemple Prietenoase Pentru Începători
## 🎓 Exemple prietenoase pentru începători
**Ești nou în știința datelor?** Am creat un [director de exemple](examples/README.md) special cu cod simplu și bine comentat pentru a te ajuta să începi:
**Ești nou în știința datelor?** Am creat un director special [exemple](examples/README.md) cu cod simplu, bine comentat pentru a te ajuta să începi:
- 🌟 **Hello World** - Primul tău program de știința datelor
- 🌟 **Hello World** - Primul tău program de știință a datelor
- 📂 **Încărcarea datelor** - Învață să citești și să explorezi seturi de date
- 📊 **Analiză simplă** - Calculează statistici și găsește tipare
- 📈 **Vizualizare de bază** - Creează grafice și diagrame
- 🔬 **Proiect real** - Flux complet de lucru de la început până la sfârșit
- 📊 **Analiză simplă** - Calculează statistici și găsește modele
- 📈 **Vizualizare de bază** - Creează diagrame și grafice
- 🔬 **Proiect real** - Flux complet de lucru de la început până la final
Fiecare exemplu include comentarii detaliate care explică fiecare pas, fiind perfect pentru începători absoluți!
Fiecare exemplu include comentarii detaliate care explică fiecare pas, fiind perfect pentru începători absoluti!
👉 **[Începe cu exemplele](examples/README.md)** 👈
@ -138,64 +148,64 @@ Fiecare exemplu include comentarii detaliate care explică fiecare pas, fiind pe
| Știința datelor pentru începători: Plan - _Sketchnote de [@nitya](https://twitter.com/nitya)_ |
| Număr lecție | Subiect | Grupare lecție | Obiective de învățare | Lecție legată | Autor |
| 01 | Definirea științei datelor | [Introducere](1-Introduction/README.md) | Învață conceptele de bază din spatele științei datelor și modul în care se leagă de inteligența artificială, învățarea automatizată și big data. | [lecție](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etica în știința datelor | [Introducere](1-Introduction/README.md) | Concepte, provocări și cadre ale eticii datelor. | [lecție](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definirea datelor | [Introducere](1-Introduction/README.md) | Cum sunt clasificate datele și sursele lor comune. | [lecție](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introducere în Statistică & Probabilitate | [Introducere](1-Introduction/README.md) | Tehnicile matematice ale probabilității și statisticii pentru înțelegerea datelor. | [lecție](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Lucrul cu date relaționale | [Lucrul cu date](2-Working-With-Data/README.md) | Introducere în date relaționale și elemente de explorare și analiză a datelor relaționale folosind Structured Query Language, cunoscut și ca SQL (pronunțat „see-quell”). | [lecție](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) |
| 06 | Lucrul cu date NoSQL | [Lucrul cu date](2-Working-With-Data/README.md) | Introducere în date non-relaționale, tipurile lor și elementele de explorare și analiză a bazelor de date de tip document. | [lecție](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Lucrul cu Python | [Lucrul cu date](2-Working-With-Data/README.md) | Bazele utilizării Python pentru explorarea datelor cu biblioteci precum Pandas. Este recomandată o înțelegere fundamentala a programării Python. | [lecție](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Pregătirea datelor | [Lucrul cu date](2-Working-With-Data/README.md) | Obiecte despre tehnici de curățare și transformare a datelor pentru a gestiona provocările datelor lipsă, inexacte sau incomplete. | [lecție](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Vizualizarea cantităților | [Vizualizarea datelor](3-Data-Visualization/README.md) | Învață să folosești Matplotlib pentru a vizualiza date despre păsări 🦆 | [lecție](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Vizualizarea relațiilor | [Vizualizarea datelor](3-Data-Visualization/README.md) | Vizualizarea conexiunilor și corelațiilor între seturi de date și variabilele lor. | [lecție](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Vizualizări semnificative | [Vizualizarea datelor](3-Data-Visualization/README.md) | Tehnici și îndrumări pentru a face vizualizările valoroase pentru rezolvarea eficientă a problemelor și obținerea de perspective. | [lecție](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introducere în ciclul de viață al științei datelor | [Ciclu de viață](4-Data-Science-Lifecycle/README.md) | Introducere în ciclul de viață al științei datelor și prima etapă de achiziție și extragere a datelor. | [lecție](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analiza | [Ciclu de viață](4-Data-Science-Lifecycle/README.md) | Această fază a ciclului de viață al științei datelor se concentrează pe tehnici de analiză a datelor. | [lecție](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) |
| 16 | Comunicare | [Ciclu de viață](4-Data-Science-Lifecycle/README.md) | Această fază a ciclului de viață al științei datelor se concentrează pe prezentarea perspectivelor din date într-un mod care să faciliteze înțelegerea decidenților. | [lecție](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) |
| 17 | Știința datelor în cloud | [Date în cloud](5-Data-Science-In-Cloud/README.md) | Această serie de lecții introduce știința datelor în cloud și beneficiile sale. | [lecție](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) și [Maud](https://twitter.com/maudstweets) |
| 18 | Știința datelor în cloud | [Date în cloud](5-Data-Science-In-Cloud/README.md) | Antrenarea modelelor folosind unelte Low Code. | [lecție](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) și [Maud](https://twitter.com/maudstweets) |
| 19 | Știința datelor în cloud | [Date în cloud](5-Data-Science-In-Cloud/README.md) | Implementarea modelelor cu Azure Machine Learning Studio. | [lecție](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) și [Maud](https://twitter.com/maudstweets) |
| 20 | Știința datelor în teren | [În teren](6-Data-Science-In-Wild/README.md) | Proiecte bazate pe știința datelor în lumea reală. | [lecție](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| Numărul lecției | Subiect | Gruparea lecției | Obiective de învățare | Lecție legată | Autor |
| 01 | Definirea științei datelor | [Introducere](1-Introduction/README.md) | Învățați conceptele de bază din spatele științei datelor și cum se raportează la inteligența artificială, învățarea automată și big data. | [lecția](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etica în știința datelor | [Introducere](1-Introduction/README.md) | Concepte, provocări și cadre pentru etica datelor. | [lecția](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definirea datelor | [Introducere](1-Introduction/README.md) | Cum sunt clasificate datele și sursele lor comune. | [lecția](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introducere în statistică și probabilitate | [Introducere](1-Introduction/README.md) | Tehnicile matematice ale probabilității și statisticii pentru a înțelege datele. | [lecția](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Lucrul cu date relaționale | [Lucrul cu date](2-Working-With-Data/README.md) | Introducere în date relaționale și elementele de bază ale explorării și analizei datelor relaționale cu limbajul de interogare structurat, cunoscut și sub numele de SQL (pronunțat „see-quell”). | [lecția](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Lucrul cu date NoSQL | [Lucrul cu date](2-Working-With-Data/README.md) | Introducere în date neraportate, tipurile lor variate și elementele de bază ale explorării și analizei bazelor de date document. | [lecția](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Lucrul cu Python | [Lucrul cu date](2-Working-With-Data/README.md) | Bazele utilizării Python pentru explorarea datelor cu biblioteci precum Pandas. Se recomandă o înțelegere fundamentală a programării în Python. | [lecția](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Pregătirea datelor | [Lucrul cu date](2-Working-With-Data/README.md) | Tematici privind tehnici de curățare și transformare a datelor pentru a face față provocărilor datelor lipsă, inexacte sau incomplete. | [lecția](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Vizualizarea cantităților | [Vizualizarea datelor](3-Data-Visualization/README.md) | Învață cum să folosești Matplotlib pentru a vizualiza date despre păsări 🦆 | [lecția](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Vizualizarea distribuțiilor de date | [Vizualizarea datelor](3-Data-Visualization/README.md) | Vizualizarea observațiilor și tendințelor într-un interval. | [lecția](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Vizualizarea relațiilor | [Vizualizarea datelor](3-Data-Visualization/README.md) | Vizualizarea conexiunilor și corelațiilor între seturi de date și variabilele lor. | [lecția](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Vizualizări semnificative | [Vizualizarea datelor](3-Data-Visualization/README.md) | Tehnici și îndrumări pentru a face vizualizările valoroase pentru rezolvarea efectivă a problemelor și obținerea de insight-uri. | [lecția](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introducere în ciclul de viață al științei datelor | [Ciclul de viață](4-Data-Science-Lifecycle/README.md) | Introducere în ciclul de viață al științei datelor și primul său pas de achiziție și extragere a datelor. | [lecția](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analiză | [Ciclul de viață](4-Data-Science-Lifecycle/README.md) | Această fază a ciclului de viață al științei datelor se concentrează pe tehnici de analiză a datelor. | [lecția](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Comunicare | [Ciclul de viață](4-Data-Science-Lifecycle/README.md) | Această fază a ciclului de viață al științei datelor se concentrează pe prezentarea insight-urilor extrase din date într-un mod care să faciliteze înțelegerea de către factorii decidenți. | [lecția](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Știința datelor în Cloud | [Date în cloud](5-Data-Science-In-Cloud/README.md) | Această serie de lecții introduce știința datelor în cloud și beneficiile ei. | [lecția](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) și [Maud](https://twitter.com/maudstweets) |
| 18 | Știința datelor în Cloud | [Date în cloud](5-Data-Science-In-Cloud/README.md) | Antrenarea modelelor folosind unelte Low Code. |[lecția](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) și [Maud](https://twitter.com/maudstweets) |
| 19 | Știința datelor în Cloud | [Date în cloud](5-Data-Science-In-Cloud/README.md) | Implementarea modelelor cu Azure Machine Learning Studio. | [lecția](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) și [Maud](https://twitter.com/maudstweets) |
| 20 | Știința datelor în viața reală | [În sălbăticie](6-Data-Science-In-Wild/README.md) | Proiecte conduse de știința datelor în lumea reală. | [lecția](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Urmează acești pași pentru a deschide acest exemplu într-un Codespace:
1. Dă clic pe meniul derulant Code și selectează opțiunea Open with Codespaces.
2. Selectează + New codespace în partea de jos a panoului.
Pentru mai multe informații, consultă [documentația GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
Urmați acești pași pentru a deschide acest exemplu într-un Codespace:
1. Faceți click pe meniul derulant Code și selectați opțiunea Open with Codespaces.
2. Selectați + New codespace în partea de jos a panoului.
Pentru mai multe informații, consultați [documentația GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containere
Urmează acești pași pentru a deschide acest depozit într-un container folosind mașina ta locală și VSCode cu extensia VS Code Remote - Containers:
## VSCode Remote - Containers
Urmați acești pași pentru a deschide acest repo într-un container folosind mașina locală și VSCode cu extensia VS Code Remote - Containers:
1. Dacă este prima dată când folosești un container de dezvoltare, asigură-te că sistemul tău îndeplinește cerințele prealabile (adică ai instalat Docker) din [documentația de început](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Dacă aceasta este prima dată când folosiți un container de dezvoltare, asigurați-vă că sistemul dvs. îndeplinește cerințele prealabile (de exemplu, să aveți Docker instalat) în [documentația pentru început](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Pentru a folosi acest depozit, poți deschide fie depozitul într-un volum Docker izolat:
Pentru a folosi acest repository, puteți fie să deschideți repository-ul într-un volum izolat Docker:
**Notă**: În fundal, se va folosi comanda Remote-Containers: **Clone Repository in Container Volume...** pentru a clona codul sursă într-un volum Docker în loc de sistemul local de fișiere. [Volumele](https://docs.docker.com/storage/volumes/) sunt mecanismul recomandat pentru persistența datelor containerului.
**Notă**: Sub capotă, aceasta va folosi comanda Remote-Containers: **Clone Repository in Container Volume...** pentru a clona codul sursă într-un volum Docker în loc de sistemul local de fișiere. [Volumele](https://docs.docker.com/storage/volumes/) sunt mecanismul preferat pentru persistența datelor containerului.
Sau deschide o copie clonată local sau descărcată a depozitului:
Sau să deschideți o versiune clonată sau descărcată local a repository-ului:
- Clonează acest depozit pe sistemul tău local.
- Apasă F1 și selectează comanda **Remote-Containers: Open Folder in Container...**.
- Selectează copia clonată a acestui folder, așteaptă să pornească containerul și încearcă.
- Clonați acest repository în sistemul local de fișiere.
- Apăsați F1 și selectați comanda **Remote-Containers: Open Folder in Container...**.
- Selectați copia clonată a acestui folder, așteptați să pornească containerul și testați.
## Acces offline
Poți rula această documentație offline folosind [Docsify](https://docsify.js.org/#/). Fă fork la acest repo, [instalează Docsify](https://docsify.js.org/#/quickstart) pe mașina ta locală, apoi în folderul rădăcină al acestui repo, tastează`docsify serve`. Site-ul va fi servit pe portul 3000 pe localhost-ul tău: `localhost:3000`.
Puteți rula această documentație offline folosind [Docsify](https://docsify.js.org/#/). Faceți fork la acest repo, [instalați Docsify](https://docsify.js.org/#/quickstart) pe mașina locală, apoi în folderul rădăcină al acestui repo, tastați`docsify serve`. Site-ul va fi servit pe portul 3000 pe localhost: `localhost:3000`.
> Notă, caietele Jupyter nu vor fi afișate prin Docsify, așa că atunci când trebuie să rulezi un caiet, fă-o separat în VS Code cu un kernel Python.
> Atenție, notebook-urile nu vor fi randate prin Docsify, așa că atunci când trebuie să rulați un notebook, faceți asta separat în VS Code folosind un kernel Python.
## Alte Curricula
Echipa noastră produce și alte curricula! Vezi:
Echipa noastră produce și alte curriculum-uri! Verificați:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[](https://aka.ms/langchain4j-for-beginners)
### LangChain
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
@ -208,18 +218,18 @@ Echipa noastră produce și alte curricula! Vezi:
---
### Seria Inteligență Artificială Generativă
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
@ -228,26 +238,26 @@ Echipa noastră produce și alte curricula! Vezi:
---
### Seria Copilot
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**Întâmpinați probleme?** Verificați [Ghidul de depanare](TROUBLESHOOTING.md) pentru soluții la probleme comune.
**Întâmpinați probleme?** Consultați ghidul nostru de [Depanare](TROUBLESHOOTING.md) pentru soluții la probleme comune.
Dacă vă blocați sau aveți întrebări despre construirea aplicațiilor AI, alăturați-vă altor cursanți și dezvoltatori experimentați în discuții despre MCP. Este o comunitate de suport unde întrebările sunt binevenite și cunoștințele sunt împărtășite liber.
Dacă rămâneți blocat sau aveți întrebări despre construirea aplicațiilor AI. Alăturați-vă altor cursanți și dezvoltatori experimentați în discuții despre MCP. Este o comunitate suportivă unde întrebările sunt binevenite și cunoștințele sunt împărtășite liber.
Acest document a fost tradus folosind serviciul de traducere AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși ne străduim pentru acuratețe, vă rugăm să rețineți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa nativă trebuie considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesionistă realizată de un specialist uman. Nu ne asumăm nicio responsabilitate pentru eventualele neînțelegeri sau interpretări greșite rezultate din utilizarea acestei traduceri.
**Declinarea responsabilității**:
Acest document a fost tradus utilizând serviciul de traducere automată AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși ne străduim pentru acuratețe, vă rugăm să rețineți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa de origine trebuie considerat sursa autorizată. Pentru informații critice, se recomandă traducerea profesională realizată de un traducător uman. Nu ne asumăm răspunderea pentru eventualele neînțelegeri sau interpretări greșite rezultate din utilizarea acestei traduceri.
[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [Kvíz pred prednáškou](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -142,7 +142,7 @@ Ak chceme ísť ešte ďalej, môžeme vykresliť čas potrebný na dokončenie
V tejto výzve sa pokúsime nájsť koncepty relevantné pre oblasť dátovej vedy tým, že sa pozrieme na texty. Vezmeme článok z Wikipédie o dátovej vede, stiahneme a spracujeme text, a potom vytvoríme oblak slov, ako je tento:


Navštívte [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), aby ste si prečítali kód. Môžete tiež spustiť kód a vidieť, ako vykonáva všetky transformácie dát v reálnom čase.
"V tomto príklade si urobíme jednoduché cvičenie, ktoré pokrýva všetky kroky tradičného procesu dátovej vedy. Nemusíte písať žiadny kód, stačí kliknúť na bunky nižšie, aby ste ich vykonali, a pozorovať výsledok. Ako výzvu vás povzbudzujeme, aby ste tento kód vyskúšali s rôznymi údajmi.\n",
"V tomto príklade si urobíme jednoduché cvičenie, ktoré pokrýva všetky kroky tradičného procesu dátovej vedy. Nemusíte písať žiadny kód, môžete jednoducho kliknúť na bunky nižšie, spustiť ich a pozorovať výsledok. Ako výzvu vám odporúčame vyskúšať tento kód s rôznymi údajmi.\n",
"\n",
"## Cieľ\n",
"\n",
"V tejto lekcii sme diskutovali o rôznych konceptoch súvisiacich s dátovou vedou. Skúsme objaviť ďalšie súvisiace koncepty pomocou **textovej analýzy**. Začneme s textom o dátovej vede, extrahujeme z neho kľúčové slová a potom sa pokúsime vizualizovať výsledok.\n",
"V tejto lekcii sme diskutovali o rôznych konceptoch súvisiacich s dátovou vedou. Skúsme objaviť ďalšie súvisiace koncepty pomocou **text mining**. Začneme textom o dátovej vede, extrahujeme z neho kľúčové slová a potom sa pokúsime vizualizovať výsledok.\n",
"\n",
"Ako text použijeme stránku o dátovej vede z Wikipédie:\n"
"Ako text použijem stránku o dátovej vede z Wikipédie:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Krok 1: Získanie údajov\n",
"## Krok 1: Získavanie údajov\n",
"\n",
"Prvým krokom v každom procese dátovej vedy je získanie údajov. Na tento účel použijeme knižnicu `requests`:\n"
"Prvým krokom v každom procese dátovej vedy je získavanie údajov. Na to použijeme knižnicu `requests`:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Krok 2: Transformácia údajov\n",
"\n",
"Ďalším krokom je konverzia údajov do formy vhodnej na spracovanie. V našom prípade sme stiahli zdrojový kód HTML zo stránky a potrebujeme ho previesť na čistý text.\n",
"Ďalším krokom je previesť údaje do formy vhodnej na spracovanie. V našom prípade sme stiahli zdrojový kód HTML z stránky a potrebujeme ho previesť na čistý text.\n",
"\n",
"Existuje mnoho spôsobov, ako to urobiť. Použijeme najjednoduchší zabudovaný objekt [HTMLParser](https://docs.python.org/3/library/html.parser.html) z Pythonu. Musíme zdediť triedu `HTMLParser` a definovať kód, ktorý bude zhromažďovať všetok text vo vnútri HTML značiek, okrem značiek `<script>` a `<style>`.\n"
"Existuje mnoho spôsobov, ako to dosiahnuť. Použijeme [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), populárnu knižnicu v Pythone na parsovanie HTML. BeautifulSoup nám umožňuje cieliť na konkrétne HTML elementy, takže sa môžeme zamerať na hlavný obsah článku z Wikipédie a znížiť tak množstvo navigačných menu, bočných panelov, pätičiek a iného nerelevantného obsahu (aj keď niektorý štandardný text môže zostať).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Najskôr potrebujeme nainštalovať knižnicu BeautifulSoup pre analýzu HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## Krok 3: Získavanie poznatkov\n",
"\n",
"Najdôležitejším krokom je premeniť naše dáta na formu, z ktorej môžeme získať poznatky. V našom prípade chceme extrahovať kľúčové slová z textu a zistiť, ktoré kľúčové slová majú väčší význam.\n",
"Najdôležitejším krokom je premeniť naše dáta na nejakú formu, z ktorej môžeme vyvodiť poznatky. V našom prípade chceme extrahovať kľúčové slová z textu a vidieť, ktoré kľúčové slová sú zmysluplnejšie.\n",
"\n",
"Použijeme Python knižnicu s názvom [RAKE](https://github.com/aneesha/RAKE) na extrakciu kľúčových slov. Najprv si túto knižnicu nainštalujeme, ak ju ešte nemáme:\n"
"Použijeme knižnicu Python nazvanú [RAKE](https://github.com/aneesha/RAKE) na extrahovanie kľúčových slov. Najprv si túto knižnicu nainštalujeme, ak nie je prítomná: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Hlavná funkcionalita je dostupná z objektu `Rake`, ktorý môžeme prispôsobiť pomocou niektorých parametrov. V našom prípade nastavíme minimálnu dĺžku kľúčového slova na 5 znakov, minimálnu frekvenciu kľúčového slova v dokumente na 3 a maximálny počet slov v kľúčovom slove na 2. Neváhajte experimentovať s inými hodnotami a pozorovať výsledok.\n"
"Hlavná funkčnosť je dostupná z objektu `Rake`, ktorý môžeme prispôsobiť pomocou niektorých parametrov. V našom prípade nastavíme minimálnu dĺžku kľúčového slova na 5 znakov, minimálnu frekvenciu kľúčového slova v dokumente na 3 a maximálny počet slov v kľúčovom slove na 2. Kľudne sa pohrajte s inými hodnotami a pozorujte výsledok.\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"Získali sme zoznam pojmov spolu s ich priradenou mierou dôležitosti. Ako môžete vidieť, najrelevantnejšie disciplíny, ako sú strojové učenie a big data, sa nachádzajú na popredných miestach v zozname.\n",
"\n",
"Získali sme zoznam termínov spolu s priradenou mierou dôležitosti. Ako môžete vidieť, najrelevantnejšie disciplíny, ako strojové učenie a veľké dáta, sú v zozname na vrchných pozíciách.\n",
"\n",
"## Krok 4: Vizualizácia výsledku\n",
"\n",
"Ľudia najlepšie interpretujú údaje vo vizuálnej podobe. Preto často dáva zmysel vizualizovať údaje, aby sme získali určité poznatky. Na jednoduché zobrazenie distribúcie kľúčových slov s ich relevanciou môžeme použiť knižnicu `matplotlib` v Pythone:\n"
"Ľudia dokážu najlepšie interpretovať dáta vo vizuálnej forme. Preto často dáva zmysel dáta vizualizovať, aby sme z nich mohli vyvodiť nejaké poznatky. Môžeme použiť knižnicu `matplotlib` v Pythone na zobrazenie jednoduchého rozdelenia kľúčových slov podľa ich dôležitosti:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"Existuje však ešte lepší spôsob, ako vizualizovať frekvencie slov - pomocou **Word Cloud**. Budeme musieť nainštalovať ďalšiu knižnicu na vykreslenie word cloudu z nášho zoznamu kľúčových slov.\n"
"Existuje však ešte lepší spôsob, ako vizualizovať frekvencie slov - pomocou **Word Cloud**. Budeme potrebovať nainštalovať ďalšiu knižnicu na vykreslenie word cloudu z nášho zoznamu kľúčových slov.\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"Objekt `WordCloud` je zodpovedný za prijatie buď pôvodného textu, alebo vopred vypočítaného zoznamu slov s ich frekvenciami, a vráti obrázok, ktorý môže byť následne zobrazený pomocou `matplotlib`:\n"
"Objekt `WordCloud` je zodpovedný za prijatie buď pôvodného textu, alebo predpočítaného zoznamu slov s ich frekvenciami, a vracia obrázok, ktorý môže byť následne zobrazený pomocou `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"Môžeme tiež odovzdať pôvodný text do `WordCloud` - pozrime sa, či dokážeme dosiahnuť podobný výsledok:\n"
"Môžeme tiež zadať pôvodný text do `WordCloud` - pozrime sa, či dokážeme dosiahnuť podobný výsledok:\n"
],
"metadata": {}
},
@ -372,11 +371,11 @@
{
"cell_type": "markdown",
"source": [
"Môžete vidieť, že slovný mrak teraz vyzerá pôsobivejšie, ale obsahuje aj veľa šumu (napr. nesúvisiace slová ako `Retrieved on`). Taktiež získavame menej kľúčových slov, ktoré pozostávajú z dvoch slov, ako napríklad *data scientist* alebo *computer science*. Je to preto, že algoritmus RAKE odvádza oveľa lepšiu prácu pri výbere vhodných kľúčových slov z textu. Tento príklad ilustruje dôležitosť predspracovania a čistenia údajov, pretože jasný obraz na konci nám umožní robiť lepšie rozhodnutia.\n",
"Vidíte, že slovný mrak teraz vyzerá pôsobivejšie, ale tiež obsahuje veľa šumu (napr. nesúvisiace slová ako `Retrieved on`). Tiež dostávame menej kľúčových slov, ktoré pozostávajú z dvoch slov, ako napríklad *data scientist* alebo *computer science*. Je to preto, že algoritmus RAKE robí oveľa lepšiu prácu pri výbere dobrých kľúčových slov z textu. Tento príklad ilustruje dôležitosť predspracovania a čistenia údajov, pretože jasný obraz na konci nám umožní robiť lepšie rozhodnutia.\n",
"\n",
"V tomto cvičení sme prešli jednoduchým procesom extrakcie významu z textu na Wikipédii vo forme kľúčových slov a slovného mraku. Tento príklad je pomerne jednoduchý, ale dobre demonštruje všetky typické kroky, ktoré dátový analytik podnikne pri práci s údajmi, od získavania údajov až po vizualizáciu.\n",
"V tomto cvičení sme prešli jednoduchým procesom extrahovania významu z textu Wikipédie vo forme kľúčových slov a slovného mraku. Tento príklad je pomerne jednoduchý, ale dobre ilustruje všetky typické kroky, ktoré dátový vedec podnikne pri práci s údajmi, počnúc získavaním údajov až po vizualizáciu.\n",
"\n",
"V našom kurze si všetky tieto kroky podrobne rozoberieme.\n"
"V našom kurze budeme tieto kroky podrobne preberať.\n"
],
"metadata": {}
},
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Upozornenie**: \nTento dokument bol preložený pomocou služby na automatický preklad [Co-op Translator](https://github.com/Azure/co-op-translator). Hoci sa snažíme o presnosť, upozorňujeme, že automatické preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho pôvodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nezodpovedáme za žiadne nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Zrieknutie sa zodpovednosti**:\nTento dokument bol preložený pomocou AI prekladateľskej služby [Co-op Translator](https://github.com/Azure/co-op-translator). Aj keď sa snažíme o presnosť, prosím, berte na vedomie, že automatické preklady môžu obsahovať chyby alebo nepresnosti. Originálny dokument v jeho pôvodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z používania tohto prekladu nenesieme zodpovednosť.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"> *V tomto notebooku experimentujeme s použitím rôznych URL - článok na Wikipédii o strojovom učení. Môžete si všimnúť, že na rozdiel od dátovej vedy tento článok obsahuje veľa odborných výrazov, čo robí analýzu problematickejšou. Musíme vymyslieť iný spôsob, ako vyčistiť dáta po extrakcii kľúčových slov, aby sme sa zbavili niektorých častých, ale bezvýznamných kombinácií slov.*\n",
"> *V tomto zošite experimentujeme s použitím rôznych URL - wikipedická stránka o strojovom učení. Vidíte, že na rozdiel od Dátovej vedy tento článok obsahuje veľa termínov, čo analýzu sťažuje. Potrebujeme prísť na iný spôsob, ako vyčistiť údaje po extrahovaní kľúčových slov, aby sme sa zbavili niektorých častých, ale bezvýznamných slovných spojení.*\n",
"\n",
"V tomto príklade si urobíme jednoduché cvičenie, ktoré pokrýva všetky kroky tradičného procesu dátovej vedy. Nemusíte písať žiadny kód, stačí kliknúť na bunky nižšie, aby ste ich spustili a pozorovali výsledok. Ako výzvu vás povzbudzujeme, aby ste tento kód vyskúšali s rôznymi dátami.\n",
"V tomto príklade si urobíme jednoduché cvičenie, ktoré pokrýva všetky kroky tradičného procesu dátovej vedy. Nemusíte písať žiadny kód, môžete len kliknúť na bunky nižšie, spustiť ich a pozorovať výsledok. Ako výzvu vás povzbudzujeme vyskúšať tento kód s rôznymi dátami.\n",
"\n",
"## Cieľ\n",
"\n",
"V tejto lekcii sme diskutovali o rôznych konceptoch súvisiacich s dátovou vedou. Skúsme objaviť viac súvisiacich konceptov pomocou **ťažby textu**. Začneme s textom o dátovej vede, extrahujeme z neho kľúčové slová a potom sa pokúsime vizualizovať výsledok.\n",
"V tejto lekcii sme diskutovali o rôznych konceptoch súvisiacich s Dátovou vedou. Skúsme objaviť viac súvisiacich konceptov pomocou **text mining**. Začneme s textom o Dátovej vede, extrahujeme z neho kľúčové slová a potom sa pokúsime výsledok vizualizovať.\n",
"\n",
"Ako text použijem stránku o dátovej vede z Wikipédie:\n"
"Ako text použijem stránku o Dátovej vede z Wikipédie:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Krok 1: Získanie údajov\n",
"## Krok 1: Získanie dát\n",
"\n",
"Prvým krokom v každom procese dátovej vedy je získanie údajov. Na tento účel použijeme knižnicu `requests`:\n"
"Prvým krokom v každom procese dátovej vedy je získanie dát. Použijeme na to knižnicu `requests`:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Krok 2: Transformácia údajov\n",
"## Krok 2: Transformácia dát\n",
"\n",
"Ďalším krokom je konverzia údajov do formy vhodnej na spracovanie. V našom prípade sme stiahli zdrojový kód HTML zo stránky a potrebujeme ho previesť na čistý text.\n",
"Ďalším krokom je konvertovať dáta do formy vhodnej na spracovanie. V našom prípade sme stiahli HTML zdrojový kód zo stránky a potrebujeme ho previesť na jednoduchý text.\n",
"\n",
"Existuje mnoho spôsobov, ako to dosiahnuť. My použijeme najjednoduchší vstavaný objekt [HTMLParser](https://docs.python.org/3/library/html.parser.html) z Pythonu. Musíme zdediť triedu `HTMLParser` a definovať kód, ktorý bude zhromažďovať všetok text vo vnútri HTML značiek, okrem značiek `<script>` a `<style>`.\n"
"Existuje mnoho spôsobov, ako to urobiť. Použijeme [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), populárnu Python knižnicu na parsovanie HTML. BeautifulSoup nám umožňuje zamerať sa na konkrétne HTML prvky, takže sa môžeme sústrediť na hlavný obsah článku z Wikipédie a znížiť množstvo navigačných menu, postranných panelov, pätičiek a iného irelevantného obsahu (hoci niektoré štandardné texty môžu zostať).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Najprv potrebujeme nainštalovať knižnicu BeautifulSoup na analýzu HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -118,9 +116,9 @@
"source": [
"## Krok 3: Získavanie poznatkov\n",
"\n",
"Najdôležitejším krokom je premeniť naše dáta na formu, z ktorej môžeme získať poznatky. V našom prípade chceme extrahovať kľúčové slová z textu a zistiť, ktoré kľúčové slová majú väčší význam.\n",
"Najdôležitejším krokom je premeniť naše dáta na nejakú formu, z ktorej môžeme čerpať poznatky. V našom prípade chceme z textu vyťažiť kľúčové slová a pozrieť sa, ktoré kľúčové slová majú väčší význam.\n",
"\n",
"Použijeme Python knižnicu s názvom [RAKE](https://github.com/aneesha/RAKE) na extrakciu kľúčových slov. Najprv si túto knižnicu nainštalujeme, ak ešte nie je prítomná:\n"
"Použijeme knižnicu Python nazývanú [RAKE](https://github.com/aneesha/RAKE) na extrahovanie kľúčových slov. Najprv si nainštalujme túto knižnicu, pokiaľ nie je nainštalovaná: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Hlavná funkcionalita je dostupná z objektu `Rake`, ktorý môžeme prispôsobiť pomocou niektorých parametrov. V našom prípade nastavíme minimálnu dĺžku kľúčového slova na 5 znakov, minimálnu frekvenciu kľúčového slova v dokumente na 3 a maximálny počet slov v kľúčovom slove na 2. Neváhajte experimentovať s inými hodnotami a pozorovať výsledok.\n"
"Hlavná funkcionalita je dostupná z objektu `Rake`, ktorý môžeme prispôsobiť pomocou niektorých parametrov. V našom prípade nastavíme minimálnu dĺžku kľúčového slova na 5 znakov, minimálnu frekvenciu kľúčového slova v dokumente na 3 a maximálny počet slov v kľúčovom slove na 2. Neváhajte si pohrať s ostatnými hodnotami a pozorovať výsledok.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Získali sme zoznam pojmov spolu s ich priradenou mierou dôležitosti. Ako môžete vidieť, najrelevantnejšie disciplíny, ako sú strojové učenie a big data, sa nachádzajú na popredných miestach v zozname.\n",
"Získali sme zoznam termínov spolu s priradenou mierou dôležitosti. Ako vidíte, najrelevantnejšie disciplíny, ako napríklad strojové učenie a veľké dáta, sú prítomné v zozname na popredných pozíciách.\n",
"\n",
"## Krok 4: Vizualizácia výsledku\n",
"\n",
"Ľudia najlepšie interpretujú údaje vo vizuálnej podobe. Preto často dáva zmysel vizualizovať údaje, aby sme získali určité poznatky. Na jednoduché zobrazenie distribúcie kľúčových slov s ich relevanciou môžeme použiť knižnicu `matplotlib` v Pythone:\n"
"Ľudia dokážu najlepšie interpretovať dáta vo vizuálnej podobe. Preto často dáva zmysel dáta vizualizovať, aby sme získali nejaké poznatky. Môžeme použiť knižnicu `matplotlib` v Pythone na zobrazenie jednoduchej distribúcie kľúčových slov s ich relevantnosťou:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Existuje však ešte lepší spôsob, ako vizualizovať frekvencie slov - pomocou **Word Cloud**. Budeme musieť nainštalovať ďalšiu knižnicu na vykreslenie word cloudu z nášho zoznamu kľúčových slov.\n"
"Existuje však ešte lepší spôsob, ako vizualizovať frekvenciu slov - pomocou **Word Cloud** (slovného mraku). Na vykreslenie slovného mraku z nášho zoznamu kľúčových slov budeme potrebovať nainštalovať ďalšiu knižnicu.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"Objekt `WordCloud` je zodpovedný za prijatie buď pôvodného textu, alebo vopred vypočítaného zoznamu slov s ich frekvenciami, a vráti obrázok, ktorý môže byť následne zobrazený pomocou `matplotlib`:\n"
"Objekt `WordCloud` je zodpovedný za prijatie buď pôvodného textu, alebo predpočítaného zoznamu slov s ich frekvenciami, a vracia obrázok, ktorý je možné následne zobraziť pomocou `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"Pôvodný text môžeme tiež zadať do `WordCloud` - pozrime sa, či dokážeme dosiahnuť podobný výsledok:\n"
"Môžeme tiež odovzdať pôvodný text do `WordCloud` - pozrime sa, či dokážeme získať podobný výsledok:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Môžete vidieť, že slovný mrak teraz vyzerá pôsobivejšie, ale obsahuje aj veľa šumu (napr. nesúvisiace slová ako `Retrieved on`). Taktiež získavame menej kľúčových slov, ktoré pozostávajú z dvoch slov, ako napríklad *data scientist* alebo *computer science*. Je to preto, že algoritmus RAKE odvádza oveľa lepšiu prácu pri výbere kvalitných kľúčových slov z textu. Tento príklad ilustruje dôležitosť predspracovania a čistenia dát, pretože jasný obraz na konci nám umožní robiť lepšie rozhodnutia.\n",
"Vidíte, že slovný oblak teraz vyzerá pôsobivejšie, ale tiež obsahuje veľa šumu (napr. nesúvisiace slová ako `Retrieved on`). Tiež získavame menej kľúčových slov, ktoré pozostávajú z dvoch slov, ako napríklad *data scientist* alebo *computer science*. Je to preto, že algoritmus RAKE robí oveľa lepšiu prácu pri výbere dobrých kľúčových slov z textu. Tento príklad ilustruje význam predspracovania a čistenia dát, pretože jasný obraz na konci nám umožní robiť lepšie rozhodnutia.\n",
"\n",
"V tomto cvičení sme prešli jednoduchým procesom extrakcie významu z textu na Wikipédii vo forme kľúčových slov a slovného mraku. Tento príklad je pomerne jednoduchý, ale dobre demonštruje všetky typické kroky, ktoré dátový vedec podnikne pri práci s dátami, od získavania dát až po vizualizáciu.\n",
"V tomto cvičení sme prešli jednoduchým procesom extrakcie významu z wikipediálneho textu vo forme kľúčových slov a slovného oblaku. Tento príklad je pomerne jednoduchý, ale dobre demonštruje všetky typické kroky, ktoré dátový analytik podnikne pri práci s dátami, počnúc získavaním dát až po vizualizáciu.\n",
"\n",
"V našom kurze budeme diskutovať o všetkých týchto krokoch podrobne.\n"
"V našom kurze budeme všetky tieto kroky podrobne rozoberať.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Upozornenie**: \nTento dokument bol preložený pomocou služby na automatický preklad [Co-op Translator](https://github.com/Azure/co-op-translator). Aj keď sa snažíme o presnosť, upozorňujeme, že automatické preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho pôvodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nezodpovedáme za žiadne nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Upozornenie**:\nTento dokument bol preložený pomocou AI prekladateľskej služby [Co-op Translator](https://github.com/Azure/co-op-translator). Aj keď sa snažíme o presnosť, vezmite prosím na vedomie, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho rodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie odporúčame profesionálny ľudský preklad. Nezodpovedáme za akékoľvek nedorozumenia alebo nesprávne výklady vyplývajúce z použitia tohto prekladu.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
Teória štatistiky a pravdepodobnosti sú dve úzko prepojené oblasti matematiky, ktoré sú veľmi dôležité pre dátovú vedu. Dá sa pracovať s dátami aj bez hlbokých matematických znalostí, ale je lepšie poznať aspoň základné koncepty. Tu vám predstavíme krátky úvod, ktorý vám pomôže začať.
## [Kvíz pred prednáškou](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Je ťažšie opísať pravdepodobnostné rozdelenie spojitej premennej, ktorej h
Môžeme hovoriť iba o pravdepodobnosti, že premenná spadne do daného intervalu hodnôt, napr. P(t<sub>1</sub>≤X<t<sub>2</sub>). V tomto prípade je pravdepodobnostné rozdelenie opísané pomocou **hustoty pravdepodobnosti** p(x), pričom
Spojitý analóg rovnomerného rozdelenia sa nazýva **spojité rovnomerné rozdelenie**, ktoré je definované na konečnom intervale. Pravdepodobnosť, že hodnota X spadne do intervalu dĺžky l, je úmerná l a stúpa až na 1.
@ -73,11 +73,11 @@ Keď analyzujeme dáta z reálneho sveta, často nie sú náhodnými premennými
Tu je boxplot zobrazujúci priemer, medián a kvartily pre naše dáta:
Keďže naše dáta obsahujú informácie o rôznych hráčskych **rolách**, môžeme tiež vytvoriť boxplot podľa rolí - umožní nám to získať predstavu o tom, ako sa hodnoty parametrov líšia medzi rolami. Tentokrát budeme uvažovať o výške:


Tento diagram naznačuje, že priemerná výška hráčov na prvej méte je vyššia ako výška hráčov na druhej méte. Neskôr v tejto lekcii sa naučíme, ako môžeme túto hypotézu formálnejšie otestovať a ako ukázať, že naše dáta sú štatisticky významné na jej preukázanie.
@ -85,7 +85,7 @@ Tento diagram naznačuje, že priemerná výška hráčov na prvej méte je vyš
Na zistenie, aké je rozdelenie našich dát, môžeme vytvoriť graf nazývaný **histogram**. X-os bude obsahovať počet rôznych intervalov váh (tzv. **binov**), a vertikálna os bude ukazovať počet prípadov, keď naša vzorka náhodnej premennej spadla do daného intervalu.
Z tohto histogramu vidíte, že všetky hodnoty sú sústredené okolo určitého priemeru váhy a čím ďalej ideme od tejto váhy, tým menej hodnôt tejto váhy sa vyskytuje. T.j., je veľmi nepravdepodobné, že váha hráča baseballu bude veľmi odlišná od priemernej váhy. Rozptyl váh ukazuje, do akej miery sa váhy pravdepodobne líšia od priemeru.
Ak vykreslíme histogram vygenerovaných vzoriek, uvidíme obrázok veľmi podobný tomu, ktorý je uvedený vyššie. A ak zvýšime počet vzoriek a počet binov, môžeme vytvoriť obrázok normálneho rozdelenia, ktorý je bližší ideálu:


*Normálne rozdelenie s priemerom=0 a smerodajnou odchýlkou=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
V našom prípade hodnota 0.53 indikuje, že existuje určitá korelácia medzi hmotnosťou a výškou osoby. Môžeme tiež vytvoriť scatter plot jednej hodnoty proti druhej, aby sme videli vzťah vizuálne:


> Viac príkladov korelácie a kovariancie nájdete v [sprievodnom notebooku](notebook.ipynb).


> Fotografia od <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephena Dawsona</a> na <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
V týchto lekciách objavíte, ako je definovaná dátová veda, a oboznámite sa s etickými otázkami, ktoré musí dátový vedec zohľadniť. Taktiež sa dozviete, ako sú definované dáta, a získate základné poznatky o štatistike a pravdepodobnosti, ktoré sú jadrom akademických oblastí dátovej vedy.
Databázy ponúkajú veľmi efektívne spôsoby ukladania dát a ich dotazovania pomocou dotazovacích jazykov, no najflexibilnejším spôsobom spracovania dát je napísanie vlastného programu na manipuláciu s dátami. V mnohých prípadoch by bolo efektívnejšie použiť dotaz do databázy. Avšak v prípadoch, keď je potrebné zložitejšie spracovanie dát, to nie je možné jednoducho vykonať pomocou SQL.
Spracovanie dát je možné programovať v akomkoľvek programovacom jazyku, ale existujú určité jazyky, ktoré sú na prácu s dátami na vyššej úrovni. Dátoví vedci zvyčajne preferujú jeden z nasledujúcich jazykov:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
Teraz predpokladajme, že každý týždeň organizujeme párty pre priateľov a berieme na párty ďalších 10 balení zmrzliny. Môžeme vytvoriť ďalšiu sériu, indexovanú podľa týždňov, aby sme to ukázali:
```python
@ -75,7 +75,7 @@ Keď sčítame dve série, dostaneme celkový počet:
> **Poznámka**: Nepoužívame jednoduchú syntax `total_items+additional_items`. Ak by sme to urobili, dostali by sme veľa hodnôt `NaN` (*Not a Number*) v výslednej sérii. Je to preto, že pre niektoré indexové body v sérii `additional_items` chýbajú hodnoty, a sčítanie `NaN` s čímkoľvek vedie k `NaN`. Preto musíme počas sčítania špecifikovať parameter `fill_value`.
@ -84,7 +84,7 @@ Pri časových sériách môžeme tiež **preukladať** sériu s rôznymi časov
@ -210,7 +210,7 @@ Prvým problémom, na ktorý sa zameriame, je modelovanie epidémie šírenia CO
Keďže chceme demonštrovať, ako pracovať s dátami, pozývame vás otvoriť [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) a prečítať si ho od začiatku do konca. Môžete tiež spustiť bunky a splniť niektoré výzvy, ktoré sme pre vás nechali na konci.
> Ak neviete, ako spustiť kód v Jupyter Notebooku, pozrite si [tento článok](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Kompletný príklad analýzy tohto datasetu pomocou [Text Analytics for Health](
Otvorte [`notebook-papers.ipynb`](notebook-papers.ipynb) a prečítajte si ho od začiatku do konca. Môžete tiež spustiť bunky a splniť niektoré výzvy, ktoré sme pre vás nechali na konci.


> Fotografia od <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexandra Sinna</a> na <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
V týchto lekciách sa naučíte niektoré spôsoby, ako je možné dáta spravovať, manipulovať s nimi a používať ich v aplikáciách. Dozviete sa o relačných a nerelačných databázach a o tom, ako v nich môžu byť dáta uložené. Naučíte sa základy práce s Pythonom na správu dát a objavíte niektoré z mnohých spôsobov, ako môžete s Pythonom pracovať na správe a analýze dát.
Teraz zobrazte tie isté údaje s farebnou schémou pripomínajúcou med, aby ste ukázali, ako sa cena vyvíja v priebehu rokov. Môžete to dosiahnuť pridaním parametra 'hue', ktorý ukáže zmenu rok čo rok:
@ -51,7 +51,7 @@ Teraz zobrazte tie isté údaje s farebnou schémou pripomínajúcou med, aby st
S touto zmenou farebnej schémy môžete vidieť, že v priebehu rokov existuje zjavný silný progres v cene medu za libru. Ak sa pozriete na vzorku údajov na overenie (napríklad vyberte štát Arizona), môžete vidieť vzor zvyšovania cien rok čo rok, s niekoľkými výnimkami:
Je to jednoduchý prípad ponuky a dopytu? Kvôli faktorom, ako je klimatická zmena a kolaps kolónií, je k dispozícii menej medu na predaj rok čo rok, a preto cena rastie?
✅ Pretože Seaborn agreguje údaje okolo jednej čiary, zobrazuje "viacero meraní pri každej hodnote x tým, že vykresľuje priemer a 95% interval spoľahlivosti okolo priemeru". [Zdroj](https://seaborn.pydata.org/tutorial/relational.html). Toto časovo náročné správanie môžete vypnúť pridaním `ci=None`.
@ -105,7 +105,7 @@ Otázka: No, v roku 2003 môžeme tiež vidieť nárast v zásobách medu? Čo a
Odpoveď: Nie celkom. Ak sa pozriete na celkovú produkciu, zdá sa, že v tom konkrétnom roku skutočne vzrástla, aj keď všeobecne množstvo vyprodukovaného medu v týchto rokoch klesá.
@ -130,7 +130,7 @@ sns.relplot(
```
V tejto vizualizácii môžete porovnať výnos na kolóniu a počet kolónií rok čo rok, vedľa seba, s nastavením wrap na 3 pre stĺpce:
Pre tento dataset nič zvlášť nevyniká, pokiaľ ide o počet kolónií a ich výnos, rok čo rok a štát po štáte. Existuje iný spôsob, ako nájsť koreláciu medzi týmito dvoma premennými?
Aj keď okolo roku 2003 nič zvlášť nevyniká, umožňuje nám to ukončiť túto lekciu na trochu pozitívnejšiu nôtu: aj keď počet kolónií celkovo klesá, ich počet sa stabilizuje, aj keď ich výnos na kolóniu klesá.
Tu nainštalujete balík `ggplot2` a potom ho importujete do pracovného priestoru pomocou príkazu `library("ggplot2")`. Na vykreslenie akéhokoľvek grafu v ggplot sa používa funkcia `ggplot()` a špecifikujete dataset, premenné x a y ako atribúty. V tomto prípade používame funkciu `geom_line()`, pretože chceme vykresliť čiarový graf.
Čo si všimnete okamžite? Zdá sa, že existuje aspoň jeden extrémny údaj - to je poriadne rozpätie krídel! Rozpätie krídel viac ako 2000 centimetrov znamená viac ako 20 metrov - potulujú sa v Minnesote pterodaktyly? Poďme to preskúmať.
Aj s rotáciou štítkov nastavenou na 45 stupňov je ich príliš veľa na čítanie. Skúsme inú stratégiu: označme iba tie extrémne hodnoty a nastavme štítky priamo v grafe. Môžete použiť bodový graf, aby ste získali viac priestoru na označovanie:
Vytvorili sme nový dataframe `birds_filtered` a potom vykreslili bodový graf. Filtrovaním extrémnych hodnôt sú vaše údaje teraz súdržnejšie a zrozumiteľnejšie.
V nasledujúcom úryvku inštalujeme balíky [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) a [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0), ktoré pomáhajú manipulovať a zoskupovať údaje na vykreslenie zoskupeného stĺpcového grafu. Najprv zoskupíte údaje podľa `Category` vtákov a potom sumarizujete stĺpce `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Potom vykreslíte stĺpcový graf pomocou balíka `ggplot2` a špecifikujete farby pre rôzne kategórie a štítky.
Tento stĺpcový graf je však nečitateľný, pretože obsahuje príliš veľa nezoskupených údajov. Musíte vybrať iba údaje, ktoré chcete vykresliť, takže sa pozrime na dĺžku vtákov podľa ich kategórie.
Najprv spočítate unikátne hodnoty v stĺpci `Category` a potom ich zoradíte do nového dataframe `birds_count`. Tieto zoradené údaje sú potom faktorizované na rovnakej úrovni, aby boli vykreslené v zoradenom poradí. Pomocou `ggplot2` potom vykreslíte údaje v stĺpcovom grafe. Funkcia `coord_flip()` vykreslí horizontálne stĺpce.
Tento stĺpcový graf poskytuje dobrý prehľad o počte vtákov v každej kategórii. Na prvý pohľad vidíte, že najväčší počet vtákov v tomto regióne patrí do kategórie Kačice/Husi/Vodné vtáky. Minnesota je "krajina 10 000 jazier", takže to nie je prekvapujúce!


Toto poskytuje prehľad o všeobecnej distribúcii dĺžky tela podľa radu vtákov, ale nie je to optimálny spôsob zobrazenia skutočných distribúcií. Táto úloha sa zvyčajne rieši vytvorením histogramu.
@ -48,7 +48,7 @@ Toto poskytuje prehľad o všeobecnej distribúcii dĺžky tela podľa radu vtá


Ako vidíte, väčšina z viac ako 400 vtákov v tomto datasete spadá do rozsahu pod 2000 pre ich maximálnu telesnú hmotnosť. Získajte viac informácií o údajoch zmenou parametra `bins` na vyššie číslo, napríklad 30:
@ -56,7 +56,7 @@ Ako vidíte, väčšina z viac ako 400 vtákov v tomto datasete spadá do rozsah
Tento graf ukazuje distribúciu o niečo podrobnejšie. Graf menej posunutý doľava by sa dal vytvoriť zabezpečením, že vyberiete iba údaje v danom rozsahu:
✅ Vyskúšajte iné filtre a dátové body. Ak chcete vidieť úplnú distribúciu údajov, odstráňte filter `['MaxBodyMass']`, aby sa zobrazili označené distribúcie.


Zdá sa, že medzi minimálnym rozpätím krídel a stavom ochrany neexistuje dobrá korelácia. Otestujte iné prvky datasetu pomocou tejto metódy. Môžete vyskúšať aj rôzne filtre. Nájdete nejakú koreláciu?
@ -127,7 +127,7 @@ Poďme teraz pracovať s hustotnými grafmi!
Vidíte, ako graf odráža ten predchádzajúci pre údaje o minimálnom rozpätí krídel; je len o niečo plynulejší. Ak by ste chceli znovu navštíviť tú zubatú čiaru MaxBodyMass v druhom grafe, ktorý ste vytvorili, mohli by ste ju veľmi dobre vyhladiť opätovným vytvorením pomocou tejto metódy:
@ -135,7 +135,7 @@ Vidíte, ako graf odráža ten predchádzajúci pre údaje o minimálnom rozpät
✅ Prečítajte si o parametroch dostupných pre tento typ grafu a experimentujte!
@ -153,7 +153,7 @@ Tento typ grafu ponúka krásne vysvetľujúce vizualizácie. S niekoľkými ria
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```


Voila, koláčový graf zobrazujúci proporcie týchto údajov podľa dvoch tried húb. Je veľmi dôležité správne zoradiť poradie štítkov, najmä tu, preto si overte poradie, v akom je pole štítkov vytvorené!
V tejto lekcii ste sa naučili tri spôsoby vizualizácie proporcií. Najprv musíte zoskupiť svoje údaje do kategórií a potom sa rozhodnúť, ktorý spôsob zobrazenia údajov je najlepší - koláč, donut alebo waffle. Všetky sú chutné a poskytujú používateľovi okamžitý prehľad o datasete.
Teraz zobrazte tie isté údaje s farebnou schémou medu, aby ste ukázali, ako sa cena vyvíja v priebehu rokov. Môžete to urobiť pridaním parametra 'scale_color_gradientn', ktorý ukazuje zmenu rok po roku:
@ -52,7 +52,7 @@ Teraz zobrazte tie isté údaje s farebnou schémou medu, aby ste ukázali, ako
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
S touto zmenou farebnej schémy môžete vidieť, že v priebehu rokov existuje zjavný silný nárast ceny za libru medu. Ak si overíte vzorku údajov (napríklad pre štát Arizona), môžete vidieť vzor zvyšovania cien rok po roku, s niekoľkými výnimkami:
Je to jednoduchý prípad ponuky a dopytu? Kvôli faktorom, ako je zmena klímy a kolaps kolónií, je k dispozícii menej medu na predaj rok po roku, a preto cena stúpa?
Odpoveď: Nie celkom. Ak sa pozriete na celkovú produkciu, zdá sa, že v tomto konkrétnom roku skutočne vzrástla, aj keď všeobecne produkcia medu v týchto rokoch klesá.
V tejto vizualizácii môžete porovnať výnos na kolóniu a počet kolónií rok po roku, vedľa seba, s nastavením wrap na 3 pre stĺpce:


Pre tento dataset nič konkrétne nevyniká, pokiaľ ide o počet kolónií a ich výnos rok po roku a štát po štáte. Existuje iný spôsob, ako nájsť koreláciu medzi týmito dvoma premennými?
Aj keď nič výrazné nevyniká okolo roku 2003, umožňuje nám to ukončiť túto lekciu na trochu pozitívnejšiu nôtu: aj keď celkový počet kolónií klesá, počet kolónií sa stabilizuje, aj keď ich výnos na kolóniu klesá.
@ -38,25 +38,25 @@ V predchádzajúcich lekciách ste experimentovali s vytváraním rôznych zauj
Aj keď dátový vedec starostlivo vyberie správny graf pre správne dáta, existuje mnoho spôsobov, ako môžu byť dáta prezentované tak, aby podporili určitý názor, často na úkor samotných dát. Existuje veľa príkladov zavádzajúcich grafov a infografík!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Ako grafy klamú")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Ako grafy klamú")
> 🎥 Kliknite na obrázok vyššie pre konferenčný prejav o zavádzajúcich grafoch
Tento graf prevracia os X, aby ukázal opak pravdy na základe dátumu:
[Tento graf](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) je ešte zavádzajúcejší, pretože oko je vedené k záveru, že počet prípadov COVID klesal v rôznych okresoch. Ak sa však pozriete bližšie na dátumy, zistíte, že boli preusporiadané, aby vytvorili tento zavádzajúci klesajúci trend.
Tento notoricky známy príklad používa farbu A prevrátenú os Y na zavádzanie: namiesto záveru, že počet úmrtí na strelné zbrane vzrástol po prijatí legislatívy podporujúcej zbrane, oko je oklamané, aby si myslelo opak:
Porovnávanie neporovnateľného je ďalší pochybný trik. Existuje [úžasná webová stránka](https://tylervigen.com/spurious-correlations) venovaná 'falošným koreláciám', ktorá zobrazuje 'fakty' korelujúce veci ako rozvodovosť v Maine a spotrebu margarínu. Skupina na Reddite tiež zbiera [škaredé použitia](https://www.reddit.com/r/dataisugly/top/?t=all) dát.
@ -91,13 +91,13 @@ Označte svoje osi, poskytnite legendu, ak je to potrebné, a ponúknite tooltip
Ak sú vaše dáta textové a na osi X príliš dlhé, môžete text nakloniť pre lepšiu čitateľnosť. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) ponúka 3D vykresľovanie, ak to vaše dáta podporujú. Pomocou neho je možné vytvoriť sofistikované vizualizácie dát.
Niektoré z najlepších vizualizácií dát sú dnes animované. Shirley Wu vytvorila úžasné vizualizácie pomocou D3, ako napríklad '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kde každý kvet predstavuje vizualizáciu filmu. Ďalším príkladom pre Guardian je 'bussed out', interaktívny zážitok kombinujúci vizualizácie s Greensock a D3 spolu s článkom vo formáte scrollytelling, ktorý ukazuje, ako NYC rieši problém bezdomovcov tým, že ich presúva mimo mesta.
> "Bussed Out: Ako Amerika presúva svojich bezdomovcov" od [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Vizualizácie od Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Hoci táto lekcia nie je dostatočne podrobná na to, aby vás naučila tieto v
Dokončíte webovú aplikáciu, ktorá zobrazí animovaný pohľad na túto sociálnu sieť. Používa knižnicu, ktorá bola vytvorená na [vizualizáciu siete](https://github.com/emiliorizzo/vue-d3-network) pomocou Vue.js a D3. Keď aplikácia beží, môžete uzly na obrazovke presúvať a meniť usporiadanie dát.


> Fotografia od <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> na <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Vizualizácia dát je jednou z najdôležitejších úloh dátového vedca. Obrázky majú hodnotu tisíc slov a vizualizácia vám môže pomôcť identifikovať rôzne zaujímavé časti vašich dát, ako sú výkyvy, odľahlé hodnoty, zoskupenia, tendencie a ďalšie, ktoré vám pomôžu pochopiť príbeh, ktorý vaše dáta rozprávajú.
@ -16,7 +16,7 @@ V tomto bode ste si pravdepodobne uvedomili, že dátová veda je proces. Tento
Táto lekcia sa zameriava na 3 časti životného cyklu: získavanie, spracovanie a údržbu.


> Foto od [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Získavanie
@ -92,7 +92,7 @@ Preskúmajte [životný cyklus procesu tímovej dátovej vedy](https://docs.micr
|Proces tímovej dátovej vedy (TDSP)|Štandardný proces pre dolovanie dát naprieč odvetviami (CRISP-DM)|
|--|--|
| |  |
| |  |
| Obrázok od [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Obrázok od [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Kvíz po prednáške](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> Foto od <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> na <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
V týchto lekciách preskúmate niektoré aspekty životného cyklu dátovej vedy, vrátane analýzy a komunikácie o dátach.
> Foto od [Jelleke Vanooteghem](https://unsplash.com/@ilumire) z [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Keď ide o prácu s veľkými dátami v oblasti dátovej vedy, cloud môže byť prelomovým riešením. V nasledujúcich troch lekciách si vysvetlíme, čo je to cloud a prečo môže byť veľmi užitočný. Taktiež preskúmame dataset o zlyhaní srdca a vytvoríme model, ktorý pomôže odhadnúť pravdepodobnosť, že niekto zažije zlyhanie srdca. Využijeme silu cloudu na trénovanie, nasadenie a používanie modelu dvoma rôznymi spôsobmi. Jeden spôsob bude využívať iba používateľské rozhranie v štýle Low code/No code, druhý spôsob bude využívať Azure Machine Learning Software Developer Kit (Azure ML SDK).
@ -32,7 +32,7 @@ Vďaka demokratizácii AI je pre vývojárov teraz jednoduchšie navrhovať a in
* [Dátová veda v zdravotníctve](https://data-flair.training/blogs/data-science-in-healthcare/) - zdôrazňuje aplikácie ako medicínske zobrazovanie (napr. MRI, röntgen, CT-sken), genomika (sekvenovanie DNA), vývoj liekov (hodnotenie rizík, predikcia úspechu), prediktívna analytika (starostlivosť o pacientov a logistika zásob), sledovanie a prevencia chorôb atď.
 Zdroj obrázku: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Zdroj obrázku: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Obrázok ukazuje ďalšie oblasti a príklady aplikácie techník dátovej vedy. Chcete preskúmať ďalšie aplikácie? Pozrite si sekciu [Recenzia a samostatné štúdium](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) nižšie.
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
Advokáti Azure Cloud v Microsoft s radosťou ponúkajú 10-týždňový, 20-lekčný kurz venovaný Data Science. Každá lekcia obsahuje pred-lekčné a po-lekčné kvízy, písané pokyny na dokončenie lekcie, riešenie a úlohu. Naša projektovo orientovaná pedagogika umožňuje učiť sa pri budovaní, čo je osvedčený spôsob, ako sa nové zručnosti dobre uchytia.
Azure Cloud Advocates v Microsoft s radosťou ponúkajú 10-týždňový, 20-lekciový učebný plán všetkého o dátovej vede. Každá lekcia obsahuje kvízy pred a po lekcii, písané inštrukcie na dokončenie lekcie, riešenie a zadanie. Náš projektový prístup k výučbe vám umožňuje učiť sa počas tvorby, čo je osvedčený spôsob, ako nové schopnosti „uložiť“.
> Tento repozitár obsahuje viac ako 50 jazykových prekladov, čo výrazne zvyšuje veľkosť sťahovania. Ak chcete klonovať bez prekladov, použite sparse checkout:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Toto vám poskytne všetko potrebné na dokončenie kurzu s omnoho rýchlejším stiahnutím.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Ak si prajete podporu ďalších jazykov prekladov, sú uvedené [tu](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Ak chcete podporovať ďalšie jazyky prekladov, sú uvedené [tu](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
Máme prebiehajúcu sériu Learn with AI na Discorde, dozviete sa viac a pridajte sa k nám na [Learn with AI Series](https://aka.ms/learnwithai/discord) od 18. do 30. septembra 2025. Získate tipy a triky, ako využívať GitHub Copilot pre Data Science.
Prebieha séria "Learn with AI" na Discorde, dozviete sa viac a pripojte sa k nám na [Learn with AI Series](https://aka.ms/learnwithai/discord) od 18. do 30. septembra 2025. Získate tipy a triky, ako používať GitHub Copilot pre dátovú vedu.

@ -59,156 +69,156 @@ Máme prebiehajúcu sériu Learn with AI na Discorde, dozviete sa viac a pridajt
Začnite s nasledujúcimi zdrojmi:
- [Stránka Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Na tejto stránke nájdete zdroje pre začiatočníkov, študentské balíčky a dokonca aj spôsoby, ako získať bezplatný certifikačný poukaz. Túto stránku si chcete uložiť medzi záložky a občas skontrolovať, pretože obsah meníme aspoň raz za mesiac.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Pridajte sa ku globálnej komunite študentských veľvyslancov, toto by mohla byť vaša cesta do Microsoftu.
- [Stránka Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Na tejto stránke nájdete zdroje pre začiatočníkov, študentské balíčky a dokonca aj spôsoby, ako získať bezplatný certifikačný kupón. Toto je stránka, ktorú si chcete uložiť do záložiek a sledovať ju pravidelne, pretože obsah meníme aspoň raz mesačne.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Pridajte sa k globálnej komunite študentských ambasádorov, toto môže byť vaša vstupenka do Microsoftu.
# Začíname
## 📚 Dokumentácia
- **[Inštalačný sprievodca](INSTALLATION.md)** - krok za krokom inštrukcie pre začiatočníkov
- **[Používateľský sprievodca](USAGE.md)** - príklady a bežné pracovné postupy
- **[Riešenie problémov](TROUBLESHOOTING.md)** - riešenia bežných problémov
- **[Sprievodca prispievaním](CONTRIBUTING.md)** - ako prispieť do tohto projektu
- **[Pre učiteľov](for-teachers.md)** - usmernenia pre výučbu a zdroje pre triedu
- **[Inštalačný návod](INSTALLATION.md)** - Krok za krokom inštrukcie pre začiatočníkov
- **[Používateľský návod](USAGE.md)** - Príklady a bežné workflowy
- **[Riešenie problémov](TROUBLESHOOTING.md)** - Riešenia bežných problémov
- **[Návod na príspevky](CONTRIBUTING.md)** - Ako prispieť do tohto projektu
- **[Pre učiteľov](for-teachers.md)** - Pokyny na výučbu a materiály do triedy
## 👨🎓 Pre študentov
> **Úplní začiatočníci**: Ste nováčik vo vede o dátach? Začnite s našimi [príkladmi vhodnými pre začiatočníkov](examples/README.md)! Tieto jednoduché, dobre komentované príklady vám pomôžu pochopiť základy predtým, než sa pustíte do celej osnovy.
> **[Študenti](https://aka.ms/student-page)**: ak chcete používať tento kurz sami, vytvorte si forka celého repozitára a dokončujte cvičenia samostatne, začnite pred-lekčným kvízom. Potom si prečítajte lekciu a dokončite ostatné aktivity. Snažte sa projekty vytvárať pochopením lekcií namiesto kopírovania riešenia; kód s riešením je však dostupný v priečinkoch /solutions v každej lekcii orientovanej na projekt. Ďalšou možnosťou je vytvoriť si študijnú skupinu s priateľmi a prejsť obsah spolu. Pre ďalšie štúdium odporúčame [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Celkom začiatočníci**: Noví v dátovej vede? Začnite s našimi [príkladmi vhodnými pre začiatočníkov](examples/README.md)! Tieto jednoduché, dobre okomentované príklady vám pomôžu pochopiť základy predtým, ako sa pustíte do plného učebného plánu.
> **[Študenti](https://aka.ms/student-page)**: ak chcete tento učebný plán používať samostatne, forknete celý repozitár a dokončujte cvičenia postupne, začínajúc prednáškovým kvízom. Prečítajte si prednášku a dokončite ostatné aktivity. Pokúste sa vytvoriť projekty porozumením lekcií namiesto kopírovania kódu riešenia; avšak tento kód je k dispozícii v priečinkoch /solutions v každej projektovo orientovanej lekcii. Ďalšou možnosťou je vytvoriť študijnú skupinu s priateľmi a prechádzať obsah spolu. Na ďalšie štúdium odporúčame [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Rýchly štart:**
1. Prezrite si [Inštalačný sprievodca](INSTALLATION.md) a nastavte svoje prostredie
2. Prezrite si [Používateľský sprievodca](USAGE.md), aby ste sa naučili pracovať s osnovou
3. Začnite s Lekciou 1 a pokračujte postupne
1. Prezrite si [Inštalačný návod](INSTALLATION.md) a nastavte si prostredie
2. Preštudujte si [Používateľský návod](USAGE.md) a naučte sa pracovať s učebným plánom
3. Začnite s Lekciou 1 a pracujte postupne
4. Pridajte sa k našej [Discord komunite](https://aka.ms/ds4beginners/discord) pre podporu
## 👩🏫 Pre učiteľov
> **Učitelia**: zahrnuli sme [niekoľko návrhov](for-teachers.md) na použitie tohto kurikula. Radi by sme dostali vašu spätnú väzbu [v našom diskusnom fóre](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Učitelia**: pridali sme [niekoľko návrhov](for-teachers.md), ako používať túto osnovu. Radi privítame vašu spätnú väzbu [v našom diskusnom fóre](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> 🎥 Kliknite na vyššie uvedený obrázok pre video o projekte a ľuďoch, ktorí ho vytvorili!
> 🎥 Kliknite na obrázok vyššie pre video o projekte a ľuďoch, ktorí ho vytvorili!
## Pedagógia
## Pedagogika
Pri tvorbe tohto kurikula sme si vybrali dva pedagogické princípy: zabezpečiť, aby bolo založené na projektoch a aby obsahovalo časté kvízy. Na konci tejto série sa študenti naučia základné princípy dátovej vedy vrátane etických konceptov, prípravy dát, rôznych spôsobov práce s dátami, vizualizácie dát, analýzy dát, reálnych prípadov použitia dátovej vedy a ďalšie.
Pri tvorbe tohto kurikula sme zvolili dve pedagogické zásady: zabezpečiť, aby bolo projektovo orientované a aby obsahovalo časté kvízy. Na konci tejto série sa študenti naučia základné princípy dátovej vedy vrátane etických konceptov, prípravy dát, rôznych spôsobov práce s dátami, vizualizácie dát, analýzy dát, reálnych prípadov použitia dátovej vedy a ďalšie.
Okrem toho kvíz s nízkou záťažou pred hodinou nastavuje študentovi zámer učiť sa danú tému, zatiaľ čo druhý kvíz po hodine zabezpečuje ďalšie uchovanie informácií. Toto kurikulum bolo navrhnuté tak, aby bolo flexibilné a zábavné a môže byť absolvované celé alebo čiastočne. Projekty začínajú malé a ku koncu desaťtýždňového cyklu sa stávajú čoraz komplexnejšími.
Okrem toho nízkonákladový kvíz pred vyučovaním nastavuje študentovi zameranie na učenie témy, zatiaľ čo druhý kvíz po vyučovaní zabezpečuje ďalšie zafixovanie vedomostí. Toto kurikulum bolo navrhnuté ako flexibilné a zábavné a môže byť absolvované celé alebo čiastočne. Projekty začínajú malé a postupne sa počas 10-týždňového cyklu stávajú náročnejšími.
> Nájdete u nás [Kódex správania](CODE_OF_CONDUCT.md), [Prispievanie](CONTRIBUTING.md), [Pokyny na preklady](TRANSLATIONS.md). Privítame vaše konštruktívne pripomienky!
> Nájdete tu náš [Kódex správania](CODE_OF_CONDUCT.md), [Príspevky](CONTRIBUTING.md), [Pokyny k prekladu](TRANSLATIONS.md). Radi prijmeme vaše konštruktívne pripomienky!
## Každá lekcia zahŕňa:
## Každá lekcia obsahuje:
- Nepovinnú sketchnotu
- Nepovinné doplnkové video
- Rozohrevný kvíz pred lekciou
- Voliteľnú skicovačku
- Voliteľné doplnkové video
- Úvodný rozcvičovací kvíz
- Písanú lekciu
- Pre projektové lekcie krok za krokom návody na vytvorenie projektu
- Pre projektové lekcie príručky krok za krokom, ako vytvoriť projekt
- Kontroly vedomostí
- Výzvu
- Doplnkovú literatúru
- Doplnkové čítanie
- Zadanie
- [Kvíz po lekcii](https://ff-quizzes.netlify.app/en/)
> **Poznámka o kvízoch**: Všetky kvízy sú v priečinku Quiz-App, dohromady 40 kvízov po tri otázky. Sú prepojené v lekciách, ale kvízová aplikácia sa dá spustiť lokálne alebo nasadiť do Azure; postupujte podľa inštrukcií v priečinku `quiz-app`. Postupne prebieha lokalizácia.
> **Poznámka o kvízoch**: Všetky kvízy sú obsiahnuté v priečinku Quiz-App, celkovo je k dispozícii 40 kvízov so 3 otázkami v každom. Sú prepojené z lekcií, ale kvízová aplikácia môže byť spustená lokálne alebo nasadená do Azure; riaďte sa inštrukciami v priečinku `quiz-app`. Postupne sa lokalizujú.
## 🎓 Príklady priateľské pre začiatočníkov
## 🎓 Príklady priateľské k začiatočníkom
**Ste nový v dátovej vede?** Vytvorili sme špeciálny [adresár príkladov](examples/README.md) s jednoduchým, dobre komentovaným kódom, ktorý vám pomôže začať:
**Nový v dátovej vede?** Vytvorili sme špeciálny [adresár príkladov](examples/README.md) s jednoduchým, dobre komentovaným kódom, ktorý vám pomôže začať:
- 🌟 **Hello World** - Váš prvý program v dátovej vede
- 📂 **Nahrávanie dát** - Naučte sa čítať a skúmať dátové súbory
- 🌟 **Hello World** - Váš prvý program dátovej vedy
- 📂 **Načítanie dát** - Naučte sa čítať a skúmať datasety
- 📊 **Jednoduchá analýza** - Vypočítajte štatistiky a nájdite vzory
- 📈 **Základná vizualizácia** - Vytvárajte grafy a diagramy
- 🔬 **Reálny projekt** - Kompletný pracovný tok od začiatku do konca
- 📈 **Základná vizualizácia** - Vytvorte grafy a diagramy
- 🔬 **Projekt z praxe** - Kompletný pracovný tok od začiatku do konca
Každý príklad obsahuje podrobné komentáre vysvetľujúce každý krok, čo je ideálne pre absolútnych začiatočníkov!
Každý príklad obsahuje detailné komentáre vysvetľujúce každý krok, čo ho robí ideálnym pre absolútnych začiatočníkov!
👉 **[Začnite s príkladmi](examples/README.md)** 👈
## Lekcie
||
||
|:---:|
| Dátová veda pre začiatočníkov: Plán - _Sketchnota od [@nitya](https://twitter.com/nitya)_ |
| Dátová veda pre začiatočníkov: Plán cesty - _Skicovačka od [@nitya](https://twitter.com/nitya)_ |
| Číslo lekcie | Téma | Zoskupenie lekcie | Učebné ciele | Prepojená lekcia | Autor |
| Číslo lekcie | Téma | Zoskupenie lekcie | Ciele učenia | Prepojená lekcia | Autor |
| 01 | Definovanie dátovej vedy | [Úvod](1-Introduction/README.md) | Naučte sa základné koncepty dátovej vedy a jej súvislosť s umelou inteligenciou, strojovým učením a veľkými dátami. | [lekcia](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etika dátovej vedy | [Úvod](1-Introduction/README.md) | Koncepty, výzvy a rámce etiky dát. | [lekcia](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 01 | Definovanie dátovej vedy | [Úvod](1-Introduction/README.md) | Naučte sa základné koncepty dátovej vedy a ako súvisí s umelou inteligenciou, strojovým učením a veľkými dátami. | [lekcia](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etika dátovej vedy | [Úvod](1-Introduction/README.md) | Koncepty, výzvy a rámce dátovej etiky. | [lekcia](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definovanie dát | [Úvod](1-Introduction/README.md) | Ako sa dáta klasifikujú a ich bežné zdroje. | [lekcia](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Úvod do štatistiky a pravdepodobnosti | [Úvod](1-Introduction/README.md) | Matematické techniky pravdepodobnosti a štatistiky na pochopenie dát. | [lekcia](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Práca s relačnými dátami | [Práca s dátami](2-Working-With-Data/README.md) | Úvod do relačných dát a základy skúmania a analýzy relačných dát pomocou Structured Query Language, známeho ako SQL (vyslovuje sa „see-quell“). | [lekcia](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 05 | Práca s relačnými dátami | [Práca s dátami](2-Working-With-Data/README.md) | Úvod do relačných dát a základy skúmania a analýzy relačných dát pomocou jazyka Structured Query Language, známeho tiež ako SQL (vyslovuje sa „si-kwel“). | [lekcia](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Práca s NoSQL dátami | [Práca s dátami](2-Working-With-Data/README.md) | Úvod do nerelačných dát, ich rôznych typov a základy skúmania a analýzy dokumentových databáz. | [lekcia](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique) |
| 07 | Práca s Python | [Práca s dátami](2-Working-With-Data/README.md) | Základy používania Pythonu na skúmanie dát s knižnicami ako Pandas. Odporúča sa základné porozumenie programovaniu v Pythone. | [lekcia](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Príprava dát | [Práca s dátami](2-Working-With-Data/README.md) | Témy techník úpravy a transformácie dát na riešenie problémov s chýbajúcimi, nesprávnymi alebo neúplnými dátami. | [lekcia](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 07 | Práca s Pythonom | [Práca s dátami](2-Working-With-Data/README.md) | Základy používania Pythonu na prieskum dát s knižnicami ako Pandas. Odporúča sa základné porozumenie programovaniu v Pythone. | [lekcia](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Príprava dát | [Práca s dátami](2-Working-With-Data/README.md) | Témy týkajúce sa techník čistenia a transformácie dát na zvládanie problémov s chýbajúcimi, nepresnými alebo neúplnými dátami. | [lekcia](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Vizualizácia množstiev | [Vizualizácia dát](3-Data-Visualization/README.md) | Naučte sa používať Matplotlib na vizualizáciu dát o vtákoch 🦆 | [lekcia](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Vizualizácia rozdelení dát | [Vizualizácia dát](3-Data-Visualization/README.md) | Vizualizácia pozorovaní a trendov v intervale. | [lekcia](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Vizualizácia vzťahov | [Vizualizácia dát](3-Data-Visualization/README.md) | Vizualizácia spojení a korelácií medzi súbormi dát a ich premennými. | [lekcia](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Významné vizualizácie | [Vizualizácia dát](3-Data-Visualization/README.md) | Techniky a odporúčania na tvorbu vizualizácií hodnotných pre efektívne riešenie problémov a získavanie informácií. | [lekcia](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Úvod do životného cyklu dátovej vedy | [Životný cyklus](4-Data-Science-Lifecycle/README.md) | Úvod do životného cyklu dátovej vedy a jeho prvého kroku získavania a extrakcie dát. | [lekcia](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 10 | Vizualizácia rozdelení dát | [Vizualizácia dát](3-Data-Visualization/README.md) | Vizualizovanie pozorovaní a trendov v rámci intervalu. | [lekcia](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Vizualizácia vzťahov | [Vizualizácia dát](3-Data-Visualization/README.md) | Vizualizácia spojení a korelácií medzi množinami dát a ich premennými. | [lekcia](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Významné vizualizácie | [Vizualizácia dát](3-Data-Visualization/README.md) | Techniky a rady na to, aby vaše vizualizácie boli cenné pre efektívne riešenie problémov a získavanie poznatkov. | [lekcia](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Úvod do životného cyklu dátovej vedy | [Životný cyklus](4-Data-Science-Lifecycle/README.md) | Úvod do životného cyklu dátovej vedy a jeho prvý krok – získavanie a extrakcia dát. | [lekcia](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analýza | [Životný cyklus](4-Data-Science-Lifecycle/README.md) | Táto fáza životného cyklu dátovej vedy sa zameriava na techniky analýzy dát. | [lekcia](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikácia | [Životný cyklus](4-Data-Science-Lifecycle/README.md) | Táto fáza životného cyklu dátovej vedy sa zameriava na prezentáciu poznatkov z dát spôsobom, ktorý uľahčuje ich pochopenie pre rozhodovacích pracovníkov. | [lekcia](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Dátová veda v cloude | [Cloudové dáta](5-Data-Science-In-Cloud/README.md) | Táto séria lekcií predstavuje dátovú vedu v cloude a jej výhody. | [lekcia](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 18 | Dátová veda v cloude | [Cloudové dáta](5-Data-Science-In-Cloud/README.md) | Tréning modelov pomocou nástrojov Low Code. |[lekcia](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 19 | Dátová veda v cloude | [Cloudové dáta](5-Data-Science-In-Cloud/README.md) | Nasadzovanie modelov pomocou Azure Machine Learning Studio. | [lekcia](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 20 | Dátová veda v praxi | [V teréne](6-Data-Science-In-Wild/README.md) | Projekty riadené dátovou vedou v reálnom svete. | [lekcia](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 16 | Komunikácia | [Životný cyklus](4-Data-Science-Lifecycle/README.md) | Táto fáza životného cyklu dátovej vedy sa zameriava na prezentáciu poznatkov z dát tak, aby boli pre rozhodovateľov ľahko pochopiteľné. | [lekcia](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Dátová veda v cloude | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Táto séria lekcií predstavuje dátovú vedu v cloude a jej výhody. | [lekcia](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 18 | Dátová veda v cloude | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Tréning modelov pomocou nástrojov Low Code. |[lekcia](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 19 | Dátová veda v cloude | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Nasadzovanie modelov pomocou Azure Machine Learning Studio. | [lekcia](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 20 | Dátová veda v praxi | [V teréne](6-Data-Science-In-Wild/README.md) | Projekty založené na dátovej vede v reálnom svete. | [lekcia](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Postupujte podľa týchto krokov na otvorenie tejto ukážky v Codespace:
1. Kliknite na rozbaľovacie menu Code a vyberte možnosť Open with Codespaces.
Postupujte podľa týchto krokov na otvorenie tohto ukážkového projektu v Codespace:
1. Kliknite na rozbaľovaciu ponuku Kód a vyberte možnosť Open with Codespaces.
2. Vyberte + New codespace v spodnej časti panela.
Pre viac informácií si pozrite [dokumentáciu GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
Pre viac informácií si pozrite [dokumentáciu GitHubu](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Postupujte podľa týchto krokov na otvorenie tohto repozitára v kontajneri na vašom lokálnom zariadení pomocou VSCode a rozšírenia VS Code Remote - Containers:
## VSCode Remote - Kontajnery
Postupujte podľa týchto krokov na otvorenie tohto repozitára v kontajneri pomocou vášho lokálneho počítača a VSCode s rozšírením VS Code Remote - Containery:
1. Ak používate vývojový kontajner prvýkrát, uistite sa, že váš systém spĺňa požiadavky (napr. máte nainštalovaný Docker) v [dokumentácii "Začíname"](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Ak používate vývojový kontajner prvýkrát, uistite sa, že váš systém spĺňa požiadavky (napr. je nainštalovaný Docker) podľa [dokumentácie pre začiatočníkov](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Na používanie tohto repozitára ho môžete buď otvoriť v izolovanom Docker volume:
Na používanie tohto repozitára môžete buď otvoriť repozitár v izolovanom Docker volume:
**Poznámka**: Pod kapotou použije príkaz Remote-Containers: **Clone Repository in Container Volume...** na naklonovanie zdrojového kódu do Docker volume namiesto lokálneho súborového systému. [Volume](https://docs.docker.com/storage/volumes/) sú preferovaný mechanizmus pre trvalé ukladanie dát kontajnera.
**Poznámka**: Pod kapotou sa použije príkaz Remote-Containers: **Clone Repository in Container Volume...** na klonovanie zdrojového kódu do Docker volume namiesto lokálneho súborového systému. [Volumes](https://docs.docker.com/storage/volumes/) sú preferovaný mechanizmus na uchovávanie dát kontajnerov.
Alebo otvorte lokálne naklonovanú alebo stiahnutú verziu repozitára:
Alebo otvorte lokálnu sklonovanú alebo stiahnutú verziu repozitára:
- Naklonujte tento repozitár na váš lokálny súborový systém.
- Sklonujte tento repozitár na váš lokálny súborový systém.
- Stlačte F1 a vyberte príkaz **Remote-Containers: Open Folder in Container...**.
- Vyberte naklonovanú kópiu tohto priečinka, počkajte, kým kontajner spustí, a začnite skúmať.
- Vyberte sklonovanú kópiu tohto priečinka, počkajte na spustenie kontajnera a vyskúšajte si to.
## Prístup offline
Túto dokumentáciu môžete používať offline pomocou [Docsify](https://docsify.js.org/#/). Vytvorte si fork tohto repozitára, [nainštalujte Docsify](https://docsify.js.org/#/quickstart) na vašom lokálnom zariadení, potom v koreňovom priečinku repozitára zadajte príkaz `docsify serve`. Webstránka vám bude servírovaná na porte 3000 na localhoste: `localhost:3000`.
Túto dokumentáciu môžete spustiť offline pomocou [Docsify](https://docsify.js.org/#/). Zforkujte tento repozitár, [nainštalujte Docsify](https://docsify.js.org/#/quickstart) na váš lokálny počítač, potom v koreňovom priečinku tohto repozitára zadajte príkaz `docsify serve`. Webová stránka bude dostupná na porte 3000 na vašom localhoste: `localhost:3000`.
> Poznámka: Notebooky nebudú renderované cez Docsify, takže keď potrebujete spustiť notebook, robte to samostatne vo VS Code s bežiacim Python kernelom.
> Poznámka, notebooky nebudú cez Docsify renderované, takže ak potrebujete spustiť notebook, urobte to samostatne vo VS Code s bežiacim Python kernelom.
## Iné kurikuly
Náš tím tvorí aj ďalšie kurikuly! Pozrite si:
Náš tím vytvára aj iné kurikuly! Pozrite si:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Agenti
### Azure / Edge / MCP / Agentúry
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Séria generatívnej AI
### Séria generatívnej umelej inteligencie
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
@ -220,34 +230,34 @@ Náš tím tvorí aj ďalšie kurikuly! Pozrite si:
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Séria Copilot
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**Máte problémy?** Pozrite si náš [Sprievodca riešením problémov](TROUBLESHOOTING.md) pre riešenia bežných problémov.
**Máte problémy?** Prezrite si náš [Príručka riešenia problémov](TROUBLESHOOTING.md) pre riešenia bežných problémov.
Ak budete mať zádrhel alebo otázky o vývoji AI aplikácií, pridajte sa k ostatným študentom a skúseným vývojárom v diskusiách o MCP. Je to podporná komunita, kde sú otázky vítané a vedomosti sa zdieľajú bezplatne.
Ak sa zaseknete alebo máte akékoľvek otázky týkajúce sa tvorby AI aplikácií, pripojte sa k ďalším študentom a skúseným vývojárom v diskusiách o MCP. Je to podporujúca komunita, kde sú otázky vítané a zdieľanie vedomostí je slobodné.
Tento dokument bol preložený pomocou služby AI prekladu [Co-op Translator](https://github.com/Azure/co-op-translator). Hoci sa snažíme o presnosť, uvedomte si, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Originálny dokument v jeho pôvodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre dôležité informácie sa odporúča profesionálny ľudský preklad. Nepreberáme zodpovednosť za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.
**Vyhlásenie o zodpovednosti**:
Tento dokument bol preložený pomocou AI prekladateľskej služby [Co-op Translator](https://github.com/Azure/co-op-translator). Aj keď sa snažíme o presnosť, uvedomte si, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Originálny dokument v jeho pôvodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nie sme zodpovední za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.