chore(i18n): sync translations with latest source changes (chunk 1/1, 15 changes)

update-translations
localizeflow[bot] 6 days ago
parent 62b12eba88
commit f7ccc972c9

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "en"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-28T08:35:44+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "en"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-31T11:09:55+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "en"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-28T08:36:14+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "en"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T15:56:16+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "en"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-28T08:37:04+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "en"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-06T10:06:52+00:00",
@ -360,8 +378,8 @@
"language_code": "en"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T07:15:30+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-28T08:42:08+00:00",
"source_file": "README.md",
"language_code": "en"
},

@ -5,13 +5,13 @@
"source": [
"# Challenge: Analyzing Text about Data Science\n",
"\n",
"In this example, let's do a simple exercise that includes all the steps of a typical data science process. You don't need to write any code; you can simply click on the cells below to run them and observe the results. As a challenge, you're encouraged to test this code with different data.\n",
"In this example, let's do a simple exercise that covers all steps of a traditional data science process. You do not have to write any code, you can just click on the cells below to execute them and observe the result. As a challenge, you are encouraged to try this code out with different data. \n",
"\n",
"## Goal\n",
"\n",
"In this lesson, we've been discussing various concepts related to Data Science. Let's explore more related concepts by performing **text mining**. We'll start with a text about Data Science, extract keywords from it, and then attempt to visualize the results.\n",
"In this lesson, we have been discussing different concepts related to Data Science. Let's try to discover more related concepts by doing some **text mining**. We will start with a text about Data Science, extract keywords from it, and then try to visualize the result.\n",
"\n",
"For the text, we'll use the Wikipedia page on Data Science:\n"
"As a text, I will use the page on Data Science from Wikipedia:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Step 1: Obtaining the Data\n",
"## Step 1: Getting the Data\n",
"\n",
"The first step in any data science process is obtaining the data. We'll use the `requests` library for this:\n"
"First step in every data science process is getting the data. We will use `requests` library to do that:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Step 2: Transforming the Data\n",
"\n",
"The next step is to convert the data into a format suitable for processing. In our case, we have downloaded the HTML source code from the page, and now we need to transform it into plain text.\n",
"The next step is to convert the data into the form suitable for processing. In our case, we have downloaded HTML source code from the page, and we need to convert it into plain text.\n",
"\n",
"There are several ways to achieve this. We will use the simplest method: the built-in [HTMLParser](https://docs.python.org/3/library/html.parser.html) object from Python. To do this, we need to create a subclass of the `HTMLParser` class and write code that extracts all text contained within HTML tags, excluding `<script>` and `<style>` tags.\n"
"There are many ways this can be done. We will use [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), a popular Python library for parsing HTML. BeautifulSoup allows us to target specific HTML elements, so we can focus on the main article content from Wikipedia and reduce some navigation menus, sidebars, footers, and other irrelevant content (though some boilerplate text may still remain).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"First, we need to install the BeautifulSoup library for HTML parsing:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Step 3: Getting Insights\n",
"\n",
"The most important step is to transform our data into a format that allows us to derive insights. In this case, we aim to extract keywords from the text and identify which keywords carry the most significance.\n",
"\n",
"We will use a Python library called [RAKE](https://github.com/aneesha/RAKE) for keyword extraction. First, let's install this library if it is not already installed:\n"
"## Step 3: Getting Insights\r\n",
"\r\n",
"The most important step is to turn our data into some form from which we can draw insights. In our case, we want to extract keywords from the text, and see which keywords are more meaningful.\r\n",
"\r\n",
"We will use Python library called [RAKE](https://github.com/aneesha/RAKE) for keyword extraction. First, let's install this library in case it is not present: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"The main functionality is available from `Rake` object, which we can customize using some parameters. In our case, we will set the minimum length of a keyword to 5 characters, minimum frequency of a keyword in the document to 3, and maximum number of words in a keyword - to 2. Feel free to play around with other values and observe the result.\n"
"The main functionality is available from the `Rake` object, which we can customize using some parameters. In our case, we will set the minimum length of a keyword to 5 characters, minimum frequency of a keyword in the document to 3, and maximum number of words in a keyword - to 2. Feel free to play around with other values and observe the result.\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"We obtained a list of terms along with their associated level of importance. As you can see, the most relevant fields, such as machine learning and big data, appear at the top of the list.\n",
"\n",
"We obtained a list of terms together with the associated degree of importance. As you can see, the most relevant disciplines, such as machine learning and big data, are present in the list at top positions.\n",
"\n",
"## Step 4: Visualizing the Result\n",
"\n",
"People understand data best when it's presented visually. Therefore, it often makes sense to visualize the data to extract insights. We can use the `matplotlib` library in Python to plot a simple distribution of the keywords based on their relevance:\n"
"People can interpret the data best in visual form. Thus it often makes sense to visualize the data in order to draw some insights. We can use the `matplotlib` library in Python to plot a simple distribution of the keywords with their relevance:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"There is, however, even better way to visualize word frequencies - using **Word Cloud**. We will need to install another library to plot the word cloud from our keyword list.\n"
"There is, however, an even better way to visualize word frequencies - using **Word Cloud**. We will need to install another library to plot the word cloud from our keyword list.\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"WordCloud object is responsible for taking in either original text, or pre-computed list of words with their frequencies, and returns an image, which can then be displayed using matplotlib:\n"
"The `WordCloud` object is responsible for taking either the original text or a pre-computed list of words with their frequencies, and returns an image, which can then be displayed using `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"We can also pass in the original text to `WordCloud` - let's see if we are able to get similar result:\n"
"We can also pass in the original text to `WordCloud` - let's see if we are able to get a similar result:\n"
],
"metadata": {}
},
@ -372,11 +371,11 @@
{
"cell_type": "markdown",
"source": [
"You can see that the word cloud now looks more impressive, but it also contains a lot of noise (e.g., unrelated words such as `Retrieved on`). Additionally, we get fewer keywords that consist of two words, like *data scientist* or *computer science*. This happens because the RAKE algorithm does a much better job of selecting meaningful keywords from the text. This example highlights the importance of data pre-processing and cleaning, as having a clear picture in the end will help us make better decisions.\n",
"You can see that the word cloud now looks more impressive, but it also contains a lot of noise (e.g., unrelated words such as `Retrieved on`). Also, we get fewer keywords that consist of two words, such as *data scientist*, or *computer science*. This is because the RAKE algorithm does a much better job at selecting good keywords from text. This example illustrates the importance of data pre-processing and cleaning, because a clear picture at the end will allow us to make better decisions.\n",
"\n",
"In this exercise, we went through a simple process of extracting some meaning from Wikipedia text in the form of keywords and a word cloud. While this example is quite basic, it effectively demonstrates the typical steps a data scientist takes when working with data, starting from data acquisition all the way to visualization.\n",
"In this exercise, we have gone through a simple process of extracting some meaning from Wikipedia text, in the form of keywords and a word cloud. This example is quite simple, but it demonstrates well all the typical steps a data scientist will take when working with data, starting from data acquisition, up to visualization.\n",
"\n",
"In our course, we will discuss all of these steps in detail.\n"
"In our course, we will discuss all those steps in detail.\n"
],
"metadata": {}
},
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Disclaimer**: \nThis document has been translated using the AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). While we aim for accuracy, please note that automated translations may include errors or inaccuracies. The original document in its native language should be regarded as the authoritative source. For critical information, professional human translation is advised. We are not responsible for any misunderstandings or misinterpretations resulting from the use of this translation.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Disclaimer**:\nThis document has been translated using the AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). While we strive for accuracy, please be aware that automated translations may contain errors or inaccuracies. The original document in its native language should be considered the authoritative source. For critical information, professional human translation is recommended. We are not liable for any misunderstandings or misinterpretations arising from the use of this translation.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +417,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-03T20:44:26+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "en"
}
},
"nbformat": 4,

@ -5,15 +5,15 @@
"source": [
"# Challenge: Analyzing Text about Data Science\n",
"\n",
"> *In this notebook, we experiment with using a different URL - the Wikipedia article on Machine Learning. You can see that, unlike Data Science, this article contains many terms, which makes the analysis more challenging. We need to find another way to clean up the data after performing keyword extraction to eliminate some frequent but insignificant word combinations.*\n",
"> *In this notebook, we experiment with using different URL - wikipedia article on Machine Learning. You can see that, unlike Data Science, this article contains a lot of terms, this making the analysis more problematic. We need to come up with another way to clean up the data after doing keyword extraction, to get rid of some frequent, but not meaningful word combinations.*\n",
"\n",
"In this example, let's do a simple exercise that covers all the steps of a traditional data science process. You don't need to write any code; you can simply click on the cells below to execute them and observe the results. As a challenge, you are encouraged to try this code with different data.\n",
"In this example, let's do a simple exercise that covers all steps of a traditional data science process. You do not have to write any code, you can just click on the cells below to execute them and observe the result. As a challenge, you are encouraged to try this code out with different data. \n",
"\n",
"## Goal\n",
"\n",
"In this lesson, we have been discussing various concepts related to Data Science. Let's try to uncover more related concepts by performing **text mining**. We will start with a text about Data Science, extract keywords from it, and then attempt to visualize the results.\n",
"In this lesson, we have been discussing different concepts related to Data Science. Let's try to discover more related concepts by doing some **text mining**. We will start with a text about Data Science, extract keywords from it, and then try to visualize the result.\n",
"\n",
"For the text, I will use the Wikipedia page on Data Science:\n"
"As a text, I will use the page on Data Science from Wikipedia:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Step 1: Obtaining the Data\n",
"## Step 1: Getting the Data\n",
"\n",
"The first step in any data science process is acquiring the data. We'll use the `requests` library to accomplish this:\n"
"First step in every data science process is getting the data. We will use `requests` library to do that:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Step 2: Transforming the Data\n",
"\n",
"The next step is to convert the data into a format suitable for processing. In our case, we have downloaded the HTML source code from the page, and we need to convert it into plain text.\n",
"The next step is to convert the data into the form suitable for processing. In our case, we have downloaded HTML source code from the page, and we need to convert it into plain text.\n",
"\n",
"There are many ways to achieve this. We will use the simplest built-in [HTMLParser](https://docs.python.org/3/library/html.parser.html) object from Python. We need to create a subclass of the `HTMLParser` class and define the code that will extract all the text inside HTML tags, excluding `<script>` and `<style>` tags.\n"
"There are many ways this can be done. We will use [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), a popular Python library for parsing HTML. BeautifulSoup allows us to target specific HTML elements, so we can focus on the main article content from Wikipedia and reduce some navigation menus, sidebars, footers, and other irrelevant content (though some boilerplate text may still remain).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"First, we need to install the BeautifulSoup library for HTML parsing:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Step 3: Gaining Insights\n",
"\n",
"The key step is to transform our data into a format that allows us to derive insights. In this case, we aim to extract keywords from the text and identify which keywords carry the most significance.\n",
"\n",
"We'll use a Python library called [RAKE](https://github.com/aneesha/RAKE) for keyword extraction. First, let's install this library if it's not already installed:\n"
"## Step 3: Getting Insights\r\n",
"\r\n",
"The most important step is to turn our data into some form from which we can draw insights. In our case, we want to extract keywords from the text, and see which keywords are more meaningful.\r\n",
"\r\n",
"We will use the Python library called [RAKE](https://github.com/aneesha/RAKE) for keyword extraction. First, let's install this library in case it is not present: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"The main functionality is available from `Rake` object, which we can customize using some parameters. In our case, we will set the minimum length of a keyword to 5 characters, minimum frequency of a keyword in the document to 3, and maximum number of words in a keyword - to 2. Feel free to play around with other values and observe the result.\n"
"The main functionality is available from the `Rake` object, which we can customize using some parameters. In our case, we will set the minimum length of a keyword to 5 characters, minimum frequency of a keyword in the document to 3, and maximum number of words in a keyword to 2. Feel free to play around with other values and observe the result.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"We obtained a list of terms along with their associated level of importance. As you can see, the most relevant fields, such as machine learning and big data, appear at the top of the list.\n",
"\n",
"## Step 4: Visualizing the Result\n",
"\n",
"Data is easiest to understand when presented visually. Therefore, it often makes sense to visualize the data to extract insights. We can use the `matplotlib` library in Python to plot a simple distribution of the keywords based on their relevance:\n"
"\r\n",
"We obtained a list of terms together with the associated degree of importance. As you can see, the most relevant disciplines, such as machine learning and big data, are present in the list at top positions.\r\n",
"\r\n",
"## Step 4: Visualizing the Result\r\n",
"\r\n",
"People can interpret the data best in a visual form. Thus, it often makes sense to visualize the data in order to draw some insights. We can use the `matplotlib` library in Python to plot a simple distribution of the keywords with their relevance:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"There is, however, even better way to visualize word frequencies - using **Word Cloud**. We will need to install another library to plot the word cloud from our keyword list.\n"
"There is, however, an even better way to visualize word frequencies - using **Word Cloud**. We will need to install another library to plot the word cloud from our keyword list.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"WordCloud object is responsible for taking in either original text, or pre-computed list of words with their frequencies, and returns an image, which can then be displayed using matplotlib:\n"
"The `WordCloud` object is responsible for taking in either original text, or a pre-computed list of words with their frequencies, and returns an image, which can then be displayed using `matplotlib`:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"You can see that the word cloud now looks more impressive, but it also contains a lot of noise (e.g., unrelated words such as `Retrieved on`). Additionally, we get fewer keywords that consist of two words, like *data scientist* or *computer science*. This happens because the RAKE algorithm does a much better job of selecting meaningful keywords from the text. This example highlights the importance of data pre-processing and cleaning, as having a clear picture in the end will help us make better decisions.\n",
"You can see that word cloud now looks more impressive, but it also contains a lot of noise (e.g., unrelated words such as `Retrieved on`). Also, we get fewer keywords that consist of two words, such as *data scientist*, or *computer science*. This is because RAKE algorithm does much better job at selecting good keywords from text. This example illustrates the importance of data pre-processing and cleaning, because clear picture at the end will allow us to make better decisions.\n",
"\n",
"In this exercise, we went through a simple process of extracting some meaning from Wikipedia text in the form of keywords and a word cloud. While this example is fairly basic, it effectively demonstrates the typical steps a data scientist takes when working with data, starting from data acquisition all the way to visualization.\n",
"In this exercise we have gone through a simple process of extracting some meaning from Wikipedia text, in the form of keywords and word cloud. This example is quite simple, but it demonstrates well all typical steps a data scientist will take when working with data, starting from data acquisition, up to visualization.\n",
"\n",
"In our course, we will explore all of these steps in detail.\n"
"In our course we will discuss all those steps in detail. \n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Disclaimer**: \nThis document has been translated using the AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). While we aim for accuracy, please note that automated translations may include errors or inaccuracies. The original document in its native language should be regarded as the authoritative source. For critical information, professional human translation is advised. We are not responsible for any misunderstandings or misinterpretations resulting from the use of this translation.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Disclaimer**:\nThis document has been translated using the AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). While we strive for accuracy, please be aware that automated translations may contain errors or inaccuracies. The original document in its native language should be considered the authoritative source. For critical information, professional human translation is recommended. We are not liable for any misunderstandings or misinterpretations arising from the use of this translation.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +525,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-03T20:44:49+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "en"
}
},
"nbformat": 4,

File diff suppressed because one or more lines are too long

@ -36,13 +36,23 @@ Azure Cloud Advocates at Microsoft are pleased to offer a 10-week, 20-lesson cur
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **Prefer to Clone Locally?**
>
> This repository includes 50+ language translations which significantly increases the download size. To clone without translations, use sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> This gives you everything you need to complete the course with a much faster download.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
@ -59,7 +69,7 @@ We have a Discord learn with AI series ongoing, learn more and join us at [Learn
Get started with the following resources:
- [Student Hub page](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) On this page, you will find beginner resources, Student packs and even ways to get a free cert voucher. This is one page you want to bookmark and check from time to time as we switch out content at least monthly.
- [Student Hub page](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) In this page, you will find beginner resources, Student packs and even ways to get a free cert voucher. This is one page you want to bookmark and check from time to time as we switch out content at least monthly.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Join a global community of student ambassadors, this could be your way into Microsoft.
# Getting Started
@ -83,7 +93,6 @@ Get started with the following resources:
4. Join our [Discord community](https://aka.ms/ds4beginners/discord) for support
## 👩‍🏫 For Teachers
> **Teachers**: we have [included some suggestions](for-teachers.md) on how to use this curriculum. We'd love your feedback [in our discussion forum](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Meet the Team
@ -92,7 +101,7 @@ Get started with the following resources:
**Gif by** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Click the image above for a video about the project and the folks who created it!
> 🎥 Click the image above for a video about the project the folks who created it!
## Pedagogy

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "es"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-28T08:39:16+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "es"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-24T21:31:48+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "es"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-28T08:39:44+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "es"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T15:58:40+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "es"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-28T08:40:31+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "es"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T13:36:54+00:00",
@ -360,8 +378,8 @@
"language_code": "es"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T07:19:12+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-28T08:44:53+00:00",
"source_file": "README.md",
"language_code": "es"
},

@ -3,13 +3,13 @@
{
"cell_type": "markdown",
"source": [
"# Desafío: Analizando Texto sobre Ciencia de Datos\n",
"# Desafío: Análisis de texto sobre Ciencia de Datos\n",
"\n",
"En este ejemplo, hagamos un ejercicio sencillo que cubre todos los pasos de un proceso tradicional de ciencia de datos. No necesitas escribir ningún código, simplemente puedes hacer clic en las celdas a continuación para ejecutarlas y observar el resultado. Como desafío, se te anima a probar este código con datos diferentes.\n",
"En este ejemplo, hagamos un ejercicio sencillo que cubra todos los pasos de un proceso tradicional de ciencia de datos. No tienes que escribir ningún código, solo puedes hacer clic en las celdas a continuación para ejecutarlas y observar el resultado. Como desafío, se te anima a probar este código con diferentes datos.\n",
"\n",
"## Objetivo\n",
"\n",
"En esta lección, hemos estado discutiendo diferentes conceptos relacionados con la Ciencia de Datos. Vamos a intentar descubrir más conceptos relacionados haciendo un poco de **minería de texto**. Comenzaremos con un texto sobre Ciencia de Datos, extraeremos palabras clave de él y luego intentaremos visualizar el resultado.\n",
"En esta lección, hemos estado discutiendo diferentes conceptos relacionados con la Ciencia de Datos. Intentemos descubrir más conceptos relacionados realizando algo de **minería de texto**. Comenzaremos con un texto sobre Ciencia de Datos, extraeremos palabras clave de él y luego intentaremos visualizar el resultado.\n",
"\n",
"Como texto, usaré la página sobre Ciencia de Datos de Wikipedia:\n"
],
@ -34,7 +34,7 @@
"source": [
"## Paso 1: Obtener los Datos\n",
"\n",
"El primer paso en todo proceso de ciencia de datos es obtener los datos. Usaremos la biblioteca `requests` para hacerlo:\n"
"El primer paso en cada proceso de ciencia de datos es obtener los datos. Usaremos la biblioteca `requests` para eso:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## Paso 2: Transformar los datos\n",
"## Paso 2: Transformar los Datos\n",
"\n",
"El siguiente paso es convertir los datos en una forma adecuada para su procesamiento. En nuestro caso, hemos descargado el código fuente HTML de la página y necesitamos convertirlo en texto plano.\n",
"El siguiente paso es convertir los datos en la forma adecuada para su procesamiento. En nuestro caso, hemos descargado el código fuente HTML de la página y necesitamos convertirlo en texto plano.\n",
"\n",
"Hay muchas maneras de hacerlo. Usaremos el objeto [HTMLParser](https://docs.python.org/3/library/html.parser.html) integrado más sencillo de Python. Necesitamos crear una subclase de la clase `HTMLParser` y definir el código que recolectará todo el texto dentro de las etiquetas HTML, excepto las etiquetas `<script>` y `<style>`.\n"
"Hay muchas maneras de hacerlo. Usaremos [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), una popular biblioteca de Python para analizar HTML. BeautifulSoup nos permite seleccionar elementos HTML específicos, por lo que podemos centrarnos en el contenido principal del artículo de Wikipedia y reducir algunos menús de navegación, barras laterales, pies de página y otro contenido irrelevante (aunque puede que aún quede algo de texto genérico).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Primero, necesitamos instalar la biblioteca BeautifulSoup para el análisis de HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Paso 3: Obtener información\n",
"## Paso 3: Obtener Perspectivas\n",
"\n",
"El paso más importante es convertir nuestros datos en una forma de la que podamos extraer información. En nuestro caso, queremos extraer palabras clave del texto y determinar cuáles son más significativas.\n",
"El paso más importante es convertir nuestros datos en alguna forma de la que podamos extraer perspectivas. En nuestro caso, queremos extraer palabras clave del texto y ver qué palabras clave son más significativas.\n",
"\n",
"Usaremos una biblioteca de Python llamada [RAKE](https://github.com/aneesha/RAKE) para la extracción de palabras clave. Primero, instalemos esta biblioteca en caso de que no esté presente:\n"
"Usaremos una biblioteca de Python llamada [RAKE](https://github.com/aneesha/RAKE) para la extracción de palabras clave. Primero, instalemos esta biblioteca en caso de que no esté presente: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"La funcionalidad principal está disponible desde el objeto `Rake`, que podemos personalizar utilizando algunos parámetros. En nuestro caso, estableceremos la longitud mínima de una palabra clave en 5 caracteres, la frecuencia mínima de una palabra clave en el documento en 3, y el número máximo de palabras en una palabra clave en 2. Siéntete libre de experimentar con otros valores y observar el resultado.\n"
"La funcionalidad principal está disponible desde el objeto `Rake`, el cual podemos personalizar usando algunos parámetros. En nuestro caso, estableceremos la longitud mínima de una palabra clave en 5 caracteres, la frecuencia mínima de una palabra clave en el documento en 3, y el número máximo de palabras en una palabra clave en 2. Siéntete libre de experimentar con otros valores y observar el resultado.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Obtuvimos una lista de términos junto con su grado de importancia asociado. Como puedes ver, las disciplinas más relevantes, como machine learning y big data, están presentes en la lista en las primeras posiciones.\n",
"Obtuvimos una lista de términos junto con el grado de importancia asociado. Como puede ver, las disciplinas más relevantes, como aprendizaje automático y big data, están presentes en la lista en las posiciones superiores.\n",
"\n",
"## Paso 4: Visualizando el Resultado\n",
"## Paso 4: Visualizar el Resultado\n",
"\n",
"Las personas interpretan mejor los datos en forma visual. Por lo tanto, a menudo tiene sentido visualizar los datos para extraer algunas conclusiones. Podemos usar la biblioteca `matplotlib` en Python para graficar una distribución simple de las palabras clave con su relevancia:\n"
"La gente puede interpretar mejor los datos en forma visual. Por lo tanto, a menudo tiene sentido visualizar los datos para extraer algunas ideas. Podemos usar la biblioteca `matplotlib` en Python para graficar una distribución simple de las palabras clave con su relevancia:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Hay, sin embargo, una manera aún mejor de visualizar las frecuencias de palabras: usando **Word Cloud**. Necesitaremos instalar otra biblioteca para graficar la nube de palabras a partir de nuestra lista de palabras clave.\n"
"Sin embargo, hay una manera aún mejor de visualizar las frecuencias de palabras: usando **Nube de Palabras**. Necesitaremos instalar otra biblioteca para trazar la nube de palabras a partir de nuestra lista de palabras clave.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"El objeto `WordCloud` es responsable de tomar ya sea texto original, o una lista precomputada de palabras con sus frecuencias, y devuelve una imagen, que luego puede ser mostrada usando `matplotlib`:\n"
"El objeto `WordCloud` es responsable de recibir ya sea texto original, o una lista precomputada de palabras con sus frecuencias, y devuelve una imagen, que luego puede mostrarse usando `matplotlib`:\n"
],
"metadata": {}
},
@ -372,9 +370,9 @@
{
"cell_type": "markdown",
"source": [
"Puedes ver que la nube de palabras ahora luce más impresionante, pero también contiene mucho ruido (por ejemplo, palabras no relacionadas como `Retrieved on`). Además, obtenemos menos palabras clave que consisten en dos palabras, como *data scientist* o *computer science*. Esto se debe a que el algoritmo RAKE hace un trabajo mucho mejor al seleccionar buenas palabras clave del texto. Este ejemplo ilustra la importancia de la preprocesamiento y limpieza de datos, ya que una imagen clara al final nos permitirá tomar mejores decisiones.\n",
"Puedes ver que la nube de palabras ahora se ve más impresionante, pero también contiene mucho ruido (por ejemplo, palabras no relacionadas como `Retrieved on`). Además, obtenemos menos palabras clave que consisten en dos palabras, como *data scientist* o *computer science*. Esto se debe a que el algoritmo RAKE hace un mejor trabajo seleccionando buenas palabras clave del texto. Este ejemplo ilustra la importancia del preprocesamiento y la limpieza de datos, porque una imagen clara al final nos permitirá tomar mejores decisiones.\n",
"\n",
"En este ejercicio hemos pasado por un proceso sencillo de extraer algo de significado de un texto de Wikipedia, en forma de palabras clave y nube de palabras. Este ejemplo es bastante simple, pero demuestra bien todos los pasos típicos que un científico de datos seguirá al trabajar con datos, comenzando desde la adquisición de datos hasta la visualización.\n",
"En este ejercicio hemos pasado por un proceso simple de extraer algo de significado del texto de Wikipedia, en forma de palabras clave y nube de palabras. Este ejemplo es bastante simple, pero demuestra bien todos los pasos típicos que un científico de datos tomará al trabajar con datos, comenzando desde la adquisición de datos hasta la visualización.\n",
"\n",
"En nuestro curso discutiremos todos esos pasos en detalle.\n"
],
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Descargo de responsabilidad**: \nEste documento ha sido traducido utilizando el servicio de traducción automática [Co-op Translator](https://github.com/Azure/co-op-translator). Si bien nos esforzamos por garantizar la precisión, tenga en cuenta que las traducciones automatizadas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas que puedan surgir del uso de esta traducción.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Aviso legal**:\nEste documento ha sido traducido utilizando el servicio de traducción automática [Co-op Translator](https://github.com/Azure/co-op-translator). Aunque nos esforzamos por la exactitud, tenga en cuenta que las traducciones automáticas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda la traducción profesional realizada por humanos. No nos hacemos responsables de cualquier malentendido o interpretación errónea que surja del uso de esta traducción.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:31:47+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "es"
}
},
"nbformat": 4,

@ -3,15 +3,15 @@
{
"cell_type": "markdown",
"source": [
"# Desafío: Analizando Texto sobre Ciencia de Datos\n",
"# Desafío: Análisis de texto sobre Ciencia de Datos\n",
"\n",
"> *En este cuaderno, experimentamos con el uso de diferentes URL - artículo de Wikipedia sobre Aprendizaje Automático. Puedes ver que, a diferencia de Ciencia de Datos, este artículo contiene muchos términos, lo que hace que el análisis sea más problemático. Necesitamos idear otra forma de limpiar los datos después de realizar la extracción de palabras clave, para deshacernos de algunas combinaciones de palabras frecuentes pero poco significativas.*\n",
"> *En este cuaderno, experimentamos con el uso de diferentes URL - artículo de Wikipedia sobre Aprendizaje Automático. Puedes ver que, a diferencia de Ciencia de Datos, este artículo contiene muchos términos, lo que hace que el análisis sea más problemático. Necesitamos idear otra forma de limpiar los datos después de hacer la extracción de palabras clave, para deshacernos de algunas combinaciones de palabras frecuentes, pero que no son significativas.*\n",
"\n",
"En este ejemplo, hagamos un ejercicio sencillo que cubre todos los pasos de un proceso tradicional de ciencia de datos. No necesitas escribir ningún código, solo puedes hacer clic en las celdas a continuación para ejecutarlas y observar el resultado. Como desafío, se te anima a probar este código con diferentes datos.\n",
"En este ejemplo, hagamos un ejercicio simple que cubra todos los pasos de un proceso tradicional de ciencia de datos. No tienes que escribir ningún código, puedes simplemente hacer clic en las celdas de abajo para ejecutarlas y observar el resultado. Como desafío, se te anima a probar este código con diferentes datos.\n",
"\n",
"## Objetivo\n",
"\n",
"En esta lección, hemos estado discutiendo diferentes conceptos relacionados con la Ciencia de Datos. Intentemos descubrir más conceptos relacionados haciendo un poco de **minería de texto**. Comenzaremos con un texto sobre Ciencia de Datos, extraeremos palabras clave de él y luego intentaremos visualizar el resultado.\n",
"En esta lección, hemos estado discutiendo diferentes conceptos relacionados con la Ciencia de Datos. Intentemos descubrir más conceptos relacionados haciendo algo de **minería de texto**. Comenzaremos con un texto sobre Ciencia de Datos, extraeremos palabras clave de él y luego intentaremos visualizar el resultado.\n",
"\n",
"Como texto, usaré la página sobre Ciencia de Datos de Wikipedia:\n"
],
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Paso 2: Transformar los datos\n",
"## Paso 2: Transformar los Datos\n",
"\n",
"El siguiente paso es convertir los datos en una forma adecuada para su procesamiento. En nuestro caso, hemos descargado el código fuente HTML de la página y necesitamos convertirlo en texto plano.\n",
"El siguiente paso es convertir los datos en la forma adecuada para el procesamiento. En nuestro caso, hemos descargado el código fuente HTML de la página, y necesitamos convertirlo en texto plano.\n",
"\n",
"Hay muchas maneras de hacerlo. Usaremos el objeto [HTMLParser](https://docs.python.org/3/library/html.parser.html) incorporado más simple de Python. Necesitamos crear una subclase de la clase `HTMLParser` y definir el código que recolectará todo el texto dentro de las etiquetas HTML, excepto las etiquetas `<script>` y `<style>`.\n"
"Hay muchas maneras de hacer esto. Usaremos [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), una popular biblioteca de Python para analizar HTML. BeautifulSoup nos permite enfocar elementos HTML específicos, por lo que podemos centrarnos en el contenido principal del artículo de Wikipedia y reducir algunos menús de navegación, barras laterales, pies de página y otros contenidos irrelevantes (aunque puede que todavía permanezca algo de texto genérico).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Primero, necesitamos instalar la biblioteca BeautifulSoup para el análisis de HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Paso 3: Obtener información\n",
"## Step 3: Obtención de Información\n",
"\n",
"El paso más importante es convertir nuestros datos en una forma de la que podamos extraer información. En nuestro caso, queremos extraer palabras clave del texto y ver cuáles son más significativas.\n",
"El paso más importante es convertir nuestros datos en una forma a partir de la cual podamos extraer información. En nuestro caso, queremos extraer palabras clave del texto y ver qué palabras clave son más significativas.\n",
"\n",
"Usaremos una biblioteca de Python llamada [RAKE](https://github.com/aneesha/RAKE) para la extracción de palabras clave. Primero, instalemos esta biblioteca en caso de que no esté presente:\n"
"Usaremos la biblioteca de Python llamada [RAKE](https://github.com/aneesha/RAKE) para la extracción de palabras clave. Primero, instalemos esta biblioteca en caso de que no esté presente: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"La funcionalidad principal está disponible desde el objeto `Rake`, que podemos personalizar utilizando algunos parámetros. En nuestro caso, estableceremos la longitud mínima de una palabra clave en 5 caracteres, la frecuencia mínima de una palabra clave en el documento en 3, y el número máximo de palabras en una palabra clave en 2. Siéntete libre de experimentar con otros valores y observar el resultado.\n"
"La funcionalidad principal está disponible a partir del objeto `Rake`, que podemos personalizar usando algunos parámetros. En nuestro caso, estableceremos la longitud mínima de una palabra clave en 5 caracteres, la frecuencia mínima de una palabra clave en el documento en 3 y el número máximo de palabras en una palabra clave en 2. Siéntete libre de experimentar con otros valores y observar el resultado.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Obtuvimos una lista de términos junto con su grado de importancia asociado. Como puedes ver, las disciplinas más relevantes, como aprendizaje automático y big data, están presentes en los primeros puestos de la lista.\n",
"Obtuvimos una lista de términos junto con el grado de importancia asociado. Como puede ver, las disciplinas más relevantes, como el aprendizaje automático y los grandes datos, están presentes en la lista en las primeras posiciones.\n",
"\n",
"## Paso 4: Visualización del Resultado\n",
"\n",
"Las personas pueden interpretar mejor los datos en forma visual. Por lo tanto, a menudo tiene sentido visualizar los datos para extraer algunas conclusiones. Podemos usar la biblioteca `matplotlib` en Python para graficar una distribución simple de las palabras clave con su relevancia:\n"
"Las personas pueden interpretar mejor los datos en forma visual. Por lo tanto, a menudo tiene sentido visualizar los datos para extraer algunas ideas. Podemos usar la biblioteca `matplotlib` en Python para trazar la distribución simple de las palabras clave con su relevancia:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Hay, sin embargo, una manera aún mejor de visualizar las frecuencias de palabras: usar **Word Cloud**. Necesitaremos instalar otra biblioteca para graficar la nube de palabras a partir de nuestra lista de palabras clave.\n"
"Sin embargo, hay una manera aún mejor de visualizar las frecuencias de palabras: usando **Nube de Palabras**. Necesitaremos instalar otra biblioteca para trazar la nube de palabras a partir de nuestra lista de palabras clave.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"El objeto `WordCloud` es responsable de recibir ya sea el texto original o una lista precomputada de palabras con sus frecuencias, y devuelve una imagen, que luego puede ser mostrada usando `matplotlib`:\n"
"El objeto `WordCloud` es responsable de tomar ya sea el texto original o una lista precomputada de palabras con sus frecuencias, y devuelve una imagen, que luego puede mostrarse usando `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"También podemos pasar el texto original a `WordCloud` - veamos si podemos obtener un resultado similar:\n"
"También podemos pasar el texto original a `WordCloud` - veamos si somos capaces de obtener un resultado similar:\n"
],
"metadata": {}
},
@ -490,9 +488,9 @@
{
"cell_type": "markdown",
"source": [
"Puedes ver que la nube de palabras ahora luce más impresionante, pero también contiene mucho ruido (por ejemplo, palabras no relacionadas como `Retrieved on`). Además, obtenemos menos palabras clave que consisten en dos palabras, como *data scientist* o *computer science*. Esto se debe a que el algoritmo RAKE hace un mejor trabajo al seleccionar buenas palabras clave del texto. Este ejemplo ilustra la importancia de la preprocesamiento y limpieza de datos, ya que una imagen clara al final nos permitirá tomar mejores decisiones.\n",
"Puedes ver que ahora la nube de palabras se ve más impresionante, pero también contiene mucho ruido (por ejemplo, palabras no relacionadas como `Retrieved on`). Además, obtenemos menos palabras clave que consisten en dos palabras, como *data scientist* o *computer science*. Esto se debe a que el algoritmo RAKE hace un mejor trabajo al seleccionar buenas palabras clave del texto. Este ejemplo ilustra la importancia del preprocesamiento y limpieza de datos, porque una imagen clara al final nos permitirá tomar mejores decisiones.\n",
"\n",
"En este ejercicio hemos pasado por un proceso sencillo de extraer algo de significado de un texto de Wikipedia, en forma de palabras clave y nube de palabras. Este ejemplo es bastante simple, pero demuestra bien todos los pasos típicos que un científico de datos seguirá al trabajar con datos, comenzando desde la adquisición de datos hasta la visualización.\n",
"En este ejercicio hemos seguido un proceso simple de extraer algo de significado del texto de Wikipedia, en forma de palabras clave y nube de palabras. Este ejemplo es bastante simple, pero demuestra bien todos los pasos típicos que un científico de datos tomará al trabajar con datos, empezando desde la adquisición de datos hasta la visualización.\n",
"\n",
"En nuestro curso discutiremos todos esos pasos en detalle.\n"
],
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Descargo de responsabilidad**: \nEste documento ha sido traducido utilizando el servicio de traducción automática [Co-op Translator](https://github.com/Azure/co-op-translator). Si bien nos esforzamos por lograr precisión, tenga en cuenta que las traducciones automáticas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse como la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas que puedan surgir del uso de esta traducción.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Aviso legal**: \nEste documento ha sido traducido utilizando el servicio de traducción por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Aunque nos esforzamos por la precisión, tenga en cuenta que las traducciones automáticas pueden contener errores o inexactitudes. El documento original en su lengua nativa debe considerarse la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas derivadas del uso de esta traducción.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:43:19+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "es"
}
},
"nbformat": 4,

File diff suppressed because one or more lines are too long

@ -1,91 +1,101 @@
# Ciencia de Datos para Principiantes - Un Plan de Estudios
# Ciencia de Datos para Principiantes - Un Currículo
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![Abrir en GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![Licencia de GitHub](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![Colaboradores de GitHub](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![Problemas de GitHub](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![Solicitudes de extracción de GitHub](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Bienvenidas](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Observadores de GitHub](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![Bifurcaciones de GitHub](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![Estrellas de GitHub](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Discord Microsoft Foundry](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![Foro de Desarrolladores de Microsoft Foundry](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Los Azure Cloud Advocates de Microsoft se complacen en ofrecer un plan de estudios de 10 semanas y 20 lecciones sobre Ciencia de Datos. Cada lección incluye cuestionarios previos y posteriores a la lección, instrucciones escritas para completar la lección, una solución y una tarea. Nuestra pedagogía basada en proyectos te permite aprender mientras construyes, una forma comprobada para que las nuevas habilidades "se afiancen".
Los Defensores de Azure Cloud en Microsoft tienen el gusto de ofrecer un currículo de 10 semanas y 20 lecciones completo sobre Ciencia de Datos. Cada lección incluye cuestionarios antes y después de la lección, instrucciones escritas para completar la lección, una solución y una tarea. Nuestra pedagogía basada en proyectos te permite aprender mientras construyes, una forma comprobada de que las nuevas habilidades se 'fijen'.
**Un gran agradecimiento a nuestros autores:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**Un sincero agradecimiento a nuestros autores:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Agradecimientos especiales 🙏 a nuestros autores, revisores y colaboradores de contenido [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** especialmente Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Agradecimientos especiales 🙏 a nuestros autores, revisores y colaboradores de contenido de [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** notablemente Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/es/00-Title.8af36cd35da1ac55.webp)|
|![Sketchnote por @sketchthedocs https://sketchthedocs.dev](../../translated_images/es/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Ciencia de Datos para Principiantes - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
### 🌐 Soporte Multi-Idioma
### 🌐 Soporte Multilingüe
#### Soportado vía GitHub Action (Automatizado y Siempre Actualizado)
#### Soportado mediante GitHub Action (Automatizado y Siempre Actualizado)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Árabe](../ar/README.md) | [Bengalí](../bn/README.md) | [Búlgaro](../bg/README.md) | [Birmano (Myanmar)](../my/README.md) | [Chino (Simplificado)](../zh-CN/README.md) | [Chino (Tradicional, Hong Kong)](../zh-HK/README.md) | [Chino (Tradicional, Macao)](../zh-MO/README.md) | [Chino (Tradicional, Taiwán)](../zh-TW/README.md) | [Croata](../hr/README.md) | [Checo](../cs/README.md) | [Danés](../da/README.md) | [Holandés](../nl/README.md) | [Estonio](../et/README.md) | [Finlandés](../fi/README.md) | [Francés](../fr/README.md) | [Alemán](../de/README.md) | [Griego](../el/README.md) | [Hebreo](../he/README.md) | [Hindi](../hi/README.md) | [Húngaro](../hu/README.md) | [Indonesio](../id/README.md) | [Italiano](../it/README.md) | [Japonés](../ja/README.md) | [Kannada](../kn/README.md) | [Coreano](../ko/README.md) | [Lituano](../lt/README.md) | [Malayo](../ms/README.md) | [Malayalam](../ml/README.md) | [Maratí](../mr/README.md) | [Nepalí](../ne/README.md) | [Pidgin Nigeriano](../pcm/README.md) | [Noruego](../no/README.md) | [Persa (Farsi)](../fa/README.md) | [Polaco](../pl/README.md) | [Portugués (Brasil)](../pt-BR/README.md) | [Portugués (Portugal)](../pt-PT/README.md) | [Punyabí (Gurmukhi)](../pa/README.md) | [Rumano](../ro/README.md) | [Ruso](../ru/README.md) | [Serbio (Cirílico)](../sr/README.md) | [Eslovaco](../sk/README.md) | [Esloveno](../sl/README.md) | [Español](./README.md) | [Swahili](../sw/README.md) | [Sueco](../sv/README.md) | [Tagalo (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Tailandés](../th/README.md) | [Turco](../tr/README.md) | [Ucraniano](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamita](../vi/README.md)
[Árabe](../ar/README.md) | [Bengalí](../bn/README.md) | [Búlgaro](../bg/README.md) | [Birmano (Myanmar)](../my/README.md) | [Chino (Simplificado)](../zh-CN/README.md) | [Chino (Tradicional, Hong Kong)](../zh-HK/README.md) | [Chino (Tradicional, Macau)](../zh-MO/README.md) | [Chino (Tradicional, Taiwán)](../zh-TW/README.md) | [Croata](../hr/README.md) | [Checo](../cs/README.md) | [Danés](../da/README.md) | [Neerlandés](../nl/README.md) | [Estonio](../et/README.md) | [Finlandés](../fi/README.md) | [Francés](../fr/README.md) | [Alemán](../de/README.md) | [Griego](../el/README.md) | [Hebreo](../he/README.md) | [Hindi](../hi/README.md) | [Húngaro](../hu/README.md) | [Indonesio](../id/README.md) | [Italiano](../it/README.md) | [Japonés](../ja/README.md) | [Kannada](../kn/README.md) | [Coreano](../ko/README.md) | [Lituano](../lt/README.md) | [Malayo](../ms/README.md) | [Malayalam](../ml/README.md) | [Maratí](../mr/README.md) | [Nepalí](../ne/README.md) | [Pidgin Nigeriano](../pcm/README.md) | [Noruego](../no/README.md) | [Persa (Farsi)](../fa/README.md) | [Polaco](../pl/README.md) | [Portugués (Brasil)](../pt-BR/README.md) | [Portugués (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Rumano](../ro/README.md) | [Ruso](../ru/README.md) | [Serbio (Cirílico)](../sr/README.md) | [Eslovaco](../sk/README.md) | [Esloveno](../sl/README.md) | [Español](./README.md) | [Swahili](../sw/README.md) | [Sueco](../sv/README.md) | [Tagalo (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Tailandés](../th/README.md) | [Turco](../tr/README.md) | [Ucraniano](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamita](../vi/README.md)
> **¿Prefieres clonar localmente?**
> Este repositorio incluye traducciones a más de 50 idiomas, lo que incrementa significativamente el tamaño de la descarga. Para clonar sin traducciones, usa sparse checkout:
> **¿Prefieres Clonar Localmente?**
>
> Este repositorio incluye más de 50 traducciones de idiomas, lo que aumenta significativamente el tamaño de la descarga. Para clonar sin traducciones, usa la extracción selectiva:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> Esto te da todo lo necesario para completar el curso con una descarga mucho más rápida.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Esto te da todo lo que necesitas para completar el curso con una descarga mucho más rápida.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Si deseas que se soporten idiomas adicionales, los idiomas compatibles están listados [aquí](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Si deseas tener más idiomas de traducción soportados, están listados [aquí](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Únete a Nuestra Comunidad
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
#### Únete a Nuestra Comunidad
[![Discord Microsoft Foundry](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Tenemos una serie en Discord para aprender con IA en curso, aprende más y únete en [Learn with AI Series](https://aka.ms/learnwithai/discord) del 18 al 30 de septiembre de 2025. Recibirás consejos y trucos sobre cómo usar GitHub Copilot para Ciencia de Datos.
Tenemos una serie en Discord Aprende con IA en curso, conoce más y únete a nosotros en [Serie Aprende con IA](https://aka.ms/learnwithai/discord) del 18 al 30 de septiembre de 2025. Obtendrás consejos y trucos para usar GitHub Copilot para Ciencia de Datos.
![Learn with AI series](../../translated_images/es/1.2b28cdc6205e26fe.webp)
![Serie Aprende con IA](../../translated_images/es/1.2b28cdc6205e26fe.webp)
# ¿Eres estudiante?
Comienza con los siguientes recursos:
- [Página del Hub de Estudiantes](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) En esta página encontrarás recursos para principiantes, paquetes para estudiantes e incluso formas de obtener un cupón gratuito para certificado. Esta es una página que querrás marcar y revisar de vez en cuando, ya que cambiamos el contenido al menos mensualmente.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Únete a una comunidad global de embajadores estudiantiles, esta podría ser tu puerta de entrada a Microsoft.
- [Página del Centro de Estudiantes](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) En esta página encontrarás recursos para principiantes, paquetes para estudiantes e incluso formas de obtener un cupón de certificación gratis. Esta es una página que quieres marcar y consultar de vez en cuando ya que cambiamos el contenido al menos mensualmente.
- [Embajadores Estudiantiles de Microsoft Learn](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Únete a una comunidad global de embajadores estudiantiles, esto podría ser tu entrada a Microsoft.
# Empezando
# Cómo Comenzar
## 📚 Documentación
- **[Guía de Instalación](INSTALLATION.md)** - Instrucciones paso a paso para principiantes
- **[Guía de Instalación](INSTALLATION.md)** - Instrucciones paso a paso para configurar para principiantes
- **[Guía de Uso](USAGE.md)** - Ejemplos y flujos de trabajo comunes
- **[Solución de Problemas](TROUBLESHOOTING.md)** - Soluciones a problemas comunes
- **[Guía para Contribuir](CONTRIBUTING.md)** - Cómo contribuir a este proyecto
- **[Para Profesores](for-teachers.md)** - Guía para enseñar y recursos para el aula
- **[Guía de Contribución](CONTRIBUTING.md)** - Cómo contribuir a este proyecto
- **[Para Profesores](for-teachers.md)** - Guía pedagógica y recursos para el aula
## 👨‍🎓 Para Estudiantes
> **Principiantes Completos**: ¿Nuevo en ciencia de datos? ¡Comienza con nuestros [ejemplos amigables para principiantes](examples/README.md)! Estos ejemplos simples y bien comentados te ayudarán a entender los conceptos básicos antes de sumergirte en el plan completo.
> **[Estudiantes](https://aka.ms/student-page)**: para usar este currículo por tu cuenta, haz un fork de todo el repositorio y completa los ejercicios tú mismo, comenzando con un cuestionario previo a la lección. Luego lee la lección y completa el resto de actividades. Trata de crear los proyectos comprendiendo las lecciones en lugar de copiar el código de solución; sin embargo, ese código está disponible en las carpetas /solutions de cada lección orientada a proyectos. Otra idea sería formar un grupo de estudio con amigos y recorrer el contenido juntos. Para estudio adicional, recomendamos [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Principiantes Completos**: ¿Nuevo en ciencia de datos? Comienza con nuestros [ejemplos para principiantes](examples/README.md). Estos ejemplos simples y bien comentados te ayudarán a entender lo básico antes de sumergirte en el currículo completo.
> **[Estudiantes](https://aka.ms/student-page)**: para usar este currículo por tu cuenta, bifurca todo el repositorio y completa los ejercicios por tu cuenta, comenzando con un cuestionario previo a la lección. Luego lee la lección y completa el resto de las actividades. Intenta crear los proyectos comprendiendo las lecciones en lugar de copiar el código de la solución; sin embargo, ese código está disponible en las carpetas /solutions en cada lección orientada a proyectos. Otra idea sería formar un grupo de estudio con amigos y revisar el contenido juntos. Para un estudio adicional, recomendamos [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Inicio rápido:**
**Inicio Rápido:**
1. Revisa la [Guía de Instalación](INSTALLATION.md) para configurar tu entorno
2. Revisa la [Guía de Uso](USAGE.md) para aprender a trabajar con el currículo
3. Comienza con la Lección 1 y avanza secuencialmente
4. Únete a nuestra [comunidad de Discord](https://aka.ms/ds4beginners/discord) para soporte
2. Revisa la [Guía de Uso](USAGE.md) para saber cómo trabajar con el currículo
3. Comienza con la Lección 1 y continúa secuencialmente
4. Únete a nuestra [comunidad en Discord](https://aka.ms/ds4beginners/discord) para soporte
## 👩‍🏫 Para Profesores
> **Profesores**: hemos [incluido algunas sugerencias](for-teachers.md) sobre cómo usar este plan de estudios. ¡Nos encantaría recibir sus comentarios [en nuestro foro de discusión](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Profesores**: hemos [incluido algunas sugerencias](for-teachers.md) sobre cómo usar este plan de estudios. ¡Nos encantaría recibir sus comentarios [en nuestro foro de discusión](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!}
## Conoce al equipo
## Conozca al equipo
[![Video promocional](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Video promocional")
@ -95,107 +105,107 @@ Comienza con los siguientes recursos:
## Pedagogía
Hemos elegido dos principios pedagógicos al construir este plan de estudios: asegurar que sea basado en proyectos y que incluya cuestionarios frecuentes. Al final de esta serie, los estudiantes habrán aprendido los principios básicos de la ciencia de datos, incluidos conceptos éticos, preparación de datos, diferentes formas de trabajar con datos, visualización de datos, análisis de datos, casos de uso reales de la ciencia de datos y más.
Hemos elegido dos principios pedagógicos al crear este plan de estudios: asegurarnos de que esté basado en proyectos y que incluya cuestionarios frecuentes. Al final de esta serie, los estudiantes habrán aprendido principios básicos de la ciencia de datos, incluidos conceptos éticos, preparación de datos, diferentes formas de trabajar con datos, visualización de datos, análisis de datos, casos de uso del mundo real de la ciencia de datos y más.
Además, un cuestionario de bajo riesgo antes de una clase establece la intención del estudiante hacia el aprendizaje de un tema, mientras que un segundo cuestionario después de la clase asegura una mayor retención. Este plan de estudios fue diseñado para ser flexible y divertido, y puede ser tomado en su totalidad o en parte. Los proyectos comienzan pequeños y se vuelven progresivamente más complejos al final del ciclo de 10 semanas.
Además, un cuestionario de baja presión antes de una clase establece la intención del estudiante hacia el aprendizaje de un tema, mientras que un segundo cuestionario después de la clase asegura una mayor retención. Este plan de estudios fue diseñado para ser flexible y divertido y puede tomarse en su totalidad o en partes. Los proyectos comienzan pequeños y se vuelven cada vez más complejos al final del ciclo de 10 semanas.
> Encuentra nuestras [Normas de Conducta](CODE_OF_CONDUCT.md), [Contribuciones](CONTRIBUTING.md), [Traducción](TRANSLATIONS.md). ¡Agradecemos tus comentarios constructivos!
> Encuentre nuestro [Código de Conducta](CODE_OF_CONDUCT.md), [Contribuciones](CONTRIBUTING.md), [Traducción](TRANSLATIONS.md). ¡Damos la bienvenida a sus comentarios constructivos!
## Cada lección incluye:
- Sketchnote opcional
- Video complementario opcional
- Video suplementario opcional
- Cuestionario de calentamiento previo a la lección
- Lección escrita
- Para lecciones basadas en proyectos, guías paso a paso sobre cómo construir el proyecto
- Controles de conocimiento
- Un reto
- Lectura complementaria
- Tarea
- [Cuestionario post-lección](https://ff-quizzes.netlify.app/en/)
- Comprobaciones de conocimiento
- Un desafío
- Lectura suplementaria
- Asignación
- [Cuestionario posterior a la lección](https://ff-quizzes.netlify.app/en/)
> **Una nota sobre los cuestionarios**: Todos los cuestionarios están contenidos en la carpeta Quiz-App, con un total de 40 cuestionarios de tres preguntas cada uno. Están enlazados desde dentro de las lecciones, pero la aplicación de cuestionarios puede ejecutarse localmente o desplegarse en Azure; sigue las instrucciones en la carpeta `quiz-app`. Están siendo localizados gradualmente.
> **Una nota sobre los cuestionarios**: Todos los cuestionarios están contenidos en la carpeta Quiz-App, con un total de 40 cuestionarios de tres preguntas cada uno. Están enlazados desde dentro de las lecciones, pero la aplicación de cuestionarios puede ejecutarse localmente o desplegarse en Azure; siga las instrucciones en la carpeta `quiz-app`. Se están localizando gradualmente.
## 🎓 Ejemplos para principiantes
## 🎓 Ejemplos amigables para principiantes
**¿Nuevo en Ciencia de Datos?** Hemos creado un [directorio de ejemplos](examples/README.md) especial con código simple y bien comentado para ayudarte a comenzar:
**¿Nuevo en Ciencia de Datos?** Hemos creado un [directorio de ejemplos](examples/README.md) especial con código simple y bien comentado para ayudarte a empezar:
- 🌟 **Hola Mundo** - Tu primer programa de ciencia de datos
- 📂 **Carga de Datos** - Aprende a leer y explorar conjuntos de datos
- 📊 **Análisis Simple** - Calcular estadísticas y encontrar patrones
- 📈 **Visualización Básica** - Crear gráficos y diagramas
- 🔬 **Proyecto del mundo real** - Flujo de trabajo completo de principio a fin
- 📂 **Cargando Datos** - Aprende a leer y explorar conjuntos de datos
- 📊 **Análisis Simple** - Calcula estadísticas y encuentra patrones
- 📈 **Visualización Básica** - Crea gráficos y diagramas
- 🔬 **Proyecto del Mundo Real** - Flujo de trabajo completo de principio a fin
Cada ejemplo incluye comentarios detallados explicando cada paso, ¡lo que lo hace perfecto para principiantes absolutos!
Cada ejemplo incluye comentarios detallados que explican cada paso, ¡haciendo que sea perfecto para principiantes absolutos!
👉 **[Comienza con los ejemplos](examples/README.md)** 👈
## Lecciones
|![Sketchnote por @sketchthedocs https://sketchthedocs.dev](../../translated_images/es/00-Roadmap.4905d6567dff4753.webp)|
|![ Sketchnote por @sketchthedocs https://sketchthedocs.dev](../../translated_images/es/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Ciencia de Datos para Principiantes: Mapa de ruta - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
| Ciencia de Datos para Principiantes: Hoja de ruta - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
| Número de lección | Tema | Agrupación de lecciones | Objetivos de aprendizaje | Lección enlazada | Autor |
| :------------: | :----------------------------------------: | :--------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :------------------------------------------------------------: | :----: |
| 01 | Definiendo Ciencia de Datos | [Introducción](1-Introduction/README.md) | Aprende los conceptos básicos detrás de la ciencia de datos y cómo se relaciona con la inteligencia artificial, aprendizaje automático y big data. | [lección](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Ética en Ciencia de Datos | [Introducción](1-Introduction/README.md) | Conceptos, desafíos y marcos de Ética de Datos. | [lección](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| Número de lección | Tema | Agrupación de lección | Objetivos de aprendizaje | Lección enlazada | Autor |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Definiendo Ciencia de Datos | [Introducción](1-Introduction/README.md) | Aprende los conceptos básicos detrás de la ciencia de datos y cómo está relacionada con la inteligencia artificial, el aprendizaje automático y los grandes datos. | [lección](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Ética en Ciencia de Datos | [Introducción](1-Introduction/README.md) | Conceptos, desafíos y marcos de la ética de datos. | [lección](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definiendo Datos | [Introducción](1-Introduction/README.md) | Cómo se clasifican los datos y sus fuentes comunes. | [lección](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introducción a Estadísticas y Probabilidad | [Introducción](1-Introduction/README.md) | Técnicas matemáticas de probabilidad y estadística para entender datos. | [lección](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Trabajando con Datos Relacionales | [Trabajando con Datos](2-Working-With-Data/README.md) | Introducción a datos relacionales y los conceptos básicos para explorar y analizar datos relacionales con el Lenguaje de Consulta Estructurada, también conocido como SQL (pronunciado “sí-cue-él”). | [lección](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Trabajando con Datos NoSQL | [Trabajando con Datos](2-Working-With-Data/README.md) | Introducción a datos no relacionales, sus varios tipos y conceptos básicos para explorar y analizar bases de datos documentales. | [lección](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique) |
| 07 | Trabajando con Python | [Trabajando con Datos](2-Working-With-Data/README.md) | Conceptos básicos de uso de Python para la exploración de datos con librerías como Pandas. Se recomienda un entendimiento fundamental de programación en Python. | [lección](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Preparación de Datos | [Trabajando con Datos](2-Working-With-Data/README.md) | Temas sobre técnicas para limpiar y transformar datos para manejar retos de datos faltantes, incorrectos o incompletos. | [lección](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualización de Cantidades | [Visualización de Datos](3-Data-Visualization/README.md) | Aprende a usar Matplotlib para visualizar datos de aves 🦆 | [lección](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualización de Distribuciones de Datos | [Visualización de Datos](3-Data-Visualization/README.md) | Visualización de observaciones y tendencias dentro de un intervalo. | [lección](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualización de Proporciones | [Visualización de Datos](3-Data-Visualization/README.md) | Visualización de porcentajes discretos y agrupados. | [lección](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualización de Relaciones | [Visualización de Datos](3-Data-Visualization/README.md) | Visualizando conexiones y correlaciones entre conjuntos de datos y sus variables. | [lección](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualizaciones Significativas | [Visualización de Datos](3-Data-Visualization/README.md) | Técnicas y directrices para hacer que tus visualizaciones sean valiosas para la resolución efectiva de problemas e insights. | [lección](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introducción al ciclo de vida de la Ciencia de Datos | [Ciclo de vida](4-Data-Science-Lifecycle/README.md) | Introducción al ciclo de vida de la ciencia de datos y su primer paso que es adquirir y extraer datos. | [lección](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analizando | [Ciclo de vida](4-Data-Science-Lifecycle/README.md) | Esta fase del ciclo de vida de la ciencia de datos se enfoca en técnicas para analizar datos. | [lección](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Comunicación | [Ciclo de vida](4-Data-Science-Lifecycle/README.md) | Esta fase del ciclo de vida de la ciencia de datos se enfoca en presentar los insights de los datos de una manera que facilite la comprensión para los tomadores de decisiones. | [lección](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 04 | Introducción a Estadística y Probabilidad | [Introducción](1-Introduction/README.md) | Técnicas matemáticas de probabilidad y estadística para entender los datos. | [lección](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Trabajando con Datos Relacionales | [Trabajando con Datos](2-Working-With-Data/README.md) | Introducción a datos relacionales y los conceptos básicos para explorar y analizar datos relacionales con el Lenguaje de Consulta Estructurada, también conocido como SQL (pronunciado “see-quell”). | [lección](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Trabajando con Datos NoSQL | [Trabajando con Datos](2-Working-With-Data/README.md) | Introducción a datos no relacionales, sus varios tipos y los conceptos básicos para explorar y analizar bases de datos de documentos. | [lección](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Trabajando con Python | [Trabajando con Datos](2-Working-With-Data/README.md) | Conceptos básicos de usar Python para la exploración de datos con librerías como Pandas. Se recomienda un entendimiento fundamental de la programación en Python. | [lección](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Preparación de Datos | [Trabajando con Datos](2-Working-With-Data/README.md) | Temas sobre técnicas para limpiar y transformar datos para manejar desafíos de datos faltantes, inexactos o incompletos. | [lección](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualizando Cantidades | [Visualización de Datos](3-Data-Visualization/README.md) | Aprende a usar Matplotlib para visualizar datos de aves 🦆 | [lección](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualizando Distribuciones de Datos | [Visualización de Datos](3-Data-Visualization/README.md) | Visualización de observaciones y tendencias dentro de un intervalo. | [lección](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualizando Proporciones | [Visualización de Datos](3-Data-Visualization/README.md) | Visualización de porcentajes discretos y agrupados. | [lección](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualizando Relaciones | [Visualización de Datos](3-Data-Visualization/README.md) | Visualización de conexiones y correlaciones entre conjuntos de datos y sus variables. | [lección](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualizaciones Significativas | [Visualización de Datos](3-Data-Visualization/README.md) | Técnicas y guías para hacer que tus visualizaciones sean valiosas para la resolución efectiva de problemas y conocimientos. | [lección](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introducción al ciclo de vida de la Ciencia de Datos | [Ciclo de vida](4-Data-Science-Lifecycle/README.md) | Introducción al ciclo de vida de la ciencia de datos y su primer paso de adquisición y extracción de datos. | [lección](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Análisis | [Ciclo de vida](4-Data-Science-Lifecycle/README.md) | Esta fase del ciclo de vida de la ciencia de datos se enfoca en técnicas para analizar datos. | [lección](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Comunicación | [Ciclo de vida](4-Data-Science-Lifecycle/README.md) | Esta fase del ciclo de vida de la ciencia de datos se enfoca en presentar los conocimientos extraídos de los datos de una manera que facilite la comprensión a quienes toman decisiones. | [lección](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Ciencia de Datos en la Nube | [Datos en la Nube](5-Data-Science-In-Cloud/README.md) | Esta serie de lecciones introduce la ciencia de datos en la nube y sus beneficios. | [lección](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) y [Maud](https://twitter.com/maudstweets) |
| 18 | Ciencia de Datos en la Nube | [Datos en la Nube](5-Data-Science-In-Cloud/README.md) | Entrenamiento de modelos usando herramientas Low Code. |[lección](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) y [Maud](https://twitter.com/maudstweets) |
| 19 | Ciencia de Datos en la Nube | [Datos en la Nube](5-Data-Science-In-Cloud/README.md) | Despliegue de modelos con Azure Machine Learning Studio. | [lección](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) y [Maud](https://twitter.com/maudstweets) |
| 20 | Ciencia de Datos en el Mundo Real | [En el Mundo Real](6-Data-Science-In-Wild/README.md) | Proyectos impulsados por ciencia de datos en el mundo real. | [lección](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 20 | Ciencia de Datos en la Vida Real | [En la vida real](6-Data-Science-In-Wild/README.md) | Proyectos impulsados por la ciencia de datos en el mundo real. | [lección](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Sigue estos pasos para abrir esta muestra en un Codespace:
Sigue estos pasos para abrir este ejemplo en un Codespace:
1. Haz clic en el menú desplegable Código y selecciona la opción Abrir con Codespaces.
2. Selecciona + Nuevo codespace en la parte inferior del panel.
Para más información, consulta la [documentación de GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remoto - Contenedores
## VSCode Remote - Containers
Sigue estos pasos para abrir este repositorio en un contenedor usando tu máquina local y VSCode con la extensión VS Code Remote - Containers:
1. Si es la primera vez que usas un contenedor de desarrollo, asegúrate de que tu sistema cumple con los requisitos previos (por ejemplo, tener Docker instalado) en [la documentación para empezar](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Si es la primera vez que usas un contenedor de desarrollo, asegúrate de que tu sistema cumpla con los requisitos previos (por ejemplo, tener Docker instalado) en [la documentación de inicio](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Para usar este repositorio, puedes abrir el repositorio en un volumen Docker aislado:
Para usar este repositorio, puedes abrirlo en un volumen Docker aislado:
**Nota**: Bajo el capó, esto usará el comando Remote-Containers: **Clonar repositorio en volumen de contenedor...** para clonar el código fuente en un volumen Docker en lugar del sistema de archivos local. [Los volúmenes](https://docs.docker.com/storage/volumes/) son el mecanismo preferido para persistir datos de contenedores.
**Nota**: Internamente, esto usará el comando Remote-Containers: **Clonar repositorio en volumen de contenedor...** para clonar el código fuente en un volumen Docker en lugar del sistema de archivos local. Los [volúmenes](https://docs.docker.com/storage/volumes/) son el mecanismo preferido para persistir datos de contenedores.
O abre una versión clonada o descargada localmente del repositorio:
O abre una versión del repositorio clonada o descargada localmente:
- Clona este repositorio en tu sistema de archivos local.
- Presiona F1 y selecciona el comando **Remote-Containers: Abrir carpeta en contenedor...**.
- Selecciona la copia clonada de esta carpeta, espera a que el contenedor se inicie y prueba.
- Presiona F1 y selecciona el comando **Remote-Containers: Abrir carpeta en un contenedor...**.
- Selecciona la copia clonada de esta carpeta, espera a que el contenedor se inicie y prueba las funciones.
## Acceso fuera de línea
## Acceso sin conexión
Puedes ejecutar esta documentación sin conexión usando [Docsify](https://docsify.js.org/#/). Haz un fork de este repositorio, [instala Docsify](https://docsify.js.org/#/quickstart) en tu máquina local, luego en la carpeta raíz de este repo, escribe `docsify serve`. El sitio web se servirá en el puerto 3000 en tu localhost: `localhost:3000`.
Puedes ejecutar esta documentación sin conexión usando [Docsify](https://docsify.js.org/#/). Haz un fork de este repositorio, [instala Docsify](https://docsify.js.org/#/quickstart) en tu máquina local, luego en la carpeta raíz de este repositorio, escribe `docsify serve`. El sitio web se servirá en el puerto 3000 en tu localhost: `localhost:3000`.
> Nota, los notebooks no se renderizarán a través de Docsify, así que cuando necesites ejecutar un notebook, hazlo por separado en VS Code usando un kernel de Python.
> Nota, los notebooks no se renderizarán vía Docsify, por lo que cuando necesites ejecutar un notebook, hazlo por separado en VS Code ejecutando un kernel de Python.
## Otros planes de estudio
¡Nuestro equipo produce otros planes de estudio! Consulta:
¡Nuestro equipo produce otros planes de estudio! Mira:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain4j para principiantes](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js para Principiantes](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain para Principiantes](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
@ -208,7 +218,7 @@ Puedes ejecutar esta documentación sin conexión usando [Docsify](https://docsi
---
### Serie IA Generativa
### Serie de IA Generativa
[![IA Generativa para Principiantes](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![IA Generativa (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![IA Generativa (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
@ -216,7 +226,7 @@ Puedes ejecutar esta documentación sin conexión usando [Docsify](https://docsi
---
### Aprendizaje Fundamental
### Aprendizaje Básico
[![ML para Principiantes](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Ciencia de Datos para Principiantes](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![IA para Principiantes](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
@ -227,27 +237,27 @@ Puedes ejecutar esta documentación sin conexión usando [Docsify](https://docsi
---
### Serie Copilot
[![Copilot para Programación en Pareja con IA](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot para C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Aventura Copilot](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
### Serie Copiloto
[![Copiloto para Programación en Pareja con IA](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copiloto para C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Aventura Copiloto](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## Obtener Ayuda
**¿Tienes problemas?** Consulta nuestra [Guía de Solución de Problemas](TROUBLESHOOTING.md) para soluciones a problemas comunes.
**¿Tienes problemas?** Consulta nuestra [Guía de Solución de Problemas](TROUBLESHOOTING.md) para encontrar soluciones a problemas comunes.
Si te atascas o tienes preguntas sobre cómo crear aplicaciones de IA. Únete a otros aprendices y desarrolladores experimentados en discusiones sobre MCP. Es una comunidad de apoyo donde las preguntas son bienvenidas y el conocimiento se comparte libremente.
Si te quedas atascado o tienes alguna pregunta sobre cómo construir aplicaciones de IA, únete a otros estudiantes y desarrolladores experimentados en discusiones sobre MCP. Es una comunidad de apoyo donde las preguntas son bienvenidas y el conocimiento se comparte libremente.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Si tienes comentarios sobre el producto o errores mientras construyes, visita:
[![Foro de Desarrolladores Microsoft Foundry](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Aviso Legal**:
Este documento ha sido traducido utilizando el servicio de traducción automática [Co-op Translator](https://github.com/Azure/co-op-translator). Aunque nos esforzamos por la precisión, tenga en cuenta que las traducciones automáticas pueden contener errores o inexactitudes. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por un humano. No nos hacemos responsables por malentendidos o interpretaciones erróneas derivadas del uso de esta traducción.
Este documento ha sido traducido utilizando el servicio de traducción automática [Co-op Translator](https://github.com/Azure/co-op-translator). Aunque nos esforzamos por la precisión, tenga en cuenta que las traducciones automáticas pueden contener errores o inexactitudes. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables por malentendidos o interpretaciones erróneas derivadas del uso de esta traducción.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "fr"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-28T08:37:33+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "fr"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-25T16:57:35+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "fr"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-28T08:38:02+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "fr"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T15:57:16+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "fr"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-28T08:38:51+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "fr"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T12:22:36+00:00",
@ -360,8 +378,8 @@
"language_code": "fr"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T07:17:26+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-28T08:43:37+00:00",
"source_file": "README.md",
"language_code": "fr"
},

@ -3,13 +3,13 @@
{
"cell_type": "markdown",
"source": [
"# Défi : Analyser un texte sur la science des données\n",
"# Défi : Analyse de texte sur la science des données\n",
"\n",
"Dans cet exemple, faisons un exercice simple qui couvre toutes les étapes d'un processus traditionnel de science des données. Vous n'avez pas besoin d'écrire de code, vous pouvez simplement cliquer sur les cellules ci-dessous pour les exécuter et observer le résultat. En guise de défi, vous êtes encouragé à essayer ce code avec des données différentes.\n",
"Dans cet exemple, faisons un exercice simple qui couvre toutes les étapes d'un processus traditionnel de science des données. Vous n'avez pas à écrire de code, vous pouvez simplement cliquer sur les cellules ci-dessous pour les exécuter et observer le résultat. Comme défi, vous êtes encouragé à essayer ce code avec des données différentes.\n",
"\n",
"## Objectif\n",
"\n",
"Dans cette leçon, nous avons discuté de différents concepts liés à la science des données. Essayons de découvrir d'autres concepts connexes en faisant un peu de **text mining**. Nous commencerons par un texte sur la science des données, en extrairons des mots-clés, puis tenterons de visualiser le résultat.\n",
"Dans cette leçon, nous avons discuté de différents concepts liés à la science des données. Essayons de découvrir plus de concepts liés en faisant un **extraction de texte**. Nous commencerons par un texte sur la science des données, en extrayant des mots-clés, puis nous tenterons de visualiser le résultat.\n",
"\n",
"Comme texte, j'utiliserai la page sur la science des données de Wikipedia :\n"
],
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Étape 1 : Obtenir les données\n",
"## Étape 1 : Récupération des données\n",
"\n",
"La première étape de tout processus de science des données consiste à obtenir les données. Nous utiliserons la bibliothèque `requests` pour cela :\n"
"La première étape dans chaque processus de data science est la récupération des données. Nous allons utiliser la bibliothèque `requests` pour cela :\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## Étape 2 : Transformer les données\n",
"## Étape 2 : Transformation des données\n",
"\n",
"La prochaine étape consiste à convertir les données dans une forme adaptée au traitement. Dans notre cas, nous avons téléchargé le code source HTML de la page, et nous devons le convertir en texte brut.\n",
"L'étape suivante consiste à convertir les données sous une forme adaptée au traitement. Dans notre cas, nous avons téléchargé le code source HTML de la page, et nous devons le convertir en texte brut.\n",
"\n",
"Il existe de nombreuses façons de procéder. Nous utiliserons l'objet intégré le plus simple, [HTMLParser](https://docs.python.org/3/library/html.parser.html) de Python. Nous devons créer une sous-classe de la classe `HTMLParser` et définir le code qui collectera tout le texte à l'intérieur des balises HTML, à l'exception des balises `<script>` et `<style>`.\n"
"Il existe de nombreuses façons de procéder. Nous allons utiliser [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), une bibliothèque Python populaire pour l'analyse HTML. BeautifulSoup nous permet de cibler des éléments HTML spécifiques, afin que nous puissions nous concentrer sur le contenu principal de l'article de Wikipedia et réduire certains menus de navigation, barres latérales, pieds de page, et autres contenus non pertinents (bien que certains textes standardisés puissent encore rester).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Tout d'abord, nous devons installer la bibliothèque BeautifulSoup pour l'analyse HTML :\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Étape 3 : Obtenir des informations\n",
"## Étape 3 : Obtenir des insights\n",
"\n",
"L'étape la plus importante consiste à transformer nos données en une forme à partir de laquelle nous pouvons tirer des informations. Dans notre cas, nous souhaitons extraire des mots-clés du texte et identifier lesquels sont les plus significatifs.\n",
"Létape la plus importante est de transformer nos données en une forme à partir de laquelle nous pouvons tirer des insights. Dans notre cas, nous voulons extraire des mots-clés du texte, et voir quels mots-clés sont les plus significatifs.\n",
"\n",
"Nous allons utiliser une bibliothèque Python appelée [RAKE](https://github.com/aneesha/RAKE) pour l'extraction de mots-clés. Tout d'abord, installons cette bibliothèque si elle n'est pas déjà présente :\n"
"Nous allons utiliser une bibliothèque Python appelée [RAKE](https://github.com/aneesha/RAKE) pour lextraction de mots-clés. Tout dabord, installons cette bibliothèque au cas où elle ne serait pas présente : \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"La fonctionnalité principale est disponible à partir de l'objet `Rake`, que nous pouvons personnaliser en utilisant certains paramètres. Dans notre cas, nous allons définir la longueur minimale d'un mot-clé à 5 caractères, la fréquence minimale d'un mot-clé dans le document à 3, et le nombre maximal de mots dans un mot-clé à 2. N'hésitez pas à expérimenter avec d'autres valeurs et à observer le résultat.\n"
"La fonctionnalité principale est disponible à partir de l'objet `Rake`, que nous pouvons personnaliser en utilisant certains paramètres. Dans notre cas, nous définirons la longueur minimale d'un mot-clé à 5 caractères, la fréquence minimale d'un mot-clé dans le document à 3, et le nombre maximum de mots dans un mot-clé à 2. N'hésitez pas à expérimenter avec d'autres valeurs et à observer le résultat.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Nous avons obtenu une liste de termes accompagnés de leur degré d'importance. Comme vous pouvez le constater, les disciplines les plus pertinentes, telles que le machine learning et le big data, figurent en tête de liste.\n",
"Nous avons obtenu une liste de termes accompagnée de leur degré d'importance associé. Comme vous pouvez le voir, les disciplines les plus pertinentes, telles que l'apprentissage automatique et le big data, sont présentes dans la liste aux premières positions.\n",
"\n",
"## Étape 4 : Visualisation du résultat\n",
"\n",
"Les données sont souvent mieux comprises sous une forme visuelle. Il est donc souvent judicieux de les visualiser afin d'en tirer des enseignements. Nous pouvons utiliser la bibliothèque `matplotlib` en Python pour tracer une distribution simple des mots-clés avec leur pertinence :\n"
"Les gens peuvent interpréter les données plus facilement sous forme visuelle. Il est donc souvent judicieux de visualiser les données afin d'en tirer des enseignements. Nous pouvons utiliser la bibliothèque `matplotlib` en Python pour tracer une distribution simple des mots-clés avec leur pertinence :\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Il existe cependant une manière encore meilleure de visualiser les fréquences des mots - en utilisant **Word Cloud**. Nous devrons installer une autre bibliothèque pour tracer le nuage de mots à partir de notre liste de mots-clés.\n"
"Il existe cependant une façon encore meilleure de visualiser les fréquences des mots - en utilisant un **Nuage de Mots**. Nous devrons installer une autre bibliothèque pour tracer le nuage de mots à partir de notre liste de mots-clés.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"L'objet `WordCloud` est responsable de prendre soit le texte original, soit une liste pré-calculée de mots avec leurs fréquences, et retourne une image, qui peut ensuite être affichée à l'aide de `matplotlib`:\n"
"Lobjet `WordCloud` est responsable de la prise en charge soit du texte original, soit dune liste pré-calculée de mots avec leurs fréquences, et renvoie une image, qui peut ensuite être affichée à laide de `matplotlib` :\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Nous pouvons également passer le texte original à `WordCloud` - voyons si nous pouvons obtenir un résultat similaire :\n"
"Nous pouvons également passer le texte original à `WordCloud` - voyons si nous sommes capables d'obtenir un résultat similaire :\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"Vous pouvez constater que le nuage de mots est désormais plus impressionnant, mais il contient également beaucoup de bruit (par exemple, des mots non pertinents comme `Retrieved on`). De plus, nous obtenons moins de mots-clés composés de deux mots, tels que *data scientist* ou *computer science*. Cela s'explique par le fait que l'algorithme RAKE fait un bien meilleur travail pour sélectionner de bons mots-clés à partir du texte. Cet exemple illustre l'importance du prétraitement et du nettoyage des données, car une image claire à la fin nous permettra de prendre de meilleures décisions.\n",
"Vous pouvez voir que le nuage de mots a maintenant une apparence plus impressionnante, mais il contient aussi beaucoup de bruit (par exemple des mots non liés tels que `Retrieved on`). De plus, nous obtenons moins de mots-clés composés de deux mots, tels que *data scientist*, ou *computer science*. Cela s'explique par le fait que l'algorithme RAKE fait un bien meilleur travail pour sélectionner de bons mots-clés à partir du texte. Cet exemple illustre l'importance du prétraitement et du nettoyage des données, car une image claire à la fin nous permettra de prendre de meilleures décisions.\n",
"\n",
"Dans cet exercice, nous avons suivi un processus simple pour extraire du sens à partir d'un texte de Wikipédia, sous forme de mots-clés et de nuage de mots. Cet exemple est assez simple, mais il illustre bien toutes les étapes typiques qu'un data scientist suivra lorsqu'il travaille avec des données, en commençant par l'acquisition des données jusqu'à la visualisation.\n",
"Dans cet exercice, nous avons parcouru un processus simple d'extraction de sens à partir d'un texte Wikipédia, sous forme de mots-clés et de nuage de mots. Cet exemple est assez simple, mais il montre bien toutes les étapes typiques qu'un data scientist suivra lorsqu'il travaille avec des données, depuis l'acquisition des données jusqu'à la visualisation.\n",
"\n",
"Dans notre cours, nous discuterons en détail de toutes ces étapes.\n"
"Dans notre cours, nous discuterons de toutes ces étapes en détail.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Avertissement** : \nCe document a été traduit à l'aide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatisées peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d'origine doit être considéré comme la source faisant autorité. Pour des informations critiques, il est recommandé de recourir à une traduction professionnelle effectuée par un humain. Nous déclinons toute responsabilité en cas de malentendus ou d'interprétations erronées résultant de l'utilisation de cette traduction.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Avertissement** : \nCe document a été traduit à laide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous fassions tout notre possible pour assurer lexactitude, veuillez noter que les traductions automatiques peuvent contenir des erreurs ou des imprécisions. Le document original dans sa langue natale doit être considéré comme la source faisant foi. Pour des informations critiques, une traduction professionnelle réalisée par un humain est recommandée. Nous ne saurions être tenus responsables de tout malentendu ou mauvaise interprétation découlant de lutilisation de cette traduction.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:33:09+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "fr"
}
},
"nbformat": 4,

@ -3,15 +3,15 @@
{
"cell_type": "markdown",
"source": [
"# Défi : Analyser un texte sur la science des données\n",
"# Challenge : Analyse de texte sur la science des données\n",
"\n",
"> *Dans ce notebook, nous expérimentons avec l'utilisation d'une URL différente - un article Wikipédia sur l'apprentissage automatique. Vous pouvez constater que, contrairement à la science des données, cet article contient de nombreux termes, rendant ainsi l'analyse plus problématique. Nous devons trouver une autre méthode pour nettoyer les données après l'extraction des mots-clés, afin d'éliminer certaines combinaisons de mots fréquentes mais peu significatives.*\n",
"> *Dans ce notebook, nous expérimentons l'utilisation d'une URL différente - article Wikipédia sur l'apprentissage automatique. Vous pouvez voir que, contrairement à la science des données, cet article contient beaucoup de termes, ce qui rend l'analyse plus problématique. Nous devons trouver un autre moyen de nettoyer les données après l'extraction des mots-clés, pour éliminer certaines combinaisons de mots fréquentes, mais sans signification.*\n",
"\n",
"Dans cet exemple, faisons un exercice simple qui couvre toutes les étapes d'un processus traditionnel de science des données. Vous n'avez pas besoin d'écrire de code, il vous suffit de cliquer sur les cellules ci-dessous pour les exécuter et observer le résultat. En guise de défi, vous êtes encouragé à essayer ce code avec des données différentes.\n",
"Dans cet exemple, faisons un exercice simple qui couvre toutes les étapes d'un processus traditionnel de science des données. Vous n'avez pas besoin d'écrire du code, vous pouvez simplement cliquer sur les cellules ci-dessous pour les exécuter et observer le résultat. En guise de défi, nous vous encourageons à essayer ce code avec des données différentes.\n",
"\n",
"## Objectif\n",
"\n",
"Dans cette leçon, nous avons discuté de différents concepts liés à la science des données. Essayons de découvrir d'autres concepts connexes en faisant un peu de **text mining**. Nous commencerons par un texte sur la science des données, en extrairons des mots-clés, puis tenterons de visualiser le résultat.\n",
"Dans cette leçon, nous avons discuté de différents concepts liés à la science des données. Essayons de découvrir plus de concepts connexes en faisant un **text mining**. Nous commencerons par un texte sur la science des données, en extrayant des mots-clés, puis nous tenterons de visualiser le résultat.\n",
"\n",
"Comme texte, j'utiliserai la page sur la science des données de Wikipédia :\n"
],
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Étape 1 : Obtenir les données\n",
"## Étape 1 : Récupération des données\n",
"\n",
"La première étape de tout processus de science des données consiste à obtenir les données. Nous utiliserons la bibliothèque `requests` pour cela :\n"
"La première étape dans tout processus de science des données est la récupération des données. Nous allons utiliser la bibliothèque `requests` pour cela :\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Étape 2 : Transformer les données\n",
"## Étape 2 : Transformation des données\n",
"\n",
"L'étape suivante consiste à convertir les données dans un format adapté au traitement. Dans notre cas, nous avons téléchargé le code source HTML de la page, et nous devons le convertir en texte brut.\n",
"L'étape suivante consiste à convertir les données dans une forme adaptée au traitement. Dans notre cas, nous avons téléchargé le code source HTML de la page, et nous devons le convertir en texte brut.\n",
"\n",
"Il existe de nombreuses façons de procéder. Nous utiliserons l'objet [HTMLParser](https://docs.python.org/3/library/html.parser.html) intégré le plus simple de Python. Nous devons créer une sous-classe de la classe `HTMLParser` et définir le code qui collectera tout le texte à l'intérieur des balises HTML, à l'exception des balises `<script>` et `<style>`.\n"
"Il existe de nombreuses façons de le faire. Nous allons utiliser [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), une bibliothèque Python populaire pour l'analyse HTML. BeautifulSoup nous permet de cibler des éléments HTML spécifiques, afin que nous puissions nous concentrer sur le contenu principal de l'article de Wikipédia et réduire certains menus de navigation, barres latérales, pieds de page et autres contenus non pertinents (bien que certains textes de modèle peuvent encore rester).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Tout d'abord, nous devons installer la bibliothèque BeautifulSoup pour l'analyse HTML :\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Étape 3 : Obtenir des informations\n",
"## Étape 3 : Obtenir des insights\n",
"\n",
"L'étape la plus importante consiste à transformer nos données en une forme à partir de laquelle nous pouvons tirer des informations. Dans notre cas, nous voulons extraire des mots-clés du texte et identifier lesquels sont les plus significatifs.\n",
"Létape la plus importante est de transformer nos données en une forme à partir de laquelle nous pouvons tirer des insights. Dans notre cas, nous voulons extraire des mots-clés du texte et voir quels mots-clés sont les plus significatifs.\n",
"\n",
"Nous utiliserons une bibliothèque Python appelée [RAKE](https://github.com/aneesha/RAKE) pour l'extraction de mots-clés. Tout d'abord, installons cette bibliothèque si elle n'est pas déjà présente :\n"
"Nous utiliserons la bibliothèque Python appelée [RAKE](https://github.com/aneesha/RAKE) pour lextraction de mots-clés. Tout dabord, installons cette bibliothèque au cas où elle ne serait pas présente : \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"La fonctionnalité principale est disponible à partir de l'objet `Rake`, que nous pouvons personnaliser à l'aide de certains paramètres. Dans notre cas, nous définirons la longueur minimale d'un mot-clé à 5 caractères, la fréquence minimale d'un mot-clé dans le document à 3, et le nombre maximal de mots dans un mot-clé à 2. N'hésitez pas à expérimenter avec d'autres valeurs et à observer le résultat.\n"
"La fonctionnalité principale est disponible à partir de l'objet `Rake`, que nous pouvons personnaliser en utilisant certains paramètres. Dans notre cas, nous allons définir la longueur minimale d'un mot-clé à 5 caractères, la fréquence minimale d'un mot-clé dans le document à 3, et le nombre maximal de mots dans un mot-clé à 2. N'hésitez pas à expérimenter avec d'autres valeurs et à observer le résultat.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Nous avons obtenu une liste de termes accompagnés de leur degré d'importance. Comme vous pouvez le constater, les disciplines les plus pertinentes, telles que le machine learning et le big data, figurent en tête de liste.\n",
"Nous avons obtenu une liste de termes accompagnée de leur degré d'importance associé. Comme vous pouvez le voir, les disciplines les plus pertinentes, telles que l'apprentissage automatique et le big data, sont présentes dans la liste aux premières positions.\n",
"\n",
"## Étape 4 : Visualisation du résultat\n",
"## Étape 4 : Visualiser le résultat\n",
"\n",
"Les données sont souvent mieux comprises sous une forme visuelle. Il est donc souvent judicieux de les visualiser afin d'en tirer des enseignements. Nous pouvons utiliser la bibliothèque `matplotlib` en Python pour tracer une distribution simple des mots-clés avec leur pertinence :\n"
"Les gens peuvent interpréter les données au mieux sous forme visuelle. Il est donc souvent judicieux de visualiser les données afin d'en tirer des enseignements. Nous pouvons utiliser la bibliothèque `matplotlib` en Python pour tracer une distribution simple des mots-clés avec leur pertinence :\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Il existe cependant une manière encore meilleure de visualiser les fréquences des mots - en utilisant **Word Cloud**. Nous devrons installer une autre bibliothèque pour tracer le nuage de mots à partir de notre liste de mots-clés.\n"
"Il existe cependant une méthode encore meilleure pour visualiser les fréquences des mots - en utilisant **Word Cloud**. Nous devrons installer une autre bibliothèque pour tracer le nuage de mots à partir de notre liste de mots-clés.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"L'objet `WordCloud` est responsable de prendre soit le texte original, soit une liste pré-calculée de mots avec leurs fréquences, et retourne une image, qui peut ensuite être affichée à l'aide de `matplotlib` :\n"
"L'objet `WordCloud` est responsable de la prise en charge soit du texte original, soit de la liste pré-calculée de mots avec leurs fréquences, et renvoie une image, qui peut ensuite être affichée à l'aide de `matplotlib` :\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"Nous pouvons également passer le texte original à `WordCloud` - voyons si nous pouvons obtenir un résultat similaire :\n"
"Nous pouvons également passer le texte original à `WordCloud` - voyons si nous sommes capables d'obtenir un résultat similaire :\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Vous pouvez voir que le nuage de mots est maintenant plus impressionnant, mais il contient également beaucoup de bruit (par exemple, des mots non pertinents comme `Retrieved on`). De plus, nous obtenons moins de mots-clés composés de deux mots, tels que *data scientist* ou *computer science*. Cela s'explique par le fait que l'algorithme RAKE fait un bien meilleur travail pour sélectionner de bons mots-clés à partir du texte. Cet exemple illustre l'importance du prétraitement et du nettoyage des données, car une image claire à la fin nous permettra de prendre de meilleures décisions.\n",
"Vous pouvez voir que le nuage de mots semble désormais plus impressionnant, mais il contient également beaucoup de bruit (par exemple des mots sans rapport tels que `Retrieved on`). De plus, nous obtenons moins de mots-clés composés de deux mots, tels que *data scientist*, ou *computer science*. Cela s'explique par le fait que l'algorithme RAKE fait un bien meilleur travail pour sélectionner de bons mots-clés à partir du texte. Cet exemple illustre l'importance du prétraitement et du nettoyage des données, car une image claire à la fin nous permettra de prendre de meilleures décisions.\n",
"\n",
"Dans cet exercice, nous avons suivi un processus simple pour extraire du sens à partir d'un texte de Wikipédia, sous forme de mots-clés et de nuage de mots. Cet exemple est assez simple, mais il illustre bien toutes les étapes typiques qu'un data scientist suivra lorsqu'il travaille avec des données, en commençant par l'acquisition des données jusqu'à la visualisation.\n",
"Dans cet exercice, nous avons parcouru un processus simple d'extraction de sens à partir d'un texte Wikipédia, sous forme de mots-clés et de nuage de mots. Cet exemple est assez simple, mais il illustre bien toutes les étapes typiques qu'un data scientist suivra lorsqu'il travaille avec des données, depuis l'acquisition des données jusqu'à la visualisation.\n",
"\n",
"Dans notre cours, nous discuterons en détail de toutes ces étapes.\n"
"Dans notre cours, nous discuterons de toutes ces étapes en détail. \n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Avertissement** : \nCe document a été traduit à l'aide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatisées peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d'origine doit être considéré comme la source faisant autorité. Pour des informations critiques, il est recommandé de recourir à une traduction professionnelle réalisée par un humain. Nous déclinons toute responsabilité en cas de malentendus ou d'interprétations erronées résultant de l'utilisation de cette traduction.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Avertissement** : \nCe document a été traduit à laide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions dassurer la précision, veuillez noter que les traductions automatiques peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue dorigine doit être considéré comme la source faisant foi. Pour les informations critiques, une traduction professionnelle humaine est recommandée. Nous déclinons toute responsabilité en cas de malentendus ou dinterprétations erronées résultant de lutilisation de cette traduction.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:44:54+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "fr"
}
},
"nbformat": 4,

File diff suppressed because one or more lines are too long

@ -1,4 +1,4 @@
# Data Science pour Débutants - Un Programme
# Data Science pour les débutants - Un programme d'études
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
@ -17,16 +17,16 @@
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Les Azure Cloud Advocates chez Microsoft sont heureux d'offrir un programme de 10 semaines, 20 leçons, entièrement dédié à la Data Science. Chaque leçon comprend des quiz avant et après, des instructions écrites pour compléter la leçon, une solution et un devoir. Notre pédagogie basée sur les projets vous permet d'apprendre en construisant, une méthode éprouvée pour que les nouvelles compétences "collent".
Les Azure Cloud Advocates chez Microsoft sont heureux de proposer un programme de 10 semaines, comprenant 20 leçons, entièrement dédié à la science des données. Chaque leçon comprend des quiz pré- et post-leçon, des instructions écrites pour compléter la leçon, une solution et un devoir. Notre pédagogie basée sur des projets vous permet d'apprendre tout en construisant, une méthode éprouvée pour que les nouvelles compétences « collent ».
**Un grand merci à nos auteurs :** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Remerciements spéciaux 🙏 à nos auteurs, relecteurs et contributeurs de contenu [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** notamment Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Merci tout particulier à nos auteurs, relecteurs et contributeurs de contenu [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** notamment Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/fr/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Data Science Pour Débutants - _Sketchnote par [@nitya](https://twitter.com/nitya)_ |
| Data Science pour les débutants - _Sketchnote par [@nitya](https://twitter.com/nitya)_ |
### 🌐 Support Multilingue
@ -35,100 +35,110 @@ Les Azure Cloud Advocates chez Microsoft sont heureux d'offrir un programme de 1
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](./README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **Vous préférez cloner localement ?**
> Ce dépôt inclut plus de 50 traductions, ce qui augmente significativement la taille du téléchargement. Pour cloner sans les traductions, utilisez le sparse checkout :
> **Préférez cloner localement ?**
>
> Ce dépôt inclut plus de 50 traductions de langues, ce qui augmente considérablement la taille du téléchargement. Pour cloner sans les traductions, utilisez le sparse checkout :
>
> **Bash / macOS / Linux :**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> Cela vous donne tout ce dont vous avez besoin pour suivre le cours avec un téléchargement beaucoup plus rapide.
>
> **CMD (Windows) :**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Ceci vous donne tout ce dont vous avez besoin pour compléter le cours avec un téléchargement beaucoup plus rapide.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Si vous souhaitez que d'autres langues de traduction soient prises en charge, elles sont listées [ici](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Si vous souhaitez que des langues supplémentaires soient prises en charge, elles sont listées [ici](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Rejoignez Notre Communauté
#### Rejoignez notre communauté
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Nous avons une série Discord "learn with AI" en cours, apprenez-en plus et rejoignez-nous à [Learn with AI Series](https://aka.ms/learnwithai/discord) du 18 au 30 septembre 2025. Vous recevrez des astuces pour utiliser GitHub Copilot en Data Science.
Nous organisons une série Discord « apprendre avec l'IA », apprenez-en plus et rejoignez-nous à [Learn with AI Series](https://aka.ms/learnwithai/discord) du 18 au 30 septembre 2025. Vous recevrez des conseils et astuces pour utiliser GitHub Copilot pour la Data Science.
![Learn with AI series](../../translated_images/fr/1.2b28cdc6205e26fe.webp)
# Vous êtes étudiant ?
# Êtes-vous étudiant ?
Commencez avec les ressources suivantes :
- [Page du Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Sur cette page, vous trouverez des ressources pour débutants, des packs étudiants et même des moyens d'obtenir un bon de certification gratuit. Cest une page à mettre en favori et à consulter régulièrement car nous changeons le contenu au moins une fois par mois.
- [Page Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Sur cette page, vous trouverez des ressources pour débutants, des packs étudiants et même des moyens d'obtenir un bon pour une certification gratuite. C'est une page à mettre en favori et à consulter régulièrement car nous changeons le contenu au moins une fois par mois.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Rejoignez une communauté mondiale dambassadeurs étudiants, cela pourrait être votre porte dentrée chez Microsoft.
# Commencer
# Pour commencer
## 📚 Documentation
- **[Guide dInstallation](INSTALLATION.md)** - Instructions de configuration étape par étape pour débutants
- **[Guide dUtilisation](USAGE.md)** - Exemples et workflows courants
- **[Guide d'installation](INSTALLATION.md)** - Instructions dinstallation étape par étape pour les débutants
- **[Guide d'utilisation](USAGE.md)** - Exemples et flux de travail courants
- **[Dépannage](TROUBLESHOOTING.md)** - Solutions aux problèmes courants
- **[Guide de Contribution](CONTRIBUTING.md)** - Comment contribuer à ce projet
- **[Guide de contribution](CONTRIBUTING.md)** - Comment contribuer à ce projet
- **[Pour les enseignants](for-teachers.md)** - Conseils pédagogiques et ressources pour la classe
## 👨‍🎓 Pour les étudiants
> **Débutants complets** : Nouveau en data science ? Commencez avec nos [exemples faciles à suivre](examples/README.md) ! Ces exemples simples et bien commentés vous aideront à comprendre les bases avant de plonger dans le programme complet.
> **[Étudiants](https://aka.ms/student-page)** : pour utiliser ce programme en autonomie, forkez lintégralité du dépôt et complétez les exercices vous-même, en commençant par un quiz pré-lecture. Puis lisez la leçon et réalisez le reste des activités. Essayez de créer les projets en comprenant les leçons plutôt quen copiant le code solution ; toutefois, ce code est disponible dans les dossiers /solutions de chaque leçon orientée projet. Une autre idée serait de former un groupe détude avec des amis et de parcourir le contenu ensemble. Pour approfondir, nous recommandons [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Débutants complets** : Nouveau en science des données ? Commencez avec nos [exemples adaptés aux débutants](examples/README.md) ! Ces exemples simples et bien commentés vous aideront à comprendre les bases avant daborder le programme complet.
> **[Étudiants](https://aka.ms/student-page)** : pour utiliser ce programme par vous-même, forkez le dépôt entier et complétez les exercices seul, en commençant par un quiz pré-lecture. Puis lisez la leçon et complétez le reste des activités. Essayez de créer les projets en comprenant les leçons plutôt quen copiant le code de solution ; cependant, ce code est disponible dans les dossiers /solutions dans chaque leçon axée sur un projet. Une autre idée serait de former un groupe d'étude avec des amis et de parcourir le contenu ensemble. Pour des études complémentaires, nous recommandons [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Démarrage rapide :**
1. Consultez le [Guide dInstallation](INSTALLATION.md) pour configurer votre environnement
2. Lisez le [Guide dUtilisation](USAGE.md) pour apprendre à travailler avec le programme
3. Commencez par la leçon 1 et suivez-les dans lordre
4. Rejoignez notre [communauté Discord](https://aka.ms/ds4beginners/discord) pour obtenir du support
**Démarrage rapide :**
1. Consultez le [Guide d'installation](INSTALLATION.md) pour configurer votre environnement
2. Passez en revue le [Guide d'utilisation](USAGE.md) pour apprendre à manipuler le programme
3. Commencez par la Leçon 1 et suivez-les dans lordre
4. Rejoignez notre [communauté Discord](https://aka.ms/ds4beginners/discord) pour du support
## 👩‍🏫 Pour les enseignants
> **Enseignants** : nous avons [inclus quelques suggestions](for-teachers.md) sur la manière dutiliser ce programme. Nous serions ravis de recevoir vos retours [dans notre forum de discussion](https://github.com/microsoft/Data-Science-For-Beginners/discussions) !
> **Enseignants** : nous avons [inclus quelques suggestions](for-teachers.md) sur la manière dutiliser ce programme. Nous aimerions beaucoup vos retours [dans notre forum de discussion](https://github.com/microsoft/Data-Science-For-Beginners/discussions) !
## Rencontrez l'équipe
## Rencontrez léquipe
[![Vidéo promo](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Vidéo promo")
**Gif par** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Cliquez sur l'image ci-dessus pour une vidéo sur le projet et les personnes qui l'ont créé !
> 🎥 Cliquez sur limage ci-dessus pour une vidéo à propos du projet et des personnes qui lont créé !
## Pédagogie
Nous avons choisi deux principes pédagogiques lors de la création de ce programme : garantir qu'il soit basé sur des projets et qu'il inclue des quiz fréquents. À la fin de cette série, les étudiants auront appris les principes de base de la science des données, y compris les concepts éthiques, la préparation des données, différentes façons de travailler avec les données, la visualisation des données, l'analyse des données, des cas d'utilisation réels de la science des données, et plus encore.
Nous avons choisi deux principes pédagogiques lors de la création de ce cursus : assurer quil est basé sur des projets et quil inclut des quiz fréquents. À la fin de cette série, les étudiants auront appris les principes de base de la science des données, y compris les concepts éthiques, la préparation des données, différentes manières de travailler avec les données, la visualisation des données, lanalyse des données, les cas dusage réels de la science des données, et plus encore.
De plus, un quiz à faible enjeu avant un cours fixe l'intention de l'étudiant envers l'apprentissage d'un sujet, tandis qu'un second quiz après le cours assure une meilleure rétention. Ce programme a été conçu pour être flexible et amusant et peut être suivi dans son intégralité ou partiellement. Les projets commencent petits et deviennent de plus en plus complexes à la fin du cycle de 10 semaines.
De plus, un quiz à faible enjeu avant un cours fixe lintention de létudiant vis-à-vis de lapprentissage dun sujet, tandis quun second quiz après le cours assure une meilleure rétention. Ce programme a été conçu pour être flexible et ludique, et peut être suivi en totalité ou partiellement. Les projets commencent petits et deviennent de plus en plus complexes à la fin du cycle de 10 semaines.
> Retrouvez notre [Code de conduite](CODE_OF_CONDUCT.md), [Contribuer](CONTRIBUTING.md), [Traduction](TRANSLATIONS.md) guidelines. Nous accueillons vos retours constructifs !
> Retrouvez notre [Code de conduite](CODE_OF_CONDUCT.md), les [Directives de contribution](CONTRIBUTING.md), et les [Directives de traduction](TRANSLATIONS.md). Nous accueillons vos retours constructifs !
## Chaque leçon inclut :
- Sketchnote optionnel
- Vidéo complémentaire optionnelle
- Quiz d'échauffement avant la leçon
- Quiz déchauffement avant la leçon
- Leçon écrite
- Pour les leçons basées sur des projets, guides étape par étape pour construire le projet
- Vérifications de connaissances
- Pour les leçons basées sur des projets, des guides pas à pas pour construire le projet
- Contrôles des connaissances
- Un défi
- Lecture complémentaire
- Devoir
- [Quiz post-leçon](https://ff-quizzes.netlify.app/en/)
> **Une note sur les quiz** : Tous les quiz se trouvent dans le dossier Quiz-App, pour un total de 40 quiz composés chacun de trois questions. Ils sont liés depuis les leçons, mais l'application de quiz peut être exécutée localement ou déployée sur Azure ; suivez les instructions dans le dossier `quiz-app`. Ils sont progressivement localisés.
> **Une note à propos des quiz** : Tous les quiz se trouvent dans le dossier Quiz-App, soit 40 quiz au total de trois questions chacun. Ils sont liés au sein des leçons, mais lapplication de quiz peut être exécutée localement ou déployée sur Azure ; suivez les instructions dans le dossier `quiz-app`. Ils sont progressivement localisés.
## 🎓 Exemples accessibles aux débutants
**Nouveau en science des données ?** Nous avons créé un [répertoire d'exemples](examples/README.md) spécial avec du code simple et bien commenté pour vous aider à démarrer :
**Nouveau en science des données ?** Nous avons créé un [répertoire dexemples](examples/README.md) spécial avec du code simple et bien commenté pour vous aider à démarrer :
- 🌟 **Hello World** - Votre premier programme de science des données
- 📂 **Chargement des données** - Apprenez à lire et explorer des jeux de données
- 📊 **Analyse simple** - Calculez des statistiques et trouvez des motifs
- 📈 **Visualisation de base** - Créez des graphiques et des diagrammes
- 🔬 **Projet du monde réel** - Flux complet du début à la fin
- 📂 **Chargement des données** - Apprendre à lire et explorer des ensembles de données
- 📊 **Analyse simple** - Calculer des statistiques et trouver des motifs
- 📈 **Visualisation basique** - Créer des graphiques et des diagrammes
- 🔬 **Projet réel** - Flux complet du début à la fin
Chaque exemple inclut des commentaires détaillés expliquant chaque étape, parfait pour les débutants complets !
Chaque exemple inclut des commentaires détaillés expliquant chaque étape, parfait pour les débutants absolus !
👉 **[Commencez avec les exemples](examples/README.md)** 👈
👉 **[Commencez par les exemples](examples/README.md)** 👈
## Leçons
@ -138,79 +148,78 @@ Chaque exemple inclut des commentaires détaillés expliquant chaque étape, par
| Science des données pour débutants : feuille de route - _Sketchnote par [@nitya](https://twitter.com/nitya)_ |
| Numéro de leçon | Sujet | Regroupement de leçons | Objectifs d'apprentissage | Leçon liée | Auteur |
| :-------------: | :-----------------------------: | :--------------------------: | :--------------------------------------------------------------------------------------------------------------------------: | :-----------------------------------------------------------: | :-----: |
| 01 | Définir la science des données | [Introduction](1-Introduction/README.md) | Apprenez les concepts de base derrière la science des données et comment elle est reliée à l'intelligence artificielle, l'apprentissage automatique et le big data. | [leçon](1-Introduction/01-defining-data-science/README.md) [vidéo](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Éthique de la science des données | [Introduction](1-Introduction/README.md) | Concepts, défis et cadres de l'éthique des données. | [leçon](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| Numéro de leçon | Sujet | Groupe de leçons | Objectifs dapprentissage | Leçon liée | Auteur |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Définir la science des données | [Introduction](1-Introduction/README.md) | Apprendre les concepts de base de la science des données et comment elle est liée à lintelligence artificielle, à lapprentissage automatique et au big data. | [leçon](1-Introduction/01-defining-data-science/README.md) [vidéo](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Éthique de la science des données | [Introduction](1-Introduction/README.md) | Concepts, défis et cadres de léthique des données. | [leçon](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Définir les données | [Introduction](1-Introduction/README.md) | Comment les données sont classifiées et leurs sources communes. | [leçon](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introduction à la statistique et à la probabilité | [Introduction](1-Introduction/README.md) | Les techniques mathématiques de probabilité et de statistique pour comprendre les données. | [leçon](1-Introduction/04-stats-and-probability/README.md) [vidéo](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Travailler avec des données relationnelles | [Working With Data](2-Working-With-Data/README.md) | Introduction aux données relationnelles et bases de l'exploration et de l'analyse des données relationnelles avec le langage de requête structuré, aussi appelé SQL (prononcé “see-quell”). | [leçon](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Travailler avec des données NoSQL | [Working With Data](2-Working-With-Data/README.md) | Introduction aux données non relationnelles, leurs différents types et les bases de l'exploration et de l'analyse des bases de données documentaires. | [leçon](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Travailler avec Python | [Working With Data](2-Working-With-Data/README.md) | Bases de l'utilisation de Python pour l'exploration de données avec des bibliothèques comme Pandas. Une compréhension de base de la programmation Python est recommandée. | [leçon](2-Working-With-Data/07-python/README.md) [vidéo](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 04 | Introduction aux statistiques & probabilités | [Introduction](1-Introduction/README.md) | Les techniques mathématiques des probabilités et des statistiques pour comprendre les données. | [leçon](1-Introduction/04-stats-and-probability/README.md) [vidéo](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Travail avec les données relationnelles | [Working With Data](2-Working-With-Data/README.md) | Introduction aux données relationnelles et aux bases de lexploration et de lanalyse des données relationnelles avec le langage de requête structuré, aussi appelé SQL (prononcé « see-quell »). | [leçon](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Travail avec les données NoSQL | [Working With Data](2-Working-With-Data/README.md) | Introduction aux données non relationnelles, leurs différents types et les bases de lexploration et de lanalyse des bases de données documentaires. | [leçon](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Travail avec Python | [Working With Data](2-Working-With-Data/README.md) | Bases de lutilisation de Python pour lexploration des données avec des bibliothèques telles que Pandas. Une compréhension de base de la programmation en Python est recommandée. | [leçon](2-Working-With-Data/07-python/README.md) [vidéo](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Préparation des données | [Working With Data](2-Working-With-Data/README.md) | Sujets sur les techniques de nettoyage et de transformation des données pour gérer les défis des données manquantes, inexactes ou incomplètes. | [leçon](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualiser des quantités | [Data Visualization](3-Data-Visualization/README.md) | Apprenez à utiliser Matplotlib pour visualiser des données d'oiseaux 🦆 | [leçon](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualiser des distributions de données | [Data Visualization](3-Data-Visualization/README.md) | Visualiser des observations et tendances dans un intervalle. | [leçon](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualiser des proportions | [Data Visualization](3-Data-Visualization/README.md) | Visualiser des pourcentages discrets et groupés. | [leçon](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualiser des relations | [Data Visualization](3-Data-Visualization/README.md) | Visualiser les connexions et corrélations entre des ensembles de données et leurs variables. | [leçon](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualisations significatives | [Data Visualization](3-Data-Visualization/README.md) | Techniques et conseils pour rendre vos visualisations précieuses pour la résolution efficace de problèmes et les insights. | [leçon](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 09 | Visualisation des quantités | [Data Visualization](3-Data-Visualization/README.md) | Apprenez à utiliser Matplotlib pour visualiser des données sur les oiseaux 🦆 | [leçon](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualisation des distributions de données | [Data Visualization](3-Data-Visualization/README.md) | Visualisation des observations et des tendances dans un intervalle. | [leçon](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualisation des proportions | [Data Visualization](3-Data-Visualization/README.md) | Visualisation des pourcentages discrets et groupés. | [leçon](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualisation des relations | [Data Visualization](3-Data-Visualization/README.md) | Visualisation des connexions et des corrélations entre ensembles de données et leurs variables. | [leçon](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualisations significatives | [Data Visualization](3-Data-Visualization/README.md) | Techniques et conseils pour rendre vos visualisations utiles pour une résolution efficace des problèmes et des idées. | [leçon](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introduction au cycle de vie de la science des données | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Introduction au cycle de vie de la science des données et à sa première étape dacquisition et dextraction des données. | [leçon](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analyse | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Cette phase du cycle de vie de la science des données se concentre sur les techniques danalyse des données. | [leçon](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Communication | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Cette phase du cycle de vie de la science des données se concentre sur la présentation des insights issus des données dune manière facilitant la compréhension par les décideurs. | [leçon](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 16 | Communication | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Cette phase du cycle de vie de la science des données se concentre sur la présentation des idées issues des données afin de faciliter leur compréhension par les décideurs. | [leçon](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | La science des données dans le cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Cette série de leçons introduit la science des données dans le cloud et ses avantages. | [leçon](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) et [Maud](https://twitter.com/maudstweets) |
| 18 | La science des données dans le cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Entraînement de modèles avec des outils Low Code. | [leçon](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) et [Maud](https://twitter.com/maudstweets) |
| 19 | La science des données dans le cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Déploiement de modèles avec Azure Machine Learning Studio. | [leçon](5-Data-Science-In-Cloud/19-Azure/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) et [Maud](https://twitter.com/maudstweets) |
| 20 | La science des données sur le terrain | [In the Wild](6-Data-Science-In-Wild/README.md) | Projets de science des données dans le monde réel. | [leçon](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 18 | La science des données dans le cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Entraînement des modèles avec des outils Low Code. |[leçon](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) et [Maud](https://twitter.com/maudstweets) |
| 19 | La science des données dans le cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Déploiement des modèles avec Azure Machine Learning Studio. | [leçon](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) et [Maud](https://twitter.com/maudstweets) |
| 20 | La science des données dans la vie réelle | [In the Wild](6-Data-Science-In-Wild/README.md) | Projets de science des données dans le monde réel. | [leçon](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Suivez ces étapes pour ouvrir cet exemple dans un Codespace :
1. Cliquez sur le menu déroulant Code et sélectionnez l'option Ouvrir avec Codespaces.
2. Sélectionnez + Nouveau codespace en bas du panneau.
1. Cliquez sur le menu déroulant Code et sélectionnez loption Open with Codespaces.
2. Sélectionnez + New codespace en bas du volet.
Pour plus dinformations, consultez la [documentation GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Suivez ces étapes pour ouvrir ce dépôt dans un conteneur en utilisant votre machine locale et VSCode avec lextension VS Code Remote - Containers :
Suivez ces étapes pour ouvrir ce dépôt dans un conteneur en utilisant votre machine locale et VSCode via lextension VS Code Remote - Containers :
1. Si cest la première fois que vous utilisez un conteneur de développement, assurez-vous que votre système répond aux prérequis (par ex. Docker installé) dans [la documentation de démarrage](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Si cest la première fois que vous utilisez un conteneur de développement, assurez-vous que votre système remplit les prérequis (par exemple, avoir Docker installé) dans [la documentation de démarrage](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Pour utiliser ce dépôt, vous pouvez soit ouvrir le dépôt dans un volume Docker isolé :
**Note** : En arrière-plan, cela utilisera la commande Remote-Containers : **Cloner le dépôt dans un volume conteneur...** pour cloner le code source dans un volume Docker au lieu du système de fichiers local. Les [Volumes](https://docs.docker.com/storage/volumes/) sont le mécanisme préféré pour persister les données de conteneur.
**Note** : En coulisses, cela utilisera la commande Remote-Containers : **Clone Repository in Container Volume...** pour cloner le code source dans un volume Docker plutôt que dans le système de fichiers local. Les [volumes](https://docs.docker.com/storage/volumes/) sont le mécanisme préféré pour persister les données des conteneurs.
Ou ouvrez une version clonée ou téléchargée localement du dépôt :
Ou ouvrir une version clonée ou téléchargée localement du dépôt :
- Clonez ce dépôt sur votre système de fichiers local.
- Appuyez sur F1 et sélectionnez la commande **Remote-Containers : Ouvrir un dossier dans un conteneur...**.
- Appuyez sur F1 et sélectionnez la commande **Remote-Containers: Open Folder in Container...**.
- Sélectionnez la copie clonée de ce dossier, attendez que le conteneur démarre, et essayez.
## Accès hors ligne
Vous pouvez consulter cette documentation hors ligne en utilisant [Docsify](https://docsify.js.org/#/). Forkez ce repo, [installez Docsify](https://docsify.js.org/#/quickstart) sur votre machine locale, puis dans le dossier racine de ce repo, tapez `docsify serve`. Le site web sera servi sur le port 3000 de votre localhost : `localhost:3000`.
Vous pouvez consulter cette documentation hors ligne en utilisant [Docsify](https://docsify.js.org/#/). Forkez ce dépôt, [installez Docsify](https://docsify.js.org/#/quickstart) sur votre machine locale, puis, dans le dossier racine de ce dépôt, tapez `docsify serve`. Le site sera servi sur le port 3000 de votre localhost : `localhost:3000`.
> Note, les notebooks ne seront pas rendus via Docsify, donc lorsque vous devez exécuter un notebook, faites-le séparément dans VS Code avec un noyau Python.
## Autres programmes
## Autres cursus
Notre équipe produit dautres programmes ! Découvrez :
Notre équipe produit dautres cursus ! Découvrez :
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j pour débutants](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js pour Débutants](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain pour Débutants](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain.js pour débutants](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain pour débutants](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Agents
[![AZD pour Débutants](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI pour Débutants](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP pour Débutants](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Agents IA pour Débutants](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AZD pour débutants](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI pour débutants](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP pour débutants](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Agents IA pour débutants](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Série dIA Générative
[![IA Générative pour Débutants](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
### Série IA Générative
[![IA Générative pour débutants](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![IA Générative (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![IA Générative (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![IA Générative (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
@ -218,37 +227,37 @@ Notre équipe produit dautres programmes ! Découvrez :
---
### Apprentissage Fondamental
[![ML pour Débutants](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Science des Données pour Débutants](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![IA pour Débutants](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Cybersécurité pour Débutants](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Développement Web pour Débutants](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT pour Débutants](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![Développement XR pour Débutants](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
[![ML pour débutants](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Data Science pour débutants](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![IA pour débutants](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Cybersécurité pour débutants](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Développement Web pour débutants](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT pour débutants](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![Développement XR pour débutants](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Série Copilot
[![Copilot pour Programmation Assistée par IA](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot pour programmation assistée par IA](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot pour C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Aventure Copilot](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## Obtenir de laide
## Obtenir de l'aide
**Rencontrez-vous des problèmes ?** Consultez notre [Guide de dépannage](TROUBLESHOOTING.md) pour des solutions aux problèmes courants.
**Vous rencontrez des problèmes ?** Consultez notre [Guide de résolution des problèmes](TROUBLESHOOTING.md) pour des solutions aux problèmes courants.
Si vous êtes bloqué ou avez des questions sur la construction dapplications IA, rejoignez les autres apprenants et développeurs expérimentés dans des discussions sur MCP. Cest une communauté bienveillante où les questions sont les bienvenues et le savoir est partagé librement.
Si vous êtes bloqué ou avez des questions sur la création dapplications IA, rejoignez dautres apprenants et développeurs expérimentés dans les discussions autour de MCP. Cest une communauté accueillante où les questions sont les bienvenues et les connaissances sont partagées librement.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Si vous avez des retours sur le produit ou des erreurs lors du développement, visitez :
Si vous avez des retours sur les produits ou des erreurs lors du développement, visitez :
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![Forum des développeurs Microsoft Foundry](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Avertissement** :
Ce document a été traduit à laide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforçons dassurer lexactitude, veuillez noter que les traductions automatiques peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue dorigine doit être considéré comme la source faisant autorité. Pour les informations critiques, une traduction professionnelle réalisée par un humain est recommandée. Nous ne sommes pas responsables des malentendus ou des interprétations erronées résultant de lutilisation de cette traduction.
Ce document a été traduit à laide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions dassurer lexactitude, veuillez noter que les traductions automatisées peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue dorigine doit être considéré comme la source faisant foi. Pour les informations critiques, il est recommandé de recourir à une traduction professionnelle humaine. Nous déclinons toute responsabilité en cas de malentendus ou de mauvaises interprétations résultant de lutilisation de cette traduction.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
Loading…
Cancel
Save