chore(i18n): sync translations with latest source changes (chunk 1/1, 70 changes)

update-translations
localizeflow[bot] 3 days ago
parent 1e2e5804aa
commit c69a963705

@ -36,13 +36,23 @@ Azure Cloud Advocates at Microsoft are pleased to offer a 10-week, 20-lesson cur
[Arabic](./translations/ar/README.md) | [Bengali](./translations/bn/README.md) | [Bulgarian](./translations/bg/README.md) | [Burmese (Myanmar)](./translations/my/README.md) | [Chinese (Simplified)](./translations/zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](./translations/zh-HK/README.md) | [Chinese (Traditional, Macau)](./translations/zh-MO/README.md) | [Chinese (Traditional, Taiwan)](./translations/zh-TW/README.md) | [Croatian](./translations/hr/README.md) | [Czech](./translations/cs/README.md) | [Danish](./translations/da/README.md) | [Dutch](./translations/nl/README.md) | [Estonian](./translations/et/README.md) | [Finnish](./translations/fi/README.md) | [French](./translations/fr/README.md) | [German](./translations/de/README.md) | [Greek](./translations/el/README.md) | [Hebrew](./translations/he/README.md) | [Hindi](./translations/hi/README.md) | [Hungarian](./translations/hu/README.md) | [Indonesian](./translations/id/README.md) | [Italian](./translations/it/README.md) | [Japanese](./translations/ja/README.md) | [Kannada](./translations/kn/README.md) | [Korean](./translations/ko/README.md) | [Lithuanian](./translations/lt/README.md) | [Malay](./translations/ms/README.md) | [Malayalam](./translations/ml/README.md) | [Marathi](./translations/mr/README.md) | [Nepali](./translations/ne/README.md) | [Nigerian Pidgin](./translations/pcm/README.md) | [Norwegian](./translations/no/README.md) | [Persian (Farsi)](./translations/fa/README.md) | [Polish](./translations/pl/README.md) | [Portuguese (Brazil)](./translations/pt-BR/README.md) | [Portuguese (Portugal)](./translations/pt-PT/README.md) | [Punjabi (Gurmukhi)](./translations/pa/README.md) | [Romanian](./translations/ro/README.md) | [Russian](./translations/ru/README.md) | [Serbian (Cyrillic)](./translations/sr/README.md) | [Slovak](./translations/sk/README.md) | [Slovenian](./translations/sl/README.md) | [Spanish](./translations/es/README.md) | [Swahili](./translations/sw/README.md) | [Swedish](./translations/sv/README.md) | [Tagalog (Filipino)](./translations/tl/README.md) | [Tamil](./translations/ta/README.md) | [Telugu](./translations/te/README.md) | [Thai](./translations/th/README.md) | [Turkish](./translations/tr/README.md) | [Ukrainian](./translations/uk/README.md) | [Urdu](./translations/ur/README.md) | [Vietnamese](./translations/vi/README.md)
> **Prefer to Clone Locally?**
>
> This repository includes 50+ language translations which significantly increases the download size. To clone without translations, use sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> This gives you everything you need to complete the course with a much faster download.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "pa"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T09:19:18+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "pa"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-27T17:18:06+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "pa"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T09:20:15+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "pa"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:23:07+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "pa"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T09:21:32+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "pa"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-06T08:08:07+00:00",
@ -360,8 +378,8 @@
"language_code": "pa"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T08:01:11+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T09:27:19+00:00",
"source_file": "README.md",
"language_code": "pa"
},

@ -6,7 +6,7 @@
---
[![ਡਾਟਾ ਸਾਇੰਸ ਦੀ ਪਰਿਭਾਸ਼ਾ ਵੀਡੀਓ](../../../../translated_images/pa/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![ਡਾਟਾ ਸਾਇੰਸ ਦੀ ਪਰਿਭਾਸ਼ਾ ਵੀਡੀਓ](../../../../translated_images/pa/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [ਪ੍ਰੀ-ਲੈਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -102,7 +102,7 @@
ਇਸ ਚੁਣੌਤੀ ਵਿੱਚ, ਅਸੀਂ ਟੈਕਸਟਾਂ ਨੂੰ ਦੇਖ ਕੇ ਡੇਟਾ ਸਾਇੰਸ ਦੇ ਖੇਤਰ ਨਾਲ ਸਬੰਧਤ ਸੰਕਲਪਾਂ ਨੂੰ ਪਤਾ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ। ਅਸੀਂ ਡੇਟਾ ਸਾਇੰਸ 'ਤੇ ਇੱਕ ਵਿਕੀਪੀਡੀਆ ਲੇਖ ਲਵਾਂਗੇ, ਟੈਕਸਟ ਨੂੰ ਡਾਊਨਲੋਡ ਅਤੇ ਪ੍ਰੋਸੈਸ ਕਰਾਂਗੇ, ਅਤੇ ਫਿਰ ਇੱਕ ਵਰਡ ਕਲਾਉਡ ਬਣਾਵਾਂਗੇ ਜਿਵੇਂ ਕਿ ਇਹ ਹੈ:
![ਡੇਟਾ ਸਾਇੰਸ ਲਈ ਵਰਡ ਕਲਾਉਡ](../../../../translated_images/pa/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![ਡੇਟਾ ਸਾਇੰਸ ਲਈ ਵਰਡ ਕਲਾਉਡ](../../../../translated_images/pa/ds_wordcloud.664a7c07dca57de0.webp)
ਕੋਡ ਨੂੰ ਪੜ੍ਹਨ ਲਈ [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 'ਤੇ ਜਾਓ। ਤੁਸੀਂ ਕੋਡ ਨੂੰ ਚਲਾ ਵੀ ਸਕਦੇ ਹੋ, ਅਤੇ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਸਾਰੇ ਡੇਟਾ ਰੂਪਾਂਤਰਨਾਂ ਨੂੰ ਅਸਲ ਸਮੇਂ ਵਿੱਚ ਕਿਵੇਂ ਕਰਦਾ ਹੈ।

@ -3,15 +3,15 @@
{
"cell_type": "markdown",
"source": [
"# ਚੁਣੌਤੀ: ਡਾਟਾ ਸਾਇੰਸ ਬਾਰੇ ਪਾਠ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ\n",
"# ਚੈਲੇਂਜ: ਡੇਟਾ ਸਾਇੰਸ ਬਾਰੇ ਟੈਕਸਟ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ\n",
"\n",
"ਇਸ ਉਦਾਹਰਨ ਵਿੱਚ, ਆਓ ਇੱਕ ਸਧਾਰਣ ਕਸਰਤ ਕਰੀਏ ਜੋ ਰਵਾਇਤੀ ਡਾਟਾ ਸਾਇੰਸ ਪ੍ਰਕਿਰਿਆ ਦੇ ਸਾਰੇ ਕਦਮਾਂ ਨੂੰ ਕਵਰ ਕਰਦੀ ਹੈ। ਤੁਹਾਨੂੰ ਕੋਈ ਕੋਡ ਨਹੀਂ ਲਿਖਣਾ, ਤੁਸੀਂ ਸਿਰਫ ਹੇਠਾਂ ਦਿੱਤੇ ਸੈੱਲਾਂ 'ਤੇ ਕਲਿੱਕ ਕਰਕੇ ਉਨ੍ਹਾਂ ਨੂੰ ਚਲਾਉਣਾ ਹੈ ਅਤੇ ਨਤੀਜਾ ਦੇਖਣਾ ਹੈ। ਇੱਕ ਚੁਣੌਤੀ ਵਜੋਂ, ਤੁਹਾਨੂੰ ਇਹ ਕੋਡ ਵੱਖ-ਵੱਖ ਡਾਟਾ ਨਾਲ ਅਜ਼ਮਾਉਣ ਦੀ ਪ੍ਰੇਰਣਾ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ।\n",
"ਇਸ ਉਦਾਹਰਨ ਵਿੱਚ, ਆਓ ਇੱਕ ਸਧਾਰਣ ਅਭਿਆਸ ਕਰੀਏ ਜੋ ਪਰੰਪਰਿਕ ਡੇਟਾ ਸਾਇੰਸ ਪ੍ਰਕਿਰਿਆ ਦੇ ਸਾਰੇ ਕਦਮਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ। ਤੁਹਾਨੂੰ ਕੋਈ ਕੋਡ ਲਿਖਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ, ਤੁਸੀਂ ਸਿਰਫ ਹੇਠਾਂ ਦਿੱਤੀਆਂ ਸੈਲਾਂ 'ਤੇ ਕਲਿੱਕ ਕਰ ਕੇ ਉਨ੍ਹਾਂ ਨੂੰ ਚਲਾ ਸਕਦੇ ਹੋ ਅਤੇ ਨਤੀਜੇ ਵੇਖ ਸਕਦੇ ਹੋ। ਇੱਕ ਚੈਲੇਂਜ ਵਜੋਂ, ਤੁਹਾਨੂੰ ਹੌਸਲਾ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਇਸ ਕੋਡ ਨੂੰ ਵੱਖ-ਵੱਖ ਡੇਟਾ ਨਾਲ ਅਜ਼ਮਾਓ।\n",
"\n",
"## ਲਕਸ਼\n",
"## ਮੁੱਦਾ\n",
"\n",
"ਇਸ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਨਾਲ ਜੁੜੇ ਵੱਖ-ਵੱਖ ਧਾਰਾਵਾਂ ਦੀ ਚਰਚਾ ਕਰ ਰਹੇ ਹਾਂ। ਆਓ ਕੁਝ ਹੋਰ ਸੰਬੰਧਿਤ ਧਾਰਾਵਾਂ ਦੀ ਖੋਜ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੀਏ **ਟੈਕਸਟ ਮਾਈਨਿੰਗ** ਕਰਕੇ। ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਬਾਰੇ ਇੱਕ ਪਾਠ ਨਾਲ ਸ਼ੁਰੂ ਕਰਾਂਗੇ, ਇਸ ਵਿੱਚੋਂ ਕੁੰਜੀ ਸ਼ਬਦ ਕੱਢਾਂਗੇ, ਅਤੇ ਫਿਰ ਨਤੀਜੇ ਨੂੰ ਵਿਜੁਅਲਾਈਜ਼ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ।\n",
"ਇਸ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ ਡੇਟਾ ਸਾਇੰਸ ਨਾਲ ਸਬੰਧਿਤ ਵੱਖ-ਵੱਖ ਧਾਰਣਾਵਾਂ 'ਤੇ ਚਰਚਾ ਕਰ ਰਹੇ ਹਾਂ। ਆਓ ਕੁਝ ਹੋਰ ਸੰਬੰਧਿਤ ਧਾਰਾਵਾਂ ਦੀ ਖੋਜ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੀਏ **ਟੈਕਸਟ ਮਾਇਨਿੰਗ** ਕਰਕੇ। ਅਸੀਂ ਡੇਟਾ ਸਾਇੰਸ ਬਾਰੇ ਇੱਕ ਟੈਕਸਟ ਨਾਲ ਸ਼ੁਰੂ ਕਰਾਂਗੇ, ਉਸ ਵਿੱਚੋਂ ਕੀਵਰਡਸ ਨਿਕਾਲਾਂਗੇ, ਅਤੇ ਫਿਰ ਨਤੀਜੇ ਨੂੰ ਵਿਜ਼ੂਅਲਾਈਜ਼ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ।\n",
"\n",
"ਪਾਠ ਵਜੋਂ, ਮੈਂ ਵਿਕੀਪੀਡੀਆ ਤੋਂ ਡਾਟਾ ਸਾਇੰਸ ਵਾਲੇ ਪੰਨੇ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗਾ:\n"
"ਇੱਕ ਟੈਕਸਟ ਵਜੋਂ, ਮੈਂ ਵਿਕੀਪੀਡੀਆ ਤੋਂ ਡੇਟਾ ਸਾਇੰਸ ਦੇ ਪੰਨੇ ਦਾ ਉਪਯੋਗ ਕਰਾਂਗਾ:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## ਪਹਲਾ ਕਦਮ: ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨਾ\n",
"\n",
"ਹਰ ਡਾਟਾ ਸਾਇੰਸ ਪ੍ਰਕਿਰਿਆ ਦਾ ਪਹਿਲਾ ਕਦਮ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨਾ ਹੁੰਦਾ ਹੈ। ਅਸੀਂ ਇਹ ਕੰਮ ਕਰਨ ਲਈ `requests` ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ:\n"
"## Step 1: Getting the Data\r\n",
"\r\n",
"ਪਹਿਲਾ ਕਦਮ ਹਰ ਡਾਟਾ ਸਾਇੰਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨਾ ਹੁੰਦਾ ਹੈ। ਅਸੀਂ ਇਹ ਕਰਨ ਲਈ `requests` ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## ਪੜਾਅ 2: ਡਾਟਾ ਨੂੰ ਬਦਲਣਾ\n",
"## Step 2: ਡੇਟਾ ਨੂੰ ਬਦਲਣਾ\n",
"\n",
"ਅਗਲਾ ਕਦਮ ਡਟਾ ਨੂੰ ਪ੍ਰਕਿਰਿਆ ਲਈ ਉਚਿਤ ਰੂਪ ਵਿੱਚ ਬਦਲਣਾ ਹੈ। ਸਾਡੇ ਕੇਸ ਵਿੱਚ, ਅਸੀਂ ਪੇਜ ਤੋਂ HTML ਸਰੋਤ ਕੋਡ ਡਾਊਨਲੋਡ ਕੀਤਾ ਹੈ, ਅਤੇ ਹੁਣ ਇਸਨੂੰ ਸਧਾਰਨ ਟੈਕਸਟ ਵਿੱਚ ਬਦਲਣ ਦੀ ਲੋੜ ਹੈ।\n",
"ਅਗਲਾ ਕਦਮ ਡਟਾ ਨੂੰ ਪ੍ਰਕਿਰਿਆ ਲਈ ਉਚਿਤ ਰੂਪ ਵਿੱਚ ਬਦਲਣਾ ਹੈ। ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ, ਅਸੀਂ ਪੰਨੇ ਤੋਂ HTML ਸਰੋਤ ਕੋਡ ਡਾਊਨਲੋਡ ਕੀਤਾ ਹੈ, ਅਤੇ ਸਾਨੂੰ ਇਸਨੂੰ ਸਧਾਰਣ ਟੈਕਸਟ ਵਿੱਚ ਬਦਲਣਾ ਹੈ।\n",
"\n",
"ਇਹ ਕੰਮ ਕਰਨ ਦੇ ਕਈ ਤਰੀਕੇ ਹਨ। ਅਸੀਂ Python ਦੇ ਸਭ ਤੋਂ ਆਸਾਨ ਬਿਲਟ-ਇਨ [HTMLParser](https://docs.python.org/3/library/html.parser.html) ਆਬਜੈਕਟ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ। ਸਾਨੂੰ `HTMLParser` ਕਲਾਸ ਨੂੰ ਸਬਕਲਾਸ ਕਰਨਾ ਪਵੇਗਾ ਅਤੇ ਉਹ ਕੋਡ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨਾ ਪਵੇਗਾ ਜੋ HTML ਟੈਗਾਂ ਦੇ ਅੰਦਰ ਸਾਰੇ ਟੈਕਸਟ ਨੂੰ ਇਕੱਠਾ ਕਰੇਗਾ, ਪਰ `<script>` ਅਤੇ `<style>` ਟੈਗਾਂ ਤੋਂ ਬਿਨਾਂ।\n"
"ਇਹ ਕਈ ਤਰੀਕਿਆਂ ਨਾਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਅਸੀਂ [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ, ਜੋ HTML ਨੂੰ ਪਾਰਸ ਕਰਨ ਲਈ ਇੱਕ ਲੋਕਪ੍ਰਿਯ Python ਲਾਇਬ੍ਰੇਰੀ ਹੈ। BeautifulSoup ਸਾਨੂੰ ਖਾਸ HTML ਤੱਤਾਂ ਨੂੰ ਲਕੜੀ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਤਾਂ ਜੋ ਅਸੀਂ ਵਿਕੀਪੀਡੀਆ ਦੇ ਮੁੱਖ ਲੇਖ ਸਮੱਗਰੀ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰ ਸਕੀਏ ਅਤੇ ਕੁਝ ਨੈਵੀਗੇਸ਼ਨ ਮੈਨੂਜ਼, ਸਾਈਡਬਾਰ, ਫੁੱਟਰ ਅਤੇ ਹੋਰ ਅਣਵਾਂਛਿਤ ਸਮੱਗਰੀ ਨੂੰ ਘਟਾ ਸਕੀਏ (ਭਾਵੇ ਕੁਝ ਬੋਇਲਰਪਲੇਟ ਟੈਕਸਟ ਹਾਲੇ ਵੀ ਰਹਿ ਸਕਦਾ ਹੈ)।\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਸਾਨੂੰ HTML ਪਾਰਸਿੰਗ ਲਈ BeautifulSoup ਲਾਇਬ੍ਰੇਰੀ ਨੂੰ ਇੰਸਟਾਲ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਹੈ:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## ਕਦਮ 3: ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨਾ\n",
"## Step 3: Insights ਪ੍ਰਾਪਤ ਕਰਨਾ\n",
"\n",
"ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਇਹ ਹੈ ਕਿ ਅਸੀਂ ਆਪਣੇ ਡਾਟਾ ਨੂੰ ਕਿਸੇ ਐਸੇ ਰੂਪ ਵਿੱਚ ਬਦਲ ਲਈਏ ਜਿਸ ਤੋਂ ਅਸੀਂ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰ ਸਕੀਏ। ਸਾਡੇ ਕੇਸ ਵਿੱਚ, ਅਸੀਂ ਪਾਠ ਵਿੱਚੋਂ ਕੁੰਜੀ ਸ਼ਬਦ (keywords) ਕੱਢਣੇ ਹਨ ਅਤੇ ਦੇਖਣਾ ਹੈ ਕਿ ਕਿਹੜੇ ਕੁੰਜੀ ਸ਼ਬਦ ਵਧੇਰੇ ਮਹੱਤਵਪੂਰਨ ਹਨ।\n",
"ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਣ ਕਦਮ ਹੈ ਆਪਣੇ ਡਾਟਾ ਨੂੰ ਕਿਸੇ ਐਸੇ ਰੂਪ ਵਿੱਚ ਬਦਲਣਾ ਜਿਸ ਤੋਂ ਅਸੀਂ ਅੰਤਰਦ੍ਰਿਸ਼ਟੀ ਲੈ ਸਕੀਏ। ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ, ਅਸੀਂ ਲਿਖਤ ਵਿੱਚੋਂ ਕੁੰਜੀ ਸ਼ਬਦ ਕੱਢਣੇ ਹਨ, ਅਤੇ ਵੇਖਣਾ ਹੈ ਕਿ ਕਿਹੜੇ ਕੁੰਜੀ ਸ਼ਬਦ ਜ਼ਿਆਦਾ ਮਾਇਨੇ ਰੱਖਦੇ ਹਨ।\n",
"\n",
"ਅਸੀਂ ਕੁੰਜੀ ਸ਼ਬਦ ਕੱਢਣ ਲਈ Python ਦੀ ਇੱਕ ਲਾਇਬ੍ਰੇਰੀ [RAKE](https://github.com/aneesha/RAKE) ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ। ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਆਓ ਇਸ ਲਾਇਬ੍ਰੇਰੀ ਨੂੰ ਇੰਸਟਾਲ ਕਰੀਏ ਜੇਕਰ ਇਹ ਮੌਜੂਦ ਨਹੀਂ ਹੈ:\n"
"ਅਸੀਂ ਕੁੰਜੀ ਸ਼ਬਦ ਕੱਢਣ ਲਈ Python ਲਾਇਬ੍ਰੇਰੀ [RAKE](https://github.com/aneesha/RAKE) ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ। ਪਹਿਲਾਂ, ਜੇ ਇਹ ਲਾਇਬ੍ਰੇਰੀ ਮੌਜੂਦ ਨਾ ਹੋਵੇ ਤਾਂ ਇਸ ਨੂੰ ਇੰਸਟਾਲ ਕਰੀਏ: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"ਮੁੱਖ ਕਾਰਗੁਜ਼ਾਰੀ `Rake` ਆਬਜੈਕਟ ਤੋਂ ਉਪਲਬਧ ਹੈ, ਜਿਸਨੂੰ ਅਸੀਂ ਕੁਝ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਸਟਮਾਈਜ਼ ਕਰ ਸਕਦੇ ਹਾਂ। ਸਾਡੇ ਕੇਸ ਵਿੱਚ, ਅਸੀਂ ਇੱਕ ਕੀਵਰਡ ਦੀ ਘੱਟੋ-ਘੱਟ ਲੰਬਾਈ 5 ਅੱਖਰ, ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਕੀਵਰਡ ਦੀ ਘੱਟੋ-ਘੱਟ ਆਵ੍ਰਿਤੀ 3, ਅਤੇ ਕੀਵਰਡ ਵਿੱਚ ਸ਼ਬਦਾਂ ਦੀ ਵੱਧ ਤੋਂ ਵੱਧ ਗਿਣਤੀ 2 ਤੱਕ ਸੈਟ ਕਰਾਂਗੇ। ਹੋਰ ਮੁੱਲਾਂ ਨਾਲ ਖੇਡਣ ਅਤੇ ਨਤੀਜੇ ਦਾ ਅਧਿਐਨ ਕਰਨ ਲਈ ਆਜ਼ਾਦ ਮਹਿਸੂਸ ਕਰੋ।\n"
"ਮੁੱਖ ਕਾਰਜਸ਼ੀਲਤਾ `Rake` ਓਬਜੈਕਟ ਤੋਂ ਉਪਲਬਧ ਹੈ, ਜਿਸਨੂੰ ਅਸੀਂ ਕੁਝ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਸਟਮਾਈਜ਼ ਕਰ ਸਕਦੇ ਹਾਂ। ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ, ਅਸੀਂ ਕਿਸੇ ਕੀਵਰਡ ਦੀ ਘੱਟੋ-ਘੱਟ ਲੰਬਾਈ 5 ਅੱਖਰਾਂ ਤੇ ਸੈੱਟ ਕਰਾਂਗੇ, ਡਾਕੂਮੈਂਟ ਵਿੱਚ ਕਿਸੇ ਕੀਵਰਡ ਦੀ ਘੱਟੋ-ਘੱਟ ਆਵ੍ਰਿਤੀ 3 ਤੇ, ਅਤੇ ਕਿਸੇ ਕੀਵਰਡ ਵਿੱਚ ਸ਼ਬਦਾਂ ਦੀ ਜ਼ਿਆਦਾ ਤੋਂ ਜ਼ਿਆਦਾ ਗਿਣਤੀ 2 ਤੇ। ਹੋਰ ਮੂਲਾਂ ਨਾਲ ਖੇਡਣ ਅਤੇ ਨਤੀਜੇ ਨੂੰ ਦੇਖਣ ਲਈ ਮਾੜਾ ਮਹਿਸੂਸ ਨਾ ਕਰੋ।\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"ਸਾਨੂੰ ਮਹੱਤਵ ਦੇ ਨਾਲ ਜੁੜੇ ਸ਼ਬਦਾਂ ਦੀ ਇੱਕ ਸੂਚੀ ਪ੍ਰਾਪਤ ਹੋਈ। ਜਿਵੇਂ ਕਿ ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ, ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਵਿਸ਼ੇ, ਜਿਵੇਂ ਕਿ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਅਤੇ ਬਿਗ ਡੇਟਾ, ਸੂਚੀ ਵਿੱਚ ਸਿਖਰ ਦੇ ਸਥਾਨਾਂ 'ਤੇ ਮੌਜੂਦ ਹਨ।\n",
"\n",
"## ਚਰਣ 4: ਨਤੀਜੇ ਨੂੰ ਦ੍ਰਿਸ਼ਮਾਨ ਕਰਨਾ\n",
"ਅਸੀਂ ਸ਼ਬਦਾਂ ਦੀ ਇੱਕ ਸੂਚੀ ਪ੍ਰਾਪਤ ਕੀਤੀ ਹੈ ਜਿੱਦੇ ਨਾਲ ਸੰਬੰਧਤ ਮਹੱਤਵ ਦਰਜਾ ਵੀ ਦਿੱਤਾ ਗਿਆ ਹੈ। ਜਿਵੇਂ ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ, ਸਭ ਤੋਂ ਸਬੰਧਤ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ, ਜਿਵੇਂ ਕਿ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਅਤੇ ਬਿਗ ਡੇਟਾ, ਸੂਚੀ ਵਿੱਚ ਸਿਖਰਲੇ ਅਸਥਾਨਾਂ ’ਤੇ ਮੌਜੂਦ ਹਨ।\n",
"\n",
"ਲੋਕ ਡੇਟਾ ਨੂੰ ਦ੍ਰਿਸ਼ਮਾਨ ਰੂਪ ਵਿੱਚ ਸਭ ਤੋਂ ਵਧੀਆ ਸਮਝ ਸਕਦੇ ਹਨ। ਇਸ ਲਈ ਅਕਸਰ ਡੇਟਾ ਨੂੰ ਦ੍ਰਿਸ਼ਮਾਨ ਕਰਨਾ ਸਹੀ ਹੁੰਦਾ ਹੈ ਤਾਂ ਜੋ ਕੁਝ ਝਲਕੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ ਜਾ ਸਕਣ। ਅਸੀਂ Python ਵਿੱਚ `matplotlib` ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹਾਂ ਕਿਵਰਡਸ ਦੀ ਸਧਾਰਨ ਵੰਡ ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਮਹੱਤਵ ਨੂੰ ਪਲਾਟ ਕਰਨ ਲਈ:\n"
"## ਕਦਮ 4: ਨਤੀਜੇ ਨੂੰ ਵਿਜ਼ੂਅਲ ਬਣਾਉਣਾ\n",
"\n",
"ਲੋਕ ਡੇਟਾ ਨੂੰ ਸਭ ਤੋਂ ਵਧੀਆ ਵਿਜ਼ੂਅਲ ਰੂਪ ਵਿੱਚ ਸਮਝ ਸਕਦੇ ਹਨ। ਇਸ ਲਈ ਅਕਸਰ ਡੇਟਾ ਨੂੰ ਵਿਜ਼ੂਅਲ ਬਣਾਉਣਾ ਸਮਾਂਝਦਾਰੀ ਵਾਲਾ ਹੁੰਦਾ ਹੈ ਤਾਂ ਜੋ ਕੁਝ ਅੰਦਰੂਨੀ ਜਾਣਕਾਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ ਜਾ ਸਕਣ। ਅਸੀਂ Python ਵਿੱਚ `matplotlib` ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਿਵੇਂ ਸਬਦਾਂ ਦੇ ਵਿਕਰਨ ਦਾ ਸਧਾਰਣ ਪਲਾਟ ਬਣਾ ਸਕਦੇ ਹਾਂ, ਉਨ੍ਹਾਂ ਦੀ ਪ੍ਰਸੰਗਿਕਤਾ ਨਾਲ:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"ਤਾਂਕਿ ਸ਼ਬਦਾਂ ਦੀ ਆਵ੍ਰਿਤੀ ਨੂੰ ਦਿਖਾਉਣ ਦਾ ਹੋਰ ਵੀ ਵਧੀਆ ਤਰੀਕਾ ਹੈ - **ਵਰਡ ਕਲਾਉਡ** ਦੀ ਵਰਤੋਂ ਕਰਕੇ। ਸਾਨੂੰ ਆਪਣੇ ਕੀਵਰਡ ਸੂਚੀ ਤੋਂ ਵਰਡ ਕਲਾਉਡ ਬਣਾਉਣ ਲਈ ਇੱਕ ਹੋਰ ਲਾਇਬ੍ਰੇਰੀ ਇੰਸਟਾਲ ਕਰਨ ਦੀ ਲੋੜ ਹੋਵੇਗੀ।\n"
"ਤੱਥਾਪਿ, ਸ਼ਬਦਾਂ ਦੀ ਘਣਤਾ ਨੂੰ ਦੇਖਾਉਣ ਦਾ ਇੱਕ ਹੋਰ ਬਹੁਤ ਵਧੀਆ ਤਰੀਕਾ ਹੈ - **ਵਰਡ ਕਲਾਊਡ** ਦੀ ਵਰਤੋਂ ਕਰਨਾ। ਸਾਨੂੰ ਆਪਣੇ ਕੀਵਰਡ ਲਿਸਟ ਤੋਂ ਵਰਡ ਕਲਾਊਡ ਬਣਾਉਣ ਲਈ ਇੱਕ ਹੋਰ ਲਾਇਬ੍ਰੇਰੀ ਇੰਸਟਾਲ ਕਰਨੀ ਪਵੇਗੀ।\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` ਆਬਜੈਕਟ ਮੂਲ ਪਾਠ ਜਾਂ ਪਹਿਲੋਂ ਤੋਂ ਗਿਣਤੀ ਕੀਤੇ ਸ਼ਬਦਾਂ ਦੀ ਸੂਚੀ ਨੂੰ ਉਨ੍ਹਾਂ ਦੀਆਂ ਆਵ੍ਰਿੱਤੀਆਂ ਨਾਲ ਲੈਂਦਾ ਹੈ ਅਤੇ ਇੱਕ ਚਿੱਤਰ ਵਾਪਸ ਕਰਦਾ ਹੈ, ਜਿਸਨੂੰ ਫਿਰ `matplotlib` ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਦਿਖਾਇਆ ਜਾ ਸਕਦਾ ਹੈ:\n"
"`WordCloud` ਆਬਜੈਕਟ ਮੂਲ ਲਿਖਤ ਜਾਂ ਪਹਿਲਾਂ ਗਿਣਤੀ ਕੀਤੇ ਸ਼ਬਦਾਂ ਦੀ ਸੂਚੀ ਲੈਂਦਾ ਹੈ, ਅਤੇ ਇੱਕ ਚਿੱਤਰ ਵਾਪਸ ਕਰਦਾ ਹੈ, ਜਿਸ ਨੂੰ ਫਿਰ `matplotlib` ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਦਿਖਾਇਆ ਜਾ ਸਕਦਾ ਹੈ:\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"ਅਸੀਂ ਮੂਲ ਪਾਠ ਨੂੰ `WordCloud` ਵਿੱਚ ਪਾਸ ਕਰ ਸਕਦੇ ਹਾਂ - ਆਓ ਵੇਖੀਏ ਕਿ ਕੀ ਅਸੀਂ ਸਮਾਨ ਨਤੀਜਾ ਪ੍ਰਾਪਤ ਕਰਨ ਦੇ ਯੋਗ ਹਾਂ:\n"
"ਅਸੀਂ ਅਸਲ ਟੈਕਸਟ ਨੂੰ ਵੀ `WordCloud` ਵਿੱਚ ਦੇ ਸਕਦੇ ਹਾਂ - ਆਓ ਦੇਖੀਏ ਕਿ ਕੀ ਅਸੀਂ ਮਿਲਦੇ ਜੁਲਦੇ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਨ ਦੇ ਯੋਗ ਹਾਂ:\n"
],
"metadata": {}
},
@ -372,11 +371,11 @@
{
"cell_type": "markdown",
"source": [
"ਤੁਸੀਂ ਵੇਖ ਸਕਦੇ ਹੋ ਕਿ ਹੁਣ ਸ਼ਬਦ ਬੱਦਲ ਕਾਫ਼ੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਲੱਗਦਾ ਹੈ, ਪਰ ਇਸ ਵਿੱਚ ਕਾਫ਼ੀ ਸ਼ੋਰ ਵੀ ਸ਼ਾਮਲ ਹੈ (ਉਦਾਹਰਨ ਲਈ, ਅਸੰਬੰਧਤ ਸ਼ਬਦ ਜਿਵੇਂ ਕਿ `Retrieved on`)। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਸਾਨੂੰ ਘੱਟ ਕੁੰਜੀ ਸ਼ਬਦ ਮਿਲਦੇ ਹਨ ਜੋ ਦੋ ਸ਼ਬਦਾਂ ਤੋਂ ਬਣੇ ਹੁੰਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ *data scientist* ਜਾਂ *computer science*। ਇਹ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ RAKE ਐਲਗੋਰਿਦਮ ਪਾਠ ਵਿੱਚੋਂ ਚੰਗੇ ਕੁੰਜੀ ਸ਼ਬਦ ਚੁਣਨ ਵਿੱਚ ਕਾਫ਼ੀ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਉਦਾਹਰਨ ਡਾਟਾ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਸਾਫ਼-ਸੁਥਰੇ ਡਾਟਾ ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ, ਕਿਉਂਕਿ ਅੰਤ ਵਿੱਚ ਸਾਫ਼ ਤਸਵੀਰ ਸਾਨੂੰ ਵਧੀਆ ਫੈਸਲੇ ਲੈਣ ਵਿੱਚ ਸਹਾਇਕ ਬਣੇਗੀ।\n",
"ਤੁਸੀਂ ਵੇਖ ਸਕਦੇ ਹੋ ਕਿ ਵਰਡ ਕਲਾਉਡ ਹੁਣ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਲੱਗਦਾ ਹੈ, ਪਰ ਇਸ ਵਿੱਚ ਬਹੁਤ ਸਾਰਾ ਸ਼ੋਰ ਵੀ ਹੁੰਦਾ ਹੈ (ਜਿਵੇਂ ਕਿ ਅਸੰਬੰਧਿਤ ਸ਼ਬਦ ਜਿਵੇਂ `Retrieved on`)। ਇਸ ਦੇ ਨਾਲ, ਸਾਡੇ ਕੋਲ ਉਹ ਕੁੰਜੀਸ਼ਬਦ ਘੱਟ ਹਨ ਜੋ ਦੋ ਸ਼ਬਦਾਂ ਤੋਂ ਬਣੇ ਹੁੰਦੇ ਹਨ, ਜਿਵੇਂ *ਡੇਟਾ ਸਾਇੰਟਿਸਟ*, ਜਾਂ *ਕੰਪਿਊਟਰ ਸਾਇੰਸ*। ਇਹ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ RAKE ਐਲਗੋਰਿਦਮ ਟੈਕਸਟ ਵਿੱਚੋਂ ਚੰਗੇ ਕੁੰਜੀਸ਼ਬਦ ਚੁਣਨ ਵਿੱਚ ਕਾਫੀ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਉਦਾਹਰਨ ਡੇਟਾ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਸਫਾਈ ਦੇ ਮਹੱਤਵ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ, ਕਿਉਂਕਿ ਅੰਤ ਵਿੱਚ ਸਾਫ ਸੂਰਤ ਸਾਨੂੰ ਬਿਹਤਰ ਫੈਸਲੇ ਕਰਨ ਦੀ ਆਗਿਆ ਦੇਵੇਗੀ।\n",
"\n",
"ਇਸ ਅਭਿਆਸ ਵਿੱਚ ਅਸੀਂ ਇੱਕ ਸਧਾਰਣ ਪ੍ਰਕਿਰਿਆ ਤੋਂ ਗੁਜ਼ਰੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਅਸੀਂ ਵਿਕੀਪੀਡੀਆ ਦੇ ਪਾਠ ਵਿੱਚੋਂ ਕੁਝ ਅਰਥ ਕੱਢਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਹੈ, ਕੁੰਜੀ ਸ਼ਬਦ ਅਤੇ ਸ਼ਬਦ ਬੱਦਲ ਦੇ ਰੂਪ ਵਿੱਚ। ਇਹ ਉਦਾਹਰਨ ਕਾਫ਼ੀ ਸਧਾਰਣ ਹੈ, ਪਰ ਇਹ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਉਹ ਸਾਰੇ ਆਮ ਕਦਮ ਦਿਖਾਉਂਦੀ ਹੈ ਜੋ ਇੱਕ ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਡਾਟਾ 'ਤੇ ਕੰਮ ਕਰਦੇ ਸਮੇਂ ਲੈਂਦਾ ਹੈ, ਡਾਟਾ ਪ੍ਰਾਪਤੀ ਤੋਂ ਲੈ ਕੇ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਤੱਕ।\n",
"ਇਸ ਅਭਿਆਸ ਵਿੱਚ ਅਸੀਂ ਵਿਕੀਪੀਡੀਆ ਟੈਕਸਟ ਵਿੱਚੋਂ ਕੁਝ ਅਰਥ ਕੱਢਣ ਦੀ ਸਧਾਰਣ ਪ੍ਰਕਿਰਿਆ ਵਿਚਾਰ ਕੀਤੀ ਹੈ, ਜੋ ਕਿ ਕੁੰਜੀਸ਼ਬਦ ਅਤੇ ਵਰਡ ਕਲਾਉਡ ਦੇ ਰੂਪ ਵਿੱਚ ਹੈ। ਇਹ ਉਦਾਹਰਨ ਕਾਫੀ ਸਧਾਰਣ ਹੈ, ਪਰ ਇਹ ਸਾਰੇ ਆਮ ਕਦਮਾਂ ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਦਰਸਾਉਂਦੀ ਹੈ ਜੋ ਡੇਟਾ ਸਾਇੰਟਿਸਟ ਡੇਟਾ ਦੇ ਨਾਲ ਕੰਮ ਕਰਦਿਆਂ ਕਰਦਾ ਹੈ, ਡੇਟਾ ਹੁਕਮ ਸੰਗ੍ਰਹਿ ਕਰਨ ਤੋਂ ਲੈ ਕੇ ਵਿਜ਼ੁਅਲਾਈਜ਼ੇਸ਼ਨ ਤੱਕ।\n",
"\n",
"ਸਾਡੇ ਕੋਰਸ ਵਿੱਚ ਅਸੀਂ ਇਹ ਸਾਰੇ ਕਦਮ ਵਿਸਥਾਰ ਵਿੱਚ ਚਰਚਾ ਕਰਾਂਗੇ।\n"
"ਸਾਡੇ ਕੋਰਸ ਵਿੱਚ ਅਸੀਂ ਇਹ ਸਾਰੇ ਕਦਮ ਵਿਸਥਾਰ ਨਾਲ ਚਰਚਾ ਕਰਾਂਗੇ।\n"
],
"metadata": {}
},
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**ਅਸਵੀਕਰਤੀ**: \nਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦਾ ਯਤਨ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁੱਤੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਇਸ ਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਮੌਜੂਦ ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਪ੍ਰਮਾਣਿਕ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੇ ਪ੍ਰਯੋਗ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ। \n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**ਇਤਲਾ**: \nਇਹ ਦਸਤਾਵੇਜ਼ ਏਆਈ ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਨਾਲ ਅਨੁਵਾਦਿਤ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਤਾ ਲਈ ਯਤਨਸ਼ੀਲ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਜਾਣੋ ਕਿ ਆਟੋਮੈਟੇਡ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸਗਤਤਾ ਹੋ ਸਕਦੀ ਹੈ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਕ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਨਾਲ ਪੈਦਾਂ ਹੋਣ ਵਾਲੀਆਂ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀਆਂ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆਵਾਂ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +417,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-02T10:03:07+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "pa"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# ਚੁਣੌਤੀ: ਡਾਟਾ ਸਾਇੰਸ ਬਾਰੇ ਟੈਕਸਟ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ\n",
"\n",
"> *ਇਸ ਨੋਟਬੁੱਕ ਵਿੱਚ, ਅਸੀਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਵਿਕੀਪੀਡੀਆ ਲੇਖ ਵਰਗੇ ਵੱਖ-ਵੱਖ URL ਦੀ ਵਰਤੋਂ ਕਰਨ ਦਾ ਪ੍ਰਯੋਗ ਕਰਦੇ ਹਾਂ। ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਮੁਕਾਬਲੇ, ਇਸ ਲੇਖ ਵਿੱਚ ਕਈ ਸ਼ਬਦ ਹਨ, ਜਿਸ ਕਰਕੇ ਵਿਸ਼ਲੇਸ਼ਣ ਹੋਰ ਜਟਿਲ ਹੋ ਜਾਂਦਾ ਹੈ। ਕੀਵਰਡ ਐਕਸਟ੍ਰੈਕਸ਼ਨ ਕਰਨ ਤੋਂ ਬਾਅਦ ਡਾਟਾ ਨੂੰ ਸਾਫ਼ ਕਰਨ ਦਾ ਹੋਰ ਤਰੀਕਾ ਲੱਭਣ ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਜੋ ਕੁਝ ਆਮ, ਪਰ ਅਰਥਹੀਨ ਸ਼ਬਦ ਸੰਯੋਜਨਾਂ ਨੂੰ ਹਟਾਇਆ ਜਾ ਸਕੇ।*\n",
"\n",
"ਇਸ ਉਦਾਹਰਨ ਵਿੱਚ, ਆਓ ਇੱਕ ਸਧਾਰਨ ਅਭਿਆਸ ਕਰੀਏ ਜੋ ਰਵਾਇਤੀ ਡਾਟਾ ਸਾਇੰਸ ਪ੍ਰਕਿਰਿਆ ਦੇ ਸਾਰੇ ਕਦਮਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ। ਤੁਹਾਨੂੰ ਕੋਈ ਕੋਡ ਲਿਖਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ, ਤੁਸੀਂ ਸਿਰਫ ਹੇਠਾਂ ਦਿੱਤੇ ਸੈੱਲਾਂ 'ਤੇ ਕਲਿੱਕ ਕਰਕੇ ਉਨ੍ਹਾਂ ਨੂੰ ਚਲਾਉ ਅਤੇ ਨਤੀਜੇ ਨੂੰ ਦੇਖੋ। ਇੱਕ ਚੁਣੌਤੀ ਵਜੋਂ, ਤੁਹਾਨੂੰ ਇਹ ਕੋਡ ਵੱਖ-ਵੱਖ ਡਾਟਾ ਨਾਲ ਅਜ਼ਮਾਉਣ ਲਈ ਪ੍ਰੇਰਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।\n",
"\n",
"## ਲਕਸ਼\n",
"\n",
"ਇਸ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਨਾਲ ਸੰਬੰਧਿਤ ਵੱਖ-ਵੱਖ ਧਾਰਨਾਵਾਂ ਬਾਰੇ ਚਰਚਾ ਕਰ ਰਹੇ ਹਾਂ। ਆਓ ਕੁਝ ਹੋਰ ਸੰਬੰਧਿਤ ਧਾਰਨਾਵਾਂ ਦੀ ਖੋਜ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੀਏ **ਟੈਕਸਟ ਮਾਈਨਿੰਗ** ਕਰਕੇ। ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਬਾਰੇ ਇੱਕ ਟੈਕਸਟ ਨਾਲ ਸ਼ੁਰੂ ਕਰਾਂਗੇ, ਇਸ ਵਿੱਚੋਂ ਕੀਵਰਡ ਕੱਢਾਂਗੇ, ਅਤੇ ਫਿਰ ਨਤੀਜੇ ਨੂੰ ਵਿਜੁਅਲਾਈਜ਼ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ।\n",
"\n",
"ਟੈਕਸਟ ਵਜੋਂ, ਮੈਂ ਵਿਕੀਪੀਡੀਆ 'ਤੇ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਪੰਨੇ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗਾ:\n"
"# ਚੁਣੌਤੀ: ਡਾਟਾ ਸਾਇੰਸ ਬਾਰੇ ਲਿਖਤ ਦੀ ਵਿਸ਼ਲੇਸ਼ਣ\r\n",
"\r\n",
"> *ਇਸ ਨੋਟਬੁੱਕ ਵਿੱਚ, ਅਸੀਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ 'ਤੇ ਵਿਸ਼ਪੇਡੀਆ ਲੇਖ ਦੇ ਵੱਖ-ਵੱਖ URL ਦੀ ਵਰਤੋਂ ਕਰ ਕੇ ਪ੍ਰਯੋਗ ਕਰਦੇ ਹਾਂ। ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ, ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਮੁਕਾਬਲੇ, ਇਸ ਲੇਖ ਵਿੱਚ ਬਹੁਤ ਸਾਰੇ ਸ਼ਬਦ ਹਨ, ਜਿਸ ਕਾਰਨ ਵਿਸ਼ਲੇਸ਼ਣ ਹੋਰ ਜ਼ਿਆਦਾ ਮੁਸ਼ਕਿਲ ਬਣ ਜਾਂਦੀ ਹੈ। ਅਸੀਂ ਕੁੰਜੀ ਸ਼ਬਦ ਨਿਕਾਸ਼ ਦੇ ਬਾਅਦ ਡਾਟਾ ਨੂੰ ਸਾਫ਼ ਕਰਨ ਲਈ ਕੋਈ ਹੋਰ ਤਰੀਕਾ ਲੱਭਣਾ ਚਾਹੀਦਾ ਹੈ, ਤਾਂ ਜੋ ਕੁਝ ਬਾਰ-ਬਾਰ ਦੇ ਪਰ ਅਰਥਪੂਰਨ ਨਾ ਹੋਣ ਵਾਲੇ ਸ਼ਬਦਾਂ ਦੇ ਸੰਯੋਜਨਾਂ ਤੋਂ ਬਚਿਆ ਜਾ ਸਕੇ।*\r\n",
"\r\n",
"ਇਸ ਉਦਾਹਰਣ ਵਿੱਚ, ਆਓ ਇੱਕ ਸਧਾਰਣ ਅਭਿਆਸ ਕਰੀਏ ਜੋ ਪਰੰਪਰਾਗਤ ਡਾਟਾ ਸਾਇੰਸ ਪ੍ਰਕਿਰਿਆ ਦੇ ਸਾਰੇ ਕਦਮਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ। ਤੁਹਾਨੂੰ ਕੋਈ ਕੋਡ ਲਿਖਣ ਦੀ ਜ਼ਰੂਰਤ ਨਹੀਂ, ਤੁਸੀਂ ਹੇਠਾਂ ਦਿੱਤੇ ਸੈੱਲਾਂ 'ਤੇ ਕਲਿੱਕ ਕਰਕੇ ਉਨ੍ਹਾਂ ਨੂੰ ਚਲਾ ਸਕਦੇ ਹੋ ਅਤੇ ਨਤੀਜਾ ਦੇਖ ਸਕਦੇ ਹੋ। ਇੱਕ ਚੁਣੌਤੀ ਵਜੋਂ, ਤੁਹਾਨੂੰ ਪ੍ਰੋਤਸਾਹਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਇਹ ਕੋਡ ਵੱਖ-ਵੱਖ ਡਾਟਾ ਨਾਲ آزਮਾਓ। \r\n",
"\r\n",
"## ਲਕੜੀ\r\n",
"\r\n",
"ਇਸ ਪਾਠ ਵਿੱਚ, ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਨਾਲ ਸਬੰਧਤ ਵੱਖ-ਵੱਖ ਧਾਰਣਾਵਾਂ 'ਤੇ ਚਰਚਾ ਕੀਤੀ ਹੈ। ਆਓ ਕੁਝ ਹੋਰ ਸਬੰਧਤ ਧਾਰਣਾਵਾਂ ਖੋਜਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੀਏ **ਲਿਖਤ ਖਣਨ** ਕਰਕੇ। ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਬਾਰੇ ਲਿਖਤ ਨਾਲ ਸ਼ੁਰੂ ਕਰਾਂਗੇ, ਇਸ ਵਿੱਚੋਂ ਕੁੰਜੀ ਸ਼ਬਦ ਨਿਕਾਸ਼ ਕਰਾਂਗੇ ਅਤੇ ਫਿਰ ਨਤੀਜੇ ਨੂੰ ਦ੍ਰਿਸ਼ਟੀਗਤ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ।\r\n",
"\r\n",
"ਲੇਖ ਵਜੋਂ, ਮੈਂ ਵਿਸ਼ਪੇਡੀਆ ਤੋਂ ਡਾਟਾ ਸਾਇੰਸ ਦਾ ਪੇਜ਼ ਵਰਤਾਂਗਾ:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## ਪਹਲਾ ਕਦਮ: ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨਾ\n",
"## Step 1: ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨਾ\n",
"\n",
"ਹਰ ਡਾਟਾ ਸਾਇੰਸ ਪ੍ਰਕਿਰਿਆ ਦਾ ਪਹਿਲਾ ਕਦਮ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨਾ ਹੁੰਦਾ ਹੈ। ਅਸੀਂ ਇਹ ਕੰਮ ਕਰਨ ਲਈ `requests` ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ:\n"
"ਹਰ ਡਾਟਾ ਸਾਇੰਸ ਪ੍ਰਕਿਰਿਆ ਦਾ ਪਹਿਲਾ ਕਦਮ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰਨਾ ਹੈ। ਅਸੀਂ ਇਸ ਲਈ `requests` ਲਾਇਬ੍ਰੇਰੀ ਨੂੰ ਵਰਤਾਂਗੇ:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## ਕਦਮ 2: ਡਾਟਾ ਨੂੰ ਬਦਲਣਾ\n",
"\n",
"ਅਗਲਾ ਕਦਮ ਡਾਟਾ ਨੂੰ ਇਸ ਰੂਪ ਵਿੱਚ ਬਦਲਣਾ ਹੈ ਜੋ ਪ੍ਰੋਸੈਸਿੰਗ ਲਈ ਉਚਿਤ ਹੋਵੇ। ਸਾਡੇ ਕੇਸ ਵਿੱਚ, ਅਸੀਂ ਪੇਜ ਤੋਂ HTML ਸਰੋਤ ਕੋਡ ਡਾਊਨਲੋਡ ਕੀਤਾ ਹੈ, ਅਤੇ ਸਾਨੂੰ ਇਸਨੂੰ ਸਧਾਰਨ ਟੈਕਸਟ ਵਿੱਚ ਬਦਲਣ ਦੀ ਲੋੜ ਹੈ।\n",
"ਅਗਲਾ ਕਦਮ ਡਾਟਾ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਲਈ ਢੰਗ ਵਿੱਚ ਬਦਲਣਾ ਹੈ। ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ, ਅਸੀਂ ਪੰਨਾ ਤੋਂ HTML ਸਰੋਤ ਕੋਡ ਡਾਊਨਲੋਡ ਕੀਤਾ ਹੈ, ਅਤੇ ਸਾਨੂੰ ਇਸ ਨੂੰ ਸਧਾਰਨ ਲਿਖਤ ਵਿੱਚ ਬਦਲਣਾ ਹੈ।\n",
"\n",
"ਇਹ ਕਰਨ ਦੇ ਕਈ ਤਰੀਕੇ ਹਨ। ਅਸੀਂ Python ਦੇ ਸਭ ਤੋਂ ਸਧਾਰਨ ਬਿਲਟ-ਇਨ [HTMLParser](https://docs.python.org/3/library/html.parser.html) ਆਬਜੈਕਟ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ। ਸਾਨੂੰ `HTMLParser` ਕਲਾਸ ਨੂੰ ਸਬਕਲਾਸ ਕਰਨਾ ਪਵੇਗਾ ਅਤੇ ਉਹ ਕੋਡ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨਾ ਪਵੇਗਾ ਜੋ HTML ਟੈਗਾਂ ਦੇ ਅੰਦਰ ਸਾਰੇ ਟੈਕਸਟ ਨੂੰ ਇਕੱਠਾ ਕਰੇਗਾ, ਸਿਵਾਏ `<script>` ਅਤੇ `<style>` ਟੈਗਾਂ ਦੇ।\n"
"ਇਹ ਕਈ ਤਰੀਕਿਆਂ ਨਾਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਅਸੀਂ [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), ਇੱਕ ਪ੍ਰਸਿੱਧ Python ਲਾਇਬਰੇਰੀ ਜੋ HTML ਨੂੰ ਪਾਰਸ ਕਰਨ ਲਈ ਵਰਤੀ ਜਾਂਦੀ ਹੈ, ਉਸਦਾ ਇਸਤੇਮਾਲ ਕਰਾਂਗੇ। BeautifulSoup ਸਾਨੂੰ ਵਿਸ਼ੇਸ਼ HTML ਤੱਤਾਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ, ਤਾਂ ਜੋ ਅਸੀਂ ਵਿਕੀਪੀਡੀਆ ਦੇ ਮੁੱਖ ਲੇਖ ਸਮੱਗਰੀ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰ ਸਕੀਏ ਅਤੇ ਕੁਝ ਨੈਵੀਗੇਸ਼ਨ ਮੀਨੂ, ਸਾਈਡਬਾਰ, ਫੁੱਟਰ ਅਤੇ ਹੋਰ ਅਣਚਾਹੇ ਸਮੱਗਰੀ ਨੂੰ ਘਟਾ ਸਕੀਏ (ਹਾਲਾਂਕਿ ਕੁਝ ਬੋਰਪਲੇਟ ਲਿਖਤ ਫਿਰ ਵੀ ਰਹਿ ਸਕਦੀ ਹੈ)।\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਸਾਨੂੰ HTML ਪਾਰਸਿੰਗ ਲਈ BeautifulSoup ਲਾਇਬ੍ਰੇਰੀ ਇੰਸਟਾਲ ਕਰਨ ਦੀ ਲੋੜ ਹੈ:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## ਤੀਜਾ ਕਦਮ: ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨਾ\n",
"\n",
"ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਇਹ ਹੈ ਕਿ ਅਸੀਂ ਆਪਣੇ ਡਾਟਾ ਨੂੰ ਕਿਸੇ ਐਸੇ ਰੂਪ ਵਿੱਚ ਬਦਲ ਲਈਏ ਜਿਸ ਤੋਂ ਅਸੀਂ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰ ਸਕੀਏ। ਸਾਡੇ ਕੇਸ ਵਿੱਚ, ਅਸੀਂ ਪਾਠ ਵਿੱਚੋਂ ਕੁੰਜੀ ਸ਼ਬਦ (keywords) ਕੱਢਣੇ ਹਨ ਅਤੇ ਵੇਖਣਾ ਹੈ ਕਿ ਕਿਹੜੇ ਕੁੰਜੀ ਸ਼ਬਦ ਵਧੇਰੇ ਮਹੱਤਵਪੂਰਨ ਹਨ।\n",
"\n",
"ਅਸੀਂ ਕੁੰਜੀ ਸ਼ਬਦ ਕੱਢਣ ਲਈ Python ਦੀ ਇੱਕ ਲਾਇਬ੍ਰੇਰੀ [RAKE](https://github.com/aneesha/RAKE) ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ। ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਆਓ ਇਸ ਲਾਇਬ੍ਰੇਰੀ ਨੂੰ ਇੰਸਟਾਲ ਕਰੀਏ ਜੇਕਰ ਇਹ ਮੌਜੂਦ ਨਹੀਂ ਹੈ:\n"
"## Step 3: Getting Insights\r\n",
"\r\n",
"ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਆਪਣੇ ਡੇਟਾ ਨੂੰ ਕਿਸੇ ਐਸੇ ਰੂਪ ਵਿੱਚ ਬਦਲਣਾ ਹੈ ਜਿਸ ਤੋਂ ਅਸੀਂ ਅੰਦਰੂਨੀ ਸੂਝ-ਬੂਝ ਪ੍ਰਾਪਤ ਕਰ ਸਕੀਏ। ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ, ਅਸੀਂ ਟੈਕਸਟ ਵਿੱਚੋਂ ਕੁੰਜੀ ਸ਼ਬਦ ਨਿਕਾਲਣਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਅਤੇ ਦੇਖਣਾ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਕਿਹੜੇ ਕੁੰਜੀ ਸ਼ਬਦ ਵ ਮਾਇਨ ੱਖਦੇ ਹਨ।\r\n",
"\r\n",
"ਅਸੀਂ ਕੁੰਜੀ ਸ਼ਬਦ ਨਿਕਾਸ ਲਈ ਪਾਇਥਨ ਲਾਇਬ੍ਰੇਰੀ [RAKE](https://github.com/aneesha/RAKE) ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ। ਸਭ ਤੋਂ ਪਹਿਲਾਂ, ਆਓ ਇਸ ਲਾਇਬ੍ਰੇਰੀ ਨੂੰ ਇਸ ਸਥਿਤੀ ਵਿੱਚ ਇੰਸਟਾਲ ਕਰੀਏ ਜੇਕਰ ਇਹ ਮੌਜੂਦ ਨਹੀਂ ਹੈ:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"ਮੁੱਖ ਕਾਰਗੁਜ਼ਾਰੀ `Rake` ਆਬਜੈਕਟ ਤੋਂ ਉਪਲਬਧ ਹੈ, ਜਿਸਨੂੰ ਅਸੀਂ ਕੁਝ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਸਟਮਾਈਜ਼ ਕਰ ਸਕਦੇ ਹਾਂ। ਸਾਡੇ ਕੇਸ ਵਿੱਚ, ਅਸੀਂ ਕਿਸੇ ਕੀਵਰਡ ਦੀ ਘੱਟੋ-ਘੱਟ ਲੰਬਾਈ 5 ਅੱਖਰ, ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਕਿਸੇ ਕੀਵਰਡ ਦੀ ਘੱਟੋ-ਘੱਟ ਆਵ੍ਰਿਤੀ 3, ਅਤੇ ਕਿਸੇ ਕੀਵਰਡ ਵਿੱਚ ਅਧਿਕਤਮ ਸ਼ਬਦਾਂ ਦੀ ਗਿਣਤੀ 2 ਤੱਕ ਸੈਟ ਕਰਾਂਗੇ। ਹੋਰ ਮੁੱਲਾਂ ਨਾਲ ਖੇਡਣ ਅਤੇ ਨਤੀਜੇ ਦਾ ਅਧਿਐਨ ਕਰਨ ਲਈ ਆਜ਼ਾਦ ਮਹਿਸੂਸ ਕਰੋ।\n"
"ਮੁੱਖ ਫੰਕਸ਼ਨਾਲਿਟੀ `Rake` ਓਬਜੈਕਟ ਤੋਂ ਉਪਲਬਧ ਹੈ, ਜਿਸਨੂੰ ਅਸੀਂ ਕੁਝ ਪੈਰामीਟਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਸਟਮਾਈਜ਼ ਕਰ ਸਕਦੇ ਹਾਂ। ਸਾਡੇ ਮਾਮਲੇ ਵਿੱਚ, ਅਸੀਂ ਇੱਕ ਕੀਵਰਡ ਦੀ ਘੱਟੋ-ਘੱਟ ਲੰਬਾਈ 5 ਅੱਖਰਾਂ ਤੱਕ, ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਇੱਕ ਕੀਵਰਡ ਦੀ ਘੱਟੋ-ਘੱਟ ਤਰ ਹੋਣ ਦੀ ਵਾਰੰਤਾ 3 ਕਰਨਗੇ, ਅਤੇ ਇੱਕ ਕੀਵਰਡ ਵਿੱਚ ਸ਼ਬਦਾਂ ਦੀ ਵੱਧ ਤੋਂ ਵੱਧ ਗਿਣਤੀ 2 ਤੱਕ ਰਹੇਗੀ। ਹੋਰ ਮੂਲਿਆਂ ਨਾਲ ਖੇਡਣ ਲਈ ਸੁਤੰਤਰ ਰਹੋ ਅਤੇ ਨਤੀਜੇ ਨੂੰ ਦੇਖੋ।\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"ਸਾਨੂੰ ਮਹੱਤਵ ਦੇ ਨਾਲ ਜੁੜੇ ਸ਼ਰਤਾਂ ਦੀ ਇੱਕ ਸੂਚੀ ਪ੍ਰਾਪਤ ਹੋਈ। ਜਿਵੇਂ ਕਿ ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ, ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਵਿਸ਼ੇ, ਜਿਵੇਂ ਕਿ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਅਤੇ ਬਿਗ ਡੇਟਾ, ਸੂਚੀ ਵਿੱਚ ਉੱਚੇ ਸਥਾਨਾਂ 'ਤੇ ਮੌਜੂਦ ਹਨ।\n",
"ਅਸੀਂ ਇੱਕ ਸ਼ਬਦਾਂ ਦੀ ਸੂਚੀ ਅਤੇ ਸਬੰਧਤ ਮਹੱਤਤਾ ਦੀ ਡਿਗਰੀ ਪ੍ਰਾਪਤ ਕੀਤੀ ਹੈ। ਜਿਵੇਂ ਕਿ ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ, ਸਭ ਤੋਂ ਵਧੇਰੇ ਸਬੰਧਤ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ, ਜਿਵੇਂ ਕਿ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਅਤੇ ਵੱਡਾ ਡੇਟਾ, ਸੂਚੀ ਵਿੱਚ ਸਿਖਰਲੇ ਸਥਾਨਾਂ 'ਤੇ ਮੌਜੂਦ ਹਨ।\n",
"\n",
"## ਚੌਥਾ ਕਦਮ: ਨਤੀਜੇ ਨੂੰ ਦ੍ਰਿਸ਼ਮਾਨ ਕਰਨਾ\n",
"## ਚਰਨ 4: ਨਤੀਜੇ ਦੀ ਦ੍ਰਿਸ਼ਟੀਕਰਨ\n",
"\n",
"ਲੋਕ ਡੇਟਾ ਨੂੰ ਦ੍ਰਿਸ਼ਮਾਨ ਰੂਪ ਵਿੱਚ ਸਭ ਤੋਂ ਵਧੀਆ ਸਮਝ ਸਕਦੇ ਹਨ। ਇਸ ਲਈ ਅਕਸਰ ਡੇਟਾ ਨੂੰ ਦ੍ਰਿਸ਼ਮਾਨ ਕਰਨਾ ਸਹੀ ਹੁੰਦਾ ਹੈ ਤਾਂ ਜੋ ਕੁਝ ਅੰਤਰਦ੍ਰਿਸ਼ਟੀ ਪ੍ਰਾਪਤ ਕੀਤੀ ਜਾ ਸਕੇ। ਅਸੀਂ Python ਵਿੱਚ `matplotlib` ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹਾਂ ਕਿਵਰਡਸ ਦੀ ਸਧਾਰਨ ਵੰਡ ਅਤੇ ਉਨ੍ਹਾਂ ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਪਲਾਟ ਕਰਨ ਲਈ:\n"
"ਲੋਕ ਡੇਟਾ ਨੂੰ ਸਭ ਤੋਂ ਵਧੀਆ ਦ੍ਰਿਸ਼ਟੀਕ ਰੂਪ ਵਿੱਚ ਸਮਝ ਸਕਦੇ ਹਨ। ਇਸ ਲਈ ਅਕਸਰ ਕਈ ਵਾਰੀ ਡੇਟਾ ਨੂੰ ਦ੍ਰਿਸ਼ਟੀਕ ਰੂਪ ਵਿੱਚ ਵੇਖਾਉਣ ਦਾ ਮਤਲਬ ਹੁੰਦਾ ਹੈ ਤਾਂ ਜੋ ਕੁਝ ਅੰਦਰੂਨੀ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕੀਤੀ ਜਾ ਸਕੇ। ਅਸੀਂ ਪਾਇਥਨ ਵਿੱਚ `matplotlib` ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੁੰਜੀਸ਼ਬਦਾਂ ਦੇ ਉਨ੍ਹਾਂ ਦੀ ਸਬੰਧਤਾ ਦੇ ਨਾਲ ਸਧਾਰਨ ਵਿਤਰਨ ਦੀ ਪਲਾਟਿੰਗ ਕਰ ਸਕਦੇ ਹਾਂ:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"ਇਸ ਦੇ ਬਾਵਜੂਦ, ਸ਼ਬਦ ਦੀ ਆਵ੍ਰਿਤੀਆਂ ਨੂੰ ਦਿਖਾਉਣ ਦਾ ਇੱਕ ਹੋਰ ਵੀ ਬਿਹਤਰ ਤਰੀਕਾ ਹੈ - **ਵਰਡ ਕਲਾਉਡ** ਦੀ ਵਰਤੋਂ ਕਰਕੇ। ਸਾਨੂੰ ਆਪਣੇ ਕੀਵਰਡ ਸੂਚੀ ਤੋਂ ਵਰਡ ਕਲਾਉਡ ਬਣਾਉਣ ਲਈ ਇਕ ਹੋਰ ਲਾਇਬ੍ਰੇਰੀ ਇੰਸਟਾਲ ਕਰਨ ਦੀ ਲੋੜ ਹੋਵੇਗੀ।\n"
"ਹੁਣ, ਸ਼ਬਦਾਂ ਦੀ ਵਾਰੰਵਾਰਤਾ ਨੂੰ ਦੇਖਾਉਣ ਦਾ ਇਕ ਵੀ ਵਧੀਆ ਤਰੀਕਾ ਹੈ - **ਵਰਡ ਕਲਾਉਡ** ਵਰਤਣਾ। ਸਾਡੇ ਕੁੰਜੀ-ਸ਼ਬਦ ਸੂਚੀ ਤੋਂ ਵਰਡ ਕਲਾਉਡ ਬਣਾਉਣ ਲਈ ਸਾਨੂੰ ਇਕ ਹੋਰ ਲਾਇਬ੍ਰੇਰੀ ਇੰਸਟਾਲ ਕਰਨ ਦੀ ਲੋੜ ਵੇਗੀ।\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` ਆਬਜੈਕਟ ਮੂਲ ਪਾਠ ਜਾਂ ਪਹਿਲਾਂ ਤੋਂ ਗਣਨਾ ਕੀਤੀ ਗਈ ਸ਼ਬਦਾਂ ਦੀ ਸੂਚੀ ਉਨ੍ਹਾਂ ਦੀਆਂ ਆਵ੍ਰਿੱਤੀਆਂ ਦੇ ਨਾਲ ਲੈਂਦਾ ਹੈ, ਅਤੇ ਇੱਕ ਚਿੱਤਰ ਵਾਪਸ ਕਰਦਾ ਹੈ, ਜਿਸਨੂੰ ਫਿਰ `matplotlib` ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਦਿਖਾਇਆ ਜਾ ਸਕਦਾ ਹੈ:\n"
"`WordCloud` ਔਬਜੈਕਟ ਮੂਲ ਪਾਠ ਜਾਂ ਸ਼ਬਦਾਂ ਦੀ ਪਹਿਲਾਂ ਤੋਂ ਗਿਣਤੀ ਕੀਤੀ ਸੂਚੀ ਲੈਣ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਹੁੰਦਾ ਹੈ, ਅਤੇ ਇੱਕ ਚਿੱਤਰ ਵਾਪਸ ਕਰਦਾ ਹੈ, ਜਿਸਨੂੰ ਫਿਰ `matplotlib` ਦੀ ਵਰਤੋਂ ਨਾਲ ਦਿਖਾਇਆ ਜਾ ਸਕਦਾ ਹੈ:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"ਅਸੀਂ ਮੂਲ ਪਾਠ ਨੂੰ `WordCloud` ਵਿੱਚ ਪਾਸ ਕਰ ਸਕਦੇ ਹਾਂ - ਆਓ ਵੇਖੀਏ ਕਿ ਕੀ ਅਸੀਂ ਸਮਾਨ ਨਤੀਜਾ ਪ੍ਰਾਪਤ ਕਰ ਦੇ ਯੋਗ ਹਾਂ:\n"
"ਅਸੀਂ ਅਸਲ ਟੈਕਸਟ ਨੂੰ ਵੀ `WordCloud` ਵਿੱਚ ਪਾਸ ਕਰ ਸਕਦੇ ਹਾਂ - ਆਓ ਦੇਖੀਏ ਕਿ ਕੀ ਅਸੀਂ ਸਮਾਨ ਨਤੀਜਾ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਾਂ:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"ਤੁਸੀਂ ਵੇਖ ਸਕਦੇ ਹੋ ਕਿ ਹੁਣ ਸ਼ਬਦ ਬੱਦਲ ਕਾਫ਼ੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਲੱਗਦਾ ਹੈ, ਪਰ ਇਸ ਵਿੱਚ ਕਾਫ਼ੀ ਸ਼ੋਰ ਵੀ ਸ਼ਾਮਲ ਹੈ (ਉਦਾਹਰਨ ਲਈ, ਅਸੰਬੰਧਤ ਸ਼ਬਦ ਜਿਵੇਂ ਕਿ `Retrieved on`)। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਸਾਨੂੰ ਘੱਟ ਕੁੰਜੀ ਸ਼ਬਦ ਮਿਲਦੇ ਹਨ ਜੋ ਦੋ ਸ਼ਬਦਾਂ ਤੋਂ ਬਣੇ ਹੁੰਦੇ ਹਨ, ਜਿਵੇਂ ਕਿ *data scientist* ਜਾਂ *computer science*। ਇਹ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ RAKE ਐਲਗੋਰਿਦਮ ਪਾਠ ਵਿੱਚੋਂ ਚੰਗੇ ਕੁੰਜੀ ਸ਼ਬਦ ਚੁਣਨ ਵਿੱਚ ਕਾਫ਼ੀ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਉਦਾਹਰਨ ਡਾਟਾ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਸਾਫ਼-ਸੁਥਰੇ ਡਾਟਾ ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ, ਕਿਉਂਕਿ ਅੰਤ ਵਿੱਚ ਸਾਫ਼ ਤਸਵੀਰ ਸਾਨੂੰ ਵਧੀਆ ਫੈਸਲੇ ਲੈਣ ਵਿੱਚ ਸਹਾਇਕ ਬਣੇਗੀ।\n",
"ਤੁਸੀਂ ਵੇਖ ਸਕਦੇ ਹੋ ਕਿ ਸ਼ਬਦ ਮেঘ ਹੁਣ ਜ਼ਿਆਦਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਦਿਸਦਾ ਹੈ, ਪਰ ਇਸ ਵਿੱਚ ਕਾਫੀ ਸ਼ੋਰ ਵੀ ਹੁੰਦਾ ਹੈ (ਜਿਵੇਂ ਕਿ ਅਸੰਬੰਧਿਤ ਸ਼ਬਦ ਜਿਵੇਂ `Retrieved on`)। ਇਸ ਦੇ ਨਾਲ ਹੀ, ਸਾਨੂੰ ਕਮ ਸ਼ਬਦਾਂ ਵਾਲੇ ਕੁੰਜੀ ਸ਼ਬਦ ਮਿਲਦੇ ਹਨ, ਜਿਵੇਂ *ਡੇਟਾ ਸਾਇੰਟਿਸਟ*, ਜਾਂ *ਕੰਪਿਊਟਰ ਸਾਇੰਸ*। ਇਸ ਦਾ ਕਾਰਨ ਇਹ ਹੈ ਕਿ RAKE ਐਲਗੋਰਿਦਮ ਗੱਲ-ਬਾਤ ਵਿੱਚੋਂ ਚੰਗੇ ਕੁੰਜੀ ਸ਼ਬਦ ਚੁਣਨ ਵਿੱਚ ਬਹੁਤ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਉਦਾਹਰਨ ਡੇਟਾ ਦੀ ਪਹਿਲੀ-ਤਿਆਰੀ ਅਤੇ ਸਾਫ਼ ਸਫਾਈ ਦੀ ਮਹੱਤਤਾ ਦਿਖਾਉਂਦੀ ਹੈ, ਕਿਉਂਕਿ ਅਖੀਰ ਵਿੱਚ ਸਾਫ਼ ਤਸਵੀਰ ਸਾਨੂੰ ਵਧੀਆ ਫੈਸਲੇ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਏਗੀ।\n",
"\n",
"ਇਸ ਅਭਿਆਸ ਵਿੱਚ ਅਸੀਂ ਵਿਕੀਪੀਡੀਆ ਪਾਠ ਵਿੱਚੋਂ ਕੁਝ ਅਰਥ ਕੱਢਣ ਦੀ ਇੱਕ ਸਧਾਰਣ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਦੇਖਿਆ ਹੈ, ਕੁੰਜੀ ਸ਼ਬਦ ਅਤੇ ਸ਼ਬਦ ਬੱਦਲ ਦੇ ਰੂਪ ਵਿੱਚ। ਇਹ ਉਦਾਹਰਨ ਕਾਫ਼ੀ ਸਧਾਰਣ ਹੈ, ਪਰ ਇਹ ਚੰਗੀ ਤਰ੍ਹਾਂ ਉਹ ਸਾਰੇ ਆਮ ਕਦਮ ਦਿਖਾਉਂਦੀ ਹੈ ਜੋ ਇੱਕ ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਦੇ ਸਮੇਂ ਲੈਂਦਾ ਹੈ, ਡਾਟਾ ਪ੍ਰਾਪਤੀ ਤੋਂ ਲੈ ਕੇ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਤੱਕ।\n",
"ਇਸ ਅਭਿਆਸ ਵਿੱਚ ਅਸੀਂ ਵਿਸ਼ਵਕੋਸ਼ ਦੇ ਟੈਕਸਟ ਵਿੱਚੋਂ ਕੁਝ ਅਰਥ ਕੱਢਣ ਦਾ ਸਧਾਰਣ ਪ੍ਰਕਿਰਿਆ ਕਰੀ ਹੈ, ਜੋ ਕਿ ਕੁੰਜੀ ਸ਼ਬਦਾਂ ਅਤੇ ਸ਼ਬਦ ਮেঘ ਦੇ ਰੂਪ ਵਿੱਚ ਹੈ। ਇਹ ਉਦਾਹਰਨ ਕਾਫ਼ੀ ਸਧਾਰਣ ਹੈ, ਪਰ ਇਹ ਸਾਰੇ ਆਮ ਕਦਮਾਂ ਨੂੰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਦਰਸਾਉਂਦੀ ਹੈ ਜੋ ਇੱਕ ਡੇਟਾ ਸਾਇੰਟਿਸਟ ਡੇਟਾ ਨਾਲ ਕੰਮ ਕਰਦਿਆਂ ਲੈਂਦਾ ਹੈ, ਡੇਟਾ ਪ੍ਰਾਪਤੀ ਤੋਂ ਸ਼ੁਰੂ ਕਰਕੇ ਵਿਜੁਅਲਾਈਜੇਸ਼ਨ ਤੱਕ।\n",
"\n",
"ਸਾਡੇ ਕੋਰਸ ਵਿੱਚ ਅਸੀਂ ਉਹ ਸਾਰੇ ਕਦਮ ਵਿਸਥਾਰ ਵਿੱਚ ਚਰਚਾ ਕਰਾਂਗੇ।\n"
"ਸਾਡੇ ਕੋਰਸ ਵਿੱਚ ਅਸੀਂ ਇਹ ਸਾਰੇ ਕਦਮ ਵਿਸਥਾਰ ਨਾਲ ਵਿਚਾਰ ਕਰਾਂਗੇ।\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**ਅਸਵੀਕਰਤੀ**: \nਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦਾ ਯਤਨ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁੱਚੀਤਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਇਸ ਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਮੌਜੂਦ ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਪ੍ਰਮਾਣਿਕ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**ਅਸਵੀਕਾਰੋक्ति**: \nਇਹ ਦਸਤਾਵੇਜ਼ AI ਟ੍ਰਾਂਸਲੇਸ਼ਨ ਸਰਵਿਸ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਨਾਲ ਅਨੁਵਾਦਿਤ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਤਾ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਵਿੱਚ ਰੱਖੋ ਕਿ ਆਟੋਮੇਟਿਕ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸਮਰਥਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਜਨਮ ਭਾਸ਼ਾ ਵਿੱਚ ਪ੍ਰਮਾਣਿਤ ਸ੍ਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਜਰੂਰੀ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਾਨਵ ਅਨੁਵਾਦ ਦੀ ਸਿਫ਼ਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੀਆਂ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀਆਂ ਜਾਂ ਭ੍ਰਮਾਂ ਦੇ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-02T10:17:25+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "pa"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
ਸਟੈਟਿਸਟਿਕਸ ਅਤੇ ਪ੍ਰੋਬੈਬਿਲਿਟੀ ਥਿਊਰੀ ਗਣਿਤ ਦੇ ਦੋ ਬਹੁਤ ਹੀ ਜੁੜੇ ਹੋਏ ਖੇਤਰ ਹਨ ਜੋ ਡਾਟਾ ਸਾਇੰਸ ਲਈ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹਨ। ਡਾਟਾ ਨਾਲ ਬਿਨਾ ਗਣਿਤ ਦੀ ਗਹਿਰਾਈ ਵਾਲੀ ਜਾਣਕਾਰੀ ਦੇ ਕੰਮ ਕਰਨਾ ਸੰਭਵ ਹੈ, ਪਰ ਕੁਝ ਮੂਲ ਧਾਰਨਾਵਾਂ ਜਾਣਨਾ ਫਿਰ ਵੀ ਵਧੀਆ ਹੈ। ਇੱਥੇ ਅਸੀਂ ਇੱਕ ਛੋਟਾ ਪਰੀਚਯ ਪੇਸ਼ ਕਰਾਂਗੇ ਜੋ ਤੁਹਾਨੂੰ ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰੇਗਾ।
[![ਇੰਟਰੋ ਵੀਡੀਓ](../../../../translated_images/pa/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![ਇੰਟਰੋ ਵੀਡੀਓ](../../../../translated_images/pa/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [ਪ੍ਰੀ-ਲੈਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
ਅਸੀਂ ਸਿਰਫ਼ ਕਿਸੇ ਵੈਰੀਏਬਲ ਦੇ ਮੁੱਲਾਂ ਦੇ ਦਿੱਤੇ ਇੰਟਰਵਾਲ ਵਿੱਚ ਪੈਣ ਦੀ ਸੰਭਾਵਨਾ ਬਾਰੇ ਗੱਲ ਕਰ ਸਕਦੇ ਹਾਂ, ਜਿਵੇਂ P(t<sub>1</sub>≤X<t<sub>2</sub>)। ਇਸ ਮਾਮਲੇ ਵਿੱਚ, ਪ੍ਰੋਬੈਬਿਲਿਟੀ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਨੂੰ **ਪ੍ਰੋਬੈਬਿਲਿਟੀ ਡੈਂਸਿਟੀ ਫੰਕਸ਼ਨ** p(x) ਦੁਆਰਾ ਵਰਣਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਇਸ ਤਰ੍ਹਾਂ ਕਿ
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/pa/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/pa/probability-density.a8aad29f17a14afb.webp)
ਯੂਨੀਫਾਰਮ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਦਾ ਇੱਕ ਕੰਟਿਨਿਊਅਸ ਰੂਪ **ਕੰਟਿਨਿਊਅਸ ਯੂਨੀਫਾਰਮ** ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਜੋ ਇੱਕ ਸੀਮਿਤ ਇੰਟਰਵਾਲ 'ਤੇ ਪਰਿਭਾਸ਼ਿਤ ਹੁੰਦਾ ਹੈ। ਸੰਭਾਵਨਾ ਕਿ ਮੁੱਲ X ਲੰਬਾਈ l ਦੇ ਇੰਟਰਵਾਲ ਵਿੱਚ ਪੈਂਦਾ ਹੈ, l ਦੇ ਅਨੁਪਾਤ ਵਿੱਚ ਹੁੰਦੀ ਹੈ, ਅਤੇ 1 ਤੱਕ ਵਧਦੀ ਹੈ।

@ -1,6 +1,6 @@
# ਡਾਟਾ ਸਾਇੰਸ ਦਾ ਪਰਿਚਯ
![ਡਾਟਾ ਦੀ ਕਾਰਵਾਈ](../../../translated_images/pa/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![ਡਾਟਾ ਦੀ ਕਾਰਵਾਈ](../../../translated_images/pa/data.48e22bb7617d8d92.webp)
> ਫੋਟੋ <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ਸਟੀਫਨ ਡਾਸਨ</a> ਦੁਆਰਾ <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ਅਨਸਪਲੈਸ਼</a> 'ਤੇ
ਇਨ੍ਹਾਂ ਪਾਠਾਂ ਵਿੱਚ, ਤੁਸੀਂ ਜਾਣੋਗੇ ਕਿ ਡਾਟਾ ਸਾਇੰਸ ਨੂੰ ਕਿਵੇਂ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਉਹ ਨੈਤਿਕ ਵਿਚਾਰ ਜੋ ਇੱਕ ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਣੇ ਚਾਹੀਦੇ ਹਨ। ਤੁਸੀਂ ਇਹ ਵੀ ਸਿੱਖੋਗੇ ਕਿ ਡਾਟਾ ਨੂੰ ਕਿਵੇਂ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਅੰਕੜੇ ਅਤੇ ਸੰਭਾਵਨਾ ਬਾਰੇ ਕੁਝ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰੋਗੇ, ਜੋ ਕਿ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਮੁੱਖ ਅਕਾਦਮਿਕ ਖੇਤਰ ਹਨ।

@ -4,7 +4,7 @@
| :---------------------------------------------------------------------------------------------------------------: |
| ਪਾਇਥਨ ਨਾਲ ਕੰਮ ਕਰਨਾ - _[@nitya](https://twitter.com/nitya) ਦੁਆਰਾ ਬਣਾਈ ਗਈ ਸਕੈਚਨੋਟ_ |
[![ਜਾਣ-ਪਛਾਣ ਵੀਡੀਓ](../../../../translated_images/pa/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![ਜਾਣ-ਪਛਾਣ ਵੀਡੀਓ](../../../../translated_images/pa/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
ਜਦੋਂ ਕਿ ਡਾਟਾਬੇਸ ਡਾਟਾ ਨੂੰ ਸਟੋਰ ਕਰਨ ਅਤੇ ਕਵੈਰੀ ਲੈਂਗਵੇਜਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਵੈਰੀ ਕਰਨ ਦੇ ਲਈ ਬਹੁਤ ਕੁਸ਼ਲ ਤਰੀਕੇ ਪੇਸ਼ ਕਰਦੇ ਹਨ, ਡਾਟਾ ਪ੍ਰੋਸੈਸਿੰਗ ਦਾ ਸਭ ਤੋਂ ਲਚਕਦਾਰ ਤਰੀਕਾ ਆਪਣਾ ਪ੍ਰੋਗਰਾਮ ਲਿਖਣਾ ਹੈ ਜੋ ਡਾਟਾ ਨੂੰ ਮੋੜ ਸਕੇ। ਕਈ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਡਾਟਾਬੇਸ ਕਵੈਰੀ ਕਰਨਾ ਜ਼ਿਆਦਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋਵੇਗਾ। ਹਾਲਾਂਕਿ ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ ਜਦੋਂ ਜ਼ਿਆਦਾ ਜਟਿਲ ਡਾਟਾ ਪ੍ਰੋਸੈਸਿੰਗ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਇਹ SQL ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਸਾਨੀ ਨਾਲ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ।
ਡਾਟਾ ਪ੍ਰੋਸੈਸਿੰਗ ਕਿਸੇ ਵੀ ਪ੍ਰੋਗਰਾਮਿੰਗ ਭਾਸ਼ਾ ਵਿੱਚ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਪਰ ਕੁਝ ਭਾਸ਼ਾਵਾਂ ਹਨ ਜੋ ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨ ਦੇ ਹਿਸਾਬ ਨਾਲ ਉੱਚ ਪੱਧਰ ਦੀਆਂ ਹਨ। ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਆਮ ਤੌਰ 'ਤੇ ਹੇਠਾਂ ਦਿੱਤੀਆਂ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚੋਂ ਇੱਕ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![ਟਾਈਮ ਸਿਰੀਜ਼ ਪਲਾਟ](../../../../translated_images/pa/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![ਟਾਈਮ ਸਿਰੀਜ਼ ਪਲਾਟ](../../../../translated_images/pa/timeseries-1.80de678ab1cf727e.webp)
ਹੁਣ ਮੰਨ ਲਓ ਕਿ ਹਰ ਹਫ਼ਤੇ ਅਸੀਂ ਦੋਸਤਾਂ ਲਈ ਇੱਕ ਪਾਰਟੀ ਦਾ ਆਯੋਜਨ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਪਾਰਟੀ ਲਈ 10 ਪੈਕ ਆਈਸ-ਕ੍ਰੀਮ ਵਾਧੂ ਲੈਂਦੇ ਹਾਂ। ਅਸੀਂ ਹਫ਼ਤੇ ਦੇ ਸੂਚਕ ਦੁਆਰਾ ਇੱਕ ਹੋਰ ਸਿਰੀਜ਼ ਬਣਾਉਣ ਲਈ ਇਹ ਦਿਖਾ ਸਕਦੇ ਹਾਂ:
```python
@ -75,7 +75,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![ਟਾਈਮ ਸਿਰੀਜ਼ ਪਲਾਟ](../../../../translated_images/pa/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![ਟਾਈਮ ਸਿਰੀਜ਼ ਪਲਾਟ](../../../../translated_images/pa/timeseries-2.aae51d575c55181c.webp)
> **ਨੋਟ** ਕਿ ਅਸੀਂ ਸਧਾਰਨ syntax `total_items+additional_items` ਦੀ ਵਰਤੋਂ ਨਹੀਂ ਕਰ ਰਹੇ। ਜੇ ਅਸੀਂ ਕਰਦੇ, ਤਾਂ ਸਾਨੂੰ resulting ਸਿਰੀਜ਼ ਵਿੱਚ ਬਹੁਤ ਸਾਰੇ `NaN` (*Not a Number*) ਮੁੱਲ ਮਿਲਦੇ। ਇਹ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ `additional_items` ਸਿਰੀਜ਼ ਵਿੱਚ ਕੁਝ ਸੂਚਕ ਬਿੰਦੂਆਂ ਲਈ ਮੁੱਲ ਗੁੰਮ ਹਨ, ਅਤੇ `Nan` ਨੂੰ ਕਿਸੇ ਵੀ ਚੀਜ਼ ਵਿੱਚ ਜੋੜਨਾ `NaN` ਦੇ ਨਤੀਜੇ ਵਿੱਚ ਹੁੰਦਾ ਹੈ। ਇਸ ਲਈ ਅਸੀਂ ਜੋੜਦੇ ਸਮੇਂ `fill_value` ਪੈਰਾਮੀਟਰ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
@ -84,7 +84,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![ਮਹੀਨਾਵਾਰ ਟਾਈਮ ਸਿਰੀਜ਼ ਐਵਰੇਜ](../../../../translated_images/pa/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![ਮਹੀਨਾਵਾਰ ਟਾਈਮ ਸਿਰੀਜ਼ ਐਵਰੇਜ](../../../../translated_images/pa/timeseries-3.f3147cbc8c624881.webp)
### ਡਾਟਾਫ੍ਰੇਮ
@ -149,7 +149,7 @@ df = pd.read_csv('file.csv')
ਜਦੋਂ ਕਿ ਅਸੀਂ ਡਾਟਾ ਨਾਲ ਨਿਪਟਣ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਅਸੀਂ ਤੁਹਾਨੂੰ ਸਲਾਹ ਦਿੰਦੇ ਹਾਂ ਕਿ [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) ਖੋਲ੍ਹੋ ਅਤੇ ਇਸਨੂੰ ਉੱਪਰ ਤੋਂ ਹੇਠਾਂ ਪੜ੍ਹੋ। ਤੁਸੀਂ ਸੈੱਲ ਚਲਾ ਸਕਦੇ ਹੋ ਅਤੇ ਕੁਝ ਚੁਣੌਤੀਆਂ ਕਰ ਸਕਦੇ ਹੋ ਜੋ ਅਸੀਂ ਤੁਹਾਡੇ ਲਈ ਅੰਤ ਵਿੱਚ ਛੱਡੀਆਂ ਹਨ।
![COVID ਫੈਲਾਅ](../../../../translated_images/pa/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID ਫੈਲਾਅ](../../../../translated_images/pa/covidspread.f3d131c4f1d260ab.webp)
> ਜੇ ਤੁਸੀਂ Jupyter Notebook ਵਿੱਚ ਕੋਡ ਚਲਾਉਣ ਦਾ ਤਰੀਕਾ ਨਹੀਂ ਜਾਣਦੇ, ਤਾਂ [ਇਸ ਲੇਖ](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ਨੂੰ ਵੇਖੋ।
@ -171,7 +171,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) ਖੋਲ੍ਹੋ ਅਤੇ ਇਸਨੂੰ ਉੱਪਰ ਤੋਂ ਹੇਠਾਂ ਪੜ੍ਹੋ। ਤੁਸੀਂ ਸੈੱਲ ਚਲਾ ਸਕਦੇ ਹੋ ਅਤੇ ਕੁਝ ਚੁਣੌਤੀਆਂ ਕਰ ਸਕਦੇ ਹੋ ਜੋ ਅਸੀਂ ਤੁਹਾਡੇ ਲਈ ਅੰਤ ਵਿੱਚ ਛੱਡੀਆਂ ਹਨ।
![Covid ਮੈਡੀਕਲ ਇਲਾਜ](../../../../translated_images/pa/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid ਮੈਡੀਕਲ ਇਲਾਜ](../../../../translated_images/pa/covidtreat.b2ba59f57ca45fbc.webp)
## ਚਿੱਤਰ ਡਾਟਾ ਦੀ ਪ੍ਰੋਸੈਸਿੰਗ

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨਾ
![ਡਾਟਾ ਪਿਆਰ](../../../translated_images/pa/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![ਡਾਟਾ ਪਿਆਰ](../../../translated_images/pa/data-love.a22ef29e6742c852.webp)
> ਫੋਟੋ <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> ਦੁਆਰਾ <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> 'ਤੇ
ਇਨ੍ਹਾਂ ਪਾਠਾਂ ਵਿੱਚ, ਤੁਸੀਂ ਸਿੱਖੋਗੇ ਕਿ ਡਾਟਾ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਬੰਧਿਤ, ਹੇਰਫੇਰ ਅਤੇ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਤੁਸੀਂ ਰਿਲੇਸ਼ਨਲ ਅਤੇ ਨਾਨ-ਰਿਲੇਸ਼ਨਲ ਡਾਟਾਬੇਸਾਂ ਬਾਰੇ ਸਿੱਖੋਗੇ ਅਤੇ ਇਹ ਵੀ ਕਿ ਡਾਟਾ ਨੂੰ ਇਨ੍ਹਾਂ ਵਿੱਚ ਕਿਵੇਂ ਸਟੋਰ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਤੁਸੀਂ ਡਾਟਾ ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਨ ਲਈ Python ਨਾਲ ਕੰਮ ਕਰਨ ਦੇ ਮੁੱਢਲੇ ਸਿਧਾਂਤ ਸਿੱਖੋਗੇ ਅਤੇ ਇਹ ਵੀ ਪਤਾ ਲਗਾਓਗੇ ਕਿ Python ਨਾਲ ਡਾਟਾ ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਅਤੇ ਖੋਜਣ ਦੇ ਕਈ ਤਰੀਕੇ ਕੀ ਹਨ।

@ -42,7 +42,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/pa/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/pa/scatter1.5e1aa5fd6706c5d1.webp)
ਹੁਣ, ਸਾਲ ਦਰ ਸਾਲ ਸ਼ਹਿਦ ਦੀ ਕੀਮਤ ਦੇ ਵਿਕਾਸ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਸ਼ਹਿਦ ਦੇ ਰੰਗ ਦੀ ਯੋਜਨਾ ਨਾਲ ਉਹੀ ਡਾਟਾ ਦਿਖਾਓ। ਤੁਸੀਂ 'hue' ਪੈਰਾਮੀਟਰ ਸ਼ਾਮਲ ਕਰਕੇ ਇਹ ਕਰ ਸਕਦੇ ਹੋ:
@ -51,7 +51,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/pa/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/pa/scatter2.c0041a58621ca702.webp)
ਇਸ ਰੰਗ ਯੋਜਨਾ ਦੇ ਬਦਲਾਅ ਨਾਲ, ਤੁਸੀਂ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਸਾਲ ਦਰ ਸਾਲ ਸ਼ਹਿਦ ਦੀ ਕੀਮਤ ਵਿੱਚ ਇੱਕ ਮਜ਼ਬੂਤ ਪ੍ਰਗਤੀ ਦੇਖ ਸਕਦੇ ਹੋ। ਜੇ ਤੁਸੀਂ ਡਾਟਾ ਦੇ ਨਮੂਨਾ ਸੈੱਟ ਨੂੰ ਜਾਂਚਣ ਲਈ (ਉਦਾਹਰਣ ਲਈ, ਅਰੀਜ਼ੋਨਾ) ਦੇਖੋ, ਤਾਂ ਤੁਸੀਂ ਸਾਲ ਦਰ ਸਾਲ ਕੀਮਤ ਵਿੱਚ ਵਾਧੇ ਦਾ ਪੈਟਰਨ ਦੇਖ ਸਕਦੇ ਹੋ, ਕੁਝ ਛੋਟੇ-ਮੋਟੇ ਅਪਵਾਦਾਂ ਦੇ ਨਾਲ:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
ਤੁਸੀਂ ਡਾਟ ਦੇ ਆਕਾਰ ਨੂੰ ਹੌਲੀ-ਹੌਲੀ ਵਧਦੇ ਹੋਏ ਦੇਖ ਸਕਦੇ ਹੋ।
![scatterplot 3](../../../../translated_images/pa/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/pa/scatter3.3c160a3d1dcb36b3.webp)
ਕੀ ਇਹ ਸਪਲਾਈ ਅਤੇ ਡਿਮਾਂਡ ਦਾ ਸਧਾਰਨ ਮਾਮਲਾ ਹੈ? ਜਿਵੇਂ ਕਿ ਮੌਸਮ ਬਦਲਾਅ ਅਤੇ ਕਾਲੋਨੀ ਕਾਲਾਪਸ ਦੇ ਕਾਰਨ, ਕੀ ਸਾਲ ਦਰ ਸਾਲ ਖਰੀਦਣ ਲਈ ਘੱਟ ਸ਼ਹਿਦ ਉਪਲਬਧ ਹੈ, ਅਤੇ ਇਸ ਲਈ ਕੀਮਤ ਵਧਦੀ ਹੈ?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
ਜਵਾਬ: ਹਾਂ, ਕੁਝ ਅਪਵਾਦਾਂ ਦੇ ਨਾਲ, ਖਾਸ ਤੌਰ 'ਤੇ 2003 ਦੇ ਆਸ-ਪਾਸ:
![line chart 1](../../../../translated_images/pa/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/pa/line1.f36eb465229a3b1f.webp)
✅ ਕਿਉਂਕਿ Seaborn ਇੱਕ ਲਾਈਨ 'ਤੇ ਡਾਟਾ ਨੂੰ ਸਮੂਹਬੱਧ ਕਰ ਰਿਹਾ ਹੈ, ਇਹ "x ਮੁੱਲ 'ਤੇ ਕਈ ਮਾਪਾਂ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਮੀਨ ਅਤੇ ਮੀਨ ਦੇ ਆਸ-ਪਾਸ 95% ਭਰੋਸੇਯੋਗ ਅੰਤਰ" ਦਿਖਾਉਂਦਾ ਹੈ। [ਸਰੋਤ](https://seaborn.pydata.org/tutorial/relational.html)। ਇਸ ਸਮਾਂ-ਖਪਤ ਵਿਵਹਾਰ ਨੂੰ `ci=None` ਸ਼ਾਮਲ ਕਰਕੇ ਅਯੋਗ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
@ -105,7 +105,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/pa/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/pa/line2.a5b3493dc01058af.webp)
ਜਵਾਬ: ਸੱਚਮੁੱਚ ਨਹੀਂ। ਜੇ ਤੁਸੀਂ ਕੁੱਲ ਉਤਪਾਦਨ ਨੂੰ ਦੇਖੋ, ਤਾਂ ਇਹ ਵਿਸ਼ੇਸ਼ ਸਾਲ ਵਿੱਚ ਵਾਧੇ ਵਿੱਚ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ, ਹਾਲਾਂਕਿ ਆਮ ਤੌਰ 'ਤੇ ਸ਼ਹਿਦ ਦੇ ਉਤਪਾਦਨ ਦੀ ਮਾਤਰਾ ਇਨ੍ਹਾਂ ਸਾਲਾਂ ਦੌਰਾਨ ਘਟ ਰਹੀ ਹੈ।
@ -130,7 +130,7 @@ sns.relplot(
```
ਇਸ ਦ੍ਰਿਸ਼ਟੀਕਰਣ ਵਿੱਚ, ਤੁਸੀਂ ਸਾਲ ਦਰ ਸਾਲ ਅਤੇ ਰਾਜ ਦਰ ਰਾਜ ਪ੍ਰਤੀ ਕਾਲੋਨੀ ਉਤਪਾਦਨ ਅਤੇ ਕਾਲੋਨੀਆਂ ਦੀ ਗਿਣਤੀ ਦੀ ਤੁਲਨਾ ਕਰ ਸਕਦੇ ਹੋ, ਕਾਲਮਾਂ ਲਈ 3 'ਤੇ ਰੈਪ ਸੈਟ ਕਰਕੇ:
![facet grid](../../../../translated_images/pa/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/pa/facet.6a34851dcd540050.webp)
ਇਸ ਡਾਟਾਸੈੱਟ ਲਈ, ਸਾਲ ਦਰ ਸਾਲ ਅਤੇ ਰਾਜ ਦਰ ਰਾਜ ਕਾਲੋਨੀਆਂ ਦੀ ਗਿਣਤੀ ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਉਤਪਾਦਨ ਵਿੱਚ ਕੁਝ ਵਿਸ਼ੇਸ਼ ਦਿਖਾਈ ਨਹੀਂ ਦਿੰਦਾ। ਕੀ ਇਹ ਦੋ ਚਰਾਂ ਦੇ ਰਿਸ਼ਤੇ ਨੂੰ ਖੋਜਣ ਲਈ ਦੇਖਣ ਦਾ ਇੱਕ ਵੱਖਰਾ ਤਰੀਕਾ ਹੈ?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/pa/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/pa/dual-line.a4c28ce659603fab.webp)
ਹਾਲਾਂਕਿ 2003 ਦੇ ਆਸ-ਪਾਸ ਕੁਝ ਵੀ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਦਿਖਾਈ ਨਹੀਂ ਦਿੰਦਾ, ਇਹ ਸਾਨੂੰ ਇਸ ਪਾਠ ਨੂੰ ਇੱਕ ਖੁਸ਼ੀਦਾਇਕ ਨੋਟ 'ਤੇ ਖਤਮ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ: ਹਾਲਾਂਕਿ ਕਾਲੋਨੀਆਂ ਦੀ ਗਿਣਤੀ ਵਿੱਚ ਕੁੱਲ ਘਟਾਅ ਹੈ, ਕਾਲੋਨੀਆਂ ਦੀ ਗਿਣਤੀ ਸਥਿਰ ਹੋ ਰਹੀ ਹੈ, ਭਾਵੇਂ ਉਨ੍ਹਾਂ ਦਾ ਪ੍ਰਤੀ ਕਾਲੋਨੀ ਉਤਪਾਦਨ ਘਟ ਰਿਹਾ ਹੈ।

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
ਇੱਥੇ, ਤੁਸੀਂ `ggplot2` ਪੈਕੇਜ ਇੰਸਟਾਲ ਕਰਦੇ ਹੋ ਅਤੇ ਫਿਰ ਇਸਨੂੰ `library("ggplot2")` ਕਮਾਂਡ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵਰਕਸਪੇਸ ਵਿੱਚ ਇੰਪੋਰਟ ਕਰਦੇ ਹੋ। ggplot ਵਿੱਚ ਕੋਈ ਵੀ ਪਲਾਟ ਬਣਾਉਣ ਲਈ, `ggplot()` ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ ਅਤੇ ਤੁਸੀਂ ਡਾਟਾਸੈੱਟ, x ਅਤੇ y ਵੈਰੀਏਬਲਾਂ ਨੂੰ ਗੁਣਾਂ ਵਜੋਂ ਨਿਰਧਾਰਤ ਕਰਦੇ ਹੋ। ਇਸ ਮਾਮਲੇ ਵਿੱਚ, ਅਸੀਂ ਲਾਈਨ ਪਲਾਟ ਪਲਾਟ ਕਰਨ ਲਈ `geom_line()` ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ।
![MaxWingspan-lineplot](../../../../../translated_images/pa/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/pa/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
ਤੁਰੰਤ ਕੀ ਨਜ਼ਰ ਆਉਂਦਾ ਹੈ? ਘੱਟੋ-ਘੱਟ ਇੱਕ ਆਊਟਲਾਇਰ ਹੈ - ਇਹ ਕਾਫ਼ੀ ਵੱਡੀ ਪੰਖਾਂ ਦੀ ਲੰਬਾਈ ਹੈ! 2000+ ਸੈਂਟੀਮੀਟਰ ਪੰਖਾਂ ਦੀ ਲੰਬਾਈ 20 ਮੀਟਰ ਤੋਂ ਵੱਧ ਹੈ - ਕੀ ਮਿਨੇਸੋਟਾ ਵਿੱਚ ਪਟੇਰੋਡੈਕਟਿਲ ਉੱਡ ਰਹੇ ਹਨ? ਆਓ ਜਾਂਚ ਕਰੀਏ।
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
ਅਸੀਂ `theme` ਵਿੱਚ ਕੋਣ ਨਿਰਧਾਰਤ ਕਰਦੇ ਹਾਂ ਅਤੇ `xlab()` ਅਤੇ `ylab()` ਵਿੱਚ x ਅਤੇ y ਐਕਸਿਸ ਲੇਬਲ ਨਿਰਧਾਰਤ ਕਰਦੇ ਹਾਂ। `ggtitle()` ਗ੍ਰਾਫ/ਪਲਾਟ ਨੂੰ ਇੱਕ ਨਾਮ ਦਿੰਦਾ ਹੈ।
![MaxWingspan-lineplot-improved](../../../../../translated_images/pa/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/pa/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
45 ਡਿਗਰੀ 'ਤੇ ਲੇਬਲਾਂ ਦੇ ਰੋਟੇਸ਼ਨ ਦੇ ਨਾਲ ਵੀ, ਇਹ ਪੜ੍ਹਨ ਲਈ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹਨ। ਆਓ ਇੱਕ ਵੱਖਰੀ ਰਣਨੀਤੀ ਅਪਣਾਈਏ: ਸਿਰਫ ਉਹ ਆਊਟਲਾਇਰ ਲੇਬਲ ਕਰੋ ਅਤੇ ਪਲਾਟ ਦੇ ਅੰਦਰ ਲੇਬਲ ਸੈੱਟ ਕਰੋ। ਤੁਸੀਂ ਲੇਬਲਿੰਗ ਲਈ ਹੋਰ ਜਗ੍ਹਾ ਬਣਾਉਣ ਲਈ ਇੱਕ ਸਕੈਟਰ ਚਾਰਟ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ:
@ -91,7 +91,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
ਤੁਸੀਂ ਕੀ ਪਤਾ ਲਗਾਇਆ?
![MaxWingspan-scatterplot](../../../../../translated_images/pa/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/pa/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## ਆਪਣੇ ਡਾਟੇ ਨੂੰ ਫਿਲਟਰ ਕਰੋ
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
ਅਸੀਂ ਇੱਕ ਨਵਾਂ ਡਾਟਾਫਰੇਮ `birds_filtered` ਬਣਾਇਆ ਅਤੇ ਫਿਰ ਇੱਕ ਸਕੈਟਰ ਪਲਾਟ ਪਲਾਟ ਕੀਤਾ। ਆਊਟਲਾਇਰਾਂ ਨੂੰ ਫਿਲਟਰ ਕਰਕੇ, ਹੁਣ ਤੁਹਾਡਾ ਡਾਟਾ ਹੋਰ ਸੰਗਠਿਤ ਅਤੇ ਸਮਝਣਯੋਗ ਹੈ।
![MaxWingspan-scatterplot-improved](../../../../../translated_images/pa/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/pa/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
ਹੁਣ ਜਦੋਂ ਸਾਡੇ ਕੋਲ ਪੰਖਾਂ ਦੀ ਲੰਬਾਈ ਦੇ ਹਿਸਾਬ ਨਾਲ ਘੱਟੋ-ਘੱਟ ਇੱਕ ਸਾਫ ਡਾਟਾਸੈੱਟ ਹੈ, ਆਓ ਇਨ੍ਹਾਂ ਪੰਛੀਆਂ ਬਾਰੇ ਹੋਰ ਪਤਾ ਲਗਾਈਏ।
@ -152,7 +152,7 @@ birds_filtered %>% group_by(Category) %>%
```
ਹੇਠਾਂ ਦਿੱਤੇ ਕੋਡ ਵਿੱਚ, ਅਸੀਂ [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) ਅਤੇ [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) ਪੈਕੇਜਾਂ ਨੂੰ ਇੰਸਟਾਲ ਕਰਦੇ ਹਾਂ ਜੋ ਡਾਟੇ ਨੂੰ ਮੈਨਿਪੂਲੇਟ ਅਤੇ ਗਰੁੱਪ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਇੱਕ ਸਟੈਕਡ ਬਾਰ ਚਾਰਟ ਪਲਾਟ ਕੀਤਾ ਜਾ ਸਕੇ। ਪਹਿਲਾਂ, ਤੁਸੀਂ ਡਾਟੇ ਨੂੰ ਪੰਛੀ ਦੀ `Category` ਦੇ ਅਨੁਸਾਰ ਗਰੁੱਪ ਕਰਦੇ ਹੋ ਅਤੇ ਫਿਰ `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` ਕਾਲਮਾਂ ਨੂੰ ਸੰਖੇਪ ਕਰਦੇ ਹੋ। ਫਿਰ, `ggplot2` ਪੈਕੇਜ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬਾਰ ਚਾਰਟ ਪਲਾਟ ਕਰੋ ਅਤੇ ਵੱਖ-ਵੱਖ ਸ਼੍ਰੇਣੀਆਂ ਲਈ ਰੰਗ ਅਤੇ ਲੇਬਲ ਨਿਰਧਾਰਤ ਕਰੋ।
![Stacked bar chart](../../../../../translated_images/pa/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/pa/stacked-bar-chart.0c92264e89da7b39.webp)
ਹਾਲਾਂਕਿ, ਇਹ ਬਾਰ ਚਾਰਟ ਪੜ੍ਹਨ ਯੋਗ ਨਹੀਂ ਹੈ ਕਿਉਂਕਿ ਬਹੁਤ ਸਾਰਾ ਗੈਰ-ਗਰੁੱਪ ਕੀਤਾ ਡਾਟਾ ਹੈ। ਤੁਹਾਨੂੰ ਸਿਰਫ ਉਹ ਡਾਟਾ ਚੁਣਨ ਦੀ ਲੋੜ ਹੈ ਜੋ ਤੁਸੀਂ ਪਲਾਟ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਇਸ ਲਈ ਆਓ ਪੰਛੀ ਦੀ ਸ਼੍ਰੇਣੀ ਦੇ ਆਧਾਰ 'ਤੇ ਪੰਛੀਆਂ ਦੀ ਲੰਬਾਈ ਦੇਖੀਏ।
@ -167,7 +167,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
ਤੁਸੀਂ `Category` ਕਾਲਮ ਵਿੱਚ ਵਿਲੱਖਣ ਮੁੱਲਾਂ ਦੀ ਗਿਣਤੀ ਕਰਦੇ ਹੋ ਅਤੇ ਫਿਰ ਉਨ੍ਹਾਂ ਨੂੰ ਇੱਕ ਨਵੇਂ ਡਾਟਾਫਰੇਮ `birds_count` ਵਿੱਚ ਸੌਰਟ ਕਰਦੇ ਹੋ। ਇਹ ਸੌਰਟ ਕੀਤਾ ਡਾਟਾ ਫਿਰ ਇੱਕੋ ਪੱਧਰ 'ਤੇ ਫੈਕਟਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਤਾਂ ਜੋ ਇਹ ਸੌਰਟ ਕੀਤੇ ਤਰੀਕੇ ਨਾਲ ਪਲਾਟ ਕੀਤਾ ਜਾ ਸਕੇ। `ggplot2` ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤੁਸੀਂ ਫਿਰ ਡਾਟੇ ਨੂੰ ਇੱਕ ਬਾਰ ਚਾਰਟ ਵਿੱਚ ਪਲਾਟ ਕਰਦੇ ਹੋ। `coord_flip()` ਖੜ੍ਹੇ ਬਾਰ ਪਲਾਟ ਕਰਦਾ ਹੈ।
![category-length](../../../../../translated_images/pa/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/pa/category-length.7e34c296690e85d6.webp)
ਇਹ ਬਾਰ ਚਾਰਟ

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![ਕ੍ਰਮ ਪ੍ਰਤੀ ਵੱਧ ਤੋਂ ਵੱਧ ਲੰਬਾਈ](../../../../../translated_images/pa/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![ਕ੍ਰਮ ਪ੍ਰਤੀ ਵੱਧ ਤੋਂ ਵੱਧ ਲੰਬਾਈ](../../../../../translated_images/pa/max-length-per-order.e5b283d952c78c12.webp)
ਇਹ ਪੰਛੀ ਦੇ ਕ੍ਰਮ ਪ੍ਰਤੀ ਸਰੀਰਕ ਲੰਬਾਈ ਦੀ ਆਮ ਵੰਡ ਦਾ ਝਲਕ ਦਿੰਦਾ ਹੈ, ਪਰ ਇਹ ਸੱਚੀ ਵੰਡਾਂ ਨੂੰ ਦਿਖਾਉਣ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕਾ ਨਹੀਂ ਹੈ। ਇਹ ਕੰਮ ਆਮ ਤੌਰ 'ਤੇ ਹਿਸਟੋਗ੍ਰਾਮ ਬਣਾਉਣ ਦੁਆਰਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
@ -48,7 +48,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![ਪੂਰੇ ਡਾਟਾਸੈਟ 'ਤੇ ਵੰਡ](../../../../../translated_images/pa/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![ਪੂਰੇ ਡਾਟਾਸੈਟ 'ਤੇ ਵੰਡ](../../../../../translated_images/pa/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
ਜਿਵੇਂ ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ, ਇਸ ਡਾਟਾਸੈਟ ਵਿੱਚ ਮੌਜੂਦ 400+ ਪੰਛੀਆਂ ਵਿੱਚੋਂ ਜ਼ਿਆਦਾਤਰ ਦਾ ਵੱਧ ਤੋਂ ਵੱਧ ਸਰੀਰਕ ਭਾਰ 2000 ਤੋਂ ਘੱਟ ਹੈ। `bins` ਪੈਰਾਮੀਟਰ ਨੂੰ ਵਧੇਰੇ ਸੰਖਿਆ, ਜਿਵੇਂ ਕਿ 30, ਵਿੱਚ ਬਦਲ ਕੇ ਡਾਟਾ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰੋ:
@ -56,7 +56,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![30 ਬਿਨਾਂ ਨਾਲ ਵੰਡ](../../../../../translated_images/pa/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![30 ਬਿਨਾਂ ਨਾਲ ਵੰਡ](../../../../../translated_images/pa/distribution-30bins.6a3921ea7a421bf7.webp)
ਇਹ ਚਾਰਟ ਵੰਡ ਨੂੰ ਹੋਰ ਵਿਸਤ੍ਰਿਤ ਢੰਗ ਨਾਲ ਦਿਖਾਉਂਦਾ ਹੈ। ਇੱਕ ਚਾਰਟ ਜੋ ਖੱਬੇ ਵੱਲ ਘੱਟ ਝੁਕਿਆ ਹੋਵੇ, ਉਹ ਇਸ ਤਰੀਕੇ ਨਾਲ ਬਣਾਇਆ ਜਾ ਸਕਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਸਿਰਫ਼ ਇੱਕ ਦਿੱਤੇ ਗਏ ਰੇਂਜ ਦੇ ਅੰਦਰ ਡਾਟਾ ਚੁਣੋ:
@ -68,7 +68,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![ਫਿਲਟਰ ਕੀਤਾ ਹਿਸਟੋਗ੍ਰਾਮ](../../../../../translated_images/pa/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![ਫਿਲਟਰ ਕੀਤਾ ਹਿਸਟੋਗ੍ਰਾਮ](../../../../../translated_images/pa/filtered-histogram.6bf5d2bfd8253322.webp)
✅ ਕੁਝ ਹੋਰ ਫਿਲਟਰ ਅਤੇ ਡਾਟਾ ਪੌਇੰਟਸ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੋ। ਡਾਟਾ ਦੀ ਪੂਰੀ ਵੰਡ ਦੇਖਣ ਲਈ, `['MaxBodyMass']` ਫਿਲਟਰ ਨੂੰ ਹਟਾਓ ਅਤੇ ਲੇਬਲ ਕੀਤੀਆਂ ਵੰਡਾਂ ਦਿਖਾਓ।
@ -82,7 +82,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
ਇਹ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ ਕਿ ਉਮੀਦ ਕੀਤੀ ਗਈ ਧੁਰੇ ਦੇ ਨਾਲ ਇਹ ਦੋ ਤੱਤ ਇੱਕ ਦੂਜੇ ਨਾਲ ਸੰਬੰਧਿਤ ਹਨ, ਇੱਕ ਖਾਸ ਤੌਰ 'ਤੇ ਮਜ਼ਬੂਤ ਮਿਲਾਪ ਦੇ ਬਿੰਦੂ ਨਾਲ:
![2D ਪਲਾਟ](../../../../../translated_images/pa/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2D ਪਲਾਟ](../../../../../translated_images/pa/2d-plot.c504786f439bd7eb.webp)
ਹਿਸਟੋਗ੍ਰਾਮ ਆਮ ਤੌਰ 'ਤੇ ਸੰਖਿਆਤਮਕ ਡਾਟਾ ਲਈ ਚੰਗੇ ਕੰਮ ਕਰਦੇ ਹਨ। ਪਰ ਜੇ ਤੁਸੀਂ ਟੈਕਸਟ ਡਾਟਾ ਦੇ ਅਨੁਸਾਰ ਵੰਡਾਂ ਨੂੰ ਦੇਖਣਾ ਚਾਹੁੰਦੇ ਹੋ ਤਾਂ ਕੀ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ?
## ਟੈਕਸਟ ਡਾਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਡਾਟਾਸੈਟ ਦੀ ਖੋਜ ਕਰੋ
@ -113,7 +113,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![ਪੰਖਾਂ ਦਾ ਫੈਲਾਅ ਅਤੇ ਸੰਰਕਸ਼ਣ ਸਥਿਤੀ](../../../../../translated_images/pa/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![ਪੰਖਾਂ ਦਾ ਫੈਲਾਅ ਅਤੇ ਸੰਰਕਸ਼ਣ ਸਥਿਤੀ](../../../../../translated_images/pa/wingspan-conservation-collation.4024e9aa6910866a.webp)
ਘੱਟੋ-ਘੱਟ ਪੰਖਾਂ ਦੇ ਫੈਲਾਅ ਅਤੇ ਸੰਰਕਸ਼ਣ ਸਥਿਤੀ ਦੇ ਵਿਚਕਾਰ ਕੋਈ ਵਧੀਆ ਸੰਬੰਧ ਨਹੀਂ ਦਿਖਾਈ ਦਿੰਦਾ। ਇਸ ਤਰੀਕੇ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਡਾਟਾਸੈਟ ਦੇ ਹੋਰ ਤੱਤਾਂ ਦੀ ਜਾਂਚ ਕਰੋ। ਤੁਸੀਂ ਵੱਖ-ਵੱਖ ਫਿਲਟਰਾਂ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹੋ। ਕੀ ਤੁਹਾਨੂੰ ਕੋਈ ਸੰਬੰਧ ਮਿਲਦਾ ਹੈ?
@ -127,7 +127,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![ਡੈਂਸਿਟੀ ਪਲਾਟ](../../../../../translated_images/pa/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![ਡੈਂਸਿਟੀ ਪਲਾਟ](../../../../../translated_images/pa/density-plot.675ccf865b76c690.webp)
ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਪਲਾਟ ਘੱਟੋ-ਘੱਟ ਪੰਖਾਂ ਦੇ ਫੈਲਾਅ ਲਈ ਪਿਛਲੇ ਚਾਰਟ ਨੂੰ ਦੁਹਰਾਉਂਦਾ ਹੈ; ਇਹ ਸਿਰਫ਼ ਕੁਝ ਸਮੂਥ ਹੈ। ਜੇ ਤੁਸੀਂ ਉਸ ਜੱਗਡ ਵੱਧ ਤੋਂ ਵੱਧ ਸਰੀਰਕ ਭਾਰ ਦੀ ਲਾਈਨ ਨੂੰ ਦੁਬਾਰਾ ਦੇਖਣਾ ਚਾਹੁੰਦੇ ਹੋ ਜੋ ਤੁਸੀਂ ਦੂਜੇ ਚਾਰਟ ਵਿੱਚ ਬਣਾਈ ਸੀ, ਤਾਂ ਤੁਸੀਂ ਇਸ ਤਰੀਕੇ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇਸਨੂੰ ਬਹੁਤ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸਮੂਥ ਕਰ ਸਕਦੇ ਹੋ:
@ -135,7 +135,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![ਸਰੀਰਕ ਭਾਰ ਡੈਂਸਿਟੀ](../../../../../translated_images/pa/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![ਸਰੀਰਕ ਭਾਰ ਡੈਂਸਿਟੀ](../../../../../translated_images/pa/bodymass-smooth.d31ce526d82b0a1f.webp)
ਜੇ ਤੁਸੀਂ ਇੱਕ ਸਮੂਥ, ਪਰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸਮੂਥ ਲਾਈਨ ਨਹੀਂ ਚਾਹੁੰਦੇ, ਤਾਂ `adjust` ਪੈਰਾਮੀਟਰ ਨੂੰ ਸੋਧੋ:
@ -143,7 +143,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![ਘੱਟ ਸਮੂਥ ਸਰੀਰਕ ਭਾਰ](../../../../../translated_images/pa/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![ਘੱਟ ਸਮੂਥ ਸਰੀਰਕ ਭਾਰ](../../../../../translated_images/pa/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ ਇਸ ਪ੍ਰਕਾਰ ਦੇ ਪਲਾਟ ਲਈ ਉਪਲਬਧ ਪੈਰਾਮੀਟਰਾਂ ਬਾਰੇ ਪੜ੍ਹੋ ਅਤੇ ਪ੍ਰਯੋਗ ਕਰੋ!
@ -153,7 +153,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![ਕ੍ਰਮ ਪ੍ਰਤੀ ਸਰੀਰਕ ਭਾਰ](../../../../../translated_images/pa/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![ਕ੍ਰਮ ਪ੍ਰਤੀ ਸਰੀਰਕ ਭਾਰ](../../../../../translated_images/pa/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 ਚੁਣੌਤੀ

@ -83,7 +83,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
ਲੋ ਜੀ, ਇੱਕ ਪਾਈ ਚਾਰਟ ਜੋ ਮਸ਼ਰੂਮਾਂ ਦੀਆਂ ਦੋ ਸ਼੍ਰੇਣੀਆਂ ਦੇ ਅਨੁਸਾਰ ਡਾਟੇ ਦੇ ਅਨੁਪਾਤਾਂ ਨੂੰ ਦਿਖਾਉਂਦਾ ਹੈ। ਲੇਬਲਾਂ ਦੇ ਕ੍ਰਮ ਨੂੰ ਸਹੀ ਰੱਖਣਾ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਖਾਸ ਕਰਕੇ ਇੱਥੇ, ਇਸ ਲਈ ਯਕੀਨੀ ਬਣਾਓ ਕਿ ਲੇਬਲ ਐਰੇ ਬਣਾਉਣ ਦੇ ਕ੍ਰਮ ਦੀ ਪੁਸ਼ਟੀ ਕਰੋ!
![pie chart](../../../../../translated_images/pa/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![pie chart](../../../../../translated_images/pa/pie1-wb.685df063673751f4.webp)
## ਡੋਨਟ!
@ -117,7 +117,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![donut chart](../../../../../translated_images/pa/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![donut chart](../../../../../translated_images/pa/donut-wb.34e6fb275da9d834.webp)
ਇਹ ਕੋਡ ਦੋ ਲਾਇਬ੍ਰੇਰੀਆਂ - ggplot2 ਅਤੇ webr ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। webr ਲਾਇਬ੍ਰੇਰੀ ਦੇ PieDonut ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਅਸੀਂ ਆਸਾਨੀ ਨਾਲ ਡੋਨਟ ਚਾਰਟ ਬਣਾ ਸਕਦੇ ਹਾਂ!
@ -155,7 +155,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
ਵਾਫਲ ਚਾਰਟ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਤੁਸੀਂ ਮਸ਼ਰੂਮਾਂ ਦੇ ਕੈਪ ਰੰਗਾਂ ਦੇ ਅਨੁਪਾਤਾਂ ਨੂੰ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਦੇਖ ਸਕਦੇ ਹੋ। ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ ਬਹੁਤ ਸਾਰੇ ਹਰੇ ਕੈਪ ਵਾਲੇ ਮਸ਼ਰੂਮ ਹਨ!
![waffle chart](../../../../../translated_images/pa/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![waffle chart](../../../../../translated_images/pa/waffle.aaa75c5337735a6e.webp)
ਇਸ ਪਾਠ ਵਿੱਚ, ਤੁਸੀਂ ਅਨੁਪਾਤਾਂ ਨੂੰ ਦਿਖਾਉਣ ਦੇ ਤਿੰਨ ਤਰੀਕੇ ਸਿੱਖੇ। ਪਹਿਲਾਂ, ਤੁਹਾਨੂੰ ਆਪਣੇ ਡਾਟੇ ਨੂੰ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਗਰੁੱਪ ਕਰਨਾ ਪੈਂਦਾ ਹੈ ਅਤੇ ਫਿਰ ਇਹ ਫੈਸਲਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ ਕਿ ਡਾਟੇ ਨੂੰ ਦਿਖਾਉਣ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕਾ ਕਿਹੜਾ ਹੈ - ਪਾਈ, ਡੋਨਟ, ਜਾਂ ਵਾਫਲ। ਸਾਰੇ ਸੁਆਦਿਸ਼ਟ ਹਨ ਅਤੇ ਯੂਜ਼ਰ ਨੂੰ ਡਾਟਾਸੈਟ ਦੀ ਤੁਰੰਤ ਝਲਕ ਦਿੰਦੇ ਹਨ।

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/pa/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/pa/scatter1.86b8900674d88b26.webp)
ਹੁਣ, ਸਾਲਾਂ ਦੇ ਦੌਰਾਨ ਸ਼ਹਿਦ ਦੀ ਕੀਮਤ ਕਿਵੇਂ ਵਿਕਸਿਤ ਹੁੰਦੀ ਹੈ, ਇਹ ਦਰਸਾਉਣ ਲਈ ਸ਼ਹਿਦ ਦੇ ਰੰਗ ਦੀ ਸਕੀਮ ਨਾਲ ਉਹੀ ਡਾਟਾ ਦਿਖਾਓ। ਤੁਸੀਂ ਇਹ 'scale_color_gradientn' ਪੈਰਾਮੀਟਰ ਸ਼ਾਮਲ ਕਰਕੇ ਕਰ ਸਕਦੇ ਹੋ ਜੋ ਸਾਲ ਦਰ ਸਾਲ ਬਦਲਾਅ ਦਿਖਾਉਂਦਾ ਹੈ:
@ -52,7 +52,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/pa/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/pa/scatter2.4d1cbc693bad20e2.webp)
ਇਸ ਰੰਗ ਸਕੀਮ ਬਦਲਾਅ ਨਾਲ, ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ ਸਾਲਾਂ ਦੇ ਦੌਰਾਨ ਸ਼ਹਿਦ ਦੀ ਕੀਮਤ ਪ੍ਰਤੀ ਪਾਉਂਡ ਵਿੱਚ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਇੱਕ ਮਜ਼ਬੂਤ ​​ਤਰੱਕੀ ਹੈ। ਦਰਅਸਲ, ਜੇ ਤੁਸੀਂ ਡਾਟਾ ਵਿੱਚ ਇੱਕ ਨਮੂਨਾ ਸੈੱਟ ਦੀ ਜਾਂਚ ਕਰੋ (ਉਦਾਹਰਣ ਲਈ, ਅਰੀਜ਼ੋਨਾ ਨੂੰ ਚੁਣੋ) ਤਾਂ ਤੁਸੀਂ ਸਾਲ ਦਰ ਸਾਲ ਕੀਮਤ ਵਿੱਚ ਵਾਧੇ ਦਾ ਪੈਟਰਨ ਦੇਖ ਸਕਦੇ ਹੋ, ਕੁਝ ਛੋਟ ਦੇ ਨਾਲ:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
ਤੁਸੀਂ ਡਾਟ ਦੇ ਆਕਾਰ ਨੂੰ ਹੌਲੀ-ਹੌਲੀ ਵਧਦੇ ਹੋਏ ਦੇਖ ਸਕਦੇ ਹੋ।
![scatterplot 3](../../../../../translated_images/pa/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/pa/scatter3.722d21e6f20b3ea2.webp)
ਕੀ ਇਹ ਸਪਲਾਈ ਅਤੇ ਡਿਮਾਂਡ ਦਾ ਸਧਾਰਨ ਮਾਮਲਾ ਹੈ? ਜਿਵੇਂ ਕਿ ਮੌਸਮ ਵਿੱਚ ਬਦਲਾਅ ਅਤੇ ਕਾਲੋਨੀ ਕਾਲਾਪਸ ਦੇ ਕਾਰਨ, ਕੀ ਸਾਲ ਦਰ ਸਾਲ ਖਰੀਦਣ ਲਈ ਘੱਟ ਸ਼ਹਿਦ ਉਪਲਬਧ ਹੈ, ਅਤੇ ਇਸ ਲਈ ਕੀਮਤ ਵਧਦੀ ਹੈ?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
ਜਵਾਬ: ਹਾਂ, ਕੁਝ ਛੋਟਾਂ ਦੇ ਨਾਲ, 2003 ਦੇ ਆਸ-ਪਾਸ:
![line chart 1](../../../../../translated_images/pa/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/pa/line1.299b576fbb2a59e6.webp)
ਸਵਾਲ: ਖੈਰ, 2003 ਵਿੱਚ ਕੀ ਤੁਸੀਂ ਸ਼ਹਿਦ ਦੀ ਸਪਲਾਈ ਵਿੱਚ ਵੀ ਵਾਧਾ ਦੇਖ ਸਕਦੇ ਹੋ? ਜੇ ਤੁਸੀਂ ਸਾਲ ਦਰ ਸਾਲ ਕੁੱਲ ਉਤਪਾਦਨ ਨੂੰ ਦੇਖੋ ਤਾਂ ਕੀ ਹੋਵੇਗਾ?
@ -106,7 +106,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/pa/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/pa/line2.3b18fcda7176ceba.webp)
ਜਵਾਬ: ਸੱਚਮੁੱਚ ਨਹੀਂ। ਜੇ ਤੁਸੀਂ ਕੁੱਲ ਉਤਪਾਦਨ ਨੂੰ ਦੇਖੋ, ਤਾਂ ਇਹ ਵਿਸ਼ੇਸ਼ ਸਾਲ ਵਿੱਚ ਵਾਧਾ ਹੋਇਆ ਜਾਪਦਾ ਹੈ, ਹਾਲਾਂਕਿ ਆਮ ਤੌਰ 'ਤੇ ਸ਼ਹਿਦ ਦੇ ਉਤਪਾਦਨ ਦੀ ਮਾਤਰਾ ਇਨ੍ਹਾਂ ਸਾਲਾਂ ਦੌਰਾਨ ਘਟ ਰਹੀ ਹੈ।
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
ਇਸ ਦ੍ਰਿਸ਼ਟੀਕਰਨ ਵਿੱਚ, ਤੁਸੀਂ ਸਾਲ ਦਰ ਸਾਲ ਅਤੇ ਰਾਜ ਦਰ ਰਾਜ ਕਾਲੋਨੀ ਦੀ ਉਪਜ ਅਤੇ ਕਾਲੋਨੀਆਂ ਦੀ ਗਿਣਤੀ ਦੀ ਤੁਲਨਾ ਕਰ ਸਕਦੇ ਹੋ, ਕਾਲਮਾਂ ਲਈ 3 'ਤੇ ਰੈਪ ਸੈਟ ਨਾਲ:
![facet grid](../../../../../translated_images/pa/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/pa/facet.491ad90d61c2a7cc.webp)
ਇਸ ਡਾਟਾਸੈੱਟ ਲਈ, ਸਾਲ ਦਰ ਸਾਲ ਅਤੇ ਰਾਜ ਦਰ ਰਾਜ ਕਾਲੋਨੀਆਂ ਦੀ ਗਿਣਤੀ ਅਤੇ ਉਨ੍ਹਾਂ ਦੀ ਉਪਜ ਦੇ ਸਬੰਧ ਵਿੱਚ ਕੁਝ ਖਾਸ ਦਿਖਾਈ ਨਹੀਂ ਦਿੰਦਾ। ਕੀ ਇਹ ਦੋ ਵੈਰੀਏਬਲਾਂ ਦੇ ਰਿਸ਼ਤੇ ਨੂੰ ਲੱਭਣ ਦਾ ਇੱਕ ਵੱਖਰਾ ਤਰੀਕਾ ਹੈ?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/pa/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/pa/dual-line.fc4665f360a54018.webp)
ਹਾਲਾਂਕਿ 2003 ਦੇ ਆਸ-ਪਾਸ ਕੁਝ ਵੀ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਦਿਖਾਈ ਨਹੀਂ ਦਿੰਦਾ, ਇਹ ਸਾਨੂੰ ਇਸ ਪਾਠ ਨੂੰ ਇੱਕ ਖੁਸ਼ੀਦਾਇਕ ਨੋਟ 'ਤੇ ਖਤਮ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ: ਹਾਲਾਂਕਿ ਕੁੱਲ ਕਾਲੋਨੀਆਂ ਦੀ ਗਿਣਤੀ ਘਟ ਰਹੀ ਹੈ, ਕਾਲੋਨੀਆਂ ਦੀ ਗਿਣਤੀ ਸਥਿਰ ਹੋ ਰਹੀ ਹੈ ਭਾਵੇਂ ਉਨ੍ਹਾਂ ਦੀ ਪ੍ਰਤੀ ਕਾਲੋਨੀ ਉਪਜ ਘਟ ਰਹੀ ਹੈ।

@ -38,25 +38,25 @@
ਭਾਵੇਂ ਕਿ ਡਾਟਾ ਸਾਇੰਸਟ ਸਹੀ ਡਾਟਾ ਲਈ ਸਹੀ ਚਾਰਟ ਚੁਣਨ ਵਿੱਚ ਸਾਵਧਾਨ ਹੋਵੇ, ਫਿਰ ਵੀ ਕਈ ਤਰੀਕੇ ਹਨ ਜਿਨ੍ਹਾਂ ਨਾਲ ਡਾਟਾ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਪੇਸ਼ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ ਜੋ ਕਿਸੇ ਨਤੀਜੇ ਨੂੰ ਸਾਬਤ ਕਰੇ, ਪਰ ਕਈ ਵਾਰ ਇਹ ਡਾਟਾ ਨੂੰ ਗਲਤ ਢੰਗ ਨਾਲ ਪੇਸ਼ ਕਰ ਸਕਦਾ ਹੈ। ਧੋਖੇਬਾਜ਼ ਚਾਰਟਾਂ ਅਤੇ ਇਨਫੋਗ੍ਰਾਫਿਕਸ ਦੇ ਕਈ ਉਦਾਹਰਨ ਹਨ!
[![ਅਲਬਰਟੋ ਕਾਇਰੋ ਦੁਆਰਾ "ਹਾਊ ਚਾਰਟਸ ਲਾਈ"](../../../../../translated_images/pa/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "ਹਾਊ ਚਾਰਟਸ ਲਾਈ")
[![ਅਲਬਰਟੋ ਕਾਇਰੋ ਦੁਆਰਾ "ਹਾਊ ਚਾਰਟਸ ਲਾਈ"](../../../../../translated_images/pa/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "ਹਾਊ ਚਾਰਟਸ ਲਾਈ")
> 🎥 ਉੱਪਰ ਦਿੱਤੀ ਤਸਵੀਰ 'ਤੇ ਕਲਿਕ ਕਰੋ ਧੋਖੇਬਾਜ਼ ਚਾਰਟਾਂ ਬਾਰੇ ਕਾਨਫਰੰਸ ਟਾਕ ਦੇਖਣ ਲਈ
ਇਹ ਚਾਰਟ X ਅਕਸ ਨੂੰ ਉਲਟਾ ਦਿਖਾਉਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਸੱਚ ਦੇ ਉਲਟ ਨਤੀਜਾ ਦਿਖਾਇਆ ਜਾਂਦਾ ਹੈ:
![ਖਰਾਬ ਚਾਰਟ 1](../../../../../translated_images/pa/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![ਖਰਾਬ ਚਾਰਟ 1](../../../../../translated_images/pa/bad-chart-1.596bc93425a8ac30.webp)
[ਇਹ ਚਾਰਟ](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) ਹੋਰ ਵੀ ਧੋਖੇਬਾਜ਼ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਅੱਖ ਨੂੰ ਇਹ ਨਤੀਜਾ ਕੱਢਣ ਲਈ ਖਿੱਚਦਾ ਹੈ ਕਿ ਸਮੇਂ ਦੇ ਨਾਲ COVID ਕੇਸ ਘਟੇ ਹਨ। ਪਰ ਜੇ ਤੁਸੀਂ ਤਾਰੀਖਾਂ ਨੂੰ ਧਿਆਨ ਨਾਲ ਦੇਖੋ, ਤਾਂ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਉਹਨਾਂ ਨੂੰ ਧੋਖੇਬਾਜ਼ੀ ਨਾਲ ਦੁਬਾਰਾ ਕ੍ਰਮਬੱਧ ਕੀਤਾ ਗਿਆ ਹੈ।
![ਖਰਾਬ ਚਾਰਟ 2](../../../../../translated_images/pa/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![ਖਰਾਬ ਚਾਰਟ 2](../../../../../translated_images/pa/bad-chart-2.62edf4d2f30f4e51.webp)
ਇਹ ਮਸ਼ਹੂਰ ਉਦਾਹਰਨ ਰੰਗ ਅਤੇ ਉਲਟੇ Y ਅਕਸ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਧੋਖਾ ਦਿੰਦੀ ਹੈ: ਬਜਾਏ ਇਸਦੇ ਕਿ ਗਨ ਮੌਤਾਂ ਵਿੱਚ ਵਾਧਾ ਹੋਇਆ, ਅੱਖ ਨੂੰ ਇਹ ਗਲਤਫਹਮੀ ਹੋ ਸਕਦੀ ਹੈ ਕਿ ਉਲਟਾ ਸੱਚ ਹੈ:
![ਖਰਾਬ ਚਾਰਟ 3](../../../../../translated_images/pa/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![ਖਰਾਬ ਚਾਰਟ 3](../../../../../translated_images/pa/bad-chart-3.e201e2e915a230bc.webp)
ਇਹ ਅਜੀਬ ਚਾਰਟ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਅਨੁਪਾਤ ਨੂੰ ਕਿਵੇਂ ਮਜ਼ਾਕੀਆ ਤਰੀਕੇ ਨਾਲ ਮੋੜਿਆ ਜਾ ਸਕਦਾ ਹੈ:
![ਖਰਾਬ ਚਾਰਟ 4](../../../../../translated_images/pa/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![ਖਰਾਬ ਚਾਰਟ 4](../../../../../translated_images/pa/bad-chart-4.8872b2b881ffa96c.webp)
ਅਤੁਲਨਾਤਮਕ ਚੀਜ਼ਾਂ ਦੀ ਤੁਲਨਾ ਕਰਨਾ ਇੱਕ ਹੋਰ ਧੋਖੇਬਾਜ਼ ਤਰੀਕਾ ਹੈ। ਇੱਕ [ਸ਼ਾਨਦਾਰ ਵੈੱਬਸਾਈਟ](https://tylervigen.com/spurious-correlations) 'ਸਪਿਊਰੀਅਸ ਕੋਰਲੇਸ਼ਨਜ਼' ਬਾਰੇ ਹੈ ਜੋ 'ਤੱਥਾਂ' ਨੂੰ ਦਿਖਾਉਂਦੀ ਹੈ ਜਿਵੇਂ ਕਿ ਮੈਨ ਵਿੱਚ ਤਲਾਕ ਦੀ ਦਰ ਅਤੇ ਮਾਰਜਰੀਨ ਦੀ ਖਪਤ। ਇੱਕ Reddit ਗਰੁੱਪ ਵੀ [ਡਾਟਾ ਦੇ ਬੁਰੇ ਉਪਯੋਗ](https://www.reddit.com/r/dataisugly/top/?t=all) ਨੂੰ ਇਕੱਠਾ ਕਰਦਾ ਹੈ।
@ -91,13 +91,13 @@
ਜੇ ਤੁਹਾਡਾ ਡਾਟਾ X ਅਕਸ 'ਤੇ ਟੈਕਸਟ ਅਤੇ ਲੰਬੇ ਵਾਕਾਂਸ਼ਾਂ ਵਾਲਾ ਹੈ, ਤਾਂ ਪੜ੍ਹਨਯੋਗਤਾ ਲਈ ਟੈਕਸਟ ਨੂੰ ਝੁਕਾ ਸਕਦੇ ਹੋ। [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D ਪਲੌਟਿੰਗ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ, ਜੇ ਤੁਹਾਡਾ ਡਾਟਾ ਇਸਨੂੰ ਸਹਾਰਦਾ ਹੈ। ਇਸ ਨਾਲ ਸੁਧਾਰਸ਼ੀਲ ਡਾਟਾ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਬਣਾਈ ਜਾ ਸਕਦੀ ਹੈ।
![3D ਪਲੌਟ](../../../../../translated_images/pa/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3D ਪਲੌਟ](../../../../../translated_images/pa/3d.db1734c151eee87d.webp)
## ਐਨੀਮੇਸ਼ਨ ਅਤੇ 3D ਚਾਰਟ ਡਿਸਪਲੇਅ
ਅੱਜ ਦੇ ਕੁਝ ਸਭ ਤੋਂ ਵਧੀਆ ਡਾਟਾ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਐਨੀਮੇਟਡ ਹਨ। Shirley Wu ਨੇ D3 ਨਾਲ ਬਹੁਤ ਹੀ ਸ਼ਾਨਦਾਰ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਬਣਾਈਆਂ ਹਨ, ਜਿਵੇਂ ਕਿ '[ਫਿਲਮ ਫਲਾਵਰਜ਼](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', ਜਿੱਥੇ ਹਰ ਫੁੱਲ ਇੱਕ ਫਿਲਮ ਦੀ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਹੈ। ਇੱਕ ਹੋਰ ਉਦਾਹਰਨ 'ਗਾਰਡੀਅਨ' ਲਈ 'ਬੱਸਡ ਆਉਟ' ਹੈ, ਜੋ ਇੱਕ ਇੰਟਰੈਕਟਿਵ ਅਨੁਭਵ ਹੈ ਜੋ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਨੂੰ ਗ੍ਰੀਨਸਾਕ ਅਤੇ D3 ਨਾਲ ਜੋੜਦਾ ਹੈ ਅਤੇ ਇੱਕ ਸਕ੍ਰੋਲਿੰਗ ਲੇਖ ਫਾਰਮੈਟ ਵਿੱਚ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਨਿਊਯਾਰਕ ਸਿਟੀ ਆਪਣੇ ਬੇਘਰ ਲੋਕਾਂ ਨੂੰ ਸ਼ਹਿਰ ਤੋਂ ਬਾਹਰ ਕਿਵੇਂ ਭੇਜਦਾ ਹੈ।
![ਬੱਸਿੰਗ](../../../../../translated_images/pa/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![ਬੱਸਿੰਗ](../../../../../translated_images/pa/busing.8157cf1bc89a3f65.webp)
> "ਬੱਸਡ ਆਉਟ: ਅਮਰੀਕਾ ਆਪਣੇ ਬੇਘਰ ਲੋਕਾਂ ਨੂੰ ਕਿਵੇਂ ਹਿਲਾਉਂਦਾ ਹੈ" [ਗਾਰਡੀਅਨ](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) ਤੋਂ। ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ Nadieh Bremer ਅਤੇ Shirley Wu ਦੁਆਰਾ
@ -107,7 +107,7 @@
ਤੁਸੀਂ ਇੱਕ ਵੈੱਬ ਐਪ ਪੂਰਾ ਕਰੋਗੇ ਜੋ ਇਸ ਸਮਾਜਿਕ ਨੈੱਟਵਰਕ ਦਾ ਐਨੀਮੇਟਡ ਦ੍ਰਿਸ਼ ਦਿਖਾਵੇਗਾ।
![liaisons](../../../../../translated_images/pa/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/pa/liaisons.90ce7360bcf84765.webp)
## ਪ੍ਰੋਜੈਕਟ: D3.js ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਨੈੱਟਵਰਕ ਦਿਖਾਉਣ ਲਈ ਚਾਰਟ ਬਣਾਓ

@ -1,6 +1,6 @@
# ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ
![ਲੈਵੈਂਡਰ ਫੁੱਲ 'ਤੇ ਮੱਖੀ](../../../translated_images/pa/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![ਲੈਵੈਂਡਰ ਫੁੱਲ 'ਤੇ ਮੱਖੀ](../../../translated_images/pa/bee.0aa1d91132b12e3a.webp)
> ਫੋਟੋ <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ਜੈਨਾ ਲੀ</a> ਦੁਆਰਾ <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ਅਨਸਪਲੈਸ਼</a> 'ਤੇ
ਡਾਟਾ ਨੂੰ ਵਿਜੁਅਲਾਈਜ਼ ਕਰਨਾ ਇੱਕ ਡਾਟਾ ਸਾਇੰਟਿਸਟ ਦੇ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਕੰਮਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। ਚਿੱਤਰ 1000 ਸ਼ਬਦਾਂ ਦੇ ਬਰਾਬਰ ਹੁੰਦੇ ਹਨ, ਅਤੇ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਤੁਹਾਨੂੰ ਆਪਣੇ ਡਾਟਾ ਦੇ ਵੱਖ-ਵੱਖ ਦਿਲਚਸਪ ਪੱਖਾਂ ਜਿਵੇਂ ਕਿ ਸਪਾਈਕਸ, ਆਉਟਲਾਇਰਜ਼, ਗਰੁੱਪਿੰਗ, ਰੁਝਾਨ ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੀ ਹੈ, ਜੋ ਤੁਹਾਨੂੰ ਤੁਹਾਡੇ ਡਾਟਾ ਦੀ ਕਹਾਣੀ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ।

@ -16,7 +16,7 @@
ਇਹ ਪਾਠ ਲਾਈਫਸਾਈਕਲ ਦੇ 3 ਹਿੱਸਿਆਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ: ਡਾਟਾ ਇਕੱਠਾ ਕਰਨਾ, ਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਰੱਖ-ਰਖਾਵ।
![ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਦਾ ਚਿੱਤਰ](../../../../translated_images/pa/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਦਾ ਚਿੱਤਰ](../../../../translated_images/pa/data-science-lifecycle.a1e362637503c4fb.webp)
> [ਬਰਕਲੇ ਸਕੂਲ ਆਫ ਇਨਫਾਰਮੇਸ਼ਨ](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) ਦੁਆਰਾ ਫੋਟੋ
## ਡਾਟਾ ਇਕੱਠਾ ਕਰਨਾ
@ -88,7 +88,7 @@
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
|![Team Data Science Lifecycle](../../../../translated_images/pa/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Data Science Process Alliance Image](../../../../translated_images/pa/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Team Data Science Lifecycle](../../../../translated_images/pa/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Data Science Process Alliance Image](../../../../translated_images/pa/CRISP-DM.8bad2b4c66e62aa7.webp) |
| [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) ਦੁਆਰਾ ਚਿੱਤਰ | [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) ਦੁਆਰਾ ਚਿੱਤਰ |
## [ਪੋਸਟ-ਲੈਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ
![ਸੰਚਾਰ](../../../translated_images/pa/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![ਸੰਚਾਰ](../../../translated_images/pa/communication.06d8e2a88d30d168.webp)
> ਫੋਟੋ <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> ਦੁਆਰਾ <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> 'ਤੇ
ਇਨ੍ਹਾਂ ਪਾਠਾਂ ਵਿੱਚ, ਤੁਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਦੇ ਕੁਝ ਪਹਲੂਆਂ ਦੀ ਜਾਂਚ ਕਰੋਗੇ, ਜਿਸ ਵਿੱਚ ਡਾਟਾ ਦੇ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਸੰਚਾਰ ਸ਼ਾਮਲ ਹਨ।

@ -1,12 +1,12 @@
# ਕਲਾਉਡ ਵਿੱਚ ਡਾਟਾ ਸਾਇੰਸ
![cloud-picture](../../../translated_images/pa/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/pa/cloud-picture.f5526de3c6c6387b.webp)
> ਫੋਟੋ [Jelleke Vanooteghem](https://unsplash.com/@ilumire) ਵੱਲੋਂ [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) ਤੋਂ
ਜਦੋਂ ਵੱਡੇ ਡਾਟਾ ਨਾਲ ਡਾਟਾ ਸਾਇੰਸ ਕਰਨ ਦੀ ਗੱਲ ਆਉਂਦੀ ਹੈ, ਤਾਂ ਕਲਾਉਡ ਇੱਕ ਬਹੁਤ ਵੱਡਾ ਬਦਲਾਅ ਲਿਆ ਸਕਦਾ ਹੈ। ਅਗਲੇ ਤਿੰਨ ਪਾਠਾਂ ਵਿੱਚ, ਅਸੀਂ ਦੇਖਾਂਗੇ ਕਿ ਕਲਾਉਡ ਕੀ ਹੈ ਅਤੇ ਇਹ ਕਿਵੇਂ ਬਹੁਤ ਮਦਦਗਾਰ ਹੋ ਸਕਦਾ ਹੈ। ਅਸੀਂ ਇੱਕ ਹਾਰਟ ਫੇਲਿਅਰ ਡਾਟਾਸੈਟ ਦੀ ਵੀ ਜਾਂਚ ਕਰਾਂਗੇ ਅਤੇ ਇੱਕ ਮਾਡਲ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ ਜੋ ਕਿਸੇ ਵਿਅਕਤੀ ਦੇ ਹਾਰਟ ਫੇਲਿਅਰ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਦਾ ਅੰਕਲਨ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰੇ। ਅਸੀਂ ਕਲਾਉਡ ਦੀ ਤਾਕਤ ਦਾ ਇਸਤੇਮਾਲ ਕਰਕੇ ਮਾਡਲ ਨੂੰ ਟ੍ਰੇਨ, ਡਿਪਲੌਇ ਅਤੇ ਦੋ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ ਨਾਲ ਕਨਜ਼ਿਊਮ ਕਰਾਂਗੇ। ਇੱਕ ਤਰੀਕਾ ਸਿਰਫ ਯੂਜ਼ਰ ਇੰਟਰਫੇਸ ਦੀ ਵਰਤੋਂ ਕਰਕੇ "ਲੋ ਕੋਡ/ਨੋ ਕੋਡ" ਢੰਗ ਵਿੱਚ, ਅਤੇ ਦੂਜਾ ਤਰੀਕਾ Azure Machine Learning Software Developer Kit (Azure ML SDK) ਦੀ ਵਰਤੋਂ ਕਰਕੇ।
![project-schema](../../../translated_images/pa/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/pa/project-schema.420e56d495624541.webp)
### ਵਿਸ਼ੇ

@ -32,7 +32,7 @@ AI ਦੇ ਲੋਕਤੰਤਰਿਕਰਨ ਦੇ ਕਾਰਨ, ਵਿਕਾਸ
* [ਸਿਹਤ ਸੇਵਾਵਾਂ ਵਿੱਚ ਡਾਟਾ ਸਾਇੰਸ](https://data-flair.training/blogs/data-science-in-healthcare/) - ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਹਾਈਲਾਈਟ ਕਰਦਾ ਹੈ ਜਿਵੇਂ ਕਿ ਮੈਡੀਕਲ ਇਮੇਜਿੰਗ (ਜਿਵੇਂ ਕਿ MRI, X-Ray, CT-Scan), ਜਿਨੋਮਿਕਸ (DNA ਸਿਕਵੈਂਸਿੰਗ), ਦਵਾਈ ਵਿਕਾਸ (ਖਤਰੇ ਦਾ ਮੁਲਾਂਕਣ, ਸਫਲਤਾ ਦੀ ਪੇਸ਼ਗੂਈ), ਪੇਸ਼ਗੂਈ ਵਿਸ਼ਲੇਸ਼ਣ (ਮਰੀਜ਼ ਦੀ ਦੇਖਭਾਲ ਅਤੇ ਸਪਲਾਈ ਲੌਜਿਸਟਿਕਸ), ਬਿਮਾਰੀ ਟ੍ਰੈਕਿੰਗ ਅਤੇ ਰੋਕਥਾਮ ਆਦਿ।
![ਹਕੀਕਤੀ ਦੁਨੀਆ ਵਿੱਚ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਐਪਲੀਕੇਸ਼ਨ](../../../../translated_images/pa/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) ਚਿੱਤਰ ਸ੍ਰੋਤ: [ਡਾਟਾ ਫਲੇਅਰ: ਡਾਟਾ ਸਾਇੰਸ ਦੇ 6 ਸ਼ਾਨਦਾਰ ਐਪਲੀਕੇਸ਼ਨ](https://data-flair.training/blogs/data-science-applications/)
![ਹਕੀਕਤੀ ਦੁਨੀਆ ਵਿੱਚ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਐਪਲੀਕੇਸ਼ਨ](../../../../translated_images/pa/data-science-applications.4e5019cd8790ebac.webp) ਚਿੱਤਰ ਸ੍ਰੋਤ: [ਡਾਟਾ ਫਲੇਅਰ: ਡਾਟਾ ਸਾਇੰਸ ਦੇ 6 ਸ਼ਾਨਦਾਰ ਐਪਲੀਕੇਸ਼ਨ](https://data-flair.training/blogs/data-science-applications/)
ਇਸ ਚਿੱਤਰ ਵਿੱਚ ਹੋਰ ਖੇਤਰ ਅਤੇ ਡਾਟਾ ਸਾਇੰਸ ਤਕਨੀਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਦੇ ਉਦਾਹਰਣ ਦਿਖਾਏ ਗਏ ਹਨ। ਹੋਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੀ ਪੜਚੋਲ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ? ਹੇਠਾਂ ਦਿੱਤੇ [ਸਮੀਖਿਆ ਅਤੇ ਸਵੈ ਅਧਿਐਨ](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) ਭਾਗ ਨੂੰ ਵੇਖੋ।

@ -13,7 +13,7 @@
2. ਡਾਟਾਸੈੱਟ [ਕੈਟਾਲੌਗ](https://planetarycomputer.microsoft.com/catalog) ਦੀ ਪੜਚੋਲ ਕਰੋ - ਹਰ ਇੱਕ ਦਾ ਉਦੇਸ਼ ਸਿੱਖੋ।
3. ਐਕਸਪਲੋਰਰ ਵਰਤੋ - ਇੱਕ ਰੁਚੀਕਰ ਡਾਟਾਸੈੱਟ ਚੁਣੋ, ਇੱਕ ਸੰਬੰਧਿਤ ਕਵੈਰੀ ਅਤੇ ਰੈਂਡਰਿੰਗ ਵਿਕਲਪ ਚੁਣੋ।
![ਗ੍ਰਹਿ ਕੰਪਿਊਟਰ ਐਕਸਪਲੋਰਰ](../../../../translated_images/pa/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![ਗ੍ਰਹਿ ਕੰਪਿਊਟਰ ਐਕਸਪਲੋਰਰ](../../../../translated_images/pa/planetary-computer-explorer.c1e95a9b053167d6.webp)
`ਤੁਹਾਡਾ ਕੰਮ:`
ਹੁਣ ਬ੍ਰਾਊਜ਼ਰ ਵਿੱਚ ਰੈਂਡਰ ਕੀਤੇ ਗਏ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਦਾ ਅਧਿਐਨ ਕਰੋ ਅਤੇ ਹੇਠਾਂ ਦਿੱਤੇ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦਿਓ:

@ -1,204 +1,217 @@
# ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਾਲਿਆਂ ਲਈ ਡਾਟਾ ਸਾਇੰਸ - ਇੱਕ ਪਾਠਕ੍ਰਮ
# ਡਾਟਾ ਸਾਇੰਸ ਨਵੇਂ ਸਿੱਖਣ ਵਾਲਿਆਂ ਲਈ - ਇਕ ਪਾਠਕ੍ਰਮ
[![GitHub Codespaces ਵਿੱਚ ਖੋਲ੍ਹੋ](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub ਲਾਇਸੈਂਸ](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub ਯੋਗਦਾਨਕਾਰ](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub ਮੁੱਦੇ](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub ਪੁੱਲ-ਰਿਕਵੈਸਟ](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![ਸਵਾਗਤ ਹੈ PRs](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub ਵੇਖਣ ਵਾਲੇ](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub ਫੋਰਕਸ](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub ਸਟਾਰਜ਼](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
ਮਾਇਕਰੋਸੌਫਟ ਵਿਚ ਐਜ਼ੂਰੀ ਕਲਾਉਡ ਐਡਵੋਕੇਟਸ ਖੁਸ਼ ਹਨ ਕਿ ਉਹ 10 ਹਫ਼ਤਿਆਂ, 20 ਪਾਠਾਂ ਵਾਲਾ ਪਾਠਕ੍ਰਮ ਪੇਸ਼ ਕਰਦੇ ਹਨ ਜੋ ਪੂਰੀ ਤਰ੍ਹਾਂ ਡਾਟਾ ਸਾਇੰਸ ਬਾਰੇ ਹੈ। ਹਰ ਪਾਠ ਵਿੱਚ ਪ੍ਰੀ-ਲੈਸਨ ਅਤੇ ਪੋਸਟ-ਲੈਸਨ ਕੁਇਜ਼, ਲੇਖਿਕ ਹੁਕਮ ਸਿਰਜਨ ਤੇ ਪੂਰਾ ਕਰਨ ਲਈ, ਇੱਕ ਹੱਲ, ਅਤੇ ਇਕ ਕੰਮ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ। ਸਾਡੀ ਪ੍ਰੋਜੈਕਟ-ਆਧਾਰਿਤ ਸਿੱਖਣ ਵਿਧੀ ਤੁਹਾਨੂੰ ਬਨਾਉਂਦੇ ਹੋਏ ਸਿੱਖਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ, ਜੋ ਨਵੀਆਂ ਕੌਸ਼ਲਾਂ ਲਈ ਇੱਕ ਸਾਬਿਤ ਤਰੀਕਾ ਹੈ ਕਿ ਉਹ 'ਟਿਕਣ'
ਮਾਈਕ੍ਰੋਸਾਫਟ ਦੇ ਅਜ਼ੂਰ ਕਲਾਉਡ ਅਡਵੋਕੇਟਸ ਖੁਸ਼ ਹਨ ਕਿ ਉਹ 10 ਹਫ਼ਤੇ, 20 ਪਾਠਾਂ ਦਾ ਪਾਠਕ੍ਰਮ ਡਾਟਾ ਸਾਇੰਸ ਬਾਰੇ ਪੇਸ਼ ਕਰ ਰਹੇ ਹਨ। ਹਰ ਪਾਠ ਵਿੱਚ ਪੂਰਵ-ਪਾਠ ਅਤੇ ਪੋਸਟ-ਪਾਠ ਕਵਿਜ਼, ਪਾਠ ਪੂਰਾ ਕਰਨ ਲਈ ਲਿਖਤ ਨਿਰਦੇਸ਼, ਹੱਲ ਅਤੇ ਇੱਕ ਅਸਾਈਨਮੈਂਟ ਸ਼ਾਮਲ ਹੈ। ਸਾਡੀ ਪ੍ਰੋਜੈਕਟ-ਆਧਾਰਿਤ ਪੈਡਾਗੌਗੀ ਤੁਹਾਨੂੰ ਬਣਾਉਂਦਿਆਂ ਸਿੱਖਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ, ਜੋ ਨਵੇਂ ਹੁਨਰਾਂ ਦੇ ਲਈ ਇੱਕ ਸਾਬਤ ਤਰੀਕਾ ਹੈ ਕਿ ਉਹ 'ਟਿਕੇ' ਰਹਿਣ
**ਸਾਡੇ ਲੇਖਕਾਂ ਦਾ ਤਹਿ ਦਿਲੋਂ ਧੰਨਵਾਦ:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**ਸਾਡੇ ਲੇਖਕਾਂ ਲਈ ਦਿਲੋਂ ਧੰਨਵਾਦ:** [ਜੈਸਮਿਨ ਗ੍ਰੀਨਵੇ](https://www.twitter.com/paladique), [ਦਿਮਿਤਰੀ ਸੋਸ਼ਨਿਕੋਵ](http://soshnikov.com), [ਨਿਤਿਆ ਨਰਸਿੰਘਨ](https://twitter.com/nitya), [ਜੇਲਨ ਮੈਕਗੀ](https://twitter.com/JalenMcG), [ਜੈਨ ਲੂਪਰ](https://twitter.com/jenlooper), [ਮੌਡ ਲੇਵੀ](https://twitter.com/maudstweets), [ਟਿਫ਼ਨੀ ਸੌਤਰਰੇ](https://twitter.com/TiffanySouterre), [ਕ੍ਰਿਸਟੋਫ਼ਰ ਹੈਰਿਸਨ](https://www.twitter.com/geektrainer).
**🙏 ਖ਼ਾਸ ਧੰਨਵਾਦ 🙏 ਸਾਡੇ [Microsoft ਵਿਦਿਆਰਥੀ ਰਾਜਦੂਤ](https://studentambassadors.microsoft.com/) ਲੇਖਕਾਂ, ਸਮੀਖਿਆਕਾਰਾਂ ਅਤੇ ਸਮੱਗਰੀ ਯੋਗਦਾਨਕਾਰਾਂ ਨੂੰ,** ਖਾਸ ਕਰਕੇ ਆਰੀਅਨ ਅਰੋੜਾ, [ਅਦਿਤਿਆ ਗਰਗ](https://github.com/AdityaGarg00), [ਅਲੋਂਡਰਾ ਸਾਂਚੇਜ਼](https://www.linkedin.com/in/alondra-sanchez-molina/), [ੰਕਿਤਾ ਸਿੰਘ](https://www.linkedin.com/in/ankitasingh007), [अनुपम मिश्रा](https://www.linkedin.com/in/anupam--mishra/), [ਅਰਪਿਤਾ ਦਾਸ](https://www.linkedin.com/in/arpitadas01/), ਛੈਲਬਿਹਾਰੀ ਦੁਬੇ, [ਦਿਬੜੀ ਨਸੋਫੋਰ](https://www.linkedin.com/in/dibrinsofor), [ਦਿਸ਼ਿਤਾ ਭਾਸਿਨ](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [ਮਜਦ ਸਾਫੀ](https://www.linkedin.com/in/majd-s/), [ਮੈਕਸ ਬਲਮ](https://www.linkedin.com/in/max-blum-6036a1186/), [ਮਿਗੁਏਲ ਕੋਰੇਆ](https://www.linkedin.com/in/miguelmque/), [ਮੋਹੰਮਦ ਇਫ਼ਤਖੇਰ (ਇਫਤੂ) ਇਬਨੇ ਜਲਾਲ](https://twitter.com/iftu119), [ਨਾਵਰੀਨ ਤਬਾਸ਼ੂਮ](https://www.linkedin.com/in/nawrin-tabassum), [ਰੇਮੰਡ ਵਾਂਗਸਾ ਪੁਤਰਾ](https://www.linkedin.com/in/raymond-wp/), [ਰੋਹਿਤ ਯਾਦਵ](https://www.linkedin.com/in/rty2423), ਸਮ੍ਰਿਧੀ ਸ਼ਰਮਾ, [ਸੰਯਾ ਸਿੰਹਾ](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[ਸ਼ੀਨਾ ਨਰੂਲਾ](https://www.linkedin.com/in/sheena-narua-n/), [ਤੌਕੀਰ ਅਹਮਦ](https://www.linkedin.com/in/tauqeerahmad5201/), ਯੋਗੇਂਦਰਸਿੰਘ ਪਾਵਰ , [ਵਿਦੂਸ਼ੀ ਗੁਪਤਾ](https://www.linkedin.com/in/vidushi-gupta07/), [ਜਸਲੀਨ ਸਧੀ](https://www.linkedin.com/in/jasleen-sondhi/)
**🙏 ਸਾਡੇ [ਮਾਈਕ੍ਰੋਸਾਫਟ ਸਟੂਡੈਂਟ ਐਮਬੈਸਡਰ](https://studentambassadors.microsoft.com/) ਲੇਖਕਾਂ, ਸਮੀਖਿਆਕਾਰਾਂ ਅਤੇ ਸਮੱਗਰੀ ਯੋਗਦਾਨਕਾਰਾਂ ਦਾ ਵਿਸ਼ੇਸ਼ ਧੰਨਵਾਦ,** ਖਾਸ ਕਰਕੇ ਆਰਯਨ ਅਰੋੜਾ, [ਆਦਿਤਿਆ ਗਰਗ](https://github.com/AdityaGarg00), [ਅਲੋਂਦਰਾ ਸਾਂਚੇਜ਼](https://www.linkedin.com/in/alondra-sanchez-molina/), [ంకਿਤਾ ਸਿੰਘ](https://www.linkedin.com/in/ankitasingh007), [ਅਨੁਪਮ ਮਿਸ਼ਰਾ](https://www.linkedin.com/in/anupam--mishra/), [ਅਰਪੀਤਾ ਦਾਸ](https://www.linkedin.com/in/arpitadas01/), ਛੈਲਬਿਹਾਰੀ ਦੁਬੇ, [ਦਿਬਰੀ ਨਸੋਫੋਰ](https://www.linkedin.com/in/dibrinsofor), [ਦਿਸ਼ਿਤਾ ਭਾਸਿਨ](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [ਮਜਦ ਸਾਫੀ](https://www.linkedin.com/in/majd-s/), [ਮੈਕਸ ਬਲਮ](https://www.linkedin.com/in/max-blum-6036a1186/), [ਮਿਗੁਐਲ ਕੋਰੇਆ](https://www.linkedin.com/in/miguelmque/), [ਮੋਹੰਮਾ ਇਫ਼ਤਖ਼ਰ (ਇਫ਼ਤੂ) ਏਬਨੇ ਜਲਾਲ](https://twitter.com/iftu119), [ਨਵਰੀਨ ਤਬਾਸ਼ਸਮ](https://www.linkedin.com/in/nawrin-tabassum), [ਰੇਮੰਡ ਵਾਂਗਸਾ ਪੁਤਰਾ](https://www.linkedin.com/in/raymond-wp/), [ਰੋਹਿਤ ਯਾਦਵ](https://www.linkedin.com/in/rty2423), ਸਮ੍ਰਿਧੀ ਸ਼ਰਮਾ, [ਸੰਯਾ ਸਿੰਹਾ](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[ਸ਼ੀਨਾ ਨਰੂਲਾ](https://www.linkedin.com/in/sheena-narua-n/), [ਤੌਕੀਰ ਅਹਿਮਦ](https://www.linkedin.com/in/tauqeerahmad5201/), ਯੋਗੇੰਦਰ ਸਿੰਘ ਪਾਵਰ , [ਵਿਦੂਸ਼ੀ ਗੁਪਤਾ](https://www.linkedin.com/in/vidushi-gupta07/), [ਜਸਲੀਨ ਸੋਂਧੀ](https://www.linkedin.com/in/jasleen-sondhi/)
|![ਸਕੈਚਨੋਟ @sketchthedocs ਵੱਲੋਂ https://sketchthedocs.dev](../../translated_images/pa/00-Title.8af36cd35da1ac55.webp)|
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/pa/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਾਲਿਆਂ ਲਈ ਡਾਟਾ ਸਾਇੰਸ - _ਸਕੈਚਨੋਟ [@nitya](https://twitter.com/nitya) ਵੱਲੋਂ_ |
| ਡਾਟਾ ਸਾਇੰਸ ਨਵੇਂ ਸਿੱਖਣ ਵਾਲਿਆਂ ਲਈ - _ਸਕੇਚਨੋਟ [@nitya](https://twitter.com/nitya) ਵੱਲੋਂ_ |
### 🌐 ਬਹੁਭਾਸ਼ੀ ਸਹਾਇਤਾ
### 🌐 ਬਹੁ-ਭਾਸ਼ਾ ਸਹਾਇਤਾ
#### GitHub ਕਾਰਵਾਈ ਰਾਹੀਂ ਸਪੋਰਟ (ਆਟੋਮੈਟਿਕ ਅਤੇ ਹਮੇਸ਼ਾਂ ਅਪ-ਟੂ-ਡੇਟ)
#### ਗਿਟਹੱਬ ਐਕਸ਼ਨ ਰਾਹੀਂ ਸਹਾਇਤਾ (ਆਪਮੈਟਿਕ ਅਤੇ ਹਮੇਸ਼ਾਂ ਅਪ-ਟੂ-ਡੇਟ)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](./README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **ਕਲੋਨ ਕਰਨਾ ਪਸੰਦ ਕਰਦੇ ਹੋ?**
> ਇਹ ਰਿਪੋਜਿਟਰੀ 50+ ਭਾਸ਼ਾ ਅਨੁਵਾਦ ਸ਼ਾਮਲ ਕਰਦੀ ਹੈ ਜੋ ਡਾਊਨਲੋਡ ਸਾਈਜ਼ ਨੂੰ ਕਾਫ਼ੀ ਵੱਧਾ ਦਿੰਦੀ ਹੈ। ਬਿਨਾਂ ਅਨੁਵਾਦਾਂ ਦੇ ਕਲੋਨ ਕਰਨ ਲਈ sparse checkout ਵਰਤੋ:
> **ਲੋਕਲ ਕਲੋਨ ਕਰਨਾ ਪਸੰਦ ਕਰੋ?**
>
> ਇਸ ਰਿਪੋ ਵਿੱਚ 50+ ਭਾਸ਼ਾਵਾਂ ਦੇ ਅਨੁਵਾਦ ਸ਼ਾਮਲ ਹਨ ਜੋ ਡਾਊਨਲੋਡ ਸਾਈਜ਼ ਨੂੰ ਕਾਫੀ ਵਧਾ ਦੇਂਦੇ ਹਨ। ਬਿਨਾਂ ਅਨੁਵਾਦਾਂ ਦੇ ਕਲੋਨ ਕਰਨ ਲਈ, ਸਪਾਰਸ ਚੈੱਕਆਉਟ ਵਰਤੋਂ:
>
> **ਬੈਸ਼ / ਮੈਕਓਐਸ / ਲਿਨਕਸ:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> ਇਸ ਨਾਲ ਤੁਹਾਨੂੰ ਕੋਰਸ ਪੂਰਾ ਕਰਨ ਲਈ ਸਾਰੀ ਜਰੂਰੀ ਚੀਜ਼ ਮਿਲਦੀ ਹੈ ਤੇ ਡਾਊਨਲੋਡ ਜ਼ਿਆਦਾ ਤੇਜ਼ ਹੁੰਦਾ ਹੈ।
>
> **CMD (ਵਿੰਡੋਜ਼):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> ਇਹ ਤੁਹਾਨੂੰ ਕੋਰਸ ਪੂਰਾ ਕਰਨ ਲਈ ਲੋੜੀਂਦਾ ਸਭ ਕੁਝ ਬਹੁਤ ਤੇਜ਼ ਡਾਊਨਲੋਡ ਨਾਲ ਦਿੰਦਾ ਹੈ।
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**ਜੇ ਤੁਸੀਂ ਹੋਰ ਅਨੁਵਾਦ ਭਾਸ਼ਾਵਾਂ ਦੀ ਸਹਾਇਤਾ ਚਾਹੁੰਦੇ ਹੋ, ਉਹ [ਇੱਥੇ](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) ਦਿੱਤੀ ਗਈ ਹੈ**
**ਜੇ ਤੁਹਾਨੂੰ ਵਾਧੂ ਅਨੁਵਾਦ ਭਾਸ਼ਾਵਾਂ ਚਾਹੀਦੀਆਂ ਹਨ ਤਾਂ ਉਹ [ਇੱਥੇ](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) ਦਿੱਤੇ ਗਏ ਹਨ**
#### ਸਾਡੀ ਕਮਿਊਨਿਟੀ ਨਾਲ ਜੁੜੋ
#### ਸਾਡੀ ਕਮਿਊਨਿਟੀ ਵਿੱਚ ਸ਼ਾਮਿਲ ਹੋਵੋ
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
ਸਾਡੇ ਕੋਲ ਇੱਕ ਡਿਸਕੋਰਡ ਲਰਨ ਵਿਥ ਏ.આਈ ਸੀਰੀਜ਼ ਜਾਰੀ ਹੈ, ਵਧੇਰੇ ਜਾਣਕਾਰੀ ਲਈ ਸਾਡੇ ਨਾਲ ਸ਼ਾਮਿਲ ਹੋਵੋ [Learn with AI Series](https://aka.ms/learnwithai/discord) 18 - 30 ਸਤੰਬਰ, 2025 ਨੂੰ। ਤੁਹਾਨੂੰ GitHub Copilot ਦੀ ਵਰਤੋਂ ਲਈ ਡਾਟਾ ਸਾਇੰਸ 'ਚ ਟਿਪਸ ਅਤੇ ਟਰਿਕਸ ਮਿਲਣਗੇ।
ਸਾਡੇ ਕੋਲ ਇੱਕ Discord ਵਿੱਚ AI ਸਿੱਖਣ ਦਾ ਸੀਰੀਜ਼ ਚੱਲ ਰਿਹਾ ਹੈ, ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ ਅਤੇ ਸਾਡੇ ਨਾਲ ਜੁੜਨ ਲਈ [Learn with AI Series](https://aka.ms/learnwithai/discord) 'ਤੇ ਜਾਓ 18 - 30 ਸਤੰਬਰ, 2025 ਤੱਕ। ਤੁਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਲਈ GitHub Copilot ਦੇ ਵਰਤੋਂ ਦਿਓਣ ਵਾਲੀਆਂ ਚਾਲਾਂ ਤੇ ਟਿੱਪਸ ਲਵੋਗੇ।
![Learn with AI series](../../translated_images/pa/1.2b28cdc6205e26fe.webp)
# ਕੀ ਤੁਸੀਂ ਵਿਦਿਆਰਥੀ ਹੋ?
ਹੇਠਾਂ ਦਿੱਤੀਆਂ ਸਾਧਨਾਂ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ:
ਹੇਠ ਲਿਖੇ ਸਰੋਤਾਂ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ:
- [Student Hub page](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) ਇਸ ਪੇਜ਼ ਤੇ ਤੁਹਾਨੂੰ ਸ਼ੁਰੂਆਤੀ ਸਾਧਨ, ਵਿਦਿਆਰਥੀ ਪੈੱਕ ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਮੁਫ਼ਤ ਪ੍ਰਮਾਣ ਪੱਤਰ ਵਾਊਚਰ ਦੇਣ ਦੇ ਤਰੀਕੇ ਮਿਲਣਗੇ। ਇਹ ਇੱਕ ਅਜਿਹਾ ਪੇਜ਼ ਹੈ ਜਿਸਨੂੰ ਤੁਸੀਂ ਬੁੱਕਮਾਰਕ ਕਰਕੇ ਸਮੇਂ-ਸਮੇਂ ਤੇ ਵੇਖਦੇ ਰਹੋ ਕਿਉਂਕਿ ਅਸੀਂ ਸਮੱਗਰੀ ਘੱਟੋ-ਘੱਟ ਮਹੀਨੇ 'ਚ ਬਦਲਦੇ ਹਾਂ।
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) ਵਿਸ਼ਵ ਪੱਧਰੀ ਵਿਦਿਆਰਥੀ ਰਾਜਦੂਤਾਂ ਦੀ ਕਮਿਊਨਿਟੀ ਨਾਲ ਜੁੜੋ, ਇਹ ਤੁਸੀਂ ਮਾਇਕਰੋਸੌਫਟ ਵਿਚ ਸ਼ਾਮਿਲ ਹੋਣ ਦਾ ਰਾਹ ਹੋ ਸਕਦਾ ਹੈ।
- [Student Hub ਪੇਜ਼](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) ਇਸ ਪੇਜ਼ 'ਤੇ ਤੁਹਾਨੂੰ ਸ਼ੁਰੂਆਤੀ ਸਰੋਤ, ਵਿਦਿਆਰਥੀ ਪੈਕ ਅਤੇ ਇੱਥੇ ਤਕ ਦਿੱਤੇ ਗਏ ਫ੍ਰੀ ਸਰਟੀਫਿਕੇਟ ਵਾਊਚਰ ਦੇ ਤਰੀਕੇ ਮਿਲਣਗੇ। ਇਹ ਇੱਕ ਐਸਾ ਪੇਜ਼ ਹੈ ਜੋ ਤੁਸੀਂ ਬੁੱਕਮਾਰਕ ਕਰਨਾ ਚਾਹੋਗੇ ਅਤੇ ਸਮੇਂ-ਸਮੇਂ 'ਤੇ ਜਾਂਚ ਕਰਦੇ ਰਹੋ ਕਿਉਂਕਿ ਅਸੀਂ ਮਹੀਨੇ ਵਿੱਚ ਘੱਟੋ ਘੱਟ ਇੱਕ ਵਾਰੀ ਸਮੱਗਰੀ ਬਦਲਦੇ ਹਾਂ।
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) ਇੱਕ ਗਲੋਬਲ ਵਿਦਿਆਰਥੀ ਐਮਬੈਸਡਰ ਕਮਿਊਨਿਟੀ ਵਿੱਚ ਜੁੜੋ, ਇਹ ਮਾਈਕ੍ਰੋਸਾਫਟ ਵਿਚ ਤੁਹਾਡਾ ਦਰਵਾਜ਼ਾ ਹੋ ਸਕਦਾ ਹੈ।
# ਸ਼ੁਰੂਆਤ ਕਰਨਾ
## 📚 ਦਸਤਾਵੇਜ਼ੀकरण
## 📚 ਦਸਤਾਵੇਜ਼ات
- **[ਇੰਸਟਾਲੇਸ਼ਨ ਗਾਈਡ](INSTALLATION.md)** - ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਾਲਿਆਂ ਲਈ ਕਦਮ-ਦਰ-ਕਦਮ ਸੈੱਟਅੱਪ ਨਿਰਦੇਸ਼
- **[ਵਰਤੋਂ ਸਹਾਇਤਾ](USAGE.md)** - ਉਦਾਹਰਨਾਂ ਅਤੇ ਆਮ ਕੰਮ ਦੇ ਤਰੀਕੇ
- **[ਸਮੱਸਿਆ ਪੁੜਤਾਲ](TROUBLESHOOTING.md)** - ਆਮ ਸਮੱਸਿਆਵਾਂ ਦੇ ਹੱਲ
- **[ਯੋਗਦਾਨ ਦੇਣ ਲਈ ਗਾਈਡ](CONTRIBUTING.md)** - ਇਸ ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਕਿਵੇਂ ਯੋਗਦਾਨ ਕਰਨਾ ਹੈ
- **[ਅਧਿਆਪਕਾਂ ਲਈ](for-teachers.md)** - ਸਿਖਲਾਈ ਲਈ ਸਲਾਹਾਂ ਅਤੇ ਕਲਾਸਰੂਮ ਦੇ ਸਾਧਨ
- **[ਇੰਸਟਾਲੇਸ਼ਨ ਗਾਈਡ](INSTALLATION.md)** - ਨਵੇਂ ਸਿੱਖਣ ਵਾਲਿਆਂ ਲਈ ਕਦਮ-ਦਰ-ਕਦਮ ਸੈਟਅੱਪ ਹੁਕਮ
- **[ਇਸਤਮਾਲ ਗਾਈਡ](USAGE.md)** - ਉਦਾਹਰਣਾਂ ਅਤੇ ਆਮ ਕਾਰਜ ਪ੍ਰਵਾਹ
- **[ਸਮੱਸਿਆ ਸੁਧਾਰ](TROUBLESHOOTING.md)** - ਆਮ ਸਮੱਸਿਆਵਾਂ ਦੇ ਹੱਲ
- **[ਯੋਗਦਾਨ ਗਾਈਡ](CONTRIBUTING.md)** - ਇਸ ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਕਿਵੇਂ ਯੋਗਦਾਨ ਦੇਣਾ ਹੈ
- **[ਅਧਿਆਪਕਾਂ ਲਈ](for-teachers.md)** - ਸਿੱਖਿਆ ਨਿਰਦੇਸ਼ ਅਤੇ ਕਲਾਸਰੂਮ ਸਰੋਤ
## 👨‍🎓 ਵਿਦਿਆਰਥੀਆਂ ਲਈ
> **ਪੂਰੇ ਨਵੇਂ ਸ਼ੁਰੂਆਤੀ ਲੋਕਾਂ ਲਈ**: ਡਾਟਾ ਸਾਇੰਸ ਵਿੱਚ ਨਵਾਂ? ਸਾਡੇ [ਆਸਾਨ ਤੇ ਸਿੱਧੇ ਉਦਾਹਰਨਾਂ](examples/README.md) ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ! ਇਹ ਸਧਾਰਣ, ਵਧੀਆ ਟਿੱਪਣੀਆਂ ਵਾਲੇ ਉਦਾਹਰਨ ਤੁਹਾਡੇ ਲਈ ਬੁਨਿਆਦੀ ਗਲਾਂ ਸਮਝਣ ਵਿੱਚ ਸਹਾਇਕ ਹੋਣਗੇ, ਇਸ ਤੋਂ ਬਾਅਦ ਤੁਸੀਂ ਪੂਰਾ ਪਾਠਕ੍ਰਮ ਕਰ ਸਕਦੇ ਹੋ
> **[ਵਿਦਿਆਰਥੀ](https://aka.ms/student-page)**: ਇਸ ਪਾਠਕ੍ਰਮ ਨੂੰ ਆਪਣੇ ਆਪ ਵਰਤਣ ਲਈ, ਪੂਰੇ ਰਿਪੋ ਨੂੰ ਫੋਰਕ ਕਰੋ ਤੇ ਕਸਰਤਾਂ ਖ਼ੁਦ ਪੂਰੀਆਂ ਕਰੋ, ਪ੍ਰੀ-ਲੈਕਚਰ ਕਿਊਜ਼ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ। ਫਿਰ ਲੈਕਚਰ ਪੜ੍ਹੋ ਅਤੇ ਬਾਕੀ ਕਿਰਿਆਵਾਂ ਨੂੰ ਪੂਰਾ ਕਰੋ। ਕੁਝ ਹੱਲ ਨੂੰ ਸਿੱਧਾ ਨਕਲ ਕਰਨ ਦੀ ਬਜਾਏ, ਪਾਠਾਂ ਨੂੰ ਸਮਝ ਕੇ ਪ੍ਰੋਜੈਕਟ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੋ; ਹਾਲਾਂਕਿ, ਹਰ ਪ੍ਰੋਜੈਕਟ-ਕੇਂਦ੍ਰਿਤ ਪਾਠ ਵਿੱਚ /solutions ਫੋਲਡਰ ਵਿੱਚ ਉਹ ਕੋਡ ਉਪਲਬਧ ਹੈ। ਇੱਕ ਹੋਰ ਵਿਚਾਰ ਇਹ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਦੋਸਤਾਂ ਦੇ ਨਾਲ ਸਟਡੀ ਗਰੁੱਪ ਬਣਾਓ ਅਤੇ ਕਨਟੈਂਟ ਨੂੰ ਇੱਕੱਠੇ ਸਮਝੋ। ਹੋਰ ਅਧਿਐਨ ਲਈ, ਅਸੀਂ [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) ਦੀ ਸਿਫਾਰਸ਼ ਕਰਦੇ ਹਾਂ।
> **ਪੂਰੇ ਨਵੇਂ:** ਡਾਟਾ ਸਾਇੰਸ ਵਿੱਚ ਨਵੇਂ ਹੋ? ਸਾਡੇ [ਆਸਾਨ ਉਦਾਹਰਣਾਂ](examples/README.md) ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ! ਇਹ ਸਧਾਰਣ, ਚੰਗੀ ਤਰ੍ਹਾਂ ਵਿਆਖਿਆ ਕੀਤੀਆਂ ਉਦਾਹਰਣਾਂ ਤੁਹਾਨੂੰ ਮੁੱਢਲੀ ਗੱਲਾਂ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਨਗੀਆਂ ਪੂਰੇ ਪਾਠਕ੍ਰਮ ਵਿੱਚ ਜਮ੍ਹਾ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ
> **[ਵਿਦਿਆਰਥੀ](https://aka.ms/student-page)**: ਇਸ ਪਾਠਕ੍ਰਮ ਨੂੰ ਆਪਣੇ ਆਪ ਵਰਤਣ ਲਈ, ਪੂਰੇ ਰੀਪੋ ਨੂੰ ਫੋਰਕ ਕਰੋ ਅਤੇ ਕਸਰਤਾਂ ਆਪਣੇ ਤੌਰ 'ਤੇ ਪੂਰੀਆਂ ਕਰੋ, ਪੂਰਵ-ਲੈਕਚਰ ਕਵਿਜ਼ ਨਾਲ ਸ਼ੁਰੂ ਕਰਦੇ ਹੋਏ। ਫਿਰ ਲੈਕਚਰ ਪੜ੍ਹੋ ਅਤੇ ਬਾਕੀ ਦੀਆਂ ਗਤੀਵਿਧੀਆਂ ਪੂਰੀਆਂ ਕਰੋ। ਹੱਲ ਕੋਡ ਦੀ ਨਕਲ ਕਰਨ ਦੀ ਥਾਂ ਪਾਠਾਂ ਨੂੰ ਸਮਝ ਕੇ ਪ੍ਰੋਜੈਕਟ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੋ; ਹਾਲਾਂਕਿ, ਹੱਲ ਕੋਡ ਹਰ ਪ੍ਰੋਜੈਕਟ-ਮੀਲੀ ਪਾਠ ਵਿੱਚ /solutions ਫੋਲਡਰ ਵਿੱਚ ਉਪਲਬਧ ਹੈ। ਦੂਜਾ ਵਿਚਾਰ ਇੱਕ ਅਧਿਐਨ ਗਰੁੱਪ ਬਣਾਉਣਾ ਅਤੇ ਦੋਸਤਾਂ ਨਾਲ ਸਮੱਗਰੀ ਦੇਖਨੀ ਹੋ ਸਕਦੀ ਹੈ। ਹੋਰ ਅਧਿਐਨ ਲਈ, ਅਸੀਂ [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) ਦੀ ਸਿਫਾਰਸ਼ ਕਰਦੇ ਹਾਂ।
**ਸ਼ੁਰੂਆਤ:**
1. ਆਪਣਾ ਵਾਤਾਵਰਨ ਸੈੱਟ ਕਰਨ ਲਈ [ਇੰਸਟਾਲੇਸ਼ਨ ਗਾਈਡ](INSTALLATION.md) ਵੇਖੋ
2. ਪਾਠਕ੍ਰਮ ਨਾਲ ਕੰਮ ਕਰਨ ਲਈ [ਵਰਤੋਂ ਸਹਾਇਤਾ](USAGE.md) ਦੀ ਸਮੀਖਿਆ ਕਰੋ
3. ਪਾਠ 1 ਨਾਲ ਸ਼ੁਰੂ ਹੋ ਕੇ ਲੜੀਵਾਰ ਅੱਗੇ ਵਧ
4. ਸਹਾਇਤਾ ਲਈ ਸਾਡ [ਡਿਸਕੋਰਡ ਕਮਿਊਨਿਟੀ](https://aka.ms/ds4beginners/discord) ਵਿੱਚ ਸ਼ਾਮਿਲ ਹੋਵੋ
**ਚੁਸਤ ਸ਼ੁਰੂਆਤ:**
1. ਆਪਣੇ ਮਾਹੌਲ ਦੀ ਸੈਟਅੱਪ ਲਈ [ਇੰਸਟਾਲੇਸ਼ਨ ਗਾਈਡ](INSTALLATION.md) ਦੇਖੋ
2. ਪਾਠਕ੍ਰਮ ਨਾਲ ਕੰਮ ਕਰਨ ਲਈ [ਇਸਤਮਾਲ ਗਾਈਡ](USAGE.md) ਦੀ ਸਮੀਖਿਆ ਕਰੋ
3. ਪਾਠ 1 ਤੋਂ ਸ਼ੁਰੂ ਕਰੋ ਅਤੇ ਇੱਕ-ਕੇ-ਬਾਅਦ-ਦੂਜੇ ਕਰਕੇ ਕੰਮ ਕਰ
4. ਸਹਾਇਤਾ ਲਈ ਸਾਡ [ਡਿਸਕੋਰਡ ਕਮਿਊਨਿਟੀ](https://aka.ms/ds4beginners/discord) ਵਿੱਚ ਸ਼ਾਮਿਲ ਹੋਵੋ
## 👩‍🏫 ਅਧਿਆਪਕਾਂ ਲਈ
> **ਟੀਚਰਜ਼**: ਅਸੀਂ ਇਸ ਕਰਿਕੁਲਮ ਨੂੰ ਵਰਤਣ ਬਾਰੇ ਕੁਝ ਸੁਝਾਵਾਂ [ਸ਼ਾਮਲ ਕੀਤੀਆਂ ਹਨ](for-teachers.md)। ਅਸੀਂ ਤੁਹਾਡੇ ਫੀਡਬੈਕ ਨੂੰ ਸਾਡੇ ਚਰਚਾ ਫੋਰਮ ਵਿੱਚ ਲੈਕੇ ਆਉਣ ਨੂੰ ਪਸੰਦ ਕਰਾਂਗੇ! [ਸਾਡੇ ਚਰਚਾ ਫੋਰਮ](https://github.com/microsoft/Data-Science-For-Beginners/discussions) 'ਚ ਆਪਣਾ ਫੀਡਬੈਕ ਦਿਉ!
> **ਅਧਿਆਪਕ ਜੀ**: ਸਾਨੂੰ [ਕੁਝ ਸਿਫਾਰਸ਼ਾਂ](for-teachers.md) ਦਿੱਤੀਆਂ ਹਨ ਕਿ ਤੁਸੀਂ ਇਸ ਪਾਠਕ੍ਰਮ ਨੂੰ ਕਿਵੇਂ ਵਰਤ ਸਕਦੇ ਹੋ। ਸਾਡੀ ਗੱਲ-ਬਾਤ ਫੋਰਮ ਵਿੱਚ ਆਪਣਾ ਫੀਡਬੈਕ ਦੇਣਾ ਸਾਡੇ ਲਈ ਖੁਸ਼ੀ ਦੀ ਗੱਲ ਹੋਵੇਗੀ [ਇੱਥੇ](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## ਟੀਮ ਨਾਲ ਮਿਲੋ
[![ਪ੍ਰੋਮੋ ਵੀਡੀਓ](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "ਪ੍ਰੋਮੋ ਵੀਡੀਓ")
**ਗਿਫ** [ਮੋਹਿਤ ਜੈਸਲ](https://www.linkedin.com/in/mohitjaisal) ਵਲੋਂ
**ਗਿਫ** [ਮੋਹਿਤ ਜੈਸਲ](https://www.linkedin.com/in/mohitjaisal) ਵਲੋਂ
> 🎥 ਪ੍ਰੋਜੈਕਟ ਅਤੇ ਇਸ ਨੂੰ ਬਣਾਉਣ ਵਾਲਿਆਂ ਬਾਰੇ ਵੀਡੀਓ ਦੇਖਣ ਲਈ ਉਪਰ ਦਿੱਤੀ ਗਈ ਤਸਵੀਰ 'ਤੇ ਕਲਿਕ ਕਰੋ!
> 🎥 ਪ੍ਰੋਜੈਕਟ ਅਤੇ ਇਸਨੂੰ ਬਣਾਉਣ ਵਾਲੇ ਲੋਕਾਂ ਦੇ ਬਾਰੇ ਵੀਡੀਓ ਦੇਖਣ ਲਈ ਉਪਰ ਦਿੱਤੀ ਤਸਵੀਰ 'ਤੇ ਕਲਿਕ ਕਰੋ!
## ਪੈਦਾ ਗੋਗ
## ਪੈਡਾਗੌਜ
ਅਸੀਂ ਇਸ ਕਰੀਕੁਲਮ ਨੂੰ ਬਣਾਉਂਦੇ ਸਮੇਂ ਦੋ ਪੈਦਾ ਗੋਗੀ ਸੁਤੰਤਰਾਂ ਨੂੰ ਚੁਣਿਆ ਹੈ: ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰਨਾ ਕਿ ਇਹ ਪ੍ਰੋਜੈਕਟ ਅਧਾਰਿਤ ਹੋਵੇ ਅਤੇ ਇਸ ਵਿੱਚ ਅਕਸਰ ਕੀਜ਼ ਸ਼ਾਮਲ ਹੋਣ। ਇਸ ਸੀਰੀਜ਼ ਦੇ ਅੰਤ ਤੱਕ, ਵਿਦਿਆਰਥੀਆਂ ਨੇ ਡੇਟਾ ਸਾਇੰਸ ਦੇ ਬੁਨਿਆਦੀ ਸਿਧਾਂਤ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਨੈਤਿਕ ਸੰਕਲਪ, ਡੇਟਾ ਤਿਆਰੀ, ਡੇਟਾ ਨਾਲ ਕੰਮ ਕਰਨ ਦੇ ਵੱਖ-ਵੱਖ ਤਰੀਕੇ, ਡੇਟਾ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ, ਡੇਟਾ ਵਿਸ਼ਲੇਸ਼ਣ, ਡੇਟਾ ਸਾਇੰਸ ਦੇ ਅਸਲੀ ਜ਼ਿੰਦਗੀ ਦੀਆਂ ਪ੍ਰਯੋਗਾਂ ਸਮੇਤ ਹੋਰ ਕਈ ਗੱਲਾਂ ਸਿੱਖ ਲਈਆਂ ਹੋਣਗੀਆਂ
ਅਸੀਂ ਇਸ ਕਰਿਕੁਲਮ ਨੂ ਬਣਾਉਂਦੇ ਹੋਏ ਦੋ ਪੈਡਾਗੌਜਿਕਲ ਸਿਧਾਂਤਾਂ ਨੂੰ ਚੁਣਿਆ ਹੈ: ਇਹ ਪ੍ਰੋਜੈਕਟ-ਆਧਾਰਿਤ ਹੋਵੇ ਅਤੇ ਇਸ ਵਿੱਚ ਬਾਰ-ਬਾਰ ਕੁਇਜ਼ ਸ਼ਾਮਲ ਹੋਣ। ਇਸ ਸੀਰੀਜ਼ ਦੇ ਅੰਤ ਤੱਕ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਬੁਨਿਆਦੀ ਨਿਯਮਾਂ ਬਾਰੇ ਪਤਾ ਲੱਗ ਜਾਵੇਗਾ, ਜਿਵੇਂ ਕਿ ਨੈਤਿਕ ਸਿਧਾਂਤ, ਡਾਟਾ ਤਿਆਰੀ, ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨ ਦੇ ਵੱਖ-ਵੱਖ ਤਰੀਕੇ, ਡਾਟਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ, ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ, ਡਾਟਾ ਸਾਇੰਸ ਦੀਆਂ ਅਸਲੀ ਜ਼ਿੰਦਗੀ ਦੀਆਂ ਵਰਤੋਂਵਾਲੀਆਂ ਮਿਸਾਲਾਂ ਅਤੇ ਹੋਰ
ਇਸਦੇ ਨਾਲ ਨਾਲ, ਕਲਾਸ ਤੋਂ ਪਹਿਲਾਂ ਇਕਲੋ ਥੋੜ੍ਹਾ-ਜਿਹਾ ਕਵਿਜ ਵਿਦਿਆਰਥੀ ਦਾ ਲਕਸ਼ ਸੈਟ ਕਰਦਾ ਹੈ ਕਿ ਉਹ ਵਿਸ਼ੇ ਨੂੰ ਸਿੱਖਣ ਲਈ ਇচ্ছੁਕ ਹੈ, ਅਤੇ ਦੂਜਾ ਕਵਿਜ ਕਲਾਸ ਤੋਂ ਬਾਅਦ ਹੇਠਾਂ ਰੱਖਣ ਦੀ ਪੁਸ਼ਟੀ ਕਰਦਾ ਹੈ। ਇਹ ਕਰੀਕੁਲਮ ਲਚਕੀਲਾ ਅਤੇ ਮਨੋਹਰ ਬਣਾਇਆ ਗਿਆ ਹੈ ਅਤੇ ਇਸਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਜਾਂ ਹਿੱਸੇ ਵਜੋਂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਪ੍ਰੋਜੈਕਟ ਛੋਟੇ ਸ਼ੁਰੂ ਹੁੰਦੇ ਹਨ ਅਤੇ 10 ਹਫ਼ਤਿਆਂ ਦੇ ਚੱਕਰ ਦੇ ਅੰਤ ਤੱਕ ਵਧਦੇ ਹੋਏ ਜਟਿਲ ਹੁੰਦੇ ਹਨ।
ਇਸਦੇ ਨਾਲ-ਨਾਲ, ਇੱਕ ਕਮ-ਦਬਾਅ ਵਾਲਾ ਕੁਇਜ਼ ਕਲਾਸ ਜੁੜਨ ਤੋਂ ਪਹਿਲਾਂ ਵਿਦਿਆਰਥੀ ਦੇ ਸਿੱਖਣ ਦੇ ਇਰਾਦੇ ਨੂੰ ਸੈੱਟ ਕਰਦਾ ਹੈ, ਤੇ ਕਲਾਸ ਮਗਰੋਂ ਦੂਜਾ ਕੁਇਜ਼ ਹੋ ਰਿਹਾ ਗਿਆ ਸਮੱਗਰੀ ਨੂੰ ਹੋਰ ਜਾਣਨ ਵਿਚ ਮਦਦ ਕਰਦਾ ਹੈ। ਇਹ ਕਰਿਕੁਲਮ ਲਚਕੀਲਾ ਅਤੇ ਮਨੋਰੰਜਕ ਬਣਾਇਆ ਗਿਆ ਹੈ ਅਤੇ ਸਮੂਹ ਜਾਂ ਹਿੱਸੇ ਵਿੱਚ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਪ੍ਰੋਜੈਕਟ ਛੋਟੇ ਸ਼ੁਰੂ ਹੁੰਦੇ ਹਨ ਅਤੇ 10 ਹਫ਼ਤਿਆਂ ਦੇ ਸਮੇਂ ਵਿੱਚ ਵੱਧ ਜਾਂਦੇ ਹਨ।
> ਸਾਡਾ [Code of Conduct](CODE_OF_CONDUCT.md), [Contributing](CONTRIBUTING.md), [Translation](TRANSLATIONS.md) ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ ਲੱਭੋ। ਅਸੀਂ ਤੁਹਾਡੀ ਗਠਨਾਤਮਕ ਪ੍ਰਤਿਕ੍ਰਿਆ ਦਾ ਸਵਾਗਤ ਕਰਦੇ ਹਾਂ!
> ਸਾਡਾ [ਕੋਡ ਆਫ ਕੰਡਕਟ](CODE_OF_CONDUCT.md), [ਯੋਗਦਾਨ](CONTRIBUTING.md), [ਅਨੁਵਾਦ](TRANSLATIONS.md) ਨਿਯਮਾਂ ਨੂੰ ਵੇਖੋ। ਅਸੀਂ ਤੁਹਾਡੇ ਵਧੀਆ ਫੀਡਬੈਕ ਦਾ ਸਵਾਗਤ ਕਰਦੇ ਹਾਂ!
## ਹਰ ਪਾਠ ਵਿੱਚ ਸ਼ਾਮਲ ਹ:
## ਹਰ ਪਾਠ ਵਿੱਚ ਸ਼ਾਮਲ ਹ:
- ਵਿਕਲਪੀ ਸਕੈਚਨੋਟ
- ਵਿਕਲਪੀ ਸਹਾਇਕ ਵੀਡੀਓ
- ਪਾਠ ਤੋਂ ਪਹਿਲਾ ਤਿਆਰੀ ਕਵਿਜ
- ਲਿਖਤੀ ਪਾਠ
- ਪ੍ਰੋਜੈਕਟ ਅਧਾਰਿਤ ਪਾਠਾਂ ਲਈ, ਪ੍ਰੋਜੈਕਟ ਬਣਾਉਣ ਲਈ ਕਦਮ-ਦਰ-ਕਦਮ ਗਾਈਡਾਂ
- ਗਿਆਨ ਚੈੱਕ
- ਇਕ ਚੈਲੇਂਜ
- ਸਹਾਇਕ ਪਾਠ
- ਅਸਾਈਨਮੈਂਟ
- [ਪਾਠ ਬਾਅਦ ਕਵਿਜ](https://ff-quizzes.netlify.app/en/)
- ਵਿਕਲਪੀ ਸਕੈਚਨੋਟ
- ਵਿਕਲਪੀ ਪੂਰਕ ਵੀਡੀਓ
- ਪਾਠ ਤੋਂ ਪਹਿਲਾਂ ਵਾਰਮਅੱਪ ਕੁਇਜ਼
- ਲਿਖਤੀ ਪਾਠ
- ਪ੍ਰੋਜੈਕਟ-ਆਧਾਰਿਤ ਪਾਠਾਂ ਲਈ ਪ੍ਰੋਜੈਕਟ ਬਣਾਉਣ ਲਈ ਕਦਮ ਦਰ ਕਦਮ ਗਾਈਡ
- ਗਿਆਨ ਜਾਂਚ
- ਇੱਕ ਚੈਲੈਂਜ
- ਪੂਰਕ ਪੜ੍ਹਾਈ
- ਅਸਾਈਨਮੈਂਟ
- [ਪਾਠ ਮਗਰੋਂ ਕੁਇਜ਼](https://ff-quizzes.netlify.app/en/)
> **ਵਿਜਾਂ ਬਾਰੇ ਇੱਕ ਨੋਟ**: ਸਾਰੇ ਕਵਿਜ Quiz-App ਫੋਲਡਰ ਵਿੱਚ ਹਨ, ਕੁੱਲ 40 ਕਵਿਜ ਹਨ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਹਰ ਇੱਕ ਵਿੱਚ ਤਿੰਨ ਪ੍ਰਸ਼ਨ ਹਨ। ਇਹ ਪਾਠਾਂ ਵਿੱਚ ਲਿੰਕ ਕੀਤੇ ਗਏ ਹਨ, ਪਰ ਕਵਿਜ ਐਪ ਨੂੰ ਲੋਕਲ ਤੌਰ 'ਤੇ ਚਲਾਇਆ ਜਾ ਸਕਦਾ ਹੈ ਜਾਂ Azure 'ਤੇ ਡਿਪਲੌਏ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ; `quiz-app` ਫੋਲਡਰ ਵਿੱਚ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰੋ। ਇਹ ਹੌਲੇ-ਹੌਲੇ ਸਥਾਨਕਕਰਨ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ
> **ੁਇਜ਼ ਬਾਰੇ ਇੱਕ ਨੋਟ**: ਸਾਰੇ ਕੁਇਜ਼ Quiz-App ਫੋਲਡਰ ਵਿੱਚ ਹਨ, ਕੁੱਲ 40 ਕੁਇਜ਼ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਤਿੰਨ ਪ੍ਰਸ਼ਨ ਹਨ। ਇਹ ਪਾਠਾਂ ਵਿੱਚ ਲਿੰਕ ਕੀਤੇ ਗਏ ਹਨ, ਪਰ ਕੁਇਜ਼ ਐਪ ਨੂੰ ਸਥਾਨਕ ਤੌਰ 'ਤੇ ਚਲਾਇਆ ਜਾ ਸਕਦਾ ਹੈ ਜਾਂ ਐਜ਼ਿਊਰ 'ਤੇ ਡਿਪਲੌਇ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ; ਨਾਲ ਦਿੱਤੇ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰੋ। ਇਹ ਕੁਇਜ਼ ਧੀਰੇ-ਧੀਰੇ ਪੰਜਾਬੀ ਵਿੱਚ ਬਨਾਏ ਜਾ ਰਹੇ ਹਨ
## 🎓 ਸ਼ੁਰੂਆਤੀ ਅਨੁਕੂਲ ਉਦਾਹਰਣਾਂ
## 🎓 ਸ਼ੁਰੂਆਤੀ-ਅਨੁਕੂਲ ਉਦਾਹਰਨਾਂ
**ਡੇਟਾ ਸਾਇੰਸ ਵਿੱਚ ਨਵੇਂ ਹੋ?** ਅਸੀਂ ਵਿਸ਼ੇਸ਼ [examples directory](examples/README.md) ਬਣਾਈ ਹੈ ਜਿਸ ਵਿੱਚ ਸਧਾਰਨ ਅਤੇ ਵਧੀਆ ਤਰ੍ਹਾਂ ਟਿੱਪਣੀ ਕੀਤੀ ਕੋਡ ਹੈ ਜੋ ਤੁਹਾਨੂੰ ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਦੇਵੇਗਾ:
**ਡਾਟਾ ਸਾਇੰਸ ਵਿੱਚ ਨਵਾ?** ਅਸੀਂ ਇੱਕ ਖਾਸ [ਉਦਾਹਰਨਾਂ ਫੋਲਡਰ](examples/README.md) ਬਣਾਇਆ ਹੈ ਜਿਸ ਵਿੱਚ ਸਧਾਰਨ ਅਤੇ ਵਧੀਆ ਤਰੀਕੇ ਨਾਲ ਟਿੱਪਣੀਆਂ ਵਾਲਾ ਕੋਡ ਹੈ ਤਾਂ ਕਿ ਤੁਸੀਂ ਸਿੱਖਣਾ ਸ਼ੁਰੂ ਕਰ ਸਕੋ:
- 🌟 **Hello World** - ਤੁਹਾਡਾ ਪਹਿਲਾ ਡੇਟਾ ਸਾਇੰਸ ਪ੍ਰੋਗਰਾਮ
- 📂 **ੇਟਾ ਲੋਡ ਕਰਨਾ** - ਡੇਟਾ ਸੈੱਟ ਪੜ੍ਹਨ ਅਤੇ ਖੋਜ ਕਰਨ ਨੂੰ ਸਿੱਖੋ
- 📊 **ਧਾਰਨ ਵਿਸ਼ਲੇਸ਼ਣ** - ਅੰਕੜੇ ਗਣਨਾ ਕਰੋ ਅਤੇ ਪੈਟਰਨ ਲੱਭੋ
- 📈 **ਮੂਲ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ** - ਚਾਰਟ ਅਤੇ ਗ੍ਰਾਫ ਬਣਾਓ
- 🔬 **ਅਸਲ-ਜੀਵਨ ਪ੍ਰੋਜੈਕਟ** - ਸ਼ੁਰੂ ਤੋਂ ਅੰਤ ਤੱਕ ਪੂਰਾ ਵਾਰਕਫਲੋ
- 🌟 **ਹੈਲੋ ਵਰਲਡ** - ਤੁਹਾਡਾ ਪਹਿਲਾ ਡਾਟਾ ਸਾਇੰਸ ਪ੍ਰੋਗਰਾਮ
- 📂 **ਾਟਾ ਲੋਡ ਕਰਨਾ** - ਡਾਟਾ ਸੈੱਟ ਪੜ੍ਹਨਾ ਅਤੇ ਖੋਜਣਾ ਸਿੱਖੋ
- 📊 **ਰਲ ਵਿਸ਼ਲੇਸ਼ਣ** - ਅੰਕੜੇ ਗਣਨਾ ਕਰੋ ਅਤੇ ਪੈਟਰਨ ਲੱਭੋ
- 📈 **ਬੇਸਿਕ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ** - ਚਾਰਟ ਅਤੇ ਗ੍ਰਾਫ ਬਣਾਓ
- 🔬 **ਅਸਲੀ ਦੁਨੀਆ ਦਾ ਪ੍ਰੋਜੈਕਟ** - ਸ਼ੁਰੂ ਤੋਂ ਖਤਮ ਤੱਕ ਪ੍ਰਕਿਰਿਆ
ਹਰ ਉਦਾਹਰਨ ਵਿੱਚ ਹਰ ਕਦਮ ਦੀ ਵਿਸਥਾਰਿਤ ਟਿੱਪਣੀ ਹੈ, ਜੋ ਨਵੇਂ ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਾਲਿਆਂ ਲਈ ਬਹੁਤ ਅਚ্ছে ਹਨ!
ਹਰ ਉਦਾਹਰਣ ਵਿਚ ਵਿਆਖਿਆਅਤਮਿਕ ਟਿੱਪਣੀਆਂ ਹਨ ਜੋ ਹਰ ਕਦਮ ਨੂੰ ਸਮਝਾਉਂਦੀਆਂ ਹਨ, ਜੋ ਬਿਲਕੁਲ ਨਵੇਂ ਸ਼ੁਰੂਆਤੀਆਂ ਲਈ ਬਹੁਤ ਵਧੀਆ ਹੈ!
👉 **[ਉਦਾਹਰਾਂ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ](examples/README.md)** 👈
👉 **[ਉਦਾਹਰਾਂ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ](examples/README.md)** 👈
## ਪਾਠ
|![ @sketchthedocs ਵੱਲੋਂ ਸਕੈਚਨੋਟ https://sketchthedocs.dev](../../translated_images/pa/00-Roadmap.4905d6567dff4753.webp)|
|![ ਸਕੈਚਨੋਟ @sketchthedocs ਵੱਲੋਂ https://sketchthedocs.dev](../../translated_images/pa/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| ਡੇਟਾ ਸਾਇੰਸ ਫਾਰ ਬਿਗਿਨਰਜ਼: ਰੋਡਮੈਪ - _ਸਕੈਚਨੋਟ [@nitya](https://twitter.com/nitya)_ ਵਲੋਂ |
| ਡਾਟਾ ਸਾਇੰਸ ਫਾਰ ਬਿਗਿਨਰਸ: ਰੋਡਮੇਪ - _ਸਕੈਚਨੋਟ [@nitya](https://twitter.com/nitya) ਵੱਲੋਂ_ |
| ਪਾਠ ਨੰਬਰ | ਵਿਸ਼ਾ | ਪਾਠ ਗਰੁੱਪਿੰਗ | ਸਿੱਖਣ ਦੇ ਉਦੇਸ਼ | ਲਿੰਕ ਕੀਤਾ ਪਾਠ | ਲੇਖਕ |
| ਪਾਠ ਨੰਬਰ | ਵਿਸ਼ਾ | ਪਾਠ ਸਮੂਹ | ਸਿੱਖਣ ਦੇ ਉਦੇਸ਼ | ਲਿੰਕਡ ਪਾਠ | ਲੇਖਕ |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | ਡੇਟਾ ਸਾਇੰਸ ਦੀ ਪਰਿਭਾਸ਼ਾ | [ਪਰਿਚਯ](1-Introduction/README.md) | ਡੇਟਾ ਸਾਇੰਸ ਦੇ ਮੂਲ ਸਿਧਾਂਤ ਸਿੱਖੋ ਅਤੇ ਇਹ ਅਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ, ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਅਤੇ ਵੱਡੇ ਡੇਟਾ ਨਾਲ ਕਿਵੇਂ ਸੰਬੰਧਿਤ ਹੈ। | [ਪਾਠ](1-Introduction/01-defining-data-science/README.md) [ਵੀਡੀਓ](https://youtu.be/beZ7Mb_oz9I) | [ਦਿਮਿਤਰੀ](http://soshnikov.com) |
| 02 | ਡੇਟਾ ਸਾਇੰਸ ਨੈਤਿਕਤਾ | [ਪਰਿਚਯ](1-Introduction/README.md) | ਡੇਟਾ ਨੈਤਿਕਤਾ ਦੇ ਸੰਕਲਪ, ਚੁਣੌਤੀਆਂ ਅਤੇ ਢਾਂਚੇ। | [ਪਾਠ](1-Introduction/02-ethics/README.md) | [ਨਿਤਿਆ](https://twitter.com/nitya) |
| 03 | ਡੇਟਾ ਦੀ ਪਰਿਭਾਸ਼ਾ | [ਪਰਿਚਯ](1-Introduction/README.md) | ਡੇਟਾ ਕਿਵੇਂ ਵਰਗੀਕ੍ਰਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਇਸਦੇ ਆਮ ਸ੍ਰੋਤ। | [ਪਾਠ](1-Introduction/03-defining-data/README.md) | [ਜੈਸਮੀਨ](https://www.twitter.com/paladique) |
| 04 | ਸਾਂਖਿਆਕੀ ਅਤੇ ਸੰਭਾਵਨਾ ਦਾ ਪਰਿਚਯ | [ਪਰਿਚਯ](1-Introduction/README.md) | ਸੰਭਾਵਨਾ ਅਤੇ ਸਾਂਖਿਆਕੀ ਦੇ ਗਣਿਤੀ ਤਕਨੀਕਾਂ ਨਾਲ ਡੇਟਾ ਨੂੰ ਸਮਝਣਾ। | [ਪਾਠ](1-Introduction/04-stats-and-probability/README.md) [ਵੀਡੀਓ](https://youtu.be/Z5Zy85g4Yjw) | [ਦਿਮਿਤਰੀ](http://soshnikov.com) |
| 05 | ਸੰਬੰਧਿਤ ਡੇਟਾ ਨਾਲ ਕੰਮ ਕਰਨਾ | [ਡੇਟਾ ਨਾਲ ਕੰਮ](2-Working-With-Data/README.md) | ਸੰਬੰਧਿਤ ਡੇਟਾ ਦਾ ਪਰਿਚਯ ਅਤੇ ਸੰਰਚਿਤ ਕੁਐਰੀ ਭਾਸ਼ਾ (SQL) ਦੀ ਵਰਤੋਂ ਨਾਲ ਸੰਬੰਧਿਤ ਡੇਟਾ ਦੀ ਖੋਜ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਦੇ ਮੂਲ ਤਰੀਕੇ। | [ਪਾਠ](2-Working-With-Data/05-relational-databases/README.md) | [ਕ੍ਰਿਸਟੋਫਰ](https://www.twitter.com/geektrainer) |
| 06 | NoSQL ਡੇਟਾ ਨਾਲ ਕੰਮ ਕਰਨਾ | [ਡੇਟਾ ਨਾਲ ਕੰਮ](2-Working-With-Data/README.md) | ਗੈਰ-ਸੰਬੰਧਿਤ ਡੇਟਾ, ਇਸਦੇ ਵੱਖਰੇ ਤਰ੍ਹਾਂ ਅਤੇ ਡੌਕਯੂਮੈਂਟ ਡੇਟਾ ਬੇਸ ਦੀ ਖੋਜ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਦੇ ਬੁਨਿਆਦੀ ਤਰੀਕੇ। | [ਪਾਠ](2-Working-With-Data/06-non-relational/README.md) | [ਸਮੀਨ](https://twitter.com/paladique) |
| 07 | ਪਾਈਥਨ ਨਾਲ ਕੰਮ ਕਰਨਾ | [ਡੇਟਾ ਨਾਲ ਕੰਮ](2-Working-With-Data/README.md) | ਪੈਂਡਾਸ ਵਰਗੀਆਂ ਲਾਇਬ੍ਰੇਰੀਆਂ ਦੀ ਵਰਤੋਂ ਨਾਲ ਡੇਟਾ ਖੋਜ ਲਈ ਪਾਈਥਨ ਦੀਆਂ ਮੁੱਢਲੀਆਂ ਜਾਣਕਾਰੀਆਂ। ਪਾਈਥਨ ਪ੍ਰੋਗ੍ਰਾਮਿੰਗ ਦੀ ਮੂਲ ਸਮਝ ਦੀ ਸਿਫ਼ਾਰਿਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। | [ਪਾਠ](2-Working-With-Data/07-python/README.md) [ਵੀਡੀਓ](https://youtu.be/dZjWOGbsN4Y) | [ਦਿਮਿਤਰੀ](http://soshnikov.com) |
| 08 | ਡੇਟਾ ਤਿਆਰੀ | [ਡੇਟਾ ਨਾਲ ਕੰਮ](2-Working-With-Data/README.md) | ਗੁੰਝਲਦਾਰ, ਅਸੂਰੀ ਜਾਂ ਅਧੂਰੇ ਡੇਟਾ ਦੀ ਸੰਭਾਲ ਲਈ ਡੇਟਾ ਸਾਫ਼ ਕਰਨ ਅਤੇ ਬਦਲਣ ਦੀਆਂ ਤਕਨੀਆਂ। | [ਪਾਠ](2-Working-With-Data/08-data-preparation/README.md) | [ਜੈਸਮੀਨ](https://www.twitter.com/paladique) |
| 09 | ਮਾਤ੍ਰਾਵਾਂ ਦੀ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ | [ਡੇਟਾ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ](3-Data-Visualization/README.md) | ਮੈਟਪਲੌਟਲਿਬ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪੰਛੀ ਡੇਟਾ ਦੀ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਸਿੱਖੋ 🦆 | [ਪਾਠ](3-Data-Visualization/09-visualization-quantities/README.md) | [ਨ](https://twitter.com/jenlooper) |
| 10 | ਡੇਟਾ ਦੇ ਵੰਡਾਂ ਦੀ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ | [ਡੇਟਾ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ](3-Data-Visualization/README.md) | ਇੱਕ ਅੰਤਰਾਲ ਵਿੱਚ ਵਾਚਨੀਆਂ ਅਤੇ ਰੁਝਾਨਾਂ ਦੀ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ। | [ਪਾਠ](3-Data-Visualization/10-visualization-distributions/README.md) | [ਨ](https://twitter.com/jenlooper) |
| 11 | ਅਨੁਪਾਤਾਂ ਦੀ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ | [ਡੇਟਾ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ](3-Data-Visualization/README.md) | ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ ਵੱਖ-ਵੱਖ ਅਤੇ ਗਰੁੱਪ-ਬੰਨ੍ਹੇ ਪ੍ਰਤੀਸ਼ਤਾਂ ਦੀ। | [ਪਾਠ](3-Data-Visualization/11-visualization-proportions/README.md) | [ਨ](https://twitter.com/jenlooper) |
| 12 | ਰਿਸ਼ਤੇਦਾਰੀਆਂ ਦੀ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ | [ਡੇਟਾ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ](3-Data-Visualization/README.md) | ਡੇਟਾ ਦੇ ਸਮੂਹਾਂ ਅਤੇ ਉਹਨਾਂ ਦੀਆਂ ਵੈਰੀਏਬਲਾਂ ਵਿੱਚ ਸੰਬੰਧਾਂ ਅਤੇ ਸੰਬੰਧਾਂ ਦੀ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ। | [ਪਾਠ](3-Data-Visualization/12-visualization-relationships/README.md) | [ਨ](https://twitter.com/jenlooper) |
| 13 | ਮਾਇਨੇਦਾਰ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ | [ਡੇਟਾ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨ](3-Data-Visualization/README.md) | ਤੁਹਾਡੇ ਵਿਜੁਅਲਾਈਜ਼ੇਸ਼ਨਾਂ ਨੂੰ ਪ੍ਰਭਾਵੀ ਸਮੱਸਿਆ ਹੱਲ ਅਤੇ ਅੰਦਰੂਨੀ ਬੁਝਾਰਤਾਂ ਲਈ ਕੀਮਤੀ ਬਣਾਉਣ ਲਈ ਤਕਨੀਕਾਂ ਅਤੇ ਮਾਰਗਦਰਸ਼ਨ। | [ਪਾਠ](3-Data-Visualization/13-meaningful-visualizations/README.md) | [ਨ](https://twitter.com/jenlooper) |
| 14 | ਡੇਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਦਾ ਪਰਿਚਯ | [ਲਾਈਫਸਾਈਕਲ](4-Data-Science-Lifecycle/README.md) | ਡੇਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਅਤੇ ਡੇਟਾ ਪ੍ਰਾਪਤੀ ਅਤੇ ਨਿਕਾਸ ਦਾ ਪਹਿਲਾ ਕਦਮ। | [ਪਾਠ](4-Data-Science-Lifecycle/14-Introduction/README.md) | [ਸਮੀਨ](https://twitter.com/paladique) |
| 15 | ਵਿਸ਼ਲੇਸ਼ਣ | [ਲਾਈਫਸਾਈਕਲ](4-Data-Science-Lifecycle/README.md) | ਡੇਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਦਾ ਇਹ ਪੜਾਅ ਡੇਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀਆਂ ਤਕਨੀਕਾਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ। | [ਪਾਠ](4-Data-Science-Lifecycle/15-analyzing/README.md) | [ਸਮੀਨ](https://twitter.com/paladique) |
| 16 | ਸੰਚਾਰ | [ਲਾਈਫਸਾਈਕਲ](4-Data-Science-Lifecycle/README.md) | ਡੇਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਦਾ ਇਹ ਪੜਾਅ ਡੇਟਾ ਤੋਂ ਮਿਲੇ ਅੰਦਰੂਨੀ ਬੁਝਾਰਤਾਂ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਪੇਸ਼ ਕਰਦਾ ਹੈ ਜੋ ਫੈਸਲੇ ਕਰਨ ਵਾਲਿਆਂ ਲਈ ਸਮਝਣ ਵਿੱਚ ਆਸਾਨ ਹੋਵੇ। | [ਪਾਠ](4-Data-Science-Lifecycle/16-communication/README.md) | [ੇਨ](https://twitter.com/JalenMcG) |
| 17 | ਕਲਾਉਡ ਵਿੱਚ ਡੇਟਾ ਸਾਇੰਸ | [ਕਲਾਉਡ ਡੇਟਾ](5-Data-Science-In-Cloud/README.md) | ਡੇਟਾ ਸਾਇੰਸ ਦੇ ਕਲਾਉਡ ਵਿੱਚ ਪਰਚਾਰ ਅਤੇ ਇਸਦੇ ਲਾਭਾਂ ਦੀ ਪੜਾਈ। | [ਪਾਠ](5-Data-Science-In-Cloud/17-Introduction/README.md) | [ਟਿਫਨੀ](https://twitter.com/TiffanySouterre) ਅਤੇ [ਮੌਡ](https://twitter.com/maudstweets) |
| 18 | ਕਲਾਉਡ ਵਿੱਚ ਡੇਟਾ ਸਾਇੰਸ | [ਕਲਾਉਡ ਡੇਟਾ](5-Data-Science-In-Cloud/README.md) | ਨੀਵਾਂ ਕੋਡ ਟੂਲਾਂ ਨਾਲ ਮਾਡਲਾਂ ਦਾ ਪ੍ਰਸ਼ਿਛਣ। | [ਪਾਠ](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [ਟਿਫੈਨੀ](https://twitter.com/TiffanySouterre) ਅਤੇ [ਮੌਡ](https://twitter.com/maudstweets) |
| 19 | ਕਲਾਉਡ ਵਿੱਚ ਡੇਟਾ ਸਾਇੰਸ | [ਕਲਾਉਡ ਡੇਟਾ](5-Data-Science-In-Cloud/README.md) | ਅਜ਼ਿਊਰ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸਟੂਡੀਓ ਨਾਲ ਮਾਡਲਾਂ ਨੂੰ ਤਾਇਨਾਤ ਕਰਨਾ। | [ਪਾਠ](5-Data-Science-In-Cloud/19-Azure/README.md) | [ਟਿਫਨੀ](https://twitter.com/TiffanySouterre) ਅਤੇ [ਮੌਡ](https://twitter.com/maudstweets) |
| 20 | ਜੰਗਲੀ ਵਿੱਚ ਡੇਟਾ ਸਾਇੰਸ | [ਜੰਗਲੀ ਵਿੱਚ](6-Data-Science-In-Wild/README.md) | ਅਸਲੀ ਦੁਨੀਆ ਵਿੱਚ ਡੇਟਾ ਸਾਇੰਸ ਡਰਾਈਵਨ ਪ੍ਰੋਜੈਕਟ। | [ਪਾਠ](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [ਨਿਤਿਆ](https://twitter.com/nitya) |
## GitHub Codespaces
ਇਸ ਸੈਂਪਲ ਨੂੰ ਇੱਕ Codespace ਵਿੱਚ ਖੋਲ੍ਹਣ ਲਈ ਇਹਨਾਂ ਕਦਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰੋ:
1. ਕੋਡ ਡ੍ਰੌਪ-ਡਾਊਨ ਮੀਨੂ 'ਤੇ ਕਲਿੱਕ ਕਰੋ ਅਤੇ Open with Codespaces ਵਿਕਲਪ ਚੁਣੋ।
2. ਪੇਨਲ ਦੇ ਤਲ ਵਿੱਚ + New codespace ਚੁਣੋ।
ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ, [GitHub ਦਸਤਾਵੇਜ਼](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) ਵੇਖੋ।
| 01 | ਡਾਟਾ ਸਾਇੰਸ ਦੀ ਪਰਿਭਾਸ਼ਾ | [ਪਰੀਚਯ](1-Introduction/README.md) | ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਮੂਲ ਸਿਧਾਂਤ ਸਿੱਖੋ ਅਤੇ ਇਹ ਕਿਵੇਂ ਕ੍ਰਿਤ੍ਰਿਮ ਬੁੱਧੀ, ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਅਤੇ ਵੱਡੇ ਡਾਟਾ ਨਾਲ ਜੁੜਿਆ ਹੈ। | [ਪਾਠ](1-Introduction/01-defining-data-science/README.md) [ਵੀਡੀਓ](https://youtu.be/beZ7Mb_oz9I) | [ਦਿਮਿਤਰੀ](http://soshnikov.com) |
| 02 | ਡਾਟਾ ਸਾਇੰਸ ਨੈਤਿਕਤਾ | [ਪਰੀਚਯ](1-Introduction/README.md) | ਡਾਟਾ ਨੈਤਿਕਤਾ ਦੇ ਸਿਧਾਂਤ, ਚੁਣੌਤੀਆਂ ਅਤੇ ਢਾਂਚੇ। | [ਪਾਠ](1-Introduction/02-ethics/README.md) | [ਨਿਤਿਆ](https://twitter.com/nitya) |
| 03 | ਡਾਟਾ ਦੀ ਪਰਿਭਾਸ਼ਾ | [ਪਰੀਚਯ](1-Introduction/README.md) | ਡਾਟਾ ਕਿਵੇਂ ਵਰਗੀਕ੍ਰਿਤ ਹੁੰਦਾ ਹੈ ਅਤੇ ਇਸਦੇ ਆਮ ਸਰੋਤ। | [ਪਾਠ](1-Introduction/03-defining-data/README.md) | [ਜੇਸਮੀਨ](https://www.twitter.com/paladique) |
| 04 | ਅੰਕੜਿਆਂ ਅਤੇ ਸੰਭਾਵਨਾ ਦਾ ਪਰੀਚਯ | [ਪਰੀਚਯ](1-Introduction/README.md) | ਡਾਟਾ ਨੂੰ ਸਮਝਣ ਲਈ ਸੰਭਾਵਨਾ ਅਤੇ ਅੰਕੜਿਆਂ ਦੇ ਗਣਿਤੀਕ ਤਰੀਕੇ। | [ਪਾਠ](1-Introduction/04-stats-and-probability/README.md) [ਵੀਡੀਓ](https://youtu.be/Z5Zy85g4Yjw) | [ਦਿਮਿਤਰੀ](http://soshnikov.com) |
| 05 | ਰਿਲੇਸ਼ਨਲ ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨਾ | [ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨਾ](2-Working-With-Data/README.md) | ਰਿਲੇਸ਼ਨਲ ਡਾਟਾ ਦਾ ਪਰੀਚਯ ਅਤੇ ਸੂਚੀਬੱਧ ਪੁੱਛ-ਗਿੱਛ ਭਾਸ਼ਾ SQL ਨਾਲ ਡਾਟਾ ਨੂੰ ਖੋਜਣ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੇ ਮੂਲ ਤਰੀਕੇ। | [ਪਾਠ](2-Working-With-Data/05-relational-databases/README.md) | [ਕ੍ਰਿਸਟੋਫਰ](https://www.twitter.com/geektrainer) | | |
| 06 | ਨੌਨ-ਐਸਕਿਊਐਲ ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨਾ | [ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨਾ](2-Working-With-Data/README.md) | ਗੈਰ-ਰਿਲੇਸ਼ਨਲ ਡਾਟਾ ਦਾ ਪਰੀਚਯ, ਇਸਦੇ ਵੱਖ-ਵੱਖ ਪ੍ਰਕਾਰ ਅਤੇ ਡੌਕਯੂਮੈਂਟ ਡਾਟਾਬੇਸ ਖੋਜਣ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਦੇ ਬੁਨਿਆਦੀ ਤਰੀਕੇ। | [ਪਾਠ](2-Working-With-Data/06-non-relational/README.md) | [ਸਮੀਨ](https://twitter.com/paladique) |
| 07 | ਪਾਇਥਨ ਨਾਲ ਕੰਮ ਕਰਨਾ | [ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨਾ](2-Working-With-Data/README.md) | ਪੈਂਡਾਸ ਵਰਗੀਆਂ ਲਾਇਬ੍ਰੇਰੀਜ਼ ਨਾਲ ਡਾਟਾ ਖੋਜ ਲਈ ਪਾਇਥਨ ਦੀ ਬੁਨਿਆਦੀ ਵਰਤੋਂ। ਪਾਇਥਨ ਪ੍ਰੋਗ੍ਰਾਮਿੰਗ ਬਾਰੇ ਮੂਲ ਸਮਝ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ। | [ਪਾਠ](2-Working-With-Data/07-python/README.md) [ਵੀਡੀਓ](https://youtu.be/dZjWOGbsN4Y) | [ਦਿਮਿਤਰੀ](http://soshnikov.com) |
| 08 | ਡਾਟਾ ਤਿਆਰੀ | [ਡਾਟਾ ਨਾਲ ਕੰਮ ਕਰਨਾ](2-Working-With-Data/README.md) | ਗੁੰਮ, ਗਲਤ ਜਾਂ ਅਧੂਰੇ ਡਾਟਾ ਦੀ ਸਮੱਸਿਆ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਡਾਟਾ ਸਾਫ ਕਰਨ ਅਤੇ ਬਦਲਣ ਦੇ ਤਰੀਕਿਆਂ 'ਤੇ ਟਾਪਿਕ। | [ਪਾਠ](2-Working-With-Data/08-data-preparation/README.md) | [ਜੇਸਮੀਨ](https://www.twitter.com/paladique) |
| 09 | ਮਾਤਰਾਵਾਂ ਦਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ | [ਡਾਟਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ](3-Data-Visualization/README.md) | ਮੈਟਪਲੌਟਲਿਬ ਦਾ ਵਰਤੋਂ ਕਰਕੇ ਪੰਛੀ ਡਾਟਾ ਦਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ ਸਿੱਖੋ 🦆 | [ਪਾਠ](3-Data-Visualization/09-visualization-quantities/README.md) | [ਨ](https://twitter.com/jenlooper) |
| 10 | ਡਾਟਾ ਦੇ ਵੰਡਾਂ ਦਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ | [ਡਾਟਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ](3-Data-Visualization/README.md) | ਇੱਕ ਅੰਤਰਾਲ ਦੇ ਅੰਦਰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਨਿਰੀਖਣ ਅਤੇ ਰੁਝਾਨਾਂ ਨੂੰ ਵਿਜ਼ੂਅਲਾਈਜ਼ ਕਰਨਾ। | [ਪਾਠ](3-Data-Visualization/10-visualization-distributions/README.md) | [ਨ](https://twitter.com/jenlooper) |
| 11 | ਅਨੁਪਾਤਾਂ ਦਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ | [ਡਾਟਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ](3-Data-Visualization/README.md) | ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਸਮੂਹਿਤ ਪ੍ਰਤੀਸ਼ਤਾਂ ਦਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ। | [ਪਾਠ](3-Data-Visualization/11-visualization-proportions/README.md) | [ਨ](https://twitter.com/jenlooper) |
| 12 | ਸਮੰਬੰਧਾਂ ਦਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ | [ਡਾਟਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ](3-Data-Visualization/README.md) | ਡਾਟਾ ਅਤੇ ਇਸਦੇ ਵੇਰੀਏਬਲਸ ਵਿਚਕਾਰ ਦੇ ਜੋੜ ਅਤੇ ਸਹਸੰਬੰਧਾਂ ਦਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ। | [ਪਾਠ](3-Data-Visualization/12-visualization-relationships/README.md) | [ਨ](https://twitter.com/jenlooper) |
| 13 | ਅਰਥਪੂਰਨ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ | [ਡਾਟਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ](3-Data-Visualization/README.md) | ਸਮੱਸਿਆ ਹੱਲ ਅਤੇ ਅੰਤਰਦෘਸ਼ਟੀਆਂ ਲਈ ਤੁਹਾਡੇ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨਾਂ ਨੂੰ ਮੁੱਲਵਾਨ ਬਣਾਉਣ ਦੇ ਤਰੀਕੇ ਅਤੇ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼। | [ਪਾਠ](3-Data-Visualization/13-meaningful-visualizations/README.md) | [ਨ](https://twitter.com/jenlooper) |
| 14 | ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਦਾ ਪਰੀਚਯ | [ਲਾਈਫਸਾਈਕਲ](4-Data-Science-Lifecycle/README.md) | ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਦਾ ਪਰੀਚਯ ਅਤੇ ਉਸਦਾ ਪਹਿਲਾ ਕਦਮ, ਡਾਟਾ ਪ੍ਰਾਪਤੀ ਅਤੇ ਨਿਕਾਸ। | [ਪਾਠ](4-Data-Science-Lifecycle/14-Introduction/README.md) | [ਸਮੀਨ](https://twitter.com/paladique) |
| 15 | ਵਿਸ਼ਲੇਸ਼ਣ | [ਲਾਈਫਸਾਈਕਲ](4-Data-Science-Lifecycle/README.md) | ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਦਾ ਇਹ ਚਰਣ ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀਆਂ ਤਕਨੀਕਾਂ 'ਤੇ ਕੇਂਦਰਿਤ ਹੈ। | [ਪਾਠ](4-Data-Science-Lifecycle/15-analyzing/README.md) | [ਸਮੀਨ](https://twitter.com/paladique) | | |
| 16 | ਸੰਚਾਰ | [ਲਾਈਫਸਾਈਕਲ](4-Data-Science-Lifecycle/README.md) | ਡਾਟਾ ਸਾਇੰਸ ਲਾਈਫਸਾਈਕਲ ਦਾ ਇਹ ਚਰਣ ਡਾਟਾ ਤੋਂ ਪ੍ਰਾਪਤ ਸੂਝ-ਬੂਝ ਨੂੰ ਇੰਝ ਪੇਸ਼ ਕਰਨ 'ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ ਕਿ ਨਿਰਣਯ ਕੈਂਦਰ ਬਿਨੈਤਾ ਨੂੰ ਸਮਝਣਾ ਆਸਾਨ ਹੋ ਜਾਵੇ। | [ਪਾਠ](4-Data-Science-Lifecycle/16-communication/README.md) | [ਨ](https://twitter.com/JalenMcG) | | |
| 17 | ਕੁਲਾਉਡ ਵਿੱਚ ਡਾਟਾ ਸਾਇੰਸ | [ਕੁਲਾਉਡ ਡਾਟਾ](5-Data-Science-In-Cloud/README.md) | ਡਾਟਾ ਸਾਇੰਸ ਨੂੰ ਕੁਲਾਉਡ 'ਚ ਜਾਣੂ ਕਰਵਾਉਂਦਾ ਹੈ ਅਤੇ ਇਸਦੇ ਲਾਭ। | [ਪਾਠ](5-Data-Science-In-Cloud/17-Introduction/README.md) | [ਟਿਫਨੀ](https://twitter.com/TiffanySouterre) ਅਤੇ [ਮੌਡ](https://twitter.com/maudstweets) |
| 18 | ਕੁਲਾਉਡ ਵਿੱਚ ਡਾਟਾ ਸਾਇੰਸ | [ਕੁਲਾਉਡ ਡਾਟਾ](5-Data-Science-In-Cloud/README.md) | ਕੁਮ ਕੋਡ ਟੂਲਜ਼ ਦੀ ਵਰਤੋਂ ਨਾਲ ਮਾਡਲ ਤਿਆਰ ਕਰਨਾ। |[ਪਾਠ](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [ਟਿਫਨੀ](https://twitter.com/TiffanySouterre) ਅਤੇ [ਮੌਡ](https://twitter.com/maudstweets) |
| 19 | ਕੁਲਾਉਡ ਵਿੱਚ ਡਾਟਾ ਸਾਇੰਸ | [ਕੁਲਾਉਡ ਡਾਟਾ](5-Data-Science-In-Cloud/README.md) | ਐਜ਼ਿਊਰ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸਟੂਡੀਓ ਨਾਲ ਮਾਡਲਾਂ ਦਾ ਡਿਪਲੌਇਮੈਂਟ। | [ਪਾਠ](5-Data-Science-In-Cloud/19-Azure/README.md)| [ਟਿਫਨੀ](https://twitter.com/TiffanySouterre) ਅਤੇ [ਮੌਡ](https://twitter.com/maudstweets) |
| 20 | ਵਾਹਰੀ ਦੁਨੀਆ ਵਿੱਚ ਡਾਟਾ ਸਾਇੰਸ | [ਵਾਹਰੀ ਦੁਨੀਆ](6-Data-Science-In-Wild/README.md) | ਅਸਲੀ ਦੁਨੀਆਂ ਵਿੱਚ ਡਾਟਾ ਸਾਇੰਸ ਨਾਲ ਚੱਲ ਰਹੇ ਪ੍ਰੋਜੈਕਟ। | [ਪਾਠ](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [ਨਿਤਿਆ](https://twitter.com/nitya) |
## ਗਿੱਟਹੱਬ ਕੋਡਸਪੇਸ
ਇਸ ਨਮੂਨੇ ਨੂੰ ਕੋਡਸਪੇਸ ਵਿੱਚ ਖੋਲ੍ਹਣ ਲਈ ਇਹ ਕਦਮ ਕਰੋ:
1. ਕੋਡ ਡ੍ਰਾਪਡਾਊਨ ਮੇਨੂ 'ਤੇ ਕਲਿੱਕ ਕਰੋ ਅਤੇ "Open with Codespaces" ਵਿਕਲਪ ਚੁਣੋ।
2. ਪੈਨਲ ਦੇ ਹੇਠਾਂ + ਨਿਊ ਕੋਡਸਪੇਸ ਚੁਣੋ।
ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ, [GitHub ਡੌਕਯੂਮੈਂਟੇਸ਼ਨ](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) ਵੇਖੋ।
## VSCode ਰਿਮੋਟ - ਕੰਟੇਨਰ
ਆਪਣੇ ਲੋਕਲ ਮਸ਼ੀਨ ਅਤੇ VSCode ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇਸ ਰਿਪੋ ਨੂੰ ਕੰਟੇਨਰ ਵਿੱਚ ਖੋਲ੍ਹਣ ਲਈ VS Code Remote - Containers ਐਕਸਟੈਂਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਇਹ ਕਦਮ ਫਾਲੋ ਕਰੋ:
1. ਜੇ ਇਹ ਤੁਹਾਡੀ ਪਹਿਲੀ ਵਾਰੀ ਹੈ ਕਿ ਤੁਸੀਂ ਡਿਵੈਲਪਮੈਂਟ ਕੰਟੇਨਰ ਵਰਤ ਰਹੇ ਹੋ, ਤਾਂ ਜਰੂਰ ਯਕੀਨੀ ਬਣਾਓ ਕਿ ਤੁਹਾਡੀ ਸਿਸਟਮ ਪ੍ਰੀ-ਰਿਕਵਾਇਰਮੈਂਟਸ ਨੂੰ ਪੂਰਾ ਕਰਦੀ ਹੈ (ਉਦਾਹਰਣ ਲਈ, ਡਾਕਰ ਇੰਸਟਾਲ ਹੋਇਆ ਹੋਵੇ) [ਗੈਟਿੰਗ ਸਟਾਰਟਡ ਦਸਤਾਵੇਜ਼](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) ਵਿੱਚ।
ਆਪਣੇ ਲੋਕਲ ਮਸ਼ੀਨ ਤੇ VSCode ਵਰਤ ਕੇ ਇਸ ਭੰਡਾਰ ਨੂੰ ਕੰਟੇਨਰ ਵਿਚ ਖੋਲ੍ਹਣ ਲਈ VS Code Remote - Containers ਐਕਸਟੈਂਸ਼ਨ ਵਰਤੋਂ:
1. ਜੇ ਇਹ ਤੁਹਾਡਾ ਪਹਿਲਾ ਵਿਕਾਸ ਕੰਟੇਨਰ ਹੈ, ਤਾਂ ਕਿਰਪਾ ਕਰਕੇ ਇਹ ਯਕੀਨੀ ਬਨਾਓ ਕਿ ਤੁਹਾਡਾ ਸਿਸਟਮ ਪਹਿਲਾਂ ਤੋਂ ਲੋੜੀਂਦੇ ਪੂਰਕ (ਜਿਵੇਂ ਕਿ ਡੋਕਰ ਇੰਸਟਾਲ ਹੈ) ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੈ, [ਗੈਟਿੰਗ ਸਟਾਰਟੇਡ ਡੌਕਯੂਮੈਂਟੇਸ਼ਨ](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) ਵਿੱਚ।
ਇਸ ਰਿਪੋ ਨੂੰ ਵਰਤਣ ਲਈ, ਤੁਸੀਂ ਜਾਂ ਤਾਂ ਇਜ਼ोਲੇਟਡ ਡਾਕਰ ਵਾਲਿਊਮ ਵਿੱਚ ਰਿਪੋ ਖੋਲ੍ਹ ਸਕਦੇ ਹੋ:
ਇਸ ਰਿਪੋਜ਼ਟਰੀ ਨੂੰ ਵਰਤਣ ਲਈ, ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਰਿਪੋਜ਼ ਰਹਿਤ ਡੋਕਰ ਵਾਲੀਮ ਵਿੱਚ ਖੁਲੇ:
**ਨੋਟ:** ਫਰਸ਼ ਦੇ ਹੇਠਾਂ, ਇਹ Remote-Containers: **Clone Repository in Container Volume...** ਕਮਾਂਡ ਦੀ ਵਰਤੋਂ ਕਰੇਗਾ ਤਾਂ ਜੋ ਸਰੋਤ ਕੋਡ ਨੂੰ ਲੋਕਲ ਫਾਈਲਸਿਸਟਮ ਦੀ ਬਜਾਏ ਡਾਕਰ ਵਾਲਿਊਮ ਵਿੱਚ ਕਲੋਨ ਕੀਤਾ ਜਾਵੇ। [ਵਾਲਿਊਮ](https://docs.docker.com/storage/volumes/) ਕੰਟੇਨਰ ਡੇਟਾ ਪ੍ਰਸਿਸਟ ਕਰਨ ਲਈ ਪਸੰਦੀਦਾ ਤਰੀਕਾ ਹਨ।
**ਨੋਟ**: ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ, ਇਹ Remote-Containers: **Clone Repository in Container Volume...** ਕਮਾਂਡ ਦੀ ਵਰਤੋਂ ਕਰੇਗਾ ਤਾਂ ਜੋ ਸਰੋਤ ਕੋਡ ਨੂੰ ਲੋਕਲ ਫਾਇਲ ਸਿਸਟਮ ਦੀ ਬਜਾਏ ਡੋਕਰ ਵਾਲੀਮ ਵਿੱਚ ਕਲੋਨ ਕੀਤਾ ਜਾ ਸਕੇ। [ਵਾਲੀਮ](https://docs.docker.com/storage/volumes/) ਕੰਟੇਨਰ ਡੇਟਾ ਸੰਭਾਲਣ ਲਈ ਪਸੰਦੀਦਾ ਮੈਕੈਨਿਜ਼ਮ ਹਨ।
ਜਾਂ ਕਿਸੇ ਲੋਕਲ ਕਲੋਨ ਕੀਤੇ ਗਏ ਜਾਂ ਡਾਊਨਲੋਡ ਕੀਤੇ ਵਰਜ਼ਨ ਨੂੰ ਖੋਲ੍ਹੋ:
ਜਾਂ ਰਿਪੋ ਨੂੰ ਸਥਾਨਕ ਤੌਰ 'ਤੇ ਕਲੋਨ ਕੀਤਾ ਜਾਂ ਡਾਊਨਲੋਡ ਕੀਤਾ ਵਰਜਨ ਖੋਲ੍ਹੋ:
- ਇਸ ਰਿਪੋ ਨੂੰ ਆਪਣੇ ਲੋਕਲ ਫਾਈਲਸਿਸਟਮ 'ਤੇ ਕਲੋਨ ਕਰੋ।
- F1 ਦਬਾਓ ਅਤੇ **Remote-Containers: Open Folder in Container...** ਕਮਾਂਡ ਚੁਣੋ।
- ਇਸ ਫੋਲਡਰ ਦੀ ਕਲੋਨ ਕੀਤੀ ਨਕਲ ਚੁਣੋ, ਕੰਟੇਨਰ ਸ਼ੁਰੂ ਹੋਣ ਦੀ ਉਡੀਕ ਕਰੋ ਅਤੇ ਵਰਤੋਂ ਸ਼ੁਰੂ ਕਰੋ।
- ਇਸ ਰਿਪੋ ਨੂੰ ਆਪਣੀ ਲੋਕਲ ਫਾਇਲ ਸਿਸਟਮ 'ਤੇ ਕਲੋਨ ਕਰੋ।
- F1 ਦਬਾਓ ਅਤੇ**Remote-Containers: Open Folder in Container...** ਕਮਾਂਡ ਚੁਣੋ।
- ਇਸ ਫੋਲਡਰ ਦੀ ਕਲੋਨ ਕੀਤੀ ਕਾਪੀ ਚੁਣੋ, ਕੰਟੇਨਰ ਨੂੰ ਸ਼ੁਰੂ ਹੋਣ ਦਿਓ, ਅਤੇ ਕੋਸ਼ਿਸ ਕਰੋ।
## ਆਫਲਾਈਨ ਐਕਸੇਸ
ਤੁਸੀਂ ਇਸ ਦਸਤਾਵੇਜ਼ ਨੂੰ [Docsify](https://docsify.js.org/#/) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਫਲਾਈਨ ਚਲਾ ਸਕਦੇ ਹੋ। ਇਸ ਰਿਪੋ ਨੂੰ ਫਾਰਕ ਕਰੋ, ਆਪਣੇ ਲੋਕਲ ਮਸ਼ੀਨ 'ਤੇ [Docsify ਇੰਸਟਾਲ](https://docsify.js.org/#/quickstart) ਕਰੋ, ਫਿਰ ਇਸ ਰਿਪੋ ਦੇ ਰੂਟ ਫੋਲਡਰ ਵਿੱਚ `docsify serve` ਟਾਈਪ ਕਰੋ। ਵੈਬਸਾਈਟ ਤੁਹਾਡੇ ਲੋਕਲਹੋਸਟ `'ਤੇ ਪੋਰਟ 3000` ਤੇ ਸਰਵ ਕੀਤੀ ਜਾਵੇਗੀ: `localhost:3000`
ਤੁਸੀਂ [Docsify](https://docsify.js.org/#/) ਵਰਤ ਕੇ ਇਹ ਡੌਕੂਮੈਂਟੇਸ਼ਨ ਆਫਲਾਈਨ ਚਲਾ ਸਕਦੇ ਹੋ। ਇਸ ਰਿਪੋ ਨੂੰ ਫੋਰਕ ਕਰੋ, [Docsify ਇੰਸਟਾਲ ਕਰੋ](https://docsify.js.org/#/quickstart) ਤੁਹਾਡੇ ਲੋਕਲ ਮਸ਼ੀਨ 'ਤੇ, ਫਿਰ ਇਸ ਰਿਪੋ ਦੇ ਰੂਟ ਫੋਲਡਰ ਵਿੱਚ `docsify serve` ਟਾਈਪ ਕਰੋ। ਵੈਬਸਾਈਟ ਤੁਹਾਡੇ ਲੋਕਲਹੋਸਟ 'ਤੇ ਪੋਰਟ 3000 'ਤੇ ਸਰਵ ਕੀਤੀ ਜਾਵੇਗੀ: `localhost:3000`
> ਨੋਟ, ਨੋਟਬੁੱਕ Docsify ਰਾਹੀਂ ਰੇਂਡਰ ਨਹੀਂ ਕੀਤੇ ਜਾਣਗੇ, ਇਸ ਲਈ ਜਦੋਂ ਤੁਹਾਨੂੰ ਨੋਟਬੁੱਕ ਚਲਾਉਣੀ ਹੋਵੇ, ਤਾਂ VS Code ਵਿੱਚ ਪਾਈਥਨ ਕਰਨਲ ਚਲਾ ਕੇ ਅਲੱਗ ਕਰਕੇ ਕਰੋ
> ਨੋਟ, ਨੋਟਬੁੱਕਾਂ Docsify ਨਾਲ ਪ੍ਰਦਰਸ਼ਿਤ ਨਹੀਂ ਕੀਤੀਆਂ ਜਾਣਗੀਆਂ, ਇਸ ਲਈ ਜਦੋਂ ਤੁਹਾਨੂੰ ਨੋਟਬੁੱਕ ਚਲਾਉਣ ਦੀ ਲੋੜ ਹੋਵੇ, ਉਸੇ ਨੂੰ ਵੱਖ-ਵੱਖ VS ਕੋਡ ਵਿਚ ਪਾਇਥਨ ਕਰਨਲ ਚਲਾਕੇ ਚਲਾਓ
## ਹੋਰ ਕਰਕੁਲਮ
## ਹੋਰ ਕਰਿਕੁਲਮ
ਸਾਡੀ ਟੀਮ ਹੋਰ ਕਰੀਕੁਲਮ ਵੀ ਉਤਪਾਦਿਤ ਕਰਦੀ ਹੈ! ਵੇਖੋ:
ਸਾਡੀ ਟੀਮ ਹੋਰ ਕਰਿਕੁਲਮ ਵੀ ਤਿਆਰ ਕਰਦੀ ਹੈ! ਦੇਖੋ:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j beginners ਲਈ](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js for Beginners](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain for Beginners](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### ਐਜ਼ੂਰ / ਐਜ / MCP / ਏਜੰਟ
### ਐਜ਼ੂਰ / ਏਜ / MCP / ਏਜੰਟਸ
[![AZD for Beginners](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI for Beginners](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP for Beginners](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
@ -206,7 +219,7 @@
---
### ਜੇਨੇਰੇਟਿਵ AI ਸਿਰੀਜ਼
### ਜਨੇਰੇਟਿਵ AI ਸੀਰੀਜ਼
[![Generative AI for Beginners](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Generative AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Generative AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
@ -214,7 +227,7 @@
---
### ਮੁੱਖ ਸਿੱਖਿਆ
### ਕੋਰ ਸਿੱਖਿਆ
[![ML for Beginners](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Data Science for Beginners](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI for Beginners](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
@ -225,27 +238,27 @@
---
### ਕੋਪਾਈਲਟ ਸਿਰੀਜ਼
### ਕਾਪਿਲਟ ਸੀਰੀਜ਼
[![Copilot for AI Paired Programming](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot for C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot Adventure](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## ਸਹਾਇਤਾ ਪ੍ਰਾਪਤ ਕਰੋ
## ਮਦਦ ਪ੍ਰਾਪਤ ਕਰਨਾ
**ਮੁਸ਼ਕਲਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰ ਰਹੇ ਹੋ?** ਆਮ ਸਮੱਸਿਆਵਾਂ ਲਈ ਹੱਲਾਂ ਦੇਖਣ ਲਈ ਸਾਡਾ [ਟ੍ਰਬਲਸ਼ੂਟਿੰਗ ਗਾਈਡ](TROUBLESHOOTING.md) ਚੈੱਕ ਕਰੋ।
**ਮੁਸ਼ਕਲਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰ ਰਹੇ ਹੋ?** ਆਮ ਸਮੱਸਿਆਵਾਂ ਦੇ ਹੱਲ ਲਈ ਸਾਡੀ [ਟ੍ਰਬਲਸ਼ੂਟਿੰਗ ਗਾਈਡ](TROUBLESHOOTING.md) ਚੈੱਕ ਕਰੋ।
ਜੇ ਤੁਹਾਨੂੰ ਅਟਕਾਅ ਆ ਜਾਂਦਾ ਹੈ ਜਾਂ AI ਐਪ ਬਣਾਉਣ ਬਾਰੇ ਕੋਈ ਪ੍ਰਸ਼ਨ ਹਨ, ਤਾਂ MCP ਬਾਰੇ ਵਿਚਾਰਚਾਰ ਵਿੱਚ ਸਾਥੀਆਂ ਸਿਖਣ ਵਾਲਿਆਂ ਅਤੇ ਅਨੁਭਵੀ ਡਿਵੈਲਪਰਾਂ ਨਾਲ ਸ਼ਾਮਲ ਹੋਵੋ। ਇਹ ਇੱਕ ਸਹਿਯੋਗੀ ਕਮੇਉਨਿਟੀ ਹੈ ਜਿੱਥੇ ਪ੍ਰਸ਼ਨ ਸੁਆਗਤ ਯੋਗ ਹਨ ਅਤੇ ਗਿਆਨ ਖੁੱਲ ਕੇ ਸਾਂਝਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
ਜੇਕਰ ਤੁਸੀਂ ਫਸ ਜਾਂਦੇ ਹੋ ਜਾਂ AI ਐਪਸ ਬਣਾਉਣ ਬਾਰੇ ਕੋਈ ਸਵਾਲ ਹੋਵੇ। MCP ਬਾਰੇ ਚਰਚਾ ਵਿੱਚ ਹੋਰ ਸਿੱਖਣ ਵਾਲੇ ਅਤੇ ਤਜ਼ਰਬੇਕਾਰ ਵਿਕਾਸਕਾਰਾਂ ਨਾਲ ਜੁੜੋ। ਇਹ ਇੱਕ ਸਮਰਥਕ ਸਮੁਦਾਇ ਹੈ ਜਿੱਥੇ ਸਵਾਲਾਂ ਦਾ ਸਵਾਗਤ ਹੈ ਅਤੇ ਗਿਆਨ ਖੁੱਲ੍ਹ ਕੇ ਸਾਂਝਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
ਜੇ ਤੁਹਾਡੇ ਕੋਲ ਉਤਪਾਦ ਫੀਡਬੈਕ ਹੈ ਜਾਂ ਬਣਾਉਂਦੇ ਸਮੇਂ ਕੋਈ ਗਲਤੀਆਂ ਹਨ ਤਾਂ ਜਾਓ:
ਜੇ ਤੁਹਾਡੇ ਕੋਲ ਉਤਪਾਦ ਫੀਡਬੈਕ ਜਾਂ ਗਲਤੀਆਂ ਹਨ ਤਾਂ ਕਿਰਪਾ ਕਰਕੇ ਡਿਵੈਲਪਮੈਂਟ ਦੌਰਾਨ ਇੱਥੇ ਜਾਓ:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**ਤਿਆਨ ਦਿਵਾਉਂਦਾ ਬਿਆਨ**:
ਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਸਹਾਇਤਾ ਨਾਲ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਪਣ ਲਈ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਰੱਖੋ ਕਿ ਆਟੋਮੈਟਿਕ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਣਸਹੀਤਤਾ ਹੋ ਸਕਦੀ ਹੈ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਆਪਣੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਹੀ ਅਧਿਕਾਰਕ ਸਰੋਤ ਵਜੋਂ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਵਿਸ਼ੇਸ਼ਜ ਗਿਆਨ ਵਾਲੇ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੇ ਉਪਯੋਗ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੀਆਂ ਕਿਸੇ ਵੀ ਭੁੱਲ-ਭੁਲਾਇਆ ਜਾਂ ਗਲਤਫਹਮੀਆਂ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।
**ਅਸਵੀਕਾਰੋਪੱਤਰ**:
ਸ ਦਸਤਾਵੇਜ਼ ਦਾ ਅਨੁਵਾਦ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਨਾਲ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਤਾ ਲਈ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਵਿੱਚ ਰੱਖੋ ਕਿ ਸਵੈਚਾਲਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸਹੀਤਾਵਾਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਆਪਣੇ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਹੀ ਪ੍ਰਮਾਣਿਕ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਆਹਮ ਜਾਣਕਾਰੀ ਲਈ ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਿਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਉੱਦਮ ਹੋਣ ਵਾਲੀਆਂ ਕਿਸੇ ਵੀ ਗਲਤਫਹਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆਵਾਂ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@
ਨਿਤਿਆ ਨਰਸਿੰਮਨ, ਕਲਾਕਾਰ
![ਰੋਡਮੈਪ ਸਕੈਚਨੋਟ](../../../translated_images/pa/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![ਰੋਡਮੈਪ ਸਕੈਚਨੋਟ](../../../translated_images/pa/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "pt-BR"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T09:23:54+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "pt-BR"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-27T17:18:23+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "pt-BR"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T09:24:23+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "pt-BR"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:25:36+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "pt-BR"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T09:25:15+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "pt-BR"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-06T08:29:42+00:00",
@ -360,8 +378,8 @@
"language_code": "pt-BR"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T08:04:45+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T09:30:29+00:00",
"source_file": "README.md",
"language_code": "pt-BR"
},

@ -6,7 +6,7 @@
---
[![Vídeo Definindo Ciência de Dados](../../../../translated_images/pt-BR/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Vídeo Definindo Ciência de Dados](../../../../translated_images/pt-BR/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Quiz pré-aula](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Se quisermos ser ainda mais detalhados, podemos traçar o tempo gasto em cada m
Neste desafio, tentaremos encontrar conceitos relevantes para o campo de Ciência de Dados analisando textos. Vamos pegar um artigo da Wikipedia sobre Ciência de Dados, baixar e processar o texto e, em seguida, construir uma nuvem de palavras como esta:
![Nuvem de Palavras para Ciência de Dados](../../../../translated_images/pt-BR/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Nuvem de Palavras para Ciência de Dados](../../../../translated_images/pt-BR/ds_wordcloud.664a7c07dca57de0.webp)
Visite [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') para ler o código. Você também pode executar o código e ver como ele realiza todas as transformações de dados em tempo real.

@ -5,13 +5,13 @@
"source": [
"# Desafio: Analisando Texto sobre Ciência de Dados\n",
"\n",
"Neste exemplo, vamos fazer um exercício simples que cobre todas as etapas de um processo tradicional de ciência de dados. Você não precisa escrever nenhum código, basta clicar nas células abaixo para executá-las e observar o resultado. Como desafio, você é incentivado a testar este código com diferentes dados.\n",
"Neste exemplo, vamos fazer um exercício simples que cobre todas as etapas de um processo tradicional de ciência de dados. Você não precisa escrever nenhum código, pode apenas clicar nas células abaixo para executá-las e observar o resultado. Como desafio, você é incentivado a testar este código com dados diferentes.\n",
"\n",
"## Objetivo\n",
"\n",
"Nesta lição, discutimos diferentes conceitos relacionados à Ciência de Dados. Vamos tentar descobrir mais conceitos relacionados fazendo uma **mineração de texto**. Começaremos com um texto sobre Ciência de Dados, extrairemos palavras-chave dele e, em seguida, tentaremos visualizar o resultado.\n",
"Nesta lição, temos discutido diferentes conceitos relacionados à Ciência de Dados. Vamos tentar descobrir mais conceitos relacionados fazendo algumas **mineração de texto**. Começaremos com um texto sobre Ciência de Dados, extrairemos palavras-chave dele e, em seguida, tentaremos visualizar o resultado.\n",
"\n",
"Como texto, utilizarei a página sobre Ciência de Dados da Wikipedia:\n"
"Como texto, usarei a página sobre Ciência de Dados da Wikipedia:\n"
],
"metadata": {}
},
@ -32,7 +32,7 @@
{
"cell_type": "markdown",
"source": [
"## Etapa 1: Obtendo os Dados\n",
"## Step 1: Obtendo os Dados\n",
"\n",
"O primeiro passo em todo processo de ciência de dados é obter os dados. Usaremos a biblioteca `requests` para isso:\n"
],
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## Etapa 2: Transformando os Dados\n",
"## Passo 2: Transformando os Dados\n",
"\n",
"A próxima etapa é converter os dados para um formato adequado para processamento. No nosso caso, baixamos o código-fonte HTML da página e precisamos convertê-lo em texto simples.\n",
"O próximo passo é converter os dados para a forma adequada para processamento. No nosso caso, baixamos o código-fonte HTML da página e precisamos convertê-lo em texto simples.\n",
"\n",
"Existem várias maneiras de fazer isso. Vamos usar o objeto [HTMLParser](https://docs.python.org/3/library/html.parser.html) embutido mais simples do Python. Precisamos criar uma subclasse da classe `HTMLParser` e definir o código que coletará todo o texto dentro das tags HTML, exceto as tags `<script>` e `<style>`.\n"
"Existem várias maneiras de fazer isso. Usaremos o [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), uma biblioteca Python popular para parsing de HTML. O BeautifulSoup nos permite direcionar elementos HTML específicos, para que possamos focar no conteúdo principal do artigo da Wikipedia e reduzir alguns menus de navegação, barras laterais, rodapés e outros conteúdos irrelevantes (embora algum texto padrão ainda possa permanecer).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Primeiro, precisamos instalar a biblioteca BeautifulSoup para análise de HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Etapa 3: Obtendo Insights\n",
"## Step 3: Obtendo Insights\n",
"\n",
"A etapa mais importante é transformar nossos dados em uma forma da qual possamos extrair insights. No nosso caso, queremos extrair palavras-chave do texto e identificar quais palavras-chave são mais relevantes.\n",
"A etapa mais importante é transformar nossos dados em alguma forma da qual possamos extrair insights. No nosso caso, queremos extrair palavras-chave do texto e ver quais palavras-chave são mais significativas.\n",
"\n",
"Usaremos uma biblioteca Python chamada [RAKE](https://github.com/aneesha/RAKE) para a extração de palavras-chave. Primeiro, vamos instalar essa biblioteca caso ela não esteja presente:\n"
"Usaremos a biblioteca Python chamada [RAKE](https://github.com/aneesha/RAKE) para extração de palavras-chave. Primeiro, vamos instalar essa biblioteca caso ela não esteja presente: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"A funcionalidade principal está disponível no objeto `Rake`, que podemos personalizar usando alguns parâmetros. No nosso caso, definiremos o comprimento mínimo de uma palavra-chave como 5 caracteres, a frequência mínima de uma palavra-chave no documento como 3 e o número máximo de palavras em uma palavra-chave como 2. Sinta-se à vontade para experimentar outros valores e observar o resultado.\n"
"A funcionalidade principal está disponível a partir do objeto `Rake`, que podemos personalizar utilizando alguns parâmetros. No nosso caso, configuraremos o comprimento mínimo de uma palavra-chave para 5 caracteres, a frequência mínima de uma palavra-chave no documento para 3 e o número máximo de palavras em uma palavra-chave para 2. Sinta-se à vontade para experimentar com outros valores e observar o resultado.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Obtivemos uma lista de termos juntamente com o grau de importância associado. Como você pode ver, as disciplinas mais relevantes, como aprendizado de máquina e big data, estão presentes nas primeiras posições da lista.\n",
"Obtivemos uma lista de termos junto com o grau de importância associado. Como você pode ver, as disciplinas mais relevantes, como aprendizado de máquina e big data, estão presentes na lista nas posições superiores.\n",
"\n",
"## Etapa 4: Visualizando o Resultado\n",
"## Passo 4: Visualizando o Resultado\n",
"\n",
"As pessoas interpretam os dados melhor em forma visual. Por isso, muitas vezes faz sentido visualizar os dados para obter alguns insights. Podemos usar a biblioteca `matplotlib` em Python para plotar uma distribuição simples das palavras-chave com sua relevância:\n"
"As pessoas conseguem interpretar melhor os dados na forma visual. Portanto, muitas vezes faz sentido visualizar os dados para obter algumas percepções. Podemos usar a biblioteca `matplotlib` em Python para plotar uma distribuição simples das palavras-chave com sua relevância:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Há, no entanto, uma maneira ainda melhor de visualizar frequências de palavras - usando **Word Cloud**. Precisaremos instalar outra biblioteca para plotar a nuvem de palavras a partir da nossa lista de palavras-chave.\n"
"Há, no entanto, uma forma ainda melhor de visualizar a frequência das palavras - usando **Nuvem de Palavras**. Precisaremos instalar outra biblioteca para plotar a nuvem de palavras a partir da nossa lista de palavras-chave.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"O objeto `WordCloud` é responsável por receber o texto original ou uma lista pré-computada de palavras com suas frequências, e retorna uma imagem, que pode então ser exibida usando `matplotlib`:\n"
"O objeto `WordCloud` é responsável por receber texto original ou uma lista pré-computada de palavras com suas frequências, e retorna uma imagem, que pode ser exibida usando `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Podemos também passar o texto original para `WordCloud` - vamos ver se conseguimos obter um resultado semelhante:\n"
"Também podemos passar o texto original para `WordCloud` - vamos ver se conseguimos obter um resultado semelhante:\n"
],
"metadata": {}
},
@ -372,9 +370,9 @@
{
"cell_type": "markdown",
"source": [
"Você pode ver que a nuvem de palavras agora está mais impressionante, mas também contém muito ruído (por exemplo, palavras não relacionadas como `Retrieved on`). Além disso, obtemos menos palavras-chave que consistem em duas palavras, como *cientista de dados* ou *ciência da computação*. Isso ocorre porque o algoritmo RAKE faz um trabalho muito melhor ao selecionar boas palavras-chave a partir do texto. Este exemplo ilustra a importância do pré-processamento e limpeza de dados, pois uma imagem clara no final nos permitirá tomar decisões melhores.\n",
"Você pode ver que a nuvem de palavras agora parece mais impressionante, mas também contém muito ruído (por exemplo, palavras não relacionadas como `Retrieved on`). Além disso, obtemos menos palavras-chave que consistem em duas palavras, como *data scientist* ou *computer science*. Isso ocorre porque o algoritmo RAKE faz um trabalho muito melhor na seleção de boas palavras-chave a partir do texto. Este exemplo ilustra a importância do pré-processamento e limpeza de dados, pois uma imagem clara no final nos permitirá tomar melhores decisões.\n",
"\n",
"Neste exercício, passamos por um processo simples de extração de algum significado do texto da Wikipedia, na forma de palavras-chave e nuvem de palavras. Este exemplo é bastante simples, mas demonstra bem todos os passos típicos que um cientista de dados seguirá ao trabalhar com dados, começando pela aquisição de dados até a visualização.\n",
"Neste exercício, percorremos um processo simples de extrair algum significado do texto da Wikipedia, na forma de palavras-chave e nuvem de palavras. Este exemplo é bastante simples, mas demonstra bem todas as etapas típicas que um cientista de dados realizará ao trabalhar com dados, começando pela aquisição dos dados até a visualização.\n",
"\n",
"Em nosso curso, discutiremos todos esses passos em detalhes.\n"
],
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Aviso Legal**: \nEste documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automatizadas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autoritativa. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações equivocadas decorrentes do uso desta tradução.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Aviso Legal**: \nEste documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se a tradução profissional feita por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações equivocadas decorrentes do uso desta tradução.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:29:27+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "br"
}
},
"nbformat": 4,

@ -5,13 +5,13 @@
"source": [
"# Desafio: Analisando Texto sobre Ciência de Dados\n",
"\n",
"> *Neste notebook, experimentamos usar diferentes URLs - artigo da Wikipedia sobre Aprendizado de Máquina. Você pode perceber que, ao contrário de Ciência de Dados, este artigo contém muitos termos, tornando a análise mais problemática. Precisamos encontrar outra maneira de limpar os dados após a extração de palavras-chave, para eliminar algumas combinações de palavras frequentes, mas sem significado.*\n",
"> *Neste notebook, experimentamos o uso de diferentes URLs - artigo da Wikipedia sobre Aprendizado de Máquina. Você pode ver que, ao contrário de Ciência de Dados, este artigo contém muitos termos, o que torna a análise mais problemática. Precisamos encontrar outra forma de limpar os dados após a extração de palavras-chave, para nos livrar de algumas combinações de palavras frequentes, mas sem significado.*\n",
"\n",
"Neste exemplo, vamos fazer um exercício simples que cobre todas as etapas de um processo tradicional de ciência de dados. Você não precisa escrever nenhum código, basta clicar nas células abaixo para executá-las e observar o resultado. Como desafio, você é incentivado a testar este código com dados diferentes.\n",
"Neste exemplo, vamos fazer um exercício simples que cobre todas as etapas de um processo tradicional de ciência de dados. Você não precisa escrever nenhum código, pode apenas clicar nas células abaixo para executá-las e observar o resultado. Como desafio, você é incentivado a testar este código com dados diferentes.\n",
"\n",
"## Objetivo\n",
"\n",
"Nesta lição, discutimos diferentes conceitos relacionados à Ciência de Dados. Vamos tentar descobrir mais conceitos relacionados fazendo um pouco de **mineração de texto**. Começaremos com um texto sobre Ciência de Dados, extrairemos palavras-chave dele e, em seguida, tentaremos visualizar o resultado.\n",
"Nesta lição, temos discutido diferentes conceitos relacionados à Ciência de Dados. Vamos tentar descobrir mais conceitos relacionados fazendo uma **mineração de texto**. Começaremos com um texto sobre Ciência de Dados, extrairemos palavras-chave dele e então tentaremos visualizar o resultado.\n",
"\n",
"Como texto, usarei a página sobre Ciência de Dados da Wikipedia:\n"
],
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Etapa 1: Obtendo os Dados\n",
"## Passo 1: Obter os Dados\n",
"\n",
"O primeiro passo em todo processo de ciência de dados é obter os dados. Usaremos a biblioteca `requests` para isso:\n"
"O primeiro passo em todo processo de ciência de dados é obter os dados. Vamos usar a biblioteca `requests` para fazer isso:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Etapa 2: Transformando os Dados\n",
"\n",
"O próximo passo é converter os dados para um formato adequado para processamento. No nosso caso, baixamos o código-fonte HTML da página e precisamos convertê-lo em texto simples.\n",
"O próximo passo é converter os dados para a forma adequada para o processamento. No nosso caso, baixamos o código-fonte HTML da página e precisamos convertê-lo em texto simples.\n",
"\n",
"Existem várias maneiras de fazer isso. Vamos usar o objeto [HTMLParser](https://docs.python.org/3/library/html.parser.html) embutido mais simples do Python. Precisamos criar uma subclasse da classe `HTMLParser` e definir o código que coletará todo o texto dentro das tags HTML, exceto as tags `<script>` e `<style>`.\n"
"Existem várias maneiras de fazer isso. Usaremos o [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), uma biblioteca popular em Python para análise de HTML. O BeautifulSoup nos permite direcionar elementos HTML específicos, para que possamos focar no conteúdo principal do artigo da Wikipedia e reduzir alguns menus de navegação, barras laterais, rodapés e outros conteúdos irrelevantes (embora algum texto padrão ainda possa permanecer).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Primeiro, precisamos instalar a biblioteca BeautifulSoup para análise de HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Etapa 3: Obtendo Insights\n",
"## Step 3: Obtendo Insights\n",
"\n",
"A etapa mais importante é transformar nossos dados em algo do qual possamos extrair insights. No nosso caso, queremos extrair palavras-chave do texto e identificar quais palavras-chave são mais relevantes.\n",
"A etapa mais importante é transformar nossos dados em alguma forma da qual possamos extrair insights. No nosso caso, queremos extrair palavras-chave do texto e ver quais palavras-chave são mais significativas.\n",
"\n",
"Usaremos uma biblioteca Python chamada [RAKE](https://github.com/aneesha/RAKE) para a extração de palavras-chave. Primeiro, vamos instalar essa biblioteca caso ela não esteja presente:\n"
"Usaremos a biblioteca Python chamada [RAKE](https://github.com/aneesha/RAKE) para extração de palavras-chave. Primeiro, vamos instalar essa biblioteca caso ela não esteja presente: \n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Obtivemos uma lista de termos juntamente com o grau de importância associado. Como você pode ver, as disciplinas mais relevantes, como aprendizado de máquina e big data, estão presentes nas primeiras posições da lista.\n",
"\n",
"## Etapa 4: Visualizando o Resultado\n",
"\n",
"As pessoas conseguem interpretar os dados melhor em forma visual. Por isso, muitas vezes faz sentido visualizar os dados para extrair alguns insights. Podemos usar a biblioteca `matplotlib` em Python para plotar uma distribuição simples das palavras-chave com suas respectivas relevâncias:\n"
"\r\n",
"Obtivemos uma lista de termos juntamente com o grau associado de importância. Como você pode ver, as disciplinas mais relevantes, como aprendizado de máquina e big data, estão presentes na lista nas posições superiores.\r\n",
"\r\n",
"## Passo 4: Visualizando o Resultado\r\n",
"\r\n",
"As pessoas conseguem interpretar melhor os dados na forma visual. Portanto, frequentemente faz sentido visualizar os dados para obter alguns insights. Podemos usar a biblioteca `matplotlib` em Python para traçar uma distribuição simples das palavras-chave com sua relevância:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"Há, no entanto, uma maneira ainda melhor de visualizar frequências de palavras - usando **Word Cloud**. Precisaremos instalar outra biblioteca para plotar a nuvem de palavras a partir da nossa lista de palavras-chave.\n"
"Há, no entanto, uma maneira ainda melhor de visualizar frequências de palavras - usando **Nuvem de Palavras**. Precisaremos instalar outra biblioteca para plotar a nuvem de palavras a partir da nossa lista de palavras-chave.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"O objeto `WordCloud` é responsável por receber o texto original ou uma lista pré-computada de palavras com suas frequências, e retorna uma imagem, que pode então ser exibida usando `matplotlib`:\n"
"O objeto `WordCloud` é responsável por receber texto original ou uma lista pré-calculada de palavras com suas frequências e retorna uma imagem, que pode então ser exibida usando `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"Podemos também passar o texto original para `WordCloud` - vamos ver se conseguimos obter um resultado semelhante:\n"
"Também podemos passar o texto original para `WordCloud` - vamos ver se conseguimos obter um resultado semelhante:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"Você pode ver que a nuvem de palavras agora está mais impressionante, mas também contém muito ruído (por exemplo, palavras não relacionadas como `Retrieved on`). Além disso, obtemos menos palavras-chave que consistem em duas palavras, como *cientista de dados* ou *ciência da computação*. Isso ocorre porque o algoritmo RAKE faz um trabalho muito melhor ao selecionar boas palavras-chave a partir do texto. Este exemplo ilustra a importância do pré-processamento e limpeza de dados, pois uma imagem clara no final nos permitirá tomar decisões melhores.\n",
"Você pode ver que a nuvem de palavras agora parece mais impressionante, mas ela também contém muito ruído (por exemplo, palavras não relacionadas como `Retrieved on`). Além disso, obtemos menos palavras-chave que consistem em duas palavras, como *data scientist* ou *computer science*. Isso ocorre porque o algoritmo RAKE faz um trabalho muito melhor na seleção de boas palavras-chave a partir do texto. Este exemplo ilustra a importância do pré-processamento e limpeza dos dados, pois uma imagem clara no final nos permitirá tomar decisões melhores.\n",
"\n",
"Neste exercício, passamos por um processo simples de extração de algum significado do texto da Wikipedia, na forma de palavras-chave e nuvem de palavras. Este exemplo é bastante simples, mas demonstra bem todos os passos típicos que um cientista de dados seguirá ao trabalhar com dados, começando pela aquisição de dados até a visualização.\n",
"Neste exercício, passamos por um processo simples de extração de algum significado a partir do texto da Wikipedia, na forma de palavras-chave e nuvem de palavras. Este exemplo é bastante simples, mas demonstra bem todas as etapas típicas que um cientista de dados seguirá ao trabalhar com dados, começando pela aquisição dos dados até a visualização.\n",
"\n",
"Em nosso curso, discutiremos todos esses passos em detalhes.\n"
"Em nosso curso, discutiremos todas essas etapas em detalhes. \n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Aviso Legal**: \nEste documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automatizadas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autoritativa. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações equivocadas decorrentes do uso desta tradução.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Aviso Legal**: \nEste documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos empenhemos para garantir a precisão, por favor, esteja ciente de que traduções automatizadas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se a tradução profissional por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes do uso desta tradução.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +525,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:40:30+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "br"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
A Teoria da Estatística e Probabilidade são duas áreas altamente relacionadas da Matemática que são extremamente relevantes para a Ciência de Dados. É possível trabalhar com dados sem um conhecimento profundo de matemática, mas ainda assim é melhor conhecer pelo menos alguns conceitos básicos. Aqui apresentaremos uma breve introdução que ajudará você a começar.
[![Vídeo de Introdução](../../../../translated_images/pt-BR/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Vídeo de Introdução](../../../../translated_images/pt-BR/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Quiz pré-aula](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ A distribuição discreta mais conhecida é a **distribuição uniforme**, na qu
Só podemos falar sobre a probabilidade de uma variável estar em um determinado intervalo de valores, por exemplo, P(t<sub>1</sub>≤X<t<sub>2</sub>). Nesse caso, a distribuição de probabilidade é descrita por uma **função densidade de probabilidade** p(x), tal que
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/pt-BR/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/pt-BR/probability-density.a8aad29f17a14afb.webp)
Um análogo contínuo da distribuição uniforme é chamado de **uniforme contínua**, que é definido em um intervalo finito. A probabilidade de o valor X estar em um intervalo de comprimento l é proporcional a l, e aumenta até 1.
@ -73,11 +73,11 @@ Quando analisamos dados do mundo real, eles frequentemente não são variáveis
Aqui está o box plot mostrando média, mediana e quartis para nossos dados:
![Box Plot de Peso](../../../../translated_images/pt-BR/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Box Plot de Peso](../../../../translated_images/pt-BR/weight-boxplot.1dbab1c03af26f8a.webp)
Como nossos dados contêm informações sobre diferentes **funções** de jogadores, também podemos fazer o box plot por função - isso nos permitirá ter uma ideia de como os valores dos parâmetros diferem entre as funções. Desta vez, consideraremos a altura:
![Box plot por função](../../../../translated_images/pt-BR/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Box plot por função](../../../../translated_images/pt-BR/boxplot_byrole.036b27a1c3f52d42.webp)
Este diagrama sugere que, em média, a altura dos jogadores de primeira base é maior que a altura dos jogadores de segunda base. Mais tarde nesta lição, aprenderemos como podemos testar essa hipótese de forma mais formal e como demonstrar que nossos dados são estatisticamente significativos para mostrar isso.
@ -85,7 +85,7 @@ Este diagrama sugere que, em média, a altura dos jogadores de primeira base é
Para ver qual é a distribuição de nossos dados, podemos plotar um gráfico chamado **histograma**. O eixo X conteria um número de diferentes intervalos de peso (os chamados **bins**), e o eixo vertical mostraria o número de vezes que nossa amostra de variável aleatória esteve dentro de um determinado intervalo.
![Histograma de dados do mundo real](../../../../translated_images/pt-BR/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Histograma de dados do mundo real](../../../../translated_images/pt-BR/weight-histogram.bfd00caf7fc30b14.webp)
A partir deste histograma, você pode ver que todos os valores estão centrados em torno de um certo peso médio, e quanto mais nos afastamos desse peso - menos pesos desse valor são encontrados. Ou seja, é muito improvável que o peso de um jogador de beisebol seja muito diferente do peso médio. A variância dos pesos mostra a extensão em que os pesos provavelmente diferem da média.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
Se plotarmos o histograma das amostras geradas, veremos uma imagem muito semelhante à mostrada acima. E se aumentarmos o número de amostras e o número de bins, podemos gerar uma imagem de uma distribuição normal mais próxima do ideal:
![Distribuição Normal com média=0 e desvio padrão=1](../../../../translated_images/pt-BR/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Distribuição Normal com média=0 e desvio padrão=1](../../../../translated_images/pt-BR/normal-histogram.dfae0d67c202137d.webp)
*Distribuição Normal com média=0 e desvio padrão=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
No nosso caso, o valor 0.53 indica que há alguma correlação entre o peso e a altura de uma pessoa. Também podemos fazer o gráfico de dispersão de um valor contra o outro para ver a relação visualmente:
![Relação entre peso e altura](../../../../translated_images/pt-BR/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Relação entre peso e altura](../../../../translated_images/pt-BR/weight-height-relationship.3f06bde4ca2aba99.webp)
> Mais exemplos de correlação e covariância podem ser encontrados no [notebook complementar](notebook.ipynb).

@ -1,6 +1,6 @@
# Introdução à Ciência de Dados
![dados em ação](../../../translated_images/pt-BR/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![dados em ação](../../../translated_images/pt-BR/data.48e22bb7617d8d92.webp)
> Foto por <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> no <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Nestes módulos, você descobrirá como a Ciência de Dados é definida e aprenderá sobre as considerações éticas que devem ser levadas em conta por um cientista de dados. Você também aprenderá como os dados são definidos e terá uma introdução a estatística e probabilidade, os principais domínios acadêmicos da Ciência de Dados.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Trabalhando com Python - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
[![Vídeo de Introdução](../../../../translated_images/pt-BR/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Vídeo de Introdução](../../../../translated_images/pt-BR/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Embora bancos de dados ofereçam maneiras muito eficientes de armazenar dados e consultá-los usando linguagens de consulta, a forma mais flexível de processar dados é escrever seu próprio programa para manipulá-los. Em muitos casos, realizar uma consulta em um banco de dados seria uma maneira mais eficaz. No entanto, em alguns casos, quando é necessário um processamento de dados mais complexo, isso não pode ser feito facilmente usando SQL.
O processamento de dados pode ser programado em qualquer linguagem de programação, mas existem certas linguagens que são mais adequadas para trabalhar com dados. Cientistas de dados geralmente preferem uma das seguintes linguagens:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Gráfico de Série Temporal](../../../../translated_images/pt-BR/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Gráfico de Série Temporal](../../../../translated_images/pt-BR/timeseries-1.80de678ab1cf727e.webp)
Agora suponha que, a cada semana, organizamos uma festa para amigos e levamos 10 pacotes adicionais de sorvete para a festa. Podemos criar outra série, indexada por semana, para demonstrar isso:
```python
@ -75,7 +75,7 @@ Quando somamos duas séries, obtemos o número total:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Gráfico de Série Temporal](../../../../translated_images/pt-BR/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Gráfico de Série Temporal](../../../../translated_images/pt-BR/timeseries-2.aae51d575c55181c.webp)
> **Nota** que não estamos usando a sintaxe simples `total_items+additional_items`. Se fizéssemos isso, receberíamos muitos valores `NaN` (*Not a Number*) na série resultante. Isso ocorre porque há valores ausentes para alguns pontos do índice na série `additional_items`, e somar `NaN` a qualquer coisa resulta em `NaN`. Assim, precisamos especificar o parâmetro `fill_value` durante a soma.
@ -84,7 +84,7 @@ Com séries temporais, também podemos **re-amostrar** a série com diferentes i
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Médias Mensais de Série Temporal](../../../../translated_images/pt-BR/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Médias Mensais de Série Temporal](../../../../translated_images/pt-BR/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -210,7 +210,7 @@ O primeiro problema em que vamos focar é o modelamento da propagação epidêmi
Como queremos demonstrar como lidar com dados, convidamos você a abrir [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) e lê-lo de cima a baixo. Você também pode executar as células e realizar alguns desafios que deixamos para você no final.
![Propagação da COVID](../../../../translated_images/pt-BR/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![Propagação da COVID](../../../../translated_images/pt-BR/covidspread.f3d131c4f1d260ab.webp)
> Se você não sabe como executar código no Jupyter Notebook, confira [este artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Um exemplo completo de análise deste conjunto de dados usando o serviço cognit
Abra [`notebook-papers.ipynb`](notebook-papers.ipynb) e leia-o de cima a baixo. Você também pode executar as células e realizar alguns desafios que deixamos para você no final.
![Tratamento Médico para COVID](../../../../translated_images/pt-BR/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Tratamento Médico para COVID](../../../../translated_images/pt-BR/covidtreat.b2ba59f57ca45fbc.webp)
## Processando Dados de Imagem

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# Trabalhando com Dados
![amor por dados](../../../translated_images/pt-BR/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![amor por dados](../../../translated_images/pt-BR/data-love.a22ef29e6742c852.webp)
> Foto por <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> no <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Nestas lições, você aprenderá algumas das maneiras de gerenciar, manipular e usar dados em aplicações. Você aprenderá sobre bancos de dados relacionais e não relacionais e como os dados podem ser armazenados neles. Aprenderá os fundamentos de trabalhar com Python para gerenciar dados e descobrirá algumas das muitas formas de usar Python para gerenciar e explorar dados.

@ -42,7 +42,7 @@ Crie um gráfico de dispersão básico para mostrar a relação entre o preço p
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/pt-BR/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/pt-BR/scatter1.5e1aa5fd6706c5d1.webp)
Agora, mostre os mesmos dados com um esquema de cores de mel para mostrar como o preço evolui ao longo dos anos. Você pode fazer isso adicionando um parâmetro 'hue' para mostrar a mudança ano após ano:
@ -51,7 +51,7 @@ Agora, mostre os mesmos dados com um esquema de cores de mel para mostrar como o
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/pt-BR/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/pt-BR/scatter2.c0041a58621ca702.webp)
Com essa mudança de esquema de cores, você pode ver claramente uma forte progressão ao longo dos anos em termos de preço do mel por libra. De fato, se você observar um conjunto de amostra nos dados para verificar (escolha um estado, como o Arizona, por exemplo), pode ver um padrão de aumento de preço ano após ano, com poucas exceções:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Você pode ver o tamanho dos pontos aumentando gradualmente.
![scatterplot 3](../../../../translated_images/pt-BR/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/pt-BR/scatter3.3c160a3d1dcb36b3.webp)
Isso é um caso simples de oferta e demanda? Devido a fatores como mudanças climáticas e colapso das colônias, há menos mel disponível para compra ano após ano, e, portanto, o preço aumenta?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Resposta: Sim, com algumas exceções em torno do ano de 2003:
![line chart 1](../../../../translated_images/pt-BR/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/pt-BR/line1.f36eb465229a3b1f.webp)
✅ Como o Seaborn está agregando dados em torno de uma linha, ele exibe "as múltiplas medições em cada valor de x, plotando a média e o intervalo de confiança de 95% em torno da média". [Fonte](https://seaborn.pydata.org/tutorial/relational.html). Esse comportamento demorado pode ser desativado adicionando `ci=None`.
@ -105,7 +105,7 @@ Pergunta: Bem, em 2003 também podemos ver um pico na oferta de mel? E se você
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/pt-BR/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/pt-BR/line2.a5b3493dc01058af.webp)
Resposta: Não exatamente. Se você observar a produção total, parece que ela realmente aumentou naquele ano específico, embora, de forma geral, a quantidade de mel sendo produzida esteja em declínio durante esses anos.
@ -130,7 +130,7 @@ sns.relplot(
```
Nesta visualização, você pode comparar o rendimento por colônia e o número de colônias ano após ano, lado a lado, com um wrap definido em 3 para as colunas:
![facet grid](../../../../translated_images/pt-BR/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/pt-BR/facet.6a34851dcd540050.webp)
Para este conjunto de dados, nada particularmente se destaca em relação ao número de colônias e seu rendimento, ano após ano e estado por estado. Existe uma maneira diferente de encontrar uma correlação entre essas duas variáveis?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/pt-BR/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/pt-BR/dual-line.a4c28ce659603fab.webp)
Embora nada salte aos olhos em torno do ano de 2003, isso nos permite terminar esta lição com uma nota um pouco mais feliz: embora o número de colônias esteja em declínio geral, ele está se estabilizando, mesmo que o rendimento por colônia esteja diminuindo.

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Aqui, você instala o pacote `ggplot2` e o importa para o ambiente de trabalho usando o comando `library("ggplot2")`. Para plotar qualquer gráfico no ggplot, a função `ggplot()` é usada, e você especifica o conjunto de dados, as variáveis x e y como atributos. Neste caso, usamos a função `geom_line()` porque queremos plotar um gráfico de linha.
![MaxWingspan-lineplot](../../../../../translated_images/pt-BR/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/pt-BR/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
O que você percebe imediatamente? Parece haver pelo menos um outlier - que envergadura impressionante! Uma envergadura de mais de 2000 centímetros equivale a mais de 20 metros - será que há Pterodáctilos em Minnesota? Vamos investigar.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Especificamos o ângulo no `theme` e definimos os rótulos dos eixos x e y em `xlab()` e `ylab()`, respectivamente. O `ggtitle()` dá um nome ao gráfico.
![MaxWingspan-lineplot-improved](../../../../../translated_images/pt-BR/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/pt-BR/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
Mesmo com a rotação dos rótulos ajustada para 45 graus, ainda há muitos para ler. Vamos tentar uma estratégia diferente: rotular apenas os outliers e definir os rótulos dentro do gráfico. Você pode usar um gráfico de dispersão para criar mais espaço para os rótulos:
@ -91,7 +91,7 @@ O que está acontecendo aqui? Você usou a função `geom_point()` para plotar p
O que você descobre?
![MaxWingspan-scatterplot](../../../../../translated_images/pt-BR/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/pt-BR/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## Filtre seus dados
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Criamos um novo dataframe `birds_filtered` e, em seguida, plotamos um gráfico de dispersão. Ao filtrar os outliers, seus dados agora estão mais coesos e compreensíveis.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/pt-BR/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/pt-BR/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
Agora que temos um conjunto de dados mais limpo, pelo menos em termos de envergadura, vamos descobrir mais sobre esses pássaros.
@ -152,7 +152,7 @@ birds_filtered %>% group_by(Category) %>%
```
No trecho a seguir, instalamos os pacotes [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) e [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) para ajudar a manipular e agrupar dados a fim de plotar um gráfico de barras empilhadas. Primeiro, agrupamos os dados pela `Categoria` do pássaro e, em seguida, resumimos as colunas `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Depois, plotamos o gráfico de barras usando o pacote `ggplot2`, especificando as cores para as diferentes categorias e os rótulos.
![Stacked bar chart](../../../../../translated_images/pt-BR/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/pt-BR/stacked-bar-chart.0c92264e89da7b39.webp)
Este gráfico de barras, no entanto, é ilegível porque há muitos dados não agrupados. Você precisa selecionar apenas os dados que deseja plotar, então vamos observar o comprimento dos pássaros com base em sua categoria.
@ -167,7 +167,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Primeiro, contamos os valores únicos na coluna `Categoria` e, em seguida, os classificamos em um novo dataframe `birds_count`. Esses dados classificados são então organizados no mesmo nível para que sejam plotados de forma ordenada. Usando o `ggplot2`, você então plota os dados em um gráfico de barras. O `coord_flip()` plota barras horizontais.
![category-length](../../../../../translated_images/pt-BR/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/pt-BR/category-length.7e34c296690e85d6.webp)
Este gráfico de barras mostra uma boa visão do número de pássaros em cada categoria. Em um piscar de olhos, você vê que o maior número de pássaros nesta região está na categoria Patos/Gansos/AvesAquáticas. Minnesota é a "terra dos 10.000 lagos", então isso não é surpreendente!
@ -190,7 +190,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
Agrupamos os dados `birds_filtered` por `Categoria` e, em seguida, plotamos um gráfico de barras.
![comparing data](../../../../../translated_images/pt-BR/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/pt-BR/comparingdata.f486a450d61c7ca5.webp)
Nada surpreendente aqui: beija-flores têm o menor ComprimentoMáximo em comparação com Pelicanos ou Gansos. É bom quando os dados fazem sentido lógico!
@ -202,7 +202,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/pt-BR/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/pt-BR/superimposed-values.5363f0705a1da416.webp)
## 🚀 Desafio

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![comprimento máximo por ordem](../../../../../translated_images/pt-BR/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![comprimento máximo por ordem](../../../../../translated_images/pt-BR/max-length-per-order.e5b283d952c78c12.webp)
Isso fornece uma visão geral da distribuição do comprimento corporal por ordem de pássaros, mas não é a maneira ideal de exibir distribuições reais. Essa tarefa geralmente é realizada criando um histograma.
@ -48,7 +48,7 @@ O `ggplot2` oferece ótimas maneiras de visualizar a distribuição de dados usa
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![distribuição em todo o conjunto de dados](../../../../../translated_images/pt-BR/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![distribuição em todo o conjunto de dados](../../../../../translated_images/pt-BR/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
Como você pode ver, a maioria dos 400+ pássaros neste conjunto de dados está na faixa de menos de 2000 para sua massa corporal máxima. Obtenha mais informações sobre os dados alterando o parâmetro `bins` para um número maior, algo como 30:
@ -56,7 +56,7 @@ Como você pode ver, a maioria dos 400+ pássaros neste conjunto de dados está
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![distribuição-30bins](../../../../../translated_images/pt-BR/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![distribuição-30bins](../../../../../translated_images/pt-BR/distribution-30bins.6a3921ea7a421bf7.webp)
Este gráfico mostra a distribuição de forma um pouco mais detalhada. Um gráfico menos inclinado para a esquerda poderia ser criado garantindo que você selecione apenas dados dentro de um determinado intervalo:
@ -68,7 +68,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![histograma filtrado](../../../../../translated_images/pt-BR/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![histograma filtrado](../../../../../translated_images/pt-BR/filtered-histogram.6bf5d2bfd8253322.webp)
✅ Experimente outros filtros e pontos de dados. Para ver a distribuição completa dos dados, remova o filtro `['MaxBodyMass']` para mostrar distribuições rotuladas.
@ -82,7 +82,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Parece haver uma correlação esperada entre esses dois elementos ao longo de um eixo esperado, com um ponto de convergência particularmente forte:
![gráfico 2d](../../../../../translated_images/pt-BR/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![gráfico 2d](../../../../../translated_images/pt-BR/2d-plot.c504786f439bd7eb.webp)
Os histogramas funcionam bem por padrão para dados numéricos. E se você precisar ver distribuições de acordo com dados textuais?
## Explore o conjunto de dados para distribuições usando dados textuais
@ -113,7 +113,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![envergadura e status de conservação](../../../../../translated_images/pt-BR/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![envergadura e status de conservação](../../../../../translated_images/pt-BR/wingspan-conservation-collation.4024e9aa6910866a.webp)
Não parece haver uma boa correlação entre envergadura mínima e status de conservação. Teste outros elementos do conjunto de dados usando este método. Você encontra alguma correlação?
@ -127,7 +127,7 @@ Vamos trabalhar com gráficos de densidade agora!
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![gráfico de densidade](../../../../../translated_images/pt-BR/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![gráfico de densidade](../../../../../translated_images/pt-BR/density-plot.675ccf865b76c690.webp)
Você pode ver como o gráfico reflete o anterior para os dados de envergadura mínima; é apenas um pouco mais suave. Se você quisesse revisitar aquela linha irregular de MaxBodyMass no segundo gráfico que construiu, poderia suavizá-la muito bem recriando-a usando este método:
@ -135,7 +135,7 @@ Você pode ver como o gráfico reflete o anterior para os dados de envergadura m
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![densidade de massa corporal](../../../../../translated_images/pt-BR/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![densidade de massa corporal](../../../../../translated_images/pt-BR/bodymass-smooth.d31ce526d82b0a1f.webp)
Se você quisesse uma linha suave, mas não muito suave, edite o parâmetro `adjust`:
@ -143,7 +143,7 @@ Se você quisesse uma linha suave, mas não muito suave, edite o parâmetro `adj
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![massa corporal menos suave](../../../../../translated_images/pt-BR/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![massa corporal menos suave](../../../../../translated_images/pt-BR/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ Leia sobre os parâmetros disponíveis para este tipo de gráfico e experimente!
@ -153,7 +153,7 @@ Este tipo de gráfico oferece visualizações explicativas muito bonitas. Com al
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![massa corporal por ordem](../../../../../translated_images/pt-BR/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![massa corporal por ordem](../../../../../translated_images/pt-BR/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 Desafio

@ -83,7 +83,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Voilá, um gráfico de pizza mostrando as proporções desses dados de acordo com essas duas classes de cogumelos. É muito importante obter a ordem correta dos rótulos, especialmente aqui, então certifique-se de verificar a ordem com a qual o array de rótulos foi construído!
![gráfico de pizza](../../../../../translated_images/pt-BR/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![gráfico de pizza](../../../../../translated_images/pt-BR/pie1-wb.685df063673751f4.webp)
## Roscas!
@ -117,7 +117,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![gráfico de rosca](../../../../../translated_images/pt-BR/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![gráfico de rosca](../../../../../translated_images/pt-BR/donut-wb.34e6fb275da9d834.webp)
Este código usa duas bibliotecas - ggplot2 e webr. Usando a função PieDonut da biblioteca webr, podemos criar um gráfico de rosca facilmente!
@ -155,7 +155,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
Usando um gráfico de waffle, você pode ver claramente as proporções das cores dos chapéus neste conjunto de dados de cogumelos. Curiosamente, há muitos cogumelos com chapéus verdes!
![gráfico de waffle](../../../../../translated_images/pt-BR/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![gráfico de waffle](../../../../../translated_images/pt-BR/waffle.aaa75c5337735a6e.webp)
Nesta lição, você aprendeu três maneiras de visualizar proporções. Primeiro, você precisa agrupar seus dados em categorias e, em seguida, decidir qual é a melhor maneira de exibir os dados - pizza, rosca ou waffle. Todas são deliciosas e proporcionam ao usuário uma visão instantânea de um conjunto de dados.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/pt-BR/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/pt-BR/scatter1.86b8900674d88b26.webp)
Agora, mostre os mesmos dados com um esquema de cores de mel para ilustrar como o preço evolui ao longo dos anos. Você pode fazer isso adicionando um parâmetro 'scale_color_gradientn' para mostrar a mudança, ano após ano:
@ -52,7 +52,7 @@ Agora, mostre os mesmos dados com um esquema de cores de mel para ilustrar como
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/pt-BR/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/pt-BR/scatter2.4d1cbc693bad20e2.webp)
Com essa mudança no esquema de cores, você pode ver claramente uma forte progressão ao longo dos anos no preço do mel por libra. De fato, se você observar um conjunto de amostra nos dados para verificar (escolha um estado, como o Arizona, por exemplo), verá um padrão de aumento de preços ano após ano, com poucas exceções:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Você pode ver o tamanho dos pontos aumentando gradualmente.
![scatterplot 3](../../../../../translated_images/pt-BR/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/pt-BR/scatter3.722d21e6f20b3ea2.webp)
Isso é um caso simples de oferta e demanda? Devido a fatores como mudanças climáticas e colapso das colônias, há menos mel disponível para compra ano após ano, e, portanto, o preço aumenta?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Resposta: Sim, com algumas exceções por volta do ano de 2003:
![line chart 1](../../../../../translated_images/pt-BR/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/pt-BR/line1.299b576fbb2a59e6.webp)
Pergunta: Bem, em 2003 também podemos ver um aumento na oferta de mel? E se você observar a produção total ano após ano?
@ -106,7 +106,7 @@ Pergunta: Bem, em 2003 também podemos ver um aumento na oferta de mel? E se voc
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/pt-BR/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/pt-BR/line2.3b18fcda7176ceba.webp)
Resposta: Não exatamente. Se você observar a produção total, parece que ela realmente aumentou naquele ano específico, embora, de forma geral, a quantidade de mel produzida esteja em declínio durante esses anos.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
Nesta visualização, você pode comparar o rendimento por colônia e o número de colônias ano após ano, lado a lado, com um wrap configurado para 3 colunas:
![facet grid](../../../../../translated_images/pt-BR/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/pt-BR/facet.491ad90d61c2a7cc.webp)
Para este conjunto de dados, nada particularmente se destaca em relação ao número de colônias e seu rendimento, ano após ano e estado por estado. Existe uma maneira diferente de encontrar uma correlação entre essas duas variáveis?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/pt-BR/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/pt-BR/dual-line.fc4665f360a54018.webp)
Embora nada salte aos olhos em torno do ano de 2003, isso nos permite terminar esta lição com uma nota um pouco mais feliz: embora o número de colônias esteja em declínio geral, ele está se estabilizando, mesmo que o rendimento por colônia esteja diminuindo.

@ -38,25 +38,25 @@ Em lições anteriores, você experimentou criar vários tipos interessantes de
Mesmo que um cientista de dados seja cuidadoso ao escolher o gráfico certo para os dados certos, há muitas maneiras de exibir dados de forma a provar um ponto, muitas vezes às custas de comprometer os próprios dados. Existem muitos exemplos de gráficos e infográficos enganosos!
[![Como os Gráficos Mentem por Alberto Cairo](../../../../../translated_images/pt-BR/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Como os gráficos mentem")
[![Como os Gráficos Mentem por Alberto Cairo](../../../../../translated_images/pt-BR/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Como os gráficos mentem")
> 🎥 Clique na imagem acima para assistir a uma palestra sobre gráficos enganosos
Este gráfico inverte o eixo X para mostrar o oposto da verdade, com base na data:
![gráfico ruim 1](../../../../../translated_images/pt-BR/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![gráfico ruim 1](../../../../../translated_images/pt-BR/bad-chart-1.596bc93425a8ac30.webp)
[Este gráfico](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) é ainda mais enganoso, pois o olhar é atraído para a direita, levando à conclusão de que, ao longo do tempo, os casos de COVID diminuíram nos vários condados. Na verdade, se você olhar atentamente para as datas, verá que elas foram reorganizadas para criar essa tendência enganosa de queda.
![gráfico ruim 2](../../../../../translated_images/pt-BR/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![gráfico ruim 2](../../../../../translated_images/pt-BR/bad-chart-2.62edf4d2f30f4e51.webp)
Este exemplo notório usa cor E um eixo Y invertido para enganar: em vez de concluir que as mortes por armas aumentaram após a aprovação de uma legislação favorável às armas, o olhar é enganado para pensar que o oposto é verdadeiro:
![gráfico ruim 3](../../../../../translated_images/pt-BR/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![gráfico ruim 3](../../../../../translated_images/pt-BR/bad-chart-3.e201e2e915a230bc.webp)
Este gráfico estranho mostra como a proporção pode ser manipulada, de forma hilária:
![gráfico ruim 4](../../../../../translated_images/pt-BR/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![gráfico ruim 4](../../../../../translated_images/pt-BR/bad-chart-4.8872b2b881ffa96c.webp)
Comparar o incomparável é mais um truque duvidoso. Existe um [site maravilhoso](https://tylervigen.com/spurious-correlations) dedicado a 'correlações espúrias', exibindo 'fatos' que correlacionam coisas como a taxa de divórcio no Maine e o consumo de margarina. Um grupo no Reddit também coleta os [usos feios](https://www.reddit.com/r/dataisugly/top/?t=all) de dados.
@ -91,13 +91,13 @@ Rotule seus eixos, forneça uma legenda, se necessário, e ofereça tooltips par
Se seus dados forem textuais e extensos no eixo X, você pode inclinar o texto para melhorar a legibilidade. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) oferece gráficos em 3D, se seus dados suportarem. Visualizações de dados sofisticadas podem ser produzidas usando essa ferramenta.
![gráficos 3D](../../../../../translated_images/pt-BR/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![gráficos 3D](../../../../../translated_images/pt-BR/3d.db1734c151eee87d.webp)
## Exibição de gráficos animados e em 3D
Algumas das melhores visualizações de dados hoje em dia são animadas. Shirley Wu tem exemplos incríveis feitos com D3, como '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', onde cada flor é uma visualização de um filme. Outro exemplo para o Guardian é 'bussed out', uma experiência interativa que combina visualizações com Greensock e D3, além de um formato de artigo com narrativa para mostrar como NYC lida com seu problema de moradores de rua, enviando pessoas para fora da cidade.
![busing](../../../../../translated_images/pt-BR/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/pt-BR/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: Como os EUA Movem seus Moradores de Rua" do [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizações por Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Embora esta lição não seja suficiente para ensinar essas poderosas biblioteca
Você completará um aplicativo web que exibirá uma visão animada dessa rede social. Ele usa uma biblioteca criada para gerar uma [visualização de uma rede](https://github.com/emiliorizzo/vue-d3-network) usando Vue.js e D3. Quando o aplicativo estiver em execução, você poderá mover os nós na tela para reorganizar os dados.
![liaisons](../../../../../translated_images/pt-BR/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/pt-BR/liaisons.90ce7360bcf84765.webp)
## Projeto: Crie um gráfico para mostrar uma rede usando D3.js

@ -1,6 +1,6 @@
# Visualizações
![uma abelha em uma flor de lavanda](../../../translated_images/pt-BR/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![uma abelha em uma flor de lavanda](../../../translated_images/pt-BR/bee.0aa1d91132b12e3a.webp)
> Foto por <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> no <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Visualizar dados é uma das tarefas mais importantes de um cientista de dados. Imagens valem mais que mil palavras, e uma visualização pode ajudar você a identificar diversos aspectos interessantes dos seus dados, como picos, valores atípicos, agrupamentos, tendências e muito mais, que podem ajudar a entender a história que seus dados estão tentando contar.

@ -16,7 +16,7 @@ Neste ponto, você provavelmente já percebeu que a ciência de dados é um proc
Esta lição foca em 3 partes do ciclo de vida: captura, processamento e manutenção.
![Diagrama do ciclo de vida da ciência de dados](../../../../translated_images/pt-BR/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Diagrama do ciclo de vida da ciência de dados](../../../../translated_images/pt-BR/data-science-lifecycle.a1e362637503c4fb.webp)
> Foto por [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Captura
@ -92,7 +92,7 @@ Explore o [Ciclo de Vida do Processo de Ciência de Dados em Equipe](https://doc
|Processo de Ciência de Dados em Equipe (TDSP)|Processo padrão da indústria para mineração de dados (CRISP-DM)|
|--|--|
|![Ciclo de Vida do Processo de Ciência de Dados em Equipe](../../../../translated_images/pt-BR/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Imagem do Processo de Ciência de Dados](../../../../translated_images/pt-BR/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Ciclo de Vida do Processo de Ciência de Dados em Equipe](../../../../translated_images/pt-BR/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Imagem do Processo de Ciência de Dados](../../../../translated_images/pt-BR/CRISP-DM.8bad2b4c66e62aa7.webp) |
| Imagem por [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Imagem por [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Quiz Pós-Aula](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# O Ciclo de Vida da Ciência de Dados
![communication](../../../translated_images/pt-BR/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/pt-BR/communication.06d8e2a88d30d168.webp)
> Foto por <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> no <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Nestes módulos, você explorará alguns aspectos do ciclo de vida da Ciência de Dados, incluindo análise e comunicação de dados.

@ -1,12 +1,12 @@
# Ciência de Dados na Nuvem
![cloud-picture](../../../translated_images/pt-BR/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/pt-BR/cloud-picture.f5526de3c6c6387b.webp)
> Foto de [Jelleke Vanooteghem](https://unsplash.com/@ilumire) no [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Quando se trata de fazer ciência de dados com big data, a nuvem pode ser um divisor de águas. Nas próximas três lições, vamos entender o que é a nuvem e por que ela pode ser tão útil. Também vamos explorar um conjunto de dados sobre insuficiência cardíaca e construir um modelo para ajudar a avaliar a probabilidade de alguém sofrer uma insuficiência cardíaca. Usaremos o poder da nuvem para treinar, implantar e consumir um modelo de duas maneiras diferentes. Uma delas utilizando apenas a interface do usuário em um formato de Baixo Código/Sem Código, e a outra utilizando o Azure Machine Learning Software Developer Kit (Azure ML SDK).
![project-schema](../../../translated_images/pt-BR/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/pt-BR/project-schema.420e56d495624541.webp)
### Tópicos

@ -32,7 +32,7 @@ Graças à democratização da IA, os desenvolvedores estão encontrando mais fa
* [Ciência de Dados na Saúde](https://data-flair.training/blogs/data-science-in-healthcare/) - destaca aplicações como imagem médica (e.g., ressonância magnética, raio-X, tomografia), genômica (sequenciamento de DNA), desenvolvimento de medicamentos (avaliação de risco, previsão de sucesso), análise preditiva (cuidados com pacientes e logística de suprimentos), rastreamento e prevenção de doenças etc.
![Aplicações de Ciência de Dados no Mundo Real](../../../../translated_images/pt-BR/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Crédito da Imagem: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Aplicações de Ciência de Dados no Mundo Real](../../../../translated_images/pt-BR/data-science-applications.4e5019cd8790ebac.webp) Crédito da Imagem: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
A figura mostra outros domínios e exemplos de aplicação de técnicas de ciência de dados. Quer explorar outras aplicações? Confira a seção [Revisão e Autoestudo](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) abaixo.

@ -13,7 +13,7 @@ A interface do Explorer (mostrada na captura de tela abaixo) permite que você s
2. Explorar o [Catálogo de conjuntos de dados](https://planetarycomputer.microsoft.com/catalog) - aprender o propósito de cada conjunto de dados.
3. Usar o Explorer - escolher um conjunto de dados de interesse, selecionar uma consulta relevante e uma opção de renderização.
![O Explorer do Planetary Computer](../../../../translated_images/pt-BR/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![O Explorer do Planetary Computer](../../../../translated_images/pt-BR/planetary-computer-explorer.c1e95a9b053167d6.webp)
`Sua Tarefa:`
Agora, estude a visualização que foi gerada no navegador e responda às seguintes perguntas:

@ -3,9 +3,9 @@
[![Abrir no GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![Licença GitHub](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![Contribuintes GitHub](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![Contribuidores GitHub](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![Issues GitHub](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![Pull-requests GitHub](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![Pull requests GitHub](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Bem-vindos](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![Observadores GitHub](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
@ -17,41 +17,51 @@
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Os Azure Cloud Advocates da Microsoft têm o prazer de oferecer um currículo de 10 semanas, 20 lições, tudo sobre Ciência de Dados. Cada lição inclui questionários pré e pós-lição, instruções escritas para completar a lição, uma solução e uma tarefa. Nossa pedagogia baseada em projetos permite que você aprenda enquanto constrói, uma maneira comprovada de fazer novas habilidades 'ficarem'.
Advogados da Nuvem Azure da Microsoft têm o prazer de oferecer um currículo de 10 semanas com 20 lições, tudo sobre Ciência de Dados. Cada lição inclui questionários pré e pós-lição, instruções escritas para completar a lição, uma solução e um exercício. Nossa pedagogia baseada em projetos permite que você aprenda enquanto constrói, uma forma comprovada de fazer novas habilidades 'ficarem'.
**Agradecimentos calorosos aos nossos autores:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Agradecimentos especiais 🙏 aos nossos autores, revisores e colaboradores de conteúdo do [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** notadamente Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Agradecimentos especiais 🙏 aos nossos autores, revisores e colaboradores de conteúdo do [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** notavelmente Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Esboço por @sketchthedocs https://sketchthedocs.dev](../../translated_images/pt-BR/00-Title.8af36cd35da1ac55.webp)|
|![Sketchnote de @sketchthedocs https://sketchthedocs.dev](../../translated_images/pt-BR/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Ciência de Dados Para Iniciantes - _Esboço por [@nitya](https://twitter.com/nitya)_ |
| Ciência de Dados para Iniciantes - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
### 🌐 Suporte Multilíngue
### 🌐 Suporte a Múltiplos Idiomas
#### Suportado via GitHub Action (Automatizado e Sempre Atualizado)
#### Suportado via Ação do GitHub (Automatizado & Sempre Atualizado)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Árabe](../ar/README.md) | [Bengali](../bn/README.md) | [Búlgaro](../bg/README.md) | [Birmanês (Myanmar)](../my/README.md) | [Chinês (Simplificado)](../zh-CN/README.md) | [Chinês (Tradicional, Hong Kong)](../zh-HK/README.md) | [Chinês (Tradicional, Macau)](../zh-MO/README.md) | [Chinês (Tradicional, Taiwan)](../zh-TW/README.md) | [Croata](../hr/README.md) | [Tcheco](../cs/README.md) | [Dinamarquês](../da/README.md) | [Holandês](../nl/README.md) | [Estoniano](../et/README.md) | [Finlandês](../fi/README.md) | [Francês](../fr/README.md) | [Alemão](../de/README.md) | [Grego](../el/README.md) | [Hebraico](../he/README.md) | [Hindi](../hi/README.md) | [Húngaro](../hu/README.md) | [Indonésio](../id/README.md) | [Italiano](../it/README.md) | [Japonês](../ja/README.md) | [Kannada](../kn/README.md) | [Coreano](../ko/README.md) | [Lituano](../lt/README.md) | [Malaio](../ms/README.md) | [Malaiala](../ml/README.md) | [Marata](../mr/README.md) | [Nepali](../ne/README.md) | [Pidgin Nigeriano](../pcm/README.md) | [Norueguês](../no/README.md) | [Persa (Farsi)](../fa/README.md) | [Polonês](../pl/README.md) | [Português (Brasil)](./README.md) | [Português (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romeno](../ro/README.md) | [Russo](../ru/README.md) | [Sérvio (Cirílico)](../sr/README.md) | [Eslovaco](../sk/README.md) | [Esloveno](../sl/README.md) | [Espanhol](../es/README.md) | [Suaíli](../sw/README.md) | [Sueco](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Tailandês](../th/README.md) | [Turco](../tr/README.md) | [Ucraniano](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamita](../vi/README.md)
[Árabe](../ar/README.md) | [Bengali](../bn/README.md) | [Búlgaro](../bg/README.md) | [Birmanês (Myanmar)](../my/README.md) | [Chinês (Simplificado)](../zh-CN/README.md) | [Chinês (Tradicional, Hong Kong)](../zh-HK/README.md) | [Chinês (Tradicional, Macau)](../zh-MO/README.md) | [Chinês (Tradicional, Taiwan)](../zh-TW/README.md) | [Croata](../hr/README.md) | [Tcheco](../cs/README.md) | [Danish](../da/README.md) | [Holandês](../nl/README.md) | [Estoniano](../et/README.md) | [Finlandês](../fi/README.md) | [Francês](../fr/README.md) | [Alemão](../de/README.md) | [Grego](../el/README.md) | [Hebraico](../he/README.md) | [Hindi](../hi/README.md) | [Húngaro](../hu/README.md) | [Indonésio](../id/README.md) | [Italiano](../it/README.md) | [Japonês](../ja/README.md) | [Kannada](../kn/README.md) | [Coreano](../ko/README.md) | [Lituano](../lt/README.md) | [Malaio](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Pidgin Nigeriano](../pcm/README.md) | [Norueguês](../no/README.md) | [Persa (Farsi)](../fa/README.md) | [Polonês](../pl/README.md) | [Português (Brasil)](./README.md) | [Português (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romeno](../ro/README.md) | [Russo](../ru/README.md) | [Sérvio (Cirílico)](../sr/README.md) | [Eslovaco](../sk/README.md) | [Esloveno](../sl/README.md) | [Espanhol](../es/README.md) | [Suaíli](../sw/README.md) | [Sueco](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tâmil](../ta/README.md) | [Telugu](../te/README.md) | [Tailandês](../th/README.md) | [Turco](../tr/README.md) | [Ucraniano](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamita](../vi/README.md)
> **Prefere clonar localmente?**
> Este repositório inclui mais de 50 traduções de idiomas, o que aumenta significativamente o tamanho do download. Para clonar sem traduções, use sparse checkout:
> **Prefere Clonar Localmente?**
>
> Este repositório inclui traduções em mais de 50 idiomas, o que aumenta significativamente o tamanho do download. Para clonar sem as traduções, use sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Isso lhe dá tudo que você precisa para completar o curso com um download muito mais rápido.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Se você deseja que idiomas adicionais sejam suportados, veja a lista [aqui](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Se desejar que idiomas adicionais sejam suportados, veja a lista [aqui](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Junte-se à Nossa Comunidade
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Temos uma série Discord aprender com AI em andamento, saiba mais e junte-se a nós em [Learn with AI Series](https://aka.ms/learnwithai/discord) de 18 a 30 de setembro de 2025. Você receberá dicas e truques para usar o GitHub Copilot para Ciência de Dados.
Temos uma série de aprendizado no Discord com IA em andamento, saiba mais e junte-se a nós em [Learn with AI Series](https://aka.ms/learnwithai/discord) de 18 a 30 de setembro de 2025. Você receberá dicas e truques para usar o GitHub Copilot para Ciência de Dados.
![Série Learn with AI](../../translated_images/pt-BR/1.2b28cdc6205e26fe.webp)
@ -59,32 +69,32 @@ Temos uma série Discord aprender com AI em andamento, saiba mais e junte-se a n
Comece com os seguintes recursos:
- [Página Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Nesta página, você encontrará recursos para iniciantes, pacotes para estudantes e até maneiras de obter um voucher gratuito para certificação. Esta é uma página que você vai querer favoritar e checar de tempos em tempos, pois alteramos o conteúdo pelo menos mensalmente.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Junte-se a uma comunidade global de embaixadores estudantis, este pode ser seu caminho para a Microsoft.
- [Página do Hub do Estudante](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Nesta página, você encontrará recursos para iniciantes, pacotes para estudantes e até maneiras de conseguir um voucher de certificação grátis. Esta é uma página para favoritar e consultar de tempos em tempos, pois o conteúdo é atualizado pelo menos uma vez por mês.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Junte-se a uma comunidade global de embaixadores estudantis, essa pode ser a sua porta de entrada para a Microsoft.
# Começando
## 📚 Documentação
- **[Guia de Instalação](INSTALLATION.md)** - Instruções passo a passo para iniciantes
- **[Guia de Uso](USAGE.md)** - Exemplos e fluxos comuns de trabalho
- **[Resolução de Problemas](TROUBLESHOOTING.md)** - Soluções para problemas comuns
- **[Guia de Contribuição](CONTRIBUTING.md)** - Como contribuir para este projeto
- **[Para Professores](for-teachers.md)** - Orientações para ensino e recursos em sala de aula
- **[Guia de Uso](USAGE.md)** - Exemplos e fluxos de trabalho comuns
- **[Solução de Problemas](TROUBLESHOOTING.md)** - Soluções para problemas comuns
- **[Guia de Contribuição](CONTRIBUTING.md)** - Como contribuir neste projeto
- **[Para Professores](for-teachers.md)** - Orientações para ensino e recursos para sala de aula
## 👨‍🎓 Para Estudantes
> **Complete Iniciantes**: Novo em ciência de dados? Comece com nossos [exemplos amigáveis para iniciantes](examples/README.md)! Esses exemplos simples e bem comentados ajudarão você a entender o básico antes de mergulhar no currículo completo.
> **[Estudantes](https://aka.ms/student-page)**: para usar este currículo de forma independente, faça um fork do repositório inteiro e complete os exercícios sozinho, começando com um quiz pré-aula. Depois, leia a aula e complete o restante das atividades. Tente criar os projetos compreendendo as lições em vez de copiar o código das soluções; no entanto, esse código está disponível nas pastas /solutions em cada lição focada em projetos. Outra ideia é formar um grupo de estudo com amigos e passar pelo conteúdo juntos. Para estudo adicional, recomendamos [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Iniciantes Completos**: Novo em ciência de dados? Comece com nossos [exemplos para iniciantes](examples/README.md)! Esses exemplos simples e bem comentados ajudarão você a entender o básico antes de mergulhar no currículo completo.
> **[Estudantes](https://aka.ms/student-page)**: para usar este currículo por conta própria, faça um fork de todo o repositório e complete os exercícios sozinho, começando com um quiz pré-aula. Depois, leia a aula e complete o restante das atividades. Tente criar os projetos compreendendo as lições em vez de copiar o código da solução; no entanto, esse código está disponível nas pastas /solutions em cada lição orientada a projetos. Outra ideia é formar um grupo de estudos com amigos e passar pelo conteúdo juntos. Para estudo adicional, recomendamos [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Início Rápido:**
1. Verifique o [Guia de Instalação](INSTALLATION.md) para configurar seu ambiente
1. Confira o [Guia de Instalação](INSTALLATION.md) para configurar seu ambiente
2. Revise o [Guia de Uso](USAGE.md) para aprender como trabalhar com o currículo
3. Comece pela Lição 1 e avance sequencialmente
4. Junte-se à nossa [comunidade no Discord](https://aka.ms/ds4beginners/discord) para suporte
4. Junte-se à nossa [comunidade Discord](https://aka.ms/ds4beginners/discord) para suporte
## 👩‍🏫 Para Professores
> **Professores**: incluímos [algumas sugestões](for-teachers.md) sobre como usar este currículo. Adoraríamos receber seu feedback [em nosso fórum de discussão](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Professores**: incluímos [algumas sugestões](for-teachers.md) sobre como usar este currículo. Adoraríamos seu feedback [em nosso fórum de discussão](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Conheça a Equipe
[![Vídeo promocional](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Vídeo promocional")
@ -95,99 +105,99 @@ Comece com os seguintes recursos:
## Pedagogia
Escolhemos dois princípios pedagógicos ao construir este currículo: garantir que seja baseado em projetos e que inclua quizzes frequentes. Ao final desta série, os alunos terão aprendido princípios básicos de ciência de dados, incluindo conceitos éticos, preparação de dados, diferentes formas de trabalhar com dados, visualização de dados, análise de dados, casos reais de uso da ciência de dados e muito mais.
Escolhemos dois princípios pedagógicos ao construir este currículo: garantir que seja baseado em projetos e que inclua quizzes frequentes. Ao final desta série, os alunos terão aprendido os princípios básicos da ciência de dados, incluindo conceitos éticos, preparação de dados, diferentes formas de trabalhar com dados, visualização de dados, análise de dados, casos de uso reais de ciência de dados e muito mais.
Além disso, um quiz de baixo risco antes da aula define a intenção do aluno em aprender um tópico, enquanto um segundo quiz após a aula garante uma maior retenção. Este currículo foi projetado para ser flexível e divertido, podendo ser realizado na íntegra ou em partes. Os projetos começam pequenos e se tornam cada vez mais complexos ao longo do ciclo de 10 semanas.
Além disso, um quiz de baixa pressão antes da aula define a intenção do aluno em aprender um tópico, enquanto um segundo quiz após a aula assegura uma retenção maior. Este currículo foi projetado para ser flexível e divertido, podendo ser feito na íntegra ou em partes. Os projetos começam pequenos e se tornam cada vez mais complexos ao final do ciclo de 10 semanas.
> Encontre nosso [Código de Conduta](CODE_OF_CONDUCT.md), [Contribuição](CONTRIBUTING.md), [Diretrizes de Tradução](TRANSLATIONS.md). Agradecemos seu feedback construtivo!
> Encontre nosso [Código de Conduta](CODE_OF_CONDUCT.md), [Contribuindo](CONTRIBUTING.md), [Tradução](TRANSLATIONS.md) diretrizes. Agradecemos seu feedback construtivo!
## Cada aula inclui:
## Cada lição inclui:
- Sketchnote opcional
- Vídeo suplementar opcional
- Quiz de aquecimento pré-aula
- Aula escrita
- Para aulas baseadas em projeto, guias passo a passo para construir o projeto
- Quiz preparatório antes da lição
- Lição escrita
- Para lições baseadas em projetos, guias passo a passo sobre como construir o projeto
- Verificações de conhecimento
- Um desafio
- Leitura suplementar
- Tarefa
- [Quiz pós-aula](https://ff-quizzes.netlify.app/en/)
- [Quiz pós-lição](https://ff-quizzes.netlify.app/en/)
> **Uma nota sobre quizzes**: Todos os quizzes estão contidos na pasta Quiz-App, totalizando 40 quizzes com três perguntas cada. Eles são vinculados a partir das aulas, mas o aplicativo de quiz pode ser executado localmente ou implantado no Azure; siga as instruções na pasta `quiz-app`. Eles estão sendo gradualmente localizados.
> **Uma nota sobre quizzes**: Todos os quizzes estão contidos na pasta Quiz-App, com 40 quizzes no total, cada um com três perguntas. Eles são vinculados dentro das lições, mas o aplicativo de quiz pode ser executado localmente ou implantado no Azure; siga as instruções na pasta `quiz-app`. Eles estão sendo gradualmente localizados.
## 🎓 Exemplos para Iniciantes
**Novo em Ciência de Dados?** Criamos um [diretório de exemplos](examples/README.md) especial com código simples e bem comentado para ajudar você a começar:
**Novo em Ciência de Dados?** Criamos um [diretório de exemplos](examples/README.md) especial com códigos simples e bem comentados para ajudar você a começar:
- 🌟 **Olá Mundo** - Seu primeiro programa de ciência de dados
- 🌟 **Hello World** - Seu primeiro programa de ciência de dados
- 📂 **Carregando Dados** - Aprenda a ler e explorar conjuntos de dados
- 📊 **Análise Simples** - Calcule estatísticas e encontre padrões
- 📈 **Visualização Básica** - Crie gráficos e diagramas
- 🔬 **Projeto Real** - Fluxo completo do início ao fim
- 🔬 **Projeto do Mundo Real** - Fluxo completo do começo ao fim
Cada exemplo inclui comentários detalhados explicando cada passo, tornando-o perfeito para iniciantes absolutos!
👉 **[Comece pelos exemplos](examples/README.md)** 👈
👉 **[Comece com os exemplos](examples/README.md)** 👈
## Aulas
## Lições
|![ Sketchnote por @sketchthedocs https://sketchthedocs.dev](../../translated_images/pt-BR/00-Roadmap.4905d6567dff4753.webp)|
|![ Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/pt-BR/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Ciência de Dados para Iniciantes: Roadmap - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
| Ciência de Dados para Iniciantes: Roteiro - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
| Número da Aula | Tópico | Grupo da Aula | Objetivos de Aprendizagem | Aula Vinculada | Autor |
| Número da Lição | Tópico | Agrupamento da Lição | Objetivos de Aprendizagem | Lição Vinculada | Autor |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Definindo Ciência de Dados | [Introdução](1-Introduction/README.md) | Aprenda os conceitos básicos por trás da ciência de dados e como ela está relacionada à inteligência artificial, aprendizado de máquina e big data. | [aula](1-Introduction/01-defining-data-science/README.md) [vídeo](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Ética em Ciência de Dados | [Introdução](1-Introduction/README.md) | Conceitos, desafios e frameworks da ética em dados. | [aula](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definindo Dados | [Introdução](1-Introduction/README.md) | Como os dados são classificados e suas fontes comuns. | [aula](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introdução à Estatística & Probabilidade | [Introdução](1-Introduction/README.md) | Técnicas matemáticas de probabilidade e estatística para entender dados. | [aula](1-Introduction/04-stats-and-probability/README.md) [vídeo](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Trabalhando com Dados Relacionais | [Trabalhando com Dados](2-Working-With-Data/README.md) | Introdução a dados relacionais e o básico de exploração e análise de dados relacionais com a Linguagem de Consulta Estruturada, também conhecida como SQL (pronuncia-se “éssi-cuérel”). | [aula](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Trabalhando com Dados NoSQL | [Trabalhando com Dados](2-Working-With-Data/README.md) | Introdução a dados não relacionais, seus vários tipos e o básico de exploração e análise de bancos de dados de documentos. | [aula](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Trabalhando com Python | [Trabalhando com Dados](2-Working-With-Data/README.md) | Noções básicas do uso do Python para exploração de dados com bibliotecas como Pandas. É recomendável ter uma compreensão fundamental de programação em Python. | [aula](2-Working-With-Data/07-python/README.md) [vídeo](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Preparação de Dados | [Trabalhando com Dados](2-Working-With-Data/README.md) | Temas sobre técnicas de dados para limpeza e transformação de dados para lidar com desafios de dados ausentes, imprecisos ou incompletos. | [aula](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualizando Quantidades | [Visualização de Dados](3-Data-Visualization/README.md) | Aprenda a usar Matplotlib para visualizar dados de pássaros 🦆 | [aula](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualizando Distribuições de Dados | [Visualização de Dados](3-Data-Visualization/README.md) | Visualizando observações e tendências dentro de um intervalo. | [aula](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualizando Proporções | [Visualização de Dados](3-Data-Visualization/README.md) | Visualizando porcentagens discretas e agrupadas. | [aula](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualizando Relações | [Visualização de Dados](3-Data-Visualization/README.md) | Visualizando conexões e correlações entre conjuntos de dados e suas variáveis. | [aula](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualizações Significativas | [Visualização de Dados](3-Data-Visualization/README.md) | Técnicas e orientações para tornar suas visualizações valiosas para a resolução eficaz de problemas e insights. | [aula](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introdução ao ciclo de vida da Ciência de Dados | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Introdução ao ciclo de vida da ciência de dados e sua primeira etapa de aquisição e extração de dados. | [aula](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Análise | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Esta fase do ciclo de vida da ciência de dados foca em técnicas para analisar dados. | [aula](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Comunicação | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Esta fase do ciclo de vida da ciência de dados foca em apresentar os insights dos dados de forma que facilite a compreensão dos tomadores de decisão. | [aula](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Ciência de Dados na Nuvem | [Dados na Nuvem](5-Data-Science-In-Cloud/README.md) | Esta série de aulas introduz ciência de dados na nuvem e seus benefícios. | [aula](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 18 | Ciência de Dados na Nuvem | [Dados na Nuvem](5-Data-Science-In-Cloud/README.md) | Treinamento de modelos usando ferramentas Low Code. |[aula](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 19 | Ciência de Dados na Nuvem | [Dados na Nuvem](5-Data-Science-In-Cloud/README.md) | Implantando modelos com Azure Machine Learning Studio. | [aula](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 20 | Ciência de Dados na Prática | [Na Prática](6-Data-Science-In-Wild/README.md) | Projetos impulsionados por ciência de dados no mundo real. | [aula](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 01 | Definindo Ciência de Dados | [Introdução](1-Introduction/README.md) | Aprenda os conceitos básicos por trás da ciência de dados e como ela está relacionada à inteligência artificial, aprendizado de máquina e big data. | [lição](1-Introduction/01-defining-data-science/README.md) [vídeo](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Ética em Ciência de Dados | [Introdução](1-Introduction/README.md) | Conceitos, desafios e estruturas da Ética em Dados. | [lição](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definindo Dados | [Introdução](1-Introduction/README.md) | Como os dados são classificados e suas fontes comuns. | [lição](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introdução a Estatística e Probabilidade | [Introdução](1-Introduction/README.md) | Técnicas matemáticas de probabilidade e estatística para compreender dados. | [lição](1-Introduction/04-stats-and-probability/README.md) [vídeo](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Trabalhando com Dados Relacionais | [Trabalhando com Dados](2-Working-With-Data/README.md) | Introdução a dados relacionais e o básico de explorar e analisar dados relacionais com a Linguagem de Consulta Estruturada, também conhecida como SQL (pronuncia-se “esse-que-él”). | [lição](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Trabalhando com Dados NoSQL | [Trabalhando com Dados](2-Working-With-Data/README.md) | Introdução a dados não relacionais, seus vários tipos e o básico de explorar e analisar bancos de dados de documentos. | [lição](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Trabalhando com Python | [Trabalhando com Dados](2-Working-With-Data/README.md) | Conceitos básicos do uso de Python para exploração de dados com bibliotecas como Pandas. Recomendado entendimento básico de programação em Python. | [lição](2-Working-With-Data/07-python/README.md) [vídeo](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Preparação de Dados | [Trabalhando com Dados](2-Working-With-Data/README.md) | Tópicos sobre técnicas de dados para limpeza e transformação visando tratar desafios de dados ausentes, imprecisos ou incompletos. | [lição](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualizando Quantidades | [Visualização de Dados](3-Data-Visualization/README.md) | Aprenda a usar Matplotlib para visualizar dados de pássaros 🦆 | [lição](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualizando Distribuições de Dados | [Visualização de Dados](3-Data-Visualization/README.md) | Visualizando observações e tendências dentro de um intervalo. | [lição](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualizando Proporções | [Visualização de Dados](3-Data-Visualization/README.md) | Visualizando porcentagens discretas e agrupadas. | [lição](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualizando Relações | [Visualização de Dados](3-Data-Visualization/README.md) | Visualizando conexões e correlações entre conjuntos de dados e suas variáveis. | [lição](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualizações Significativas | [Visualização de Dados](3-Data-Visualization/README.md) | Técnicas e orientações para tornar suas visualizações valiosas para resolução eficaz de problemas e obtenção de insights. | [lição](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introdução ao ciclo de vida da Ciência de Dados | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Introdução ao ciclo de vida da ciência de dados e sua primeira etapa de aquisição e extração de dados. | [lição](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analisando | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Esta fase do ciclo de vida da ciência de dados foca em técnicas para analisar dados. | [lição](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Comunicação | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Esta fase do ciclo de vida da ciência de dados foca em apresentar os insights dos dados de maneira que facilite a compreensão pelos tomadores de decisão. | [lição](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Ciência de Dados na Nuvem | [Dados na Nuvem](5-Data-Science-In-Cloud/README.md) | Esta série de aulas apresenta a ciência de dados na nuvem e seus benefícios. | [lição](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 18 | Ciência de Dados na Nuvem | [Dados na Nuvem](5-Data-Science-In-Cloud/README.md) | Treinamento de modelos usando ferramentas Low Code. |[lição](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 19 | Ciência de Dados na Nuvem | [Dados na Nuvem](5-Data-Science-In-Cloud/README.md) | Implantação de modelos com Azure Machine Learning Studio. | [lição](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 20 | Ciência de Dados no Mundo Real | [No Mundo Real](6-Data-Science-In-Wild/README.md) | Projetos de ciência de dados aplicados no mundo real. | [lição](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Siga estes passos para abrir este exemplo em um Codespace:
1. Clique no menu suspenso Código e selecione a opção Abrir com Codespaces.
2. Selecione + Novo codespace no rodapé do painel.
Para mais informações, veja a [documentação do GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
Siga estas etapas para abrir este exemplo em um Codespace:
1. Clique no menu suspenso Code e selecione a opção Open with Codespaces.
2. Selecione + New codespace na parte inferior do painel.
Para mais informações, confira a [documentação do GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Siga estes passos para abrir este repositório em um container usando sua máquina local e o VSCode com a extensão VS Code Remote - Containers:
Siga estas etapas para abrir este repositório em um contêiner usando sua máquina local e o VSCode com a extensão VS Code Remote - Containers:
1. Se esta é sua primeira vez usando um container de desenvolvimento, certifique-se que seu sistema atende os pré-requisitos (ou seja, ter o Docker instalado) na [documentação de início rápido](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Se esta for sua primeira vez usando um contêiner de desenvolvimento, certifique-se de que seu sistema atende aos pré-requisitos (ou seja, ter o Docker instalado) na [documentação de introdução](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Para usar este repositório, você pode abrir o repositório em um volume Docker isolado:
**Nota**: Internamente, isso usará o comando Remote-Containers: **Clone Repository in Container Volume...** para clonar o código-fonte em um volume Docker em vez do sistema de arquivos local. [Volumes](https://docs.docker.com/storage/volumes/) são o mecanismo preferido para persistir dados de containers.
**Nota**: Por trás dos panos, isso usará o comando Remote-Containers: **Clone Repository in Container Volume...** para clonar o código-fonte em um volume Docker em vez do sistema de arquivos local. [Volumes](https://docs.docker.com/storage/volumes/) são o mecanismo preferido para persistência de dados do contêiner.
Ou abra uma versão clonada ou baixada localmente do repositório:
- Clone este repositório para seu sistema local.
- Clone este repositório em seu sistema de arquivos local.
- Pressione F1 e selecione o comando **Remote-Containers: Open Folder in Container...**.
- Selecione a cópia clonada desta pasta, aguarde o container iniciar e experimente.
- Selecione a cópia clonada desta pasta, aguarde o contêiner iniciar e experimente.
## Acesso offline
## Acesso Offline
Você pode rodar esta documentação offline usando o [Docsify](https://docsify.js.org/#/). Faça um fork deste repositório, [instale o Docsify](https://docsify.js.org/#/quickstart) na sua máquina local, então na pasta raiz deste repositório, digite `docsify serve`. O site será servido na porta 3000 no seu localhost: `localhost:3000`.
Você pode executar esta documentação offline usando o [Docsify](https://docsify.js.org/#/). Faça um fork deste repositório, [instale o Docsify](https://docsify.js.org/#/quickstart) em sua máquina local, então na pasta raiz deste repositório, digite `docsify serve`. O site será servido na porta 3000 no seu localhost: `localhost:3000`.
> Nota, notebooks não serão renderizados via Docsify, então quando precisar rodar um notebook, faça isso separadamente no VS Code usando um kernel Python.
> Nota, notebooks não serão renderizados via Docsify, então quando precisar executar um notebook, faça isso separadamente no VS Code executando um kernel Python.
## Outros Currículos
@ -233,21 +243,21 @@ Nossa equipe produz outros currículos! Confira:
[![Aventura Copilot](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## Obtendo Ajuda
## Obter Ajuda
**Encontrando problemas?** Consulte nosso [Guia de Solução de Problemas](TROUBLESHOOTING.md) para soluções para problemas comuns.
**Encontrando problemas?** Confira nosso [Guia de Solução de Problemas](TROUBLESHOOTING.md) para soluções de problemas comuns.
Se você ficar preso ou tiver dúvidas sobre como construir aplicativos de IA, junte-se a outros aprendizes e desenvolvedores experientes em discussões sobre MCP. É uma comunidade solidária onde perguntas são bem-vindas e o conhecimento é compartilhado livremente.
Se você travar ou tiver alguma dúvida sobre como criar aplicativos de IA. Junte-se a outros aprendizes e desenvolvedores experientes em discussões sobre MCP. É uma comunidade de suporte onde perguntas são bem-vindas e o conhecimento é compartilhado livremente.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Se você tem feedback sobre produtos ou encontrou erros durante o desenvolvimento, visite:
Se você tiver feedback sobre produtos ou encontrar erros durante o desenvolvimento, visite:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Aviso Legal**:
Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos pela precisão, por favor, esteja ciente de que traduções automatizadas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes do uso desta tradução.
**Aviso Legal**:
Este documento foi traduzido usando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações equivocadas decorrentes do uso desta tradução.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@ Encontre todos os sketchnotes aqui!
Nitya Narasimhan, artista
![sketchnote do roadmap](../../../translated_images/pt-BR/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![sketchnote do roadmap](../../../translated_images/pt-BR/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "pt-PT"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T09:22:04+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "pt-PT"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-24T21:31:37+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "pt-PT"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T09:22:36+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "pt-PT"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:24:25+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "pt-PT"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T09:23:27+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "pt-PT"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T13:18:39+00:00",
@ -360,8 +378,8 @@
"language_code": "pt-PT"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T08:02:47+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T09:28:54+00:00",
"source_file": "README.md",
"language_code": "pt-PT"
},

@ -6,7 +6,7 @@
---
[![Vídeo Definindo Ciência de Dados](../../../../translated_images/pt-PT/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Vídeo Definindo Ciência de Dados](../../../../translated_images/pt-PT/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Questionário pré-aula](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Se quisermos ser ainda mais detalhados, podemos traçar o tempo gasto em cada m
Neste desafio, vamos tentar encontrar conceitos relevantes para o campo da Ciência de Dados analisando textos. Vamos pegar um artigo da Wikipédia sobre Ciência de Dados, descarregar e processar o texto e, em seguida, criar uma nuvem de palavras como esta:
![Nuvem de Palavras para Ciência de Dados](../../../../translated_images/pt-PT/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Nuvem de Palavras para Ciência de Dados](../../../../translated_images/pt-PT/ds_wordcloud.664a7c07dca57de0.webp)
Visite [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') para ler o código. Também pode executar o código e ver como ele realiza todas as transformações de dados em tempo real.

@ -5,13 +5,13 @@
"source": [
"# Desafio: Analisar Texto sobre Ciência de Dados\n",
"\n",
"Neste exemplo, vamos realizar um exercício simples que abrange todas as etapas de um processo tradicional de ciência de dados. Não é necessário escrever qualquer código, basta clicar nas células abaixo para executá-las e observar o resultado. Como desafio, é incentivado que experimente este código com dados diferentes.\n",
"Neste exemplo, vamos fazer um exercício simples que cobre todos os passos de um processo tradicional de ciência de dados. Não precisa escrever código, pode simplesmente clicar nas células abaixo para as executar e observar o resultado. Como desafio, é incentivado que experimente este código com dados diferentes.\n",
"\n",
"## Objetivo\n",
"\n",
"Nesta lição, discutimos diferentes conceitos relacionados à Ciência de Dados. Vamos tentar descobrir mais conceitos relacionados através de **mineração de texto**. Começaremos com um texto sobre Ciência de Dados, extrairemos palavras-chave dele e, em seguida, tentaremos visualizar o resultado.\n",
"Nesta aula, temos discutido vários conceitos relacionados com Ciência de Dados. Vamos tentar descobrir mais conceitos relacionados fazendo alguma **mineração de texto**. Vamos começar com um texto sobre Ciência de Dados, extrair palavras-chave dele e depois tentar visualizar o resultado.\n",
"\n",
"Como texto, utilizarei a página sobre Ciência de Dados da Wikipedia:\n"
"Como texto, vou usar a página sobre Ciência de Dados da Wikipédia:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Passo 1: Obter os Dados\n",
"## Step 1: Obter os Dados\n",
"\n",
"O primeiro passo em qualquer processo de ciência de dados é obter os dados. Vamos usar a biblioteca `requests` para isso:\n"
"O primeiro passo em todo o processo de ciência de dados é obter os dados. Vamos usar a biblioteca `requests` para isso:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Passo 2: Transformar os Dados\n",
"\n",
"O próximo passo é converter os dados para um formato adequado para processamento. No nosso caso, descarregámos o código-fonte HTML da página e precisamos de o converter em texto simples.\n",
"O próximo passo é converter os dados para o formato adequado para processamento. No nosso caso, descarregámos o código fonte HTML da página, e precisamos de o converter em texto simples.\n",
"\n",
"Existem várias formas de fazer isto. Vamos utilizar o objeto [HTMLParser](https://docs.python.org/3/library/html.parser.html) incorporado mais simples do Python. Precisamos de criar uma subclasse da classe `HTMLParser` e definir o código que irá recolher todo o texto dentro das etiquetas HTML, exceto as etiquetas `<script>` e `<style>`.\n"
"Existem muitas formas de o fazer. Vamos usar o [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), uma biblioteca Python popular para parsing de HTML. O BeautifulSoup permite-nos apontar para elementos HTML específicos, para que possamos focar no conteúdo principal do artigo da Wikipedia e reduzir alguns menus de navegação, barras laterais, rodapés, e outros conteúdos irrelevantes (embora algum texto padrão ainda possa permanecer).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Primeiro, precisamos instalar a biblioteca BeautifulSoup para análise de HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Passo 3: Obter Informações\n",
"## Step 3: Obtendo Insights\n",
"\n",
"O passo mais importante é transformar os nossos dados em algo a partir do qual possamos extrair informações. No nosso caso, queremos identificar palavras-chave no texto e perceber quais são mais relevantes.\n",
"O passo mais importante é transformar os nossos dados numa forma da qual possamos extrair insights. No nosso caso, queremos extrair palavras-chave do texto e ver quais as palavras-chave mais significativas.\n",
"\n",
"Vamos utilizar uma biblioteca Python chamada [RAKE](https://github.com/aneesha/RAKE) para a extração de palavras-chave. Primeiro, vamos instalar esta biblioteca caso ainda não esteja disponível:\n"
"Vamos usar a biblioteca Python chamada [RAKE](https://github.com/aneesha/RAKE) para extração de palavras-chave. Primeiro, vamos instalar esta biblioteca caso não esteja presente: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"A funcionalidade principal está disponível a partir do objeto `Rake`, que podemos personalizar utilizando alguns parâmetros. No nosso caso, iremos definir o comprimento mínimo de uma palavra-chave para 5 caracteres, a frequência mínima de uma palavra-chave no documento para 3, e o número máximo de palavras numa palavra-chave para 2. Sinta-se à vontade para experimentar outros valores e observar o resultado.\n"
"A funcionalidade principal está disponível no objeto `Rake`, que podemos personalizar usando alguns parâmetros. No nosso caso, vamos definir o comprimento mínimo de uma palavra-chave para 5 caracteres, a frequência mínima de uma palavra-chave no documento para 3, e o número máximo de palavras numa palavra-chave para 2. Sinta-se à vontade para experimentar outros valores e observar o resultado.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Obtivemos uma lista de termos juntamente com o respetivo grau de importância. Como pode ver, as disciplinas mais relevantes, como machine learning e big data, estão presentes na lista nas posições de topo.\n",
"Obtivemos uma lista de termos juntamente com o seu grau de importância associado. Como pode ver, as disciplinas mais relevantes, como aprendizagem automática e big data, estão presentes na lista nas posições mais altas.\n",
"\n",
"## Passo 4: Visualizar o Resultado\n",
"\n",
"As pessoas conseguem interpretar melhor os dados quando apresentados de forma visual. Por isso, muitas vezes faz sentido visualizar os dados para extrair algumas perceções. Podemos utilizar a biblioteca `matplotlib` em Python para criar um gráfico simples da distribuição das palavras-chave com a sua relevância:\n"
"As pessoas conseguem interpretar melhor os dados na forma visual. Assim, muitas vezes faz sentido visualizar os dados para obter alguns insights. Podemos utilizar a biblioteca `matplotlib` em Python para traçar uma distribuição simples das palavras-chave com a sua relevância:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Há, no entanto, uma maneira ainda melhor de visualizar as frequências de palavras - utilizando **Word Cloud**. Precisaremos instalar outra biblioteca para criar o word cloud a partir da nossa lista de palavras-chave.\n"
"Há, no entanto, uma forma ainda melhor de visualizar a frequência das palavras - utilizando **Nuvem de Palavras**. Vamos precisar de instalar outra biblioteca para criar a nuvem de palavras a partir da nossa lista de palavras-chave.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"O objeto `WordCloud` é responsável por receber ou texto original, ou uma lista pré-computada de palavras com as suas frequências, e devolve uma imagem, que pode então ser exibida usando `matplotlib`:\n"
"O objeto `WordCloud` é responsável por receber texto original ou uma lista pré-computada de palavras com as suas frequências, e retorna uma imagem, que pode depois ser exibida usando o `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Podemos também passar o texto original para `WordCloud` - vamos ver se conseguimos obter um resultado semelhante:\n"
"Também podemos passar o texto original para `WordCloud` - vamos ver se conseguimos obter um resultado semelhante:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"Pode ver que a nuvem de palavras agora parece mais impressionante, mas também contém muito ruído (por exemplo, palavras não relacionadas como `Retrieved on`). Além disso, obtemos menos palavras-chave compostas por duas palavras, como *data scientist* ou *computer science*. Isto deve-se ao facto de o algoritmo RAKE fazer um trabalho muito melhor na seleção de boas palavras-chave a partir do texto. Este exemplo ilustra a importância do pré-processamento e limpeza de dados, pois uma visão clara no final permitirá que tomemos decisões mais acertadas.\n",
"Pode ver que agora a nuvem de palavras parece mais impressionante, mas também contém muito ruído (ex. palavras sem relação, como `Retrieved on`). Além disso, obtemos menos palavras-chave que consistem em duas palavras, como *data scientist* ou *computer science*. Isto acontece porque o algoritmo RAKE faz um trabalho muito melhor na seleção de boas palavras-chave a partir do texto. Este exemplo ilustra a importância do pré-processamento e limpeza dos dados, porque uma imagem clara no final nos permitirá tomar melhores decisões.\n",
"\n",
"Neste exercício, percorremos um processo simples de extração de algum significado de um texto da Wikipédia, na forma de palavras-chave e nuvem de palavras. Este exemplo é bastante simples, mas demonstra bem todos os passos típicos que um cientista de dados seguirá ao trabalhar com dados, desde a aquisição de dados até à visualização.\n",
"Neste exercício percorremos um processo simples de extrair algum significado do texto da Wikipédia, na forma de palavras-chave e nuvem de palavras. Este exemplo é bastante simples, mas demonstra bem todas as etapas típicas que um cientista de dados irá seguir ao trabalhar com dados, começando pela aquisição dos dados até à visualização.\n",
"\n",
"No nosso curso, discutiremos todos esses passos em detalhe.\n"
"No nosso curso iremos discutir todas essas etapas em detalhe.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Aviso Legal**: \nEste documento foi traduzido utilizando o serviço de tradução automática [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte oficial. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas resultantes do uso desta tradução.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Aviso Legal**:\nEste documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Apesar de nos esforçarmos para garantir a precisão, tenha em atenção que traduções automáticas podem conter erros ou imprecisões. O documento original no seu idioma nativo deve ser considerado a fonte autoritativa. Para informação crítica, recomenda-se tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas resultantes do uso desta tradução.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-02T10:04:18+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "pt"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# Desafio: Analisar Texto sobre Ciência de Dados\n",
"# Desafio: Analisando Texto sobre Ciência de Dados\n",
"\n",
"> *Neste notebook, vamos experimentar usar diferentes URLs - artigo da Wikipédia sobre Aprendizagem Automática. Pode-se notar que, ao contrário da Ciência de Dados, este artigo contém muitos termos, tornando a análise mais problemática. Precisamos encontrar outra forma de limpar os dados após realizar a extração de palavras-chave, para eliminar algumas combinações de palavras frequentes, mas pouco significativas.*\n",
"> *Neste caderno, experimentamos usar diferentes URLs - artigo da wikipedia sobre Aprendizagem Automática. Pode ver que, ao contrário de Ciência de Dados, este artigo contém muitos termos, o que torna a análise mais problemática. Precisamos encontrar outra forma de limpar os dados após extrair as palavras-chave, para nos livrarmos de algumas combinações frequentes de palavras, mas que não são significativas.*\n",
"\n",
"Neste exemplo, vamos fazer um exercício simples que cobre todos os passos de um processo tradicional de ciência de dados. Não é necessário escrever nenhum código, basta clicar nas células abaixo para executá-las e observar o resultado. Como desafio, é incentivado que experimente este código com dados diferentes.\n",
"Neste exemplo, vamos fazer um exercício simples que cobre todas as etapas de um processo tradicional de ciência de dados. Não é necessário escrever código, pode simplesmente clicar nas células abaixo para as executar e observar o resultado. Como desafio, é incentivado a experimentar este código com diferentes dados.\n",
"\n",
"## Objetivo\n",
"\n",
"Nesta lição, discutimos diferentes conceitos relacionados à Ciência de Dados. Vamos tentar descobrir mais conceitos relacionados ao realizar **mineração de texto**. Começaremos com um texto sobre Ciência de Dados, extrairemos palavras-chave dele e, em seguida, tentaremos visualizar o resultado.\n",
"Nesta lição, temos discutido diferentes conceitos relacionados com Ciência de Dados. Vamos tentar descobrir mais conceitos relacionados fazendo uma **mineração de texto**. Começaremos com um texto sobre Ciência de Dados, extrairemos palavras-chave dele e depois tentaremos visualizar o resultado.\n",
"\n",
"Como texto, utilizarei a página sobre Ciência de Dados da Wikipédia:\n"
"Como texto, vou usar a página sobre Ciência de Dados da Wikipedia:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## Passo 1: Obter os Dados\n",
"\n",
"O primeiro passo em qualquer processo de ciência de dados é obter os dados. Vamos utilizar a biblioteca `requests` para isso:\n"
"O primeiro passo em todo o processo de ciência de dados é obter os dados. Vamos usar a biblioteca `requests` para isso:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Passo 2: Transformar os Dados\n",
"\n",
"O próximo passo é converter os dados para um formato adequado ao processamento. No nosso caso, descarregámos o código-fonte HTML da página e precisamos de o converter em texto simples.\n",
"O próximo passo é converter os dados para a forma adequada para processamento. No nosso caso, descarregámos o código fonte HTML da página, e precisamos de o converter em texto simples.\n",
"\n",
"Existem várias formas de fazer isto. Vamos utilizar o objeto [HTMLParser](https://docs.python.org/3/library/html.parser.html) incorporado mais simples do Python. Precisamos de criar uma subclasse da classe `HTMLParser` e definir o código que irá recolher todo o texto dentro das etiquetas HTML, exceto as etiquetas `<script>` e `<style>`.\n"
"Existem várias formas de o fazer. Vamos usar o [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), uma biblioteca Python popular para análise de HTML. O BeautifulSoup permite-nos direcionar elementos HTML específicos, para que possamos focar no conteúdo principal do artigo da Wikipedia e reduzir alguns menus de navegação, barras laterais, rodapés e outros conteúdos irrelevantes (embora algum texto padrão ainda possa permanecer).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Primeiro, precisamos instalar a biblioteca BeautifulSoup para análise de HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Passo 3: Obter Informações\n",
"## Step 3: Obter Insights\n",
"\n",
"O passo mais importante é transformar os nossos dados em algo a partir do qual possamos extrair informações úteis. No nosso caso, queremos extrair palavras-chave do texto e identificar quais são mais relevantes.\n",
"O passo mais importante é transformar os nossos dados numa forma a partir da qual possamos obter insights. No nosso caso, queremos extrair palavras-chave do texto e ver quais são as palavras-chave mais significativas.\n",
"\n",
"Vamos utilizar uma biblioteca Python chamada [RAKE](https://github.com/aneesha/RAKE) para a extração de palavras-chave. Primeiro, vamos instalar esta biblioteca caso ainda não esteja instalada:\n"
"Vamos usar a biblioteca Python chamada [RAKE](https://github.com/aneesha/RAKE) para a extração de palavras-chave. Primeiro, vamos instalar esta biblioteca caso não esteja presente: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"A funcionalidade principal está disponível a partir do objeto `Rake`, que podemos personalizar utilizando alguns parâmetros. No nosso caso, iremos definir o comprimento mínimo de uma palavra-chave para 5 caracteres, a frequência mínima de uma palavra-chave no documento para 3, e o número máximo de palavras numa palavra-chave para 2. Sinta-se à vontade para experimentar outros valores e observar o resultado.\n"
"A funcionalidade principal está disponível a partir do objeto `Rake`, que podemos personalizar usando alguns parâmetros. No nosso caso, vamos definir o comprimento mínimo de uma palavra-chave para 5 caracteres, a frequência mínima de uma palavra-chave no documento para 3, e o número máximo de palavras numa palavra-chave - para 2. Sinta-se à vontade para experimentar outros valores e observar o resultado.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Obtivemos uma lista de termos juntamente com o respetivo grau de importância. Como pode ver, as disciplinas mais relevantes, como machine learning e big data, estão presentes na lista nas posições de topo.\n",
"Obtivemos uma lista de termos juntamente com o grau de importância associado. Como pode ver, as disciplinas mais relevantes, como machine learning e big data, estão presentes na lista nas primeiras posições.\n",
"\n",
"## Passo 4: Visualizar o Resultado\n",
"## Passo 4: Visualização do Resultado\n",
"\n",
"As pessoas conseguem interpretar melhor os dados quando apresentados de forma visual. Por isso, muitas vezes faz sentido visualizar os dados para extrair algumas perceções. Podemos utilizar a biblioteca `matplotlib` em Python para criar um gráfico simples da distribuição das palavras-chave com a sua relevância:\n"
"As pessoas conseguem interpretar melhor os dados em formato visual. Por isso, faz frequentemente sentido visualizar os dados para retirar alguns insights. Podemos usar a biblioteca `matplotlib` em Python para traçar a distribuição simples das palavras-chave com a sua relevância:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Há, no entanto, uma forma ainda melhor de visualizar as frequências das palavras - utilizando **Word Cloud**. Precisaremos de instalar outra biblioteca para criar o word cloud a partir da nossa lista de palavras-chave.\n"
"Existe, no entanto, uma forma ainda melhor de visualizar as frequências das palavras - usando **Nuvem de Palavras**. Precisaremos instalar outra biblioteca para desenhar a nuvem de palavras a partir da nossa lista de palavras-chave.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"O objeto `WordCloud` é responsável por receber ou texto original, ou uma lista pré-computada de palavras com as suas frequências, e devolve uma imagem, que pode então ser exibida usando `matplotlib`:\n"
"O objeto `WordCloud` é responsável por receber texto original ou uma lista pré-computada de palavras com as suas frequências, e retorna uma imagem, que pode depois ser exibida usando o `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"Podemos também passar o texto original para `WordCloud` - vamos ver se conseguimos obter um resultado semelhante:\n"
"Também podemos passar o texto original para `WordCloud` - vamos ver se conseguimos obter um resultado semelhante:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Pode ver que a nuvem de palavras agora parece mais impressionante, mas também contém muito ruído (por exemplo, palavras não relacionadas como `Retrieved on`). Além disso, obtemos menos palavras-chave compostas por duas palavras, como *cientista de dados* ou *ciência da computação*. Isto deve-se ao facto de o algoritmo RAKE fazer um trabalho muito melhor na seleção de boas palavras-chave a partir do texto. Este exemplo ilustra a importância do pré-processamento e limpeza de dados, pois uma visão clara no final permitirá que tomemos decisões mais acertadas.\n",
"Pode ver que a nuvem de palavras agora parece mais impressionante, mas também contém muito ruído (ex. palavras não relacionadas como `Retrieved on`). Além disso, obtemos menos palavras-chave que consistem em duas palavras, como *data scientist* ou *computer science*. Isto acontece porque o algoritmo RAKE faz um trabalho muito melhor a selecionar boas palavras-chave a partir do texto. Este exemplo ilustra a importância do pré-processamento e limpeza dos dados, pois uma imagem clara no final permitirá que tomemos melhores decisões.\n",
"\n",
"Neste exercício, percorremos um processo simples de extração de algum significado de um texto da Wikipédia, na forma de palavras-chave e nuvem de palavras. Este exemplo é bastante simples, mas demonstra bem todos os passos típicos que um cientista de dados segue ao trabalhar com dados, desde a aquisição até à visualização.\n",
"Neste exercício, passámos por um processo simples de extrair algum significado do texto da Wikipédia, na forma de palavras-chave e nuvem de palavras. Este exemplo é bastante simples, mas demonstra bem todas as etapas típicas que um cientista de dados irá seguir ao trabalhar com dados, começando pela aquisição dos dados até à visualização.\n",
"\n",
"No nosso curso, discutiremos todos esses passos em detalhe.\n"
"No nosso curso, iremos discutir todas essas etapas em detalhe.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Aviso Legal**: \nEste documento foi traduzido utilizando o serviço de tradução automática [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original no seu idioma nativo deve ser considerado a fonte oficial. Para informações críticas, recomenda-se uma tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas resultantes do uso desta tradução.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Aviso Legal**:\nEste documento foi traduzido utilizando o serviço de tradução automática [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos por garantir a precisão, por favor tenha em atenção que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se a tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes da utilização desta tradução.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-02T10:18:31+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "pt"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
A Teoria da Estatística e Probabilidade são duas áreas altamente relacionadas da Matemática que têm grande relevância para a Ciência de Dados. É possível trabalhar com dados sem um conhecimento profundo de matemática, mas é sempre melhor conhecer pelo menos alguns conceitos básicos. Aqui apresentaremos uma breve introdução que o ajudará a começar.
[![Vídeo de Introdução](../../../../translated_images/pt-PT/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Vídeo de Introdução](../../../../translated_images/pt-PT/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Questionário pré-aula](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ A distribuição discreta mais conhecida é a **distribuição uniforme**, na qu
Só podemos falar sobre a probabilidade de uma variável cair em um determinado intervalo de valores, por exemplo, P(t<sub>1</sub>≤X<t<sub>2</sub>). Nesse caso, a distribuição de probabilidade é descrita por uma **função densidade de probabilidade** p(x), tal que
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/pt-PT/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/pt-PT/probability-density.a8aad29f17a14afb.webp)
Um análogo contínuo da distribuição uniforme é chamado de **uniforme contínua**, que é definida em um intervalo finito. A probabilidade de que o valor X caia em um intervalo de comprimento l é proporcional a l, e aumenta até 1.
@ -73,11 +73,11 @@ Quando analisamos dados da vida real, eles frequentemente não são variáveis a
Aqui está o box plot mostrando média, mediana e quartis para os nossos dados:
![Box Plot de Peso](../../../../translated_images/pt-PT/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Box Plot de Peso](../../../../translated_images/pt-PT/weight-boxplot.1dbab1c03af26f8a.webp)
Como os nossos dados contêm informações sobre diferentes **funções** dos jogadores, também podemos fazer o box plot por função - isso permitirá que tenhamos uma ideia de como os valores dos parâmetros diferem entre as funções. Desta vez, consideraremos a altura:
![Box plot por função](../../../../translated_images/pt-PT/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Box plot por função](../../../../translated_images/pt-PT/boxplot_byrole.036b27a1c3f52d42.webp)
Este diagrama sugere que, em média, a altura dos jogadores de primeira base é maior que a altura dos jogadores de segunda base. Mais tarde nesta lição, aprenderemos como podemos testar esta hipótese de forma mais formal e como demonstrar que os nossos dados são estatisticamente significativos para mostrar isso.
@ -85,7 +85,7 @@ Este diagrama sugere que, em média, a altura dos jogadores de primeira base é
Para ver qual é a distribuição dos nossos dados, podemos traçar um gráfico chamado **histograma**. O eixo X conterá um número de diferentes intervalos de peso (os chamados **bins**), e o eixo vertical mostrará o número de vezes que a amostra da variável aleatória esteve dentro de um determinado intervalo.
![Histograma de dados do mundo real](../../../../translated_images/pt-PT/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Histograma de dados do mundo real](../../../../translated_images/pt-PT/weight-histogram.bfd00caf7fc30b14.webp)
A partir deste histograma, pode-se ver que todos os valores estão centrados em torno de um certo peso médio, e quanto mais nos afastamos desse peso - menos pesos desse valor são encontrados. Ou seja, é muito improvável que o peso de um jogador de basebol seja muito diferente do peso médio. A variância dos pesos mostra a extensão em que os pesos provavelmente diferem da média.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
Se traçarmos o histograma das amostras geradas, veremos uma imagem muito semelhante à mostrada acima. E se aumentarmos o número de amostras e o número de bins, podemos gerar uma imagem de uma distribuição normal mais próxima do ideal:
![Distribuição Normal com média=0 e desvio padrão=1](../../../../translated_images/pt-PT/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Distribuição Normal com média=0 e desvio padrão=1](../../../../translated_images/pt-PT/normal-histogram.dfae0d67c202137d.webp)
*Distribuição Normal com média=0 e desvio padrão=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
No nosso caso, o valor 0.53 indica que há alguma correlação entre o peso e a altura de uma pessoa. Podemos também fazer o gráfico de dispersão de um valor contra o outro para ver a relação visualmente:
![Relação entre peso e altura](../../../../translated_images/pt-PT/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Relação entre peso e altura](../../../../translated_images/pt-PT/weight-height-relationship.3f06bde4ca2aba99.webp)
> Mais exemplos de correlação e covariância podem ser encontrados no [notebook associado](notebook.ipynb).

@ -1,6 +1,6 @@
# Introdução à Ciência de Dados
![dados em ação](../../../translated_images/pt-PT/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![dados em ação](../../../translated_images/pt-PT/data.48e22bb7617d8d92.webp)
> Foto de <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> no <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Nestes módulos, irá descobrir como a Ciência de Dados é definida e aprender sobre as considerações éticas que devem ser tidas em conta por um cientista de dados. Também irá aprender como os dados são definidos e explorar um pouco de estatística e probabilidade, os domínios académicos centrais da Ciência de Dados.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Trabalhar com Python - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
[![Vídeo de Introdução](../../../../translated_images/pt-PT/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Vídeo de Introdução](../../../../translated_images/pt-PT/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Embora bases de dados ofereçam formas muito eficientes de armazenar e consultar dados usando linguagens de consulta, a maneira mais flexível de processar dados é escrever o seu próprio programa para manipulá-los. Em muitos casos, realizar uma consulta em uma base de dados seria mais eficaz. No entanto, em alguns casos, quando é necessário um processamento de dados mais complexo, isso não pode ser feito facilmente usando SQL.
O processamento de dados pode ser programado em qualquer linguagem de programação, mas há certas linguagens que são mais adequadas para trabalhar com dados. Cientistas de dados geralmente preferem uma das seguintes linguagens:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Gráfico de Série Temporal](../../../../translated_images/pt-PT/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Gráfico de Série Temporal](../../../../translated_images/pt-PT/timeseries-1.80de678ab1cf727e.webp)
Agora suponha que, a cada semana, organizamos uma festa para amigos e levamos 10 pacotes adicionais de sorvete para a festa. Podemos criar outra série, indexada por semana, para demonstrar isso:
```python
@ -75,7 +75,7 @@ Quando somamos duas séries, obtemos o número total:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Gráfico de Série Temporal](../../../../translated_images/pt-PT/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Gráfico de Série Temporal](../../../../translated_images/pt-PT/timeseries-2.aae51d575c55181c.webp)
> **Nota** que não estamos usando a sintaxe simples `total_items+additional_items`. Se o fizéssemos, receberíamos muitos valores `NaN` (*Not a Number*) na série resultante. Isso ocorre porque há valores ausentes para alguns dos pontos de índice na série `additional_items`, e somar `NaN` a qualquer coisa resulta em `NaN`. Assim, precisamos especificar o parâmetro `fill_value` durante a soma.
@ -84,7 +84,7 @@ Com séries temporais, também podemos **reamostrar** a série com diferentes in
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Médias Mensais de Série Temporal](../../../../translated_images/pt-PT/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Médias Mensais de Série Temporal](../../../../translated_images/pt-PT/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -210,7 +210,7 @@ O primeiro problema em que nos vamos focar é o modelo de propagação epidémic
Como queremos demonstrar como lidar com dados, convidamo-lo a abrir [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) e lê-lo de cima para baixo. Pode também executar as células e realizar alguns desafios que deixámos para si no final.
![Propagação da COVID](../../../../translated_images/pt-PT/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![Propagação da COVID](../../../../translated_images/pt-PT/covidspread.f3d131c4f1d260ab.webp)
> Se não sabe como executar código no Jupyter Notebook, veja [este artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Um exemplo completo de análise deste conjunto de dados usando o serviço cognit
Abra [`notebook-papers.ipynb`](notebook-papers.ipynb) e leia-o de cima para baixo. Pode também executar as células e realizar alguns desafios que deixámos para si no final.
![Tratamento Médico COVID](../../../../translated_images/pt-PT/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Tratamento Médico COVID](../../../../translated_images/pt-PT/covidtreat.b2ba59f57ca45fbc.webp)
## Processamento de Dados de Imagem

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# Trabalhar com Dados
![amor pelos dados](../../../translated_images/pt-PT/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![amor pelos dados](../../../translated_images/pt-PT/data-love.a22ef29e6742c852.webp)
> Foto por <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> no <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Nestes módulos, vais aprender algumas formas de gerir, manipular e utilizar dados em aplicações. Vais aprender sobre bases de dados relacionais e não relacionais e como os dados podem ser armazenados nelas. Vais aprender os fundamentos de trabalhar com Python para gerir dados e descobrir algumas das muitas maneiras de usar Python para gerir e explorar dados.

@ -42,7 +42,7 @@ Crie um gráfico de dispersão básico para mostrar a relação entre o preço p
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![gráfico de dispersão 1](../../../../translated_images/pt-PT/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![gráfico de dispersão 1](../../../../translated_images/pt-PT/scatter1.5e1aa5fd6706c5d1.webp)
Agora, mostre os mesmos dados com um esquema de cores de mel para ilustrar como o preço evolui ao longo dos anos. Pode-se fazer isso adicionando um parâmetro 'hue' para mostrar a mudança, ano após ano:
@ -51,7 +51,7 @@ Agora, mostre os mesmos dados com um esquema de cores de mel para ilustrar como
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![gráfico de dispersão 2](../../../../translated_images/pt-PT/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![gráfico de dispersão 2](../../../../translated_images/pt-PT/scatter2.c0041a58621ca702.webp)
Com esta mudança no esquema de cores, é possível perceber claramente uma forte progressão ao longo dos anos no preço do mel por libra. De fato, ao verificar um conjunto de amostras nos dados (escolha um estado, como o Arizona, por exemplo), é possível observar um padrão de aumento de preços ano após ano, com poucas exceções:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Pode-se observar que o tamanho dos pontos aumenta gradualmente.
![gráfico de dispersão 3](../../../../translated_images/pt-PT/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![gráfico de dispersão 3](../../../../translated_images/pt-PT/scatter3.3c160a3d1dcb36b3.webp)
Será este um caso simples de oferta e procura? Devido a fatores como mudanças climáticas e o colapso das colónias, haverá menos mel disponível para compra ano após ano, e, assim, o preço aumenta?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Resposta: Sim, com algumas exceções por volta do ano 2003:
![gráfico de linhas 1](../../../../translated_images/pt-PT/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![gráfico de linhas 1](../../../../translated_images/pt-PT/line1.f36eb465229a3b1f.webp)
✅ Como o Seaborn está a agregar dados numa única linha, ele exibe "as múltiplas medições em cada valor de x, traçando a média e o intervalo de confiança de 95% em torno da média". [Fonte](https://seaborn.pydata.org/tutorial/relational.html). Este comportamento, que consome tempo, pode ser desativado adicionando `ci=None`.
@ -105,7 +105,7 @@ Pergunta: Bem, em 2003 também podemos observar um pico na oferta de mel? E se a
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![gráfico de linhas 2](../../../../translated_images/pt-PT/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![gráfico de linhas 2](../../../../translated_images/pt-PT/line2.a5b3493dc01058af.webp)
Resposta: Não exatamente. Ao observar a produção total, parece que ela realmente aumentou naquele ano específico, embora, de forma geral, a quantidade de mel produzido esteja em declínio durante esses anos.
@ -130,7 +130,7 @@ sns.relplot(
```
Nesta visualização, pode-se comparar a produção por colmeia e o número de colmeias ano após ano, lado a lado, com um limite de 3 colunas:
![grelha de facetas](../../../../translated_images/pt-PT/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![grelha de facetas](../../../../translated_images/pt-PT/facet.6a34851dcd540050.webp)
Para este conjunto de dados, nada particularmente se destaca em relação ao número de colmeias e sua produção, ano após ano e estado por estado. Existe uma forma diferente de encontrar uma correlação entre estas duas variáveis?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![gráficos sobrepostos](../../../../translated_images/pt-PT/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![gráficos sobrepostos](../../../../translated_images/pt-PT/dual-line.a4c28ce659603fab.webp)
Embora nada salte aos olhos em relação ao ano de 2003, isso permite encerrar esta lição com uma nota um pouco mais feliz: embora o número de colmeias esteja em declínio geral, ele está a estabilizar, mesmo que a produção por colmeia esteja a diminuir.

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Aqui, instalas o pacote `ggplot2` e depois importas para o ambiente de trabalho usando o comando `library("ggplot2")`. Para criar qualquer gráfico no ggplot, usa-se a função `ggplot()` e especifica-se o conjunto de dados, as variáveis x e y como atributos. Neste caso, usamos a função `geom_line()` porque queremos criar um gráfico de linhas.
![MaxWingspan-lineplot](../../../../../translated_images/pt-PT/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/pt-PT/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
O que notas imediatamente? Parece haver pelo menos um valor atípico - que envergadura impressionante! Uma envergadura de mais de 2000 centímetros equivale a mais de 20 metros - será que há Pterodáctilos a voar em Minnesota? Vamos investigar.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Especificamos o ângulo no `theme` e definimos os rótulos dos eixos x e y em `xlab()` e `ylab()` respetivamente. O `ggtitle()` dá um nome ao gráfico.
![MaxWingspan-lineplot-improved](../../../../../translated_images/pt-PT/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/pt-PT/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
Mesmo com a rotação dos rótulos definida para 45 graus, há demasiados para ler. Vamos tentar uma estratégia diferente: rotular apenas os valores atípicos e definir os rótulos dentro do gráfico. Podes usar um gráfico de dispersão para criar mais espaço para os rótulos:
@ -91,7 +91,7 @@ O que está a acontecer aqui? Usaste a função `geom_point()` para criar pontos
O que descobres?
![MaxWingspan-scatterplot](../../../../../translated_images/pt-PT/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/pt-PT/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## Filtrar os teus dados
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Criámos um novo dataframe `birds_filtered` e depois representámos um gráfico de dispersão. Ao filtrar os valores atípicos, os teus dados tornam-se mais coesos e compreensíveis.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/pt-PT/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/pt-PT/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
Agora que temos um conjunto de dados mais limpo, pelo menos em termos de envergadura, vamos descobrir mais sobre estas aves.
@ -152,7 +152,7 @@ birds_filtered %>% group_by(Category) %>%
```
No seguinte trecho, instalamos os pacotes [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) e [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) para ajudar a manipular e agrupar dados para criar um gráfico de barras empilhado. Primeiro, agrupas os dados pela `Categoria` das aves e depois resumes as colunas `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Em seguida, crias o gráfico de barras usando o pacote `ggplot2` e especificas as cores para as diferentes categorias e os rótulos.
![Stacked bar chart](../../../../../translated_images/pt-PT/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/pt-PT/stacked-bar-chart.0c92264e89da7b39.webp)
Este gráfico de barras, no entanto, é ilegível porque há demasiados dados não agrupados. Precisamos de selecionar apenas os dados que queremos representar, então vamos observar o comprimento das aves com base na sua categoria.
@ -167,7 +167,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Primeiro, contas os valores únicos na coluna `Categoria` e depois ordenas num novo dataframe `birds_count`. Estes dados ordenados são então considerados no mesmo nível para que sejam representados de forma ordenada. Usando o `ggplot2`, crias o gráfico de barras. O `coord_flip()` cria barras horizontais.
![category-length](../../../../../translated_images/pt-PT/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/pt-PT/category-length.7e34c296690e85d6.webp)
Este gráfico de barras mostra uma boa visão do número de aves em cada categoria. Num piscar de olhos, vês que o maior número de aves nesta região pertence à categoria de Patos/Gansos/AvesAquáticas. Minnesota é a 'terra dos 10.000 lagos', então isto não é surpreendente!
@ -190,7 +190,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
Agrupamos os dados `birds_filtered` pela `Categoria` e depois criamos um gráfico de barras.
![comparing data](../../../../../translated_images/pt-PT/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/pt-PT/comparingdata.f486a450d61c7ca5.webp)
Nada é surpreendente aqui: os beija-flores têm o menor MaxLength em comparação com os Pelicanos ou Gansos. É bom quando os dados fazem sentido lógico!
@ -202,7 +202,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/pt-PT/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/pt-PT/superimposed-values.5363f0705a1da416.webp)
## 🚀 Desafio

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![comprimento máximo por ordem](../../../../../translated_images/pt-PT/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![comprimento máximo por ordem](../../../../../translated_images/pt-PT/max-length-per-order.e5b283d952c78c12.webp)
Isto dá uma visão geral da distribuição do comprimento corporal por Ordem de aves, mas não é a forma ideal de exibir distribuições reais. Essa tarefa é geralmente realizada criando um Histograma.
@ -48,7 +48,7 @@ O `ggplot2` oferece ótimas formas de visualizar a distribuição de dados usand
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![distribuição em todo o conjunto de dados](../../../../../translated_images/pt-PT/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![distribuição em todo o conjunto de dados](../../../../../translated_images/pt-PT/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
Como podes ver, a maioria das mais de 400 aves neste conjunto de dados tem uma Massa Corporal Máxima inferior a 2000. Obtém mais informações sobre os dados alterando o parâmetro `bins` para um número maior, como 30:
@ -56,7 +56,7 @@ Como podes ver, a maioria das mais de 400 aves neste conjunto de dados tem uma M
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![distribuição-30bins](../../../../../translated_images/pt-PT/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![distribuição-30bins](../../../../../translated_images/pt-PT/distribution-30bins.6a3921ea7a421bf7.webp)
Este gráfico mostra a distribuição de forma um pouco mais detalhada. Um gráfico menos enviesado para a esquerda pode ser criado garantindo que apenas selecionas dados dentro de um determinado intervalo:
@ -68,7 +68,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![histograma filtrado](../../../../../translated_images/pt-PT/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![histograma filtrado](../../../../../translated_images/pt-PT/filtered-histogram.6bf5d2bfd8253322.webp)
✅ Experimenta outros filtros e pontos de dados. Para ver a distribuição completa dos dados, remove o filtro `['MaxBodyMass']` para mostrar distribuições rotuladas.
@ -82,7 +82,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Parece haver uma correlação esperada entre estes dois elementos ao longo de um eixo esperado, com um ponto de convergência particularmente forte:
![gráfico 2d](../../../../../translated_images/pt-PT/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![gráfico 2d](../../../../../translated_images/pt-PT/2d-plot.c504786f439bd7eb.webp)
Os histogramas funcionam bem por padrão para dados numéricos. E se precisares de ver distribuições de acordo com dados textuais?
@ -114,7 +114,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![envergadura e conservação](../../../../../translated_images/pt-PT/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![envergadura e conservação](../../../../../translated_images/pt-PT/wingspan-conservation-collation.4024e9aa6910866a.webp)
Não parece haver uma boa correlação entre a envergadura mínima e o estado de conservação. Testa outros elementos do conjunto de dados usando este método. Podes experimentar diferentes filtros também. Encontras alguma correlação?
@ -128,7 +128,7 @@ Vamos trabalhar agora com gráficos de densidade!
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![gráfico de densidade](../../../../../translated_images/pt-PT/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![gráfico de densidade](../../../../../translated_images/pt-PT/density-plot.675ccf865b76c690.webp)
Podes ver como o gráfico reflete o anterior para os dados de Envergadura Mínima; é apenas um pouco mais suave. Se quisesses revisitar aquela linha irregular de MaxBodyMass no segundo gráfico que construíste, poderias suavizá-la muito bem recriando-a usando este método:
@ -136,7 +136,7 @@ Podes ver como o gráfico reflete o anterior para os dados de Envergadura Mínim
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![densidade de massa corporal](../../../../../translated_images/pt-PT/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![densidade de massa corporal](../../../../../translated_images/pt-PT/bodymass-smooth.d31ce526d82b0a1f.webp)
Se quiseres uma linha suave, mas não demasiado suave, edita o parâmetro `adjust`:
@ -144,7 +144,7 @@ Se quiseres uma linha suave, mas não demasiado suave, edita o parâmetro `adjus
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![massa corporal menos suave](../../../../../translated_images/pt-PT/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![massa corporal menos suave](../../../../../translated_images/pt-PT/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ Lê sobre os parâmetros disponíveis para este tipo de gráfico e experimenta!
@ -154,7 +154,7 @@ Este tipo de gráfico oferece visualizações explicativas muito bonitas. Com al
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![massa corporal por ordem](../../../../../translated_images/pt-PT/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![massa corporal por ordem](../../../../../translated_images/pt-PT/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 Desafio

@ -83,7 +83,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Voilà, um gráfico de pizza que mostra as proporções destes dados de acordo com estas duas classes de cogumelos. É muito importante garantir que a ordem das etiquetas esteja correta, especialmente aqui, por isso verifica sempre a ordem com que o array de etiquetas é construído!
![gráfico de pizza](../../../../../translated_images/pt-PT/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![gráfico de pizza](../../../../../translated_images/pt-PT/pie1-wb.685df063673751f4.webp)
## Roscas!
@ -117,7 +117,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![gráfico de rosca](../../../../../translated_images/pt-PT/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![gráfico de rosca](../../../../../translated_images/pt-PT/donut-wb.34e6fb275da9d834.webp)
Este código utiliza duas bibliotecas - ggplot2 e webr. Usando a função PieDonut da biblioteca webr, podemos criar um gráfico de rosca facilmente!
@ -155,7 +155,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
Usando um gráfico de waffle, podes ver claramente as proporções das cores dos chapéus neste conjunto de dados de cogumelos. Curiosamente, existem muitos cogumelos com chapéus verdes!
![gráfico de waffle](../../../../../translated_images/pt-PT/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![gráfico de waffle](../../../../../translated_images/pt-PT/waffle.aaa75c5337735a6e.webp)
Nesta lição, aprendeste três formas de visualizar proporções. Primeiro, precisas de agrupar os teus dados em categorias e depois decidir qual é a melhor forma de exibir os dados - pizza, rosca ou waffle. Todas são deliciosas e oferecem ao utilizador uma visão instantânea de um conjunto de dados.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/pt-PT/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/pt-PT/scatter1.86b8900674d88b26.webp)
Agora, mostre os mesmos dados com um esquema de cores de mel para ilustrar como o preço evolui ao longo dos anos. Pode fazer isso adicionando o parâmetro 'scale_color_gradientn' para mostrar a mudança, ano após ano:
@ -52,7 +52,7 @@ Agora, mostre os mesmos dados com um esquema de cores de mel para ilustrar como
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/pt-PT/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/pt-PT/scatter2.4d1cbc693bad20e2.webp)
Com esta mudança de esquema de cores, é possível ver claramente uma forte progressão ao longo dos anos no preço do mel por libra. De facto, ao verificar um conjunto de amostra nos dados (escolha um estado, como o Arizona), pode-se observar um padrão de aumento de preço ano após ano, com poucas exceções:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Pode ver o tamanho dos pontos aumentando gradualmente.
![scatterplot 3](../../../../../translated_images/pt-PT/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/pt-PT/scatter3.722d21e6f20b3ea2.webp)
Será este um caso simples de oferta e procura? Devido a fatores como mudanças climáticas e colapso de colónias, há menos mel disponível para compra ano após ano, e assim o preço aumenta?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Resposta: Sim, com algumas exceções por volta do ano de 2003:
![line chart 1](../../../../../translated_images/pt-PT/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/pt-PT/line1.299b576fbb2a59e6.webp)
Pergunta: Bem, em 2003 também podemos ver um pico na oferta de mel? E se observarmos a produção total ano após ano?
@ -106,7 +106,7 @@ Pergunta: Bem, em 2003 também podemos ver um pico na oferta de mel? E se observ
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/pt-PT/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/pt-PT/line2.3b18fcda7176ceba.webp)
Resposta: Não exatamente. Se observar a produção total, parece que ela realmente aumentou nesse ano específico, embora, de forma geral, a quantidade de mel produzida esteja em declínio durante esses anos.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
Nesta visualização, pode comparar o rendimento por colónia e o número de colónias ano após ano, lado a lado, com uma disposição de 3 colunas:
![facet grid](../../../../../translated_images/pt-PT/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/pt-PT/facet.491ad90d61c2a7cc.webp)
Para este conjunto de dados, nada particularmente se destaca em relação ao número de colónias e ao seu rendimento, ano após ano e estado por estado. Existe uma forma diferente de encontrar uma correlação entre estas duas variáveis?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/pt-PT/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/pt-PT/dual-line.fc4665f360a54018.webp)
Embora nada salte aos olhos em torno do ano de 2003, isso permite terminar esta lição com uma nota um pouco mais feliz: embora o número de colónias esteja em declínio geral, ele está a estabilizar, mesmo que o rendimento por colónia esteja a diminuir.

@ -38,25 +38,25 @@ Em lições anteriores, você experimentou criar diversos tipos de visualizaçõ
Mesmo que um cientista de dados seja cuidadoso ao escolher o gráfico certo para os dados certos, existem muitas maneiras de exibir dados de forma a provar um ponto, muitas vezes às custas de comprometer os próprios dados. Há muitos exemplos de gráficos e infográficos enganosos!
[![Como os Gráficos Enganam por Alberto Cairo](../../../../../translated_images/pt-PT/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Como os gráficos enganam")
[![Como os Gráficos Enganam por Alberto Cairo](../../../../../translated_images/pt-PT/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Como os gráficos enganam")
> 🎥 Clique na imagem acima para assistir a uma palestra sobre gráficos enganosos
Este gráfico inverte o eixo X para mostrar o oposto da verdade, com base na data:
![gráfico ruim 1](../../../../../translated_images/pt-PT/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![gráfico ruim 1](../../../../../translated_images/pt-PT/bad-chart-1.596bc93425a8ac30.webp)
[Este gráfico](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) é ainda mais enganoso, pois o olhar é atraído para a direita, levando à conclusão de que, ao longo do tempo, os casos de COVID diminuíram nos vários condados. Na verdade, ao observar atentamente as datas, percebe-se que elas foram reorganizadas para criar essa tendência descendente enganosa.
![gráfico ruim 2](../../../../../translated_images/pt-PT/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![gráfico ruim 2](../../../../../translated_images/pt-PT/bad-chart-2.62edf4d2f30f4e51.webp)
Este exemplo notório usa cor E um eixo Y invertido para enganar: em vez de concluir que as mortes por armas aumentaram após a aprovação de uma legislação favorável às armas, o olhar é enganado para pensar que o oposto é verdadeiro:
![gráfico ruim 3](../../../../../translated_images/pt-PT/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![gráfico ruim 3](../../../../../translated_images/pt-PT/bad-chart-3.e201e2e915a230bc.webp)
Este gráfico estranho mostra como a proporção pode ser manipulada, com efeito hilário:
![gráfico ruim 4](../../../../../translated_images/pt-PT/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![gráfico ruim 4](../../../../../translated_images/pt-PT/bad-chart-4.8872b2b881ffa96c.webp)
Comparar o incomparável é mais um truque duvidoso. Existe um [site maravilhoso](https://tylervigen.com/spurious-correlations) dedicado a 'correlações espúrias', exibindo 'fatos' que correlacionam coisas como a taxa de divórcio no Maine e o consumo de margarina. Um grupo no Reddit também coleta os [usos feios](https://www.reddit.com/r/dataisugly/top/?t=all) de dados.
@ -91,13 +91,13 @@ Rotule os seus eixos, forneça uma legenda, se necessário, e ofereça tooltips
Se os seus dados forem textuais e extensos no eixo X, você pode inclinar o texto para melhorar a legibilidade. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) oferece gráficos em 3D, se os seus dados suportarem. Visualizações de dados sofisticadas podem ser produzidas usando esta biblioteca.
![gráficos 3D](../../../../../translated_images/pt-PT/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![gráficos 3D](../../../../../translated_images/pt-PT/3d.db1734c151eee87d.webp)
## Exibição de gráficos animados e em 3D
Algumas das melhores visualizações de dados hoje em dia são animadas. Shirley Wu tem exemplos incríveis feitos com D3, como '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', onde cada flor é uma visualização de um filme. Outro exemplo para o Guardian é 'bussed out', uma experiência interativa que combina visualizações com Greensock e D3, além de um formato de artigo com narrativa para mostrar como NYC lida com o problema dos sem-teto, enviando pessoas para fora da cidade.
![busing](../../../../../translated_images/pt-PT/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/pt-PT/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: Como a América Move os Sem-Teto" do [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizações por Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Embora esta lição não seja suficiente para ensinar em profundidade essas pode
Você completará um aplicativo web que exibirá uma visão animada dessa rede social. Ele utiliza uma biblioteca criada para gerar uma [visualização de uma rede](https://github.com/emiliorizzo/vue-d3-network) usando Vue.js e D3. Quando o aplicativo estiver em execução, você pode mover os nós na tela para reorganizar os dados.
![liaisons](../../../../../translated_images/pt-PT/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/pt-PT/liaisons.90ce7360bcf84765.webp)
## Projeto: Crie um gráfico para mostrar uma rede usando D3.js

@ -1,6 +1,6 @@
# Visualizações
![uma abelha numa flor de lavanda](../../../translated_images/pt-PT/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![uma abelha numa flor de lavanda](../../../translated_images/pt-PT/bee.0aa1d91132b12e3a.webp)
> Foto de <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> no <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Visualizar dados é uma das tarefas mais importantes de um cientista de dados. Imagens valem mais do que mil palavras, e uma visualização pode ajudá-lo a identificar vários aspetos interessantes dos seus dados, como picos, valores atípicos, agrupamentos, tendências e muito mais, que podem ajudá-lo a compreender a história que os seus dados estão a tentar contar.

@ -16,7 +16,7 @@ Neste ponto, provavelmente já percebeu que a ciência de dados é um processo.
Esta lição foca-se em 3 partes do ciclo de vida: captura, processamento e manutenção.
![Diagrama do ciclo de vida da ciência de dados](../../../../translated_images/pt-PT/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Diagrama do ciclo de vida da ciência de dados](../../../../translated_images/pt-PT/data-science-lifecycle.a1e362637503c4fb.webp)
> Foto por [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Captura
@ -92,7 +92,7 @@ Explore o [Ciclo de Vida do Processo de Ciência de Dados em Equipa](https://doc
|Processo de Ciência de Dados em Equipa (TDSP)|Processo padrão da indústria para mineração de dados (CRISP-DM)|
|--|--|
|![Ciclo de Vida do Processo de Ciência de Dados em Equipa](../../../../translated_images/pt-PT/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Imagem do Processo de Ciência de Dados](../../../../translated_images/pt-PT/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Ciclo de Vida do Processo de Ciência de Dados em Equipa](../../../../translated_images/pt-PT/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Imagem do Processo de Ciência de Dados](../../../../translated_images/pt-PT/CRISP-DM.8bad2b4c66e62aa7.webp) |
| Imagem por [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Imagem por [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Questionário Pós-Aula](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# O Ciclo de Vida da Ciência de Dados
![comunicação](../../../translated_images/pt-PT/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![comunicação](../../../translated_images/pt-PT/communication.06d8e2a88d30d168.webp)
> Foto por <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> no <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Nestes conteúdos, vais explorar alguns dos aspetos do ciclo de vida da Ciência de Dados, incluindo análise e comunicação de dados.

@ -1,12 +1,12 @@
# Ciência de Dados na Cloud
![cloud-picture](../../../translated_images/pt-PT/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/pt-PT/cloud-picture.f5526de3c6c6387b.webp)
> Foto de [Jelleke Vanooteghem](https://unsplash.com/@ilumire) no [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Quando se trata de fazer ciência de dados com big data, a cloud pode ser um divisor de águas. Nas próximas três lições, vamos explorar o que é a cloud e por que ela pode ser tão útil. Também vamos analisar um conjunto de dados sobre insuficiência cardíaca e construir um modelo para ajudar a avaliar a probabilidade de alguém sofrer de insuficiência cardíaca. Utilizaremos o poder da cloud para treinar, implementar e consumir um modelo de duas formas diferentes. Uma forma será utilizando apenas a interface de utilizador, num estilo de "Low code/No code", e a outra será através do Azure Machine Learning Software Developer Kit (Azure ML SDK).
![project-schema](../../../translated_images/pt-PT/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/pt-PT/project-schema.420e56d495624541.webp)
### Tópicos

@ -32,7 +32,7 @@ Graças à democratização da IA, os desenvolvedores estão a encontrar formas
* [Ciência de Dados na Saúde](https://data-flair.training/blogs/data-science-in-healthcare/) - destaca aplicações como imagiologia médica (e.g., ressonância magnética, raio-X, tomografia), genómica (sequenciamento de DNA), desenvolvimento de medicamentos (avaliação de risco, previsão de sucesso), análise preditiva (cuidados ao paciente e logística de fornecimento), rastreamento e prevenção de doenças, etc.
![Aplicações de Ciência de Dados no Mundo Real](../../../../translated_images/pt-PT/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Crédito da Imagem: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Aplicações de Ciência de Dados no Mundo Real](../../../../translated_images/pt-PT/data-science-applications.4e5019cd8790ebac.webp) Crédito da Imagem: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
A figura mostra outros domínios e exemplos de aplicação de técnicas de ciência de dados. Queres explorar outras aplicações? Consulta a secção [Revisão e Autoestudo](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) abaixo.

@ -13,7 +13,7 @@ A interface do Explorer (mostrada na imagem abaixo) permite-te selecionar um con
2. Explorar o [Catálogo](https://planetarycomputer.microsoft.com/catalog) de conjuntos de dados - aprender o propósito de cada um.
3. Usar o Explorer - escolher um conjunto de dados do teu interesse, selecionar uma consulta relevante e uma opção de renderização.
![O Explorer do Planetary Computer](../../../../translated_images/pt-PT/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![O Explorer do Planetary Computer](../../../../translated_images/pt-PT/planetary-computer-explorer.c1e95a9b053167d6.webp)
`A Tua Tarefa:`
Agora analisa a visualização que foi gerada no navegador e responde às seguintes questões:

@ -1,57 +1,67 @@
# Data Science para Iniciantes - Um Currículo
# Ciência de Dados para Iniciantes - Um Currículo
[![Abrir no GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![Licença GitHub](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![Contribuidores GitHub](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![Issues GitHub](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![Pull requests GitHub](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Bem-vindos](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![Problemas GitHub](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![Pedidos de Pull GitHub](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![Pedidos de Pull Bem-vindos](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![Observadores GitHub](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![Forks GitHub](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![Estrelas GitHub](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Discord da Microsoft Foundry](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![Fórum de Desenvolvedores Microsoft Foundry](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Os Advocates do Azure Cloud da Microsoft têm o prazer de oferecer um currículo de 10 semanas, com 20 lições, totalmente dedicado a Data Science. Cada lição inclui questionários pré e pós-lição, instruções escritas para completar a lição, uma solução, e uma tarefa. A nossa pedagogia baseada em projetos permite que aprenda enquanto constrói, uma forma comprovada para novas competências 'ficarem'.
Os Advocates do Azure Cloud na Microsoft têm o prazer de oferecer um currículo de 10 semanas, com 20 lições, totalmente dedicado à Ciência de Dados. Cada lição inclui questionários antes e depois da lição, instruções escritas para completar a lição, uma solução e uma tarefa. A nossa pedagogia baseada em projetos permite aprender enquanto constrói, uma forma comprovada para as novas competências “ficarem”.
**Um enorme obrigado aos nossos autores:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**Um grande agradecimento aos nossos autores:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Agradecimentos especiais 🙏 aos nossos autores, revisores e colaboradores de conteúdo do [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** nomeadamente Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Agradecimento especial 🙏 aos nossos autores, revisores e colaboradores de conteúdo do [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** nomeadamente Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Notas gráficas por @sketchthedocs https://sketchthedocs.dev](../../translated_images/pt-PT/00-Title.8af36cd35da1ac55.webp)|
|![Esboço por @sketchthedocs https://sketchthedocs.dev](../../translated_images/pt-PT/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Data Science para Iniciantes - _Notas gráficas por [@nitya](https://twitter.com/nitya)_ |
| Ciência de Dados para Iniciantes - _Esboço por [@nitya](https://twitter.com/nitya)_ |
### 🌐 Suporte Multilíngue
#### Suportado via GitHub Action (Automatizado & Sempre Atualizado)
#### Suportado via GitHub Action (Automatizado e Sempre Atualizado)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Árabe](../ar/README.md) | [Bengali](../bn/README.md) | [Búlgaro](../bg/README.md) | [Birmanês (Myanmar)](../my/README.md) | [Chinês (Simplificado)](../zh-CN/README.md) | [Chinês (Tradicional, Hong Kong)](../zh-HK/README.md) | [Chinês (Tradicional, Macau)](../zh-MO/README.md) | [Chinês (Tradicional, Taiwan)](../zh-TW/README.md) | [Croata](../hr/README.md) | [Checo](../cs/README.md) | [Dinamarquês](../da/README.md) | [Holandês](../nl/README.md) | [Estónio](../et/README.md) | [Finlandês](../fi/README.md) | [Francês](../fr/README.md) | [Alemão](../de/README.md) | [Grego](../el/README.md) | [Hebraico](../he/README.md) | [Hindi](../hi/README.md) | [Húngaro](../hu/README.md) | [Indonésio](../id/README.md) | [Italiano](../it/README.md) | [Japonês](../ja/README.md) | [Kannada](../kn/README.md) | [Coreano](../ko/README.md) | [Lituano](../lt/README.md) | [Malaio](../ms/README.md) | [Malaiala](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Pidgin Nigeriano](../pcm/README.md) | [Norueguês](../no/README.md) | [Persa (Farsi)](../fa/README.md) | [Polaco](../pl/README.md) | [Português (Brasil)](../pt-BR/README.md) | [Português (Portugal)](./README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romeno](../ro/README.md) | [Russo](../ru/README.md) | [Sérvio (Cirílico)](../sr/README.md) | [Eslovaco](../sk/README.md) | [Esloveno](../sl/README.md) | [Espanhol](../es/README.md) | [Suaíli](../sw/README.md) | [Sueco](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Tailandês](../th/README.md) | [Turco](../tr/README.md) | [Ucraniano](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamita](../vi/README.md)
[Árabe](../ar/README.md) | [Bengali](../bn/README.md) | [Búlgaro](../bg/README.md) | [Birmanês (Myanmar)](../my/README.md) | [Chinês (Simplificado)](../zh-CN/README.md) | [Chinês (Tradicional, Hong Kong)](../zh-HK/README.md) | [Chinês (Tradicional, Macau)](../zh-MO/README.md) | [Chinês (Tradicional, Taiwan)](../zh-TW/README.md) | [Croata](../hr/README.md) | [Checo](../cs/README.md) | [Dinamarquês](../da/README.md) | [Holandês](../nl/README.md) | [Estónio](../et/README.md) | [Finlandês](../fi/README.md) | [Francês](../fr/README.md) | [Alemão](../de/README.md) | [Grego](../el/README.md) | [Hebraico](../he/README.md) | [Hindi](../hi/README.md) | [Húngaro](../hu/README.md) | [Indonésio](../id/README.md) | [Italiano](../it/README.md) | [Japonês](../ja/README.md) | [Kannada](../kn/README.md) | [Coreano](../ko/README.md) | [Lituano](../lt/README.md) | [Malaio](../ms/README.md) | [Malaiala](../ml/README.md) | [Marata](../mr/README.md) | [Nepali](../ne/README.md) | [Pidgin Nigeriano](../pcm/README.md) | [Norueguês](../no/README.md) | [Persa (Farsi)](../fa/README.md) | [Polaco](../pl/README.md) | [Português (Brasil)](../pt-BR/README.md) | [Português (Portugal)](./README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romeno](../ro/README.md) | [Russo](../ru/README.md) | [Sérvio (Cirílico)](../sr/README.md) | [Eslovaco](../sk/README.md) | [Esloveno](../sl/README.md) | [Espanhol](../es/README.md) | [Suaíli](../sw/README.md) | [Sueco](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Tailandês](../th/README.md) | [Turco](../tr/README.md) | [Ucraniano](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamita](../vi/README.md)
> **Prefere Clonar Localmente?**
> Este repositório inclui traduções em mais de 50 idiomas, o que aumenta significativamente o tamanho do download. Para clonar sem as traduções, use o sparse checkout:
>
> Este repositório inclui mais de 50 traduções de idiomas que aumentam significativamente o tamanho do download. Para clonar sem traduções, use sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> Isto dá-lhe tudo o que precisa para concluir o curso com um download muito mais rápido.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Isto oferece tudo o que necessita para completar o curso com um download muito mais rápido.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Se desejar que sejam suportadas línguas adicionais de tradução, estão listadas [aqui](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Se desejar ter apoio para idiomas adicionais, esses idiomas suportados estão listados [aqui](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Junte-se à Nossa Comunidade
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
#### Junte-se à Nossa Comunidade
[![Discord da Microsoft Foundry](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Temos uma série Discord aprender com IA em curso, saiba mais e junte-se a nós em [Learn with AI Series](https://aka.ms/learnwithai/discord) de 18 a 30 de Setembro, 2025. Vai receber dicas e truques para usar o GitHub Copilot para Data Science.
Temos uma série de aprendizagem no Discord com IA em curso, saiba mais e junte-se a nós em [Learn with AI Series](https://aka.ms/learnwithai/discord) de 18 a 30 de setembro de 2025. Receberá dicas e truques para usar o GitHub Copilot para Ciência de Dados.
![Série Learn with AI](../../translated_images/pt-PT/1.2b28cdc6205e26fe.webp)
@ -59,47 +69,47 @@ Temos uma série Discord aprender com IA em curso, saiba mais e junte-se a nós
Comece com os seguintes recursos:
- [Página Hub do Estudante](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Nesta página, encontrará recursos para iniciantes, pacotes para estudantes e até formas de obter um voucher de certificação gratuito. Esta é uma página que vai querer adicionar aos favoritos e consultar de tempos a tempos, pois atualizamos o conteúdo pelo menos mensalmente.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Junte-se a uma comunidade global de embaixadores estudantis, esta pode ser a sua entrada para a Microsoft.
- [Página do Hub para Estudantes](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Nesta página encontrará recursos para iniciantes, kits para estudantes e até formas de obter um voucher de certificação gratuito. Esta é uma página que deve guardar nos favoritos e consultar de tempos a tempos, pois atualizamos o conteúdo pelo menos mensalmente.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Junte-se a uma comunidade global de estudantes embaixadores, esta pode ser a sua porta de entrada para a Microsoft.
# Começar
## 📚 Documentação
- **[Guia de Instalação](INSTALLATION.md)** - Instruções passo a passo para configuração para iniciantes
- **[Guia de Uso](USAGE.md)** - Exemplos e fluxos de trabalho comuns
- **[Guia de Instalação](INSTALLATION.md)** - Instruções passo a passo para iniciantes
- **[Guia de Utilização](USAGE.md)** - Exemplos e fluxos de trabalho comuns
- **[Resolução de Problemas](TROUBLESHOOTING.md)** - Soluções para problemas comuns
- **[Guia de Contribuição](CONTRIBUTING.md)** - Como contribuir para este projeto
- **[Para Professores](for-teachers.md)** - Orientações para ensino e recursos para sala de aula
- **[Para Professores](for-teachers.md)** - Orientação para ensino e recursos para a sala de aula
## 👨‍🎓 Para Estudantes
> **Totalmente Iniciantes**: Novo em data science? Comece com os nossos [exemplos para iniciantes](examples/README.md)! Estes exemplos simples, bem comentados, vão ajudá-lo a compreender o básico antes de avançar para o currículo completo.
> **[Estudantes](https://aka.ms/student-page)**: para usar este currículo por sua conta, faça um fork do repositório inteiro e complete os exercícios sozinho, começando com um questionário pré-lecture. Depois leia a aula e complete o resto das atividades. Tente criar os projetos compreendendo as lições em vez de copiar o código da solução; contudo, esse código está disponível nas pastas /solutions em cada lição orientada a projetos. Outra ideia seria formar um grupo de estudo com amigos e percorrem o conteúdo juntos. Para estudo adicional, recomendamos [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Completamente Novatos**: Novo na ciência de dados? Comece com os nossos [exemplos amigáveis para iniciantes](examples/README.md)! Estes exemplos simples e bem comentados ajudarão a entender o básico antes de avançar para o currículo completo.
> **[Estudantes](https://aka.ms/student-page)**: para usar este currículo por conta própria, faça fork do repositório inteiro e complete os exercícios sozinho, começando com um questionário pré-lectura. Depois leia a aula e complete o restante das atividades. Tente criar os projetos compreendendo as lições em vez de copiar o código da solução; no entanto, esse código está disponível nas pastas /solutions em cada lição orientada a projetos. Outra ideia seria formar um grupo de estudo com amigos e passar pelo conteúdo juntos. Para estudo adicional, recomendamos o [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Início Rápido:**
1. Consulte o [Guia de Instalação](INSTALLATION.md) para configurar o seu ambiente
2. Revise o [Guia de Uso](USAGE.md) para aprender a trabalhar com o currículo
2. Reveja o [Guia de Utilização](USAGE.md) para aprender a trabalhar com o currículo
3. Comece pela Lição 1 e prossiga sequencialmente
4. Junte-se à nossa [comunidade Discord](https://aka.ms/ds4beginners/discord) para suporte
4. Junte-se à nossa [comunidade no Discord](https://aka.ms/ds4beginners/discord) para apoio
## 👩‍🏫 Para Professores
> **Professores**: incluímos [algumas sugestões](for-teachers.md) sobre como usar este currículo. Gostaríamos muito do vosso feedback [no nosso fórum de discussão](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Professores**: incluímos [algumas sugestões](for-teachers.md) sobre como usar este currículo. Adoraríamos o seu feedback [no nosso fórum de discussão](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Conheça a Equipa
[![Vídeo promocional](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Vídeo promocional")
**Gif por** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Clique na imagem acima para ver um vídeo sobre o projeto e as pessoas que o criaram!
> 🎥 Clique na imagem acima para um vídeo sobre o projeto e as pessoas que o criaram!
## Pedagogia
Escolhemos dois princípios pedagógicos ao construir este currículo: garantir que é baseado em projetos e que inclui questionários frequentes. No final desta série, os estudantes terão aprendido princípios básicos de ciência de dados, incluindo conceitos éticos, preparação de dados, diferentes formas de trabalhar com dados, visualização de dados, análise de dados, casos de uso reais da ciência de dados e mais.
Escolhemos dois princípios pedagógicos ao construir este currículo: garantir que é baseado em projetos e que inclui questionários frequentes. No final desta série, os alunos terão aprendido os princípios básicos da ciência de dados, incluindo conceitos éticos, preparação dos dados, diferentes formas de trabalhar com dados, visualização de dados, análise de dados, casos de uso reais de ciência de dados e muito mais.
Além disso, um questionário de baixo risco antes da aula define a intenção do estudante para aprender um tópico, enquanto um segundo questionário após a aula assegura uma maior retenção. Este currículo foi projetado para ser flexível e divertido e pode ser realizado na sua totalidade ou em partes. Os projetos começam pequenos e tornam-se progressivamente mais complexos até ao final do ciclo de 10 semanas.
Além disso, um questionário de baixo risco antes da aula define a intenção do aluno para aprender um tópico, enquanto um segundo questionário após a aula assegura uma retenção maior. Este currículo foi concebido para ser flexível e divertido e pode ser seguido na totalidade ou em parte. Os projetos começam pequenos e tornam-se progressivamente mais complexos até ao final do ciclo de 10 semanas.
> Consulte as nossas diretrizes de [Código de Conduta](CODE_OF_CONDUCT.md), [Contribuição](CONTRIBUTING.md), [Tradução](TRANSLATIONS.md). Agradecemos o seu feedback construtivo!
> Consulte o nosso [Código de Conduta](CODE_OF_CONDUCT.md), as diretrizes de [Contribuição](CONTRIBUTING.md), [Tradução](TRANSLATIONS.md). Agradecemos o vosso feedback construtivo!
## Cada aula inclui:
@ -107,24 +117,24 @@ Além disso, um questionário de baixo risco antes da aula define a intenção d
- Vídeo suplementar opcional
- Questionário de aquecimento pré-aula
- Aula escrita
- Para aulas baseadas em projetos, guias passo a passo sobre como construir o projeto
- Para aulas baseadas em projetos, guias passo-a-passo sobre como construir o projeto
- Verificações de conhecimento
- Um desafio
- Leitura suplementar
- Leitura complementar
- Trabalho de casa
- [Questionário pós-aula](https://ff-quizzes.netlify.app/en/)
> **Uma nota sobre os questionários**: Todos os questionários estão contidos na pasta Quiz-App, totalizando 40 questionários com três perguntas cada. Estão ligados dentro das aulas, mas a aplicação do questionário pode ser executada localmente ou implementada no Azure; siga as instruções na pasta `quiz-app`. Estão a ser gradualmente localizados.
> **Uma nota sobre os questionários**: Todos os questionários encontram-se na pasta Quiz-App, com um total de 40 questionários de três perguntas cada. Eles estão ligados dentro das aulas, mas a aplicação de questionários pode ser executada localmente ou implementada no Azure; siga as instruções na pasta `quiz-app`. Estão a ser progressivamente localizados.
## 🎓 Exemplos Amigáveis para Iniciantes
**Novo na Ciência de Dados?** Criámos um [diretório de exemplos](examples/README.md) especial com código simples e bem comentado para o ajudar a começar:
**Novo em Ciência de Dados?** Criámos um diretório especial de [exemplos](examples/README.md) com código simples e bem comentado para o ajudar a começar:
- 🌟 **Olá Mundo** - O seu primeiro programa de ciência de dados
- 📂 **Carregar Dados** - Aprenda a ler e explorar conjuntos de dados
- 📊 **Análise Simples** - Calcular estatísticas e encontrar padrões
- 📈 **Visualização Básica** - Criar gráficos e diagramas
- 🔬 **Projeto do Mundo Real** - Fluxo completo do início ao fim
- 📊 **Análise Simples** - Calcule estatísticas e encontre padrões
- 📈 **Visualização Básica** - Crie gráficos e diagramas
- 🔬 **Projeto do Mundo Real** - Fluxo de trabalho completo do início ao fim
Cada exemplo inclui comentários detalhados explicando cada passo, tornando-o perfeito para principiantes absolutos!
@ -138,60 +148,60 @@ Cada exemplo inclui comentários detalhados explicando cada passo, tornando-o pe
| Ciência de Dados para Iniciantes: Roteiro - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
| Número da Aula | Tópico | Agrupamento da Aula | Objetivos de Aprendizagem | Aula Ligada | Autor |
| Número da Aula | Tema | Grupo de Aulas | Objetivos de Aprendizagem | Aula Ligada | Autor |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Definição de Ciência de Dados | [Introdução](1-Introduction/README.md) | Aprender os conceitos básicos por trás da ciência de dados e como esta está relacionada com inteligência artificial, machine learning e big data. | [aula](1-Introduction/01-defining-data-science/README.md) [vídeo](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Ética na Ciência de Dados | [Introdução](1-Introduction/README.md) | Conceitos, desafios e estruturas de ética dos dados. | [aula](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definição de Dados | [Introdução](1-Introduction/README.md) | Como os dados são classificados e as suas fontes comuns. | [aula](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introdução à Estatística e Probabilidade | [Introdução](1-Introduction/README.md) | As técnicas matemáticas de probabilidade e estatística para compreender os dados. | [aula](1-Introduction/04-stats-and-probability/README.md) [vídeo](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Trabalhar com Dados Relacionais | [Trabalhar com Dados](2-Working-With-Data/README.md) | Introdução aos dados relacionais e aosico da exploração e análise de dados relacionais com a Structured Query Language, também conhecida como SQL (pronunciado “see-quell”). | [aula](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Trabalhar com Dados NoSQL | [Trabalhar com Dados](2-Working-With-Data/README.md) | Introdução a dados não relacionais, os seus vários tipos e o básico da exploração e análise de bases de dados de documentos. | [aula](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Trabalhar com Python | [Trabalhar com Dados](2-Working-With-Data/README.md) | Noções básicas de utilização de Python para exploração de dados com bibliotecas como Pandas. Recomenda-se uma compreensão básica de programação em Python. | [aula](2-Working-With-Data/07-python/README.md) [vídeo](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Preparação de Dados | [Trabalhar com Dados](2-Working-With-Data/README.md) | Tópicos sobre técnicas de dados para limpeza e transformação dos dados para lidar com desafios de dados em falta, incorretos ou incompletos. | [aula](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualização de Quantidades | [Visualização de Dados](3-Data-Visualization/README.md) | Aprender a usar Matplotlib para visualizar dados de aves 🦆 | [aula](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualização das Distribuições de Dados | [Visualização de Dados](3-Data-Visualization/README.md) | Visualização de observações e tendências dentro de um intervalo. | [aula](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualização de Proporções | [Visualização de Dados](3-Data-Visualization/README.md) | Visualização de percentagens discretas e agrupadas. | [aula](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualização de Relações | [Visualização de Dados](3-Data-Visualization/README.md) | Visualização de conexões e correlações entre conjuntos de dados e as suas variáveis. | [aula](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualizações Significativas | [Visualização de Dados](3-Data-Visualization/README.md) | Técnicas e orientações para tornar as suas visualizações valiosas para a resolução eficaz de problemas e obtenção de insights. | [aula](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 01 | Definir Ciência de Dados | [Introdução](1-Introduction/README.md) | Aprender os conceitos básicos por detrás da ciência de dados e como esta se relaciona com inteligência artificial, aprendizagem automática e big data. | [aula](1-Introduction/01-defining-data-science/README.md) [vídeo](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Ética na Ciência de Dados | [Introdução](1-Introduction/README.md) | Conceitos, desafios e estruturas da Ética de Dados. | [aula](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definir Dados | [Introdução](1-Introduction/README.md) | Como os dados são classificados e as suas fontes comuns. | [aula](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introdução à Estatística & Probabilidade | [Introdução](1-Introduction/README.md) | As técnicas matemáticas de probabilidade e estatística para compreender dados. | [aula](1-Introduction/04-stats-and-probability/README.md) [vídeo](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Trabalhar com Dados Relacionais | [Trabalhar com Dados](2-Working-With-Data/README.md) | Introdução a dados relacionais e os fundamentos da exploração e análise de dados relacionais com a Linguagem de Consulta Estruturada, também conhecida como SQL (pronuncia-se “ess-que-el”). | [aula](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Trabalhar com Dados NoSQL | [Trabalhar com Dados](2-Working-With-Data/README.md) | Introdução a dados não relacionais, os seus vários tipos e os fundamentos da exploração e análise de bases de dados documentais. | [aula](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Trabalhar com Python | [Trabalhar com Dados](2-Working-With-Data/README.md) | Noções básicas de utilização do Python para exploração de dados com bibliotecas como Pandas. Recomenda-se um entendimento fundamental da programação em Python. | [aula](2-Working-With-Data/07-python/README.md) [vídeo](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Preparação de Dados | [Trabalhar com Dados](2-Working-With-Data/README.md) | Temas sobre técnicas de dados para limpar e transformar os dados para lidar com desafios de dados em falta, imprecisos ou incompletos. | [aula](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualizar Quantidades | [Visualização de Dados](3-Data-Visualization/README.md) | Aprender a usar Matplotlib para visualizar dados de aves 🦆 | [aula](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualizar Distribuições de Dados | [Visualização de Dados](3-Data-Visualization/README.md) | Visualizar observações e tendências dentro de um intervalo. | [aula](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualizar Proporções | [Visualização de Dados](3-Data-Visualization/README.md) | Visualizar percentagens discretas e agrupadas. | [aula](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualizar Relações | [Visualização de Dados](3-Data-Visualization/README.md) | Visualizar conexões e correlações entre conjuntos de dados e as suas variáveis. | [aula](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualizações Significativas | [Visualização de Dados](3-Data-Visualization/README.md) | Técnicas e orientações para tornar as suas visualizações valiosas para uma resolução eficaz de problemas e obtenção de insights. | [aula](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introdução ao ciclo de vida da Ciência de Dados | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Introdução ao ciclo de vida da ciência de dados e o seu primeiro passo de aquisição e extração de dados. | [aula](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Análise | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Esta fase do ciclo de vida da ciência de dados centra-se em técnicas para analisar dados. | [aula](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Comunicação | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Esta fase do ciclo de vida da ciência de dados foca-se na apresentação dos insights dos dados de uma forma que facilite a compreensão por parte dos decisores. | [aula](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 15 | Análise | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Esta fase do ciclo de vida da ciência de dados foca-se em técnicas para analisar dados. | [aula](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Comunicação | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Esta fase do ciclo de vida da ciência de dados foca-se em apresentar os insights dos dados de uma forma que facilite a compreensão por parte dos decisores. | [aula](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Ciência de Dados na Cloud | [Dados na Cloud](5-Data-Science-In-Cloud/README.md) | Esta série de aulas introduz a ciência de dados na cloud e os seus benefícios. | [aula](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 18 | Ciência de Dados na Cloud | [Dados na Cloud](5-Data-Science-In-Cloud/README.md) | Treino de modelos usando ferramentas Low Code. |[aula](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 19 | Ciência de Dados na Cloud | [Dados na Cloud](5-Data-Science-In-Cloud/README.md) | Implantação de modelos com Azure Machine Learning Studio. | [aula](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 20 | Ciência de Dados na Prática | [Na Prática](6-Data-Science-In-Wild/README.md) | Projetos de ciência de dados no mundo real. | [aula](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 19 | Ciência de Dados na Cloud | [Dados na Cloud](5-Data-Science-In-Cloud/README.md) | Implementação de modelos com Azure Machine Learning Studio. | [aula](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 20 | Ciência de Dados na Natureza | [Na Natureza](6-Data-Science-In-Wild/README.md) | Projetos conducentes por ciência de dados no mundo real. | [aula](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Siga estes passos para abrir este exemplo num Codespace:
1. Clique no menu suspenso Código e selecione a opção Abrir com Codespaces.
2. Selecione + Novo codespace na parte inferior do painel.
1. Clique no menu suspenso Code e selecione a opção Open with Codespaces.
2. Selecione + New codespace na parte inferior do painel.
Para mais informações, consulte a [documentação do GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Siga estes passos para abrir este repositório num contentor usando a sua máquina local e o VSCode através da extensão VS Code Remote - Containers:
1. Se esta é a sua primeira vez a usar um contentor de desenvolvimento, por favor assegure-se de que o seu sistema cumpre os pré-requisitos (ex. ter o Docker instalado) na [documentação para começar](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Se é a sua primeira vez a usar um contentor de desenvolvimento, por favor certifique-se de que o seu sistema cumpre os pré-requisitos (ex. ter o Docker instalado) na [documentação de início rápido](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Para usar este repositório, pode abrir o repositório num volume Docker isolado:
**Nota**: Em segundo plano, isto irá utilizar o comando Remote-Containers: **Clonar Repositório num Volume de Contentor...** para clonar o código fonte num volume Docker em vez do sistema de ficheiros local. [Volumes](https://docs.docker.com/storage/volumes/) são o mecanismo preferido para persistência de dados do contentor.
**Nota**: Por baixo, isto irá usar o comando Remote-Containers: **Clone Repository in Container Volume...** para clonar o código fonte num volume Docker em vez do sistema de ficheiros local. [Volumes](https://docs.docker.com/storage/volumes/) são o mecanismo preferido para persistência de dados do contentor.
Ou abrir uma cópia clonada ou descarregada localmente do repositório:
Ou abrir uma versão clonada ou descarregada localmente do repositório:
- Clone este repositório no seu sistema local.
- Pressione F1 e selecione o comando **Remote-Containers: Abrir Pasta no Contentor...**.
- Selecione a cópia clonada desta pasta, aguarde o contentor iniciar e experimente.
- Clone este repositório para o seu sistema de ficheiros local.
- Pressione F1 e selecione o comando **Remote-Containers: Open Folder in Container...**.
- Selecione a cópia clonada desta pasta, espere o contentor iniciar e experimente.
## Acesso Offline
Pode executar esta documentação offline usando [Docsify](https://docsify.js.org/#/). Faça um fork deste repositório, [instale o Docsify](https://docsify.js.org/#/quickstart) na sua máquina local, depois na pasta raiz deste repositório, digite `docsify serve`. O website será servido na porta 3000 no seu localhost: `localhost:3000`.
Pode executar esta documentação offline usando [Docsify](https://docsify.js.org/#/). Faça um fork deste repositório, [instale o Docsify](https://docsify.js.org/#/quickstart) na sua máquina local, depois na pasta raíz deste repositório, escreva `docsify serve`. O website será servido na porta 3000 no seu localhost: `localhost:3000`.
> Nota, os notebooks não serão renderizados via Docsify, por isso quando precisar de executar um notebook, faça isso separadamente no VS Code executando um kernel Python.
> Nota, notebooks não serão renderizados via Docsify, por isso quando precisar de executar um notebook, faça-o separadamente no VS Code a correr um kernel Python.
## Outros Currículos
A nossa equipa produz outros currículos! Veja:
A nossa equipa produz outros currículos! Confira:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
@ -208,7 +218,7 @@ A nossa equipa produz outros currículos! Veja:
---
### Série de IA Generativa
### Série IA Generativa
[![IA Generativa para Iniciantes](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![IA Generativa (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![IA Generativa (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
@ -216,7 +226,7 @@ A nossa equipa produz outros currículos! Veja:
---
### Aprendizagem Fundamental
### Aprendizagem Base
[![ML para Iniciantes](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Ciência de Dados para Iniciantes](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![IA para Iniciantes](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
@ -235,13 +245,13 @@ A nossa equipa produz outros currículos! Veja:
## Obter Ajuda
**Está a ter problemas?** Consulte o nosso [Guia de Resolução de Problemas](TROUBLESHOOTING.md) para soluções aos problemas mais comuns.
**Está a enfrentar problemas?** Consulte o nosso [Guia de Resolução de Problemas](TROUBLESHOOTING.md) para soluções às questões comuns.
Se ficar preso ou tiver dúvidas sobre como construir aplicações de IA, junte-se a outros aprendizes e desenvolvedores experientes nas discussões sobre o MCP. É uma comunidade de apoio onde as perguntas são bem-vindas e o conhecimento é partilhado livremente.
Se ficar preso ou tiver perguntas sobre como criar aplicações de IA. Junte-se a outros aprendizes e desenvolvedores experientes nas discussões sobre MCP. É uma comunidade de apoio onde as perguntas são bem-vindas e o conhecimento é partilhado livremente.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Se tiver feedback sobre produtos ou erros durante a construção, visite:
Se tiver feedback sobre produtos ou erros durante o desenvolvimento visite:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
@ -249,5 +259,5 @@ Se tiver feedback sobre produtos ou erros durante a construção, visite:
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Aviso Legal**:
Este documento foi traduzido utilizando o serviço de tradução automática [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos pela precisão, por favor tenha em conta que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autoritativa. Para informações críticas, recomenda-se tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações erradas decorrentes da utilização desta tradução.
Este documento foi traduzido utilizando o serviço de tradução automática [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, tenha em atenção que as traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autorizada. Para informações críticas, recomenda-se a tradução profissional feita por um humano. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas resultantes da utilização desta tradução.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@ Encontre todas as sketchnotes aqui!
Nitya Narasimhan, artista
![sketchnote do roadmap](../../../translated_images/pt-PT/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![sketchnote do roadmap](../../../translated_images/pt-PT/00-Roadmap.4905d6567dff4753.webp)
**Aviso Legal**:
Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original no seu idioma nativo deve ser considerado a fonte autoritária. Para informações críticas, recomenda-se uma tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas resultantes do uso desta tradução.
Loading…
Cancel
Save