chore(i18n): sync translations with latest source changes (chunk 1/1, 69 changes)

update-translations
localizeflow[bot] 2 days ago
parent 996a5c0101
commit d5a843ee57

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "fa"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-28T08:11:58+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "fa"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-24T21:32:10+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "fa"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-28T08:12:29+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "fa"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:03:35+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "fa"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-28T08:13:22+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "fa"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T14:12:37+00:00",
@ -360,8 +378,8 @@
"language_code": "fa"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T07:29:30+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-28T08:18:26+00:00",
"source_file": "README.md",
"language_code": "fa"
},

@ -6,7 +6,7 @@
---
[![ویدیو تعریف علم داده](../../../../translated_images/fa/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![ویدیو تعریف علم داده](../../../../translated_images/fa/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [آزمون پیش از درس](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@
در این چالش، سعی خواهیم کرد مفاهیم مرتبط با حوزه علم داده را با بررسی متون پیدا کنیم. ما یک مقاله ویکی‌پدیا درباره علم داده را انتخاب می‌کنیم، متن را دانلود و پردازش می‌کنیم، و سپس یک ابر کلمات مانند این تصویر ایجاد می‌کنیم:
![ابر کلمات برای علم داده](../../../../translated_images/fa/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![ابر کلمات برای علم داده](../../../../translated_images/fa/ds_wordcloud.664a7c07dca57de0.webp)
به [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') مراجعه کنید تا کد را مرور کنید. همچنین می‌توانید کد را اجرا کنید و ببینید که چگونه تمام تبدیل‌های داده را به صورت زنده انجام می‌دهد.

@ -5,13 +5,13 @@
"source": [
"# چالش: تحلیل متن درباره علم داده\n",
"\n",
"در این مثال، بیایید یک تمرین ساده انجام دهیم که تمام مراحل یک فرآیند سنتی علم داده را پوشش می‌دهد. نیازی نیست کدی بنویسید، فقط می‌توانید روی سلول‌های زیر کلیک کنید تا آن‌ها را اجرا کرده و نتیجه را مشاهده کنید. به عنوان یک چالش، تشویق می‌شوید که این کد را با داده‌های مختلف امتحان کنید.\n",
"در این مثال، بیایید یک تمرین ساده انجام دهیم که تمام مراحل یک فرایند سنتی علم داده را پوشش می‌دهد. نیازی به نوشتن کد ندارید، فقط می‌توانید روی سلول‌های زیر کلیک کنید تا آن‌ها را اجرا کرده و نتیجه را مشاهده کنید. به عنوان یک چالش، تشویق می‌شوید این کد را با داده‌های مختلف امتحان کنید.\n",
"\n",
"## هدف\n",
"\n",
"در این درس، ما درباره مفاهیم مختلف مرتبط با علم داده صحبت کرده‌ایم. بیایید با انجام **متن‌کاوی** مفاهیم بیشتری را کشف کنیم. ما با متنی درباره علم داده شروع می‌کنیم، کلمات کلیدی را از آن استخراج می‌کنیم و سپس سعی می‌کنیم نتیجه را بصری‌سازی کنیم.\n",
"در این درس، درباره مفاهیم مختلف مرتبط با علم داده صحبت کرده‌ایم. بیایید با انجام مقداری **کاوش متن** سعی کنیم مفاهیم مرتبط بیشتری کشف کنیم. با متنی درباره علم داده شروع می‌کنیم، کلمات کلیدی را از آن استخراج می‌کنیم و سپس سعی می‌کنیم نتیجه را به صورت تصویری نشان دهیم.\n",
"\n",
ه عنوان متن، از صفحه علم داده در ویکی‌پدیا استفاده خواهم کرد:\n"
رای متن، من از صفحه درباره علم داده در ویکی‌پدیا استفاده می‌کنم:\n"
],
"metadata": {}
},
@ -34,7 +34,7 @@
"source": [
"## مرحله ۱: دریافت داده‌ها\n",
"\n",
"اولین مرحله در هر فرآیند علم داده، دریافت داده‌ها است. ما از کتابخانه `requests` برای این کار استفاده خواهیم کرد:\n"
"اولین قدم در هر فرآیند علم داده، دریافت داده‌ها است. ما برای این کار از کتابخانه `requests` استفاده خواهیم کرد:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## مرحله ۲: تبدیل داده‌ها\n",
"## گام ۲: تبدیل داده‌ها\n",
"\n",
رحله بعدی تبدیل داده‌ها به شکلی است که برای پردازش مناسب باشد. در مورد ما، کد منبع HTML را از صفحه دانلود کرده‌ایم و باید آن را به متن ساده تبدیل کنیم.\n",
"گام بعدی تبدیل داده‌ها به شکلی است که مناسب پردازش باشد. در مورد ما، کد منبع HTML صفحه را دانلود کرده‌ایم و نیاز داریم آن را به متن ساده تبدیل کنیم.\n",
"\n",
وش‌های زیادی برای انجام این کار وجود دارد. ما از ساده‌ترین شیء داخلی [HTMLParser](https://docs.python.org/3/library/html.parser.html) در پایتون استفاده خواهیم کرد. لازم است کلاس `HTMLParser` را زیرکلاس کنیم و کدی تعریف کنیم که تمام متن داخل تگ‌های HTML را جمع‌آوری کند، به جز تگ‌های `<script>` و `<style>`.\n"
اه‌های زیادی برای انجام این کار وجود دارد. ما از [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) استفاده خواهیم کرد، یک کتابخانه محبوب پایتون برای تجزیه HTML. BeautifulSoup به ما اجازه می‌دهد که عناصر خاص HTML را هدف قرار دهیم، بنابراین می‌توانیم روی محتوای اصلی مقاله از ویکی‌پدیا تمرکز کنیم و برخی منوهای ناوبری، نوارهای کناری، پانوشت‌ها و سایر محتواهای نامرتبط را کاهش دهیم (اگرچه ممکن است هنوز مقداری متن پیش‌فرض باقی بماند).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ابتدا باید کتابخانه BeautifulSoup برای تجزیه HTML را نصب کنیم:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## مرحله ۳: دریافت بینش‌ها\n",
"## مرحله ۳: به‌دست آوردن بینش‌ها\n",
"\n",
"مهم‌ترین مرحله این است که داده‌های خود را به شکلی تبدیل کنیم که بتوانیم از آن‌ها بینش کسب کنیم. در مورد ما، هدف استخراج کلمات کلیدی از متن و بررسی این است که کدام کلمات کلیدی معنادارتر هستند.\n",
"مهم‌ترین مرحله این است که داده‌های خود را به شکلی تبدیل کنیم که بتوانیم از آن‌ها بینش استخراج کنیم. در مورد ما، می‌خواهیم کلیدواژه‌هایی را از متن استخراج کنیم و ببینیم کدام کلیدواژه‌ها معنا‌دارتر هستند.\n",
"\n",
"ما از کتابخانه پایتون به نام [RAKE](https://github.com/aneesha/RAKE) برای استخراج کلمات کلیدی استفاده خواهیم کرد. ابتدا، اگر این کتابخانه نصب نشده باشد، باید آن را نصب کنیم:\n"
"ما از کتابخانه پایتون به نام [RAKE](https://github.com/aneesha/RAKE) برای استخراج کلیدواژه استفاده خواهیم کرد. ابتدا، بیایید این کتابخانه را در صورتی که نصب نیست، نصب کنیم:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"عملکرد اصلی از شیء `Rake` در دسترس است، که می‌توانیم با استفاده از برخی پارامترها آن را سفارشی کنیم. در مورد ما، طول حداقل یک کلمه کلیدی را به ۵ کاراکتر، حداقل فراوانی یک کلمه کلیدی در سند را به ۳، و حداکثر تعداد کلمات در یک کلمه کلیدی را به ۲ تنظیم خواهیم کرد. آزادانه می‌توانید با مقادیر دیگر آزمایش کنید و نتیجه را مشاهده کنید.\n"
"عملکرد اصلی از شیء `Rake` در دسترس است که می‌توانیم آن را با استفاده از برخی پارامترها شخصی‌سازی کنیم. در مورد ما، حداقل طول یک کلیدواژه را ۵ کاراکتر، حداقل فراوانی یک کلیدواژه در سند را ۳ و حداکثر تعداد کلمات در یک کلیدواژه را ۲ تنظیم خواهیم کرد. آزادانه می‌توانید با مقادیر دیگر آزمایش کنید و نتیجه را مشاهده کنید.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"ما فهرستی از اصطلاحات به همراه درجه اهمیت مرتبط با آن‌ها به دست آوردیم. همان‌طور که می‌بینید، مرتبط‌ترین حوزه‌ها، مانند یادگیری ماشین و کلان‌داده، در بالاترین موقعیت‌های فهرست قرار دارند.\n",
"ما فهرستی از اصطلاحات را همراه با درجه اهمیت مرتبط به دست آوردیم. همان‌طور که مشاهده می‌کنید، رشته‌های مربوطه‌ترین، مانند یادگیری ماشین و داده‌های بزرگ، در موقعیت‌های بالای فهرست حضور دارند.\n",
"\n",
"## مرحله ۴: بصری‌سازی نتیجه\n",
"## مرحله ۴: مصورسازی نتیجه\n",
"\n",
"افراد معمولاً داده‌ها را در قالب بصری بهتر تفسیر می‌کنند. بنابراین، اغلب منطقی است که داده‌ها را بصری‌سازی کنیم تا بتوانیم بینش‌هایی از آن‌ها استخراج کنیم. می‌توانیم از کتابخانه `matplotlib` در پایتون برای رسم توزیع ساده کلمات کلیدی با میزان ارتباط آن‌ها استفاده کنیم:\n"
"مردم بهترین تفسیر داده‌ها را در قالب تصویری دارند. بنابراین اغلب منطقی است که داده‌ها را به صورت مصورسازی شده نمایش دهیم تا بتوانیم برداشت‌هایی به دست آوریم. می‌توانیم از کتابخانه `matplotlib` در پایتون برای رسم توزیع ساده کلمات کلیدی با ارتباط آن‌ها استفاده کنیم:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"راه بهتری برای تجسم فراوانی کلمات وجود دارد - استفاده از **ابر کلمات**. ما نیاز داریم کتابخانه دیگری را نصب کنیم تا ابر کلمات را از لیست کلمات کلیدی خود رسم کنیم.\n"
"با این حال، روش بهتری برای تجسم فراوانی کلمات وجود دارد - استفاده از **ابر کلمات**. ما نیاز داریم کتابخانه دیگری را برای رسم ابر کلمات از لیست کلیدواژه‌های خود نصب کنیم.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"شیء `WordCloud` مسئول دریافت متن اصلی یا فهرست از پیش محاسبه‌شده‌ای از کلمات با فراوانی‌هایشان است و تصویری را بازمی‌گرداند که می‌توان آن را با استفاده از `matplotlib` نمایش داد:\n"
"شیء `WordCloud` مسئول دریافت متن اصلی یا فهرست کلمات پیش‌محاسبه‌شده با فراوانی‌هایشان است و تصویری را بازمی‌گرداند که سپس می‌توان با استفاده از `matplotlib` نمایش داد:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"ما همچنین می‌توانیم متن اصلی را به `WordCloud` بدهیم - بیایید ببینیم آیا می‌توانیم نتیجه مشابهی بگیریم:\n"
"ما همچنین می‌توانیم متن اصلی را به `WordCloud` بدهیم - بیایید ببینیم آیا می‌توانیم نتیجه‌ی مشابهی بگیریم:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"می‌توانید ببینید که اکنون نمودار کلمات جذاب‌تر به نظر می‌رسد، اما همچنین شامل نویز زیادی است (مثلاً کلماتی نامرتبط مانند `Retrieved on`). همچنین، تعداد کمتری از کلمات کلیدی که از دو کلمه تشکیل شده‌اند، مانند *data scientist* یا *computer science* دریافت می‌کنیم. این به این دلیل است که الگوریتم RAKE در انتخاب کلمات کلیدی مناسب از متن عملکرد بهتری دارد. این مثال اهمیت پیش‌پردازش و پاک‌سازی داده‌ها را نشان می‌دهد، زیرا داشتن تصویری واضح در انتها به ما امکان می‌دهد تصمیمات بهتری بگیریم.\n",
"می‌توانید ببینید که ابر کلمات اکنون ظاهر چشمگیرتری دارد، اما همچنین شامل نویز زیادی است (مثلاً کلمات نامربوط مانند `Retrieved on`). همچنین، تعداد کلمات کلیدی که شامل دو کلمه هستند، مانند *data scientist* یا *computer science* کمتر است. این به این دلیل است که الگوریتم RAKE در انتخاب کلمات کلیدی خوب از متن عملکرد بسیار بهتری دارد. این مثال اهمیت پیش‌پردازش و پاک‌سازی داده‌ها را نشان می‌دهد، زیرا تصویر واضح در نهایت به ما اجازه می‌دهد تصمیم‌های بهتری بگیریم.\n",
"\n",
"در این تمرین، ما یک فرآیند ساده برای استخراج معنا از متن ویکی‌پدیا را طی کردیم، به شکل کلمات کلیدی و نمودار کلمات. این مثال بسیار ساده است، اما به خوبی تمام مراحل معمولی که یک دانشمند داده هنگام کار با داده‌ها طی می‌کند را نشان می‌دهد، از جمع‌آوری داده‌ها تا مصورسازی.\n",
"در این تمرین ما از یک فرایند ساده برای استخراج معنی از متن ویکی‌پدیا استفاده کردیم، به صورت کلمات کلیدی و ابر کلمات. این مثال بسیار ساده است، اما همه مراحل معمولی که یک دانشمند داده هنگام کار با داده‌ها انجام می‌دهد، را به خوبی نشان می‌دهد، از مرحله جمع‌آوری داده‌ها تا مرحله تجسم داده‌ها.\n",
"\n",
"در دوره ما، تمام این مراحل را به‌طور مفصل بررسی خواهیم کرد.\n"
"در دوره ما به طور مفصل همه این مراحل را بررسی خواهیم کرد.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**سلب مسئولیت**: \nاین سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه می‌شود از ترجمه حرفه‌ای انسانی استفاده کنید. ما مسئولیتی در قبال سوء تفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**توجه**:\nاین سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما برای دقت تلاش می‌کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است حاوی خطا یا نادرستی باشند. نسخه اصلی سند به زبان مادری آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حیاتی، استفاده از ترجمه حرفه‌ای انسانی توصیه می‌شود. ما در قبال هرگونه سوءتفاهم یا برداشت نادرست ناشی از استفاده از این ترجمه مسئولیتی نداریم.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:32:16+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "fa"
}
},
"nbformat": 4,

@ -5,15 +5,15 @@
"source": [
"# چالش: تحلیل متن درباره علم داده\n",
"\n",
"> *در این نوت‌بوک، ما با استفاده از مقاله ویکی‌پدیا درباره یادگیری ماشین آزمایش می‌کنیم. می‌توانید ببینید که برخلاف علم داده، این مقاله شامل اصطلاحات زیادی است که تحلیل را پیچیده‌تر می‌کند. ما باید راه دیگری برای پاکسازی داده‌ها پس از استخراج کلمات کلیدی پیدا کنیم تا از شر برخی ترکیب‌های پرتکرار اما بی‌معنی خلاص شویم.*\n",
"> *در این دفترچه، ما با استفاده از URLهای مختلف - مقاله ویکی‌پدیا درباره یادگیری ماشین آزمایش می‌کنیم. می‌توانید ببینید که برخلاف علم داده، این مقاله شامل اصطلاحات زیادی است که تحلیل را پیچیده‌تر می‌کند. ما باید راهی دیگر برای پاکسازی داده‌ها پس از استخراج کلمات کلیدی پیدا کنیم تا از ترکیبات پرتکرار اما بی‌معنی کلمات خلاص شویم.*\n",
"\n",
"در این مثال، بیایید یک تمرین ساده انجام دهیم که تمام مراحل یک فرآیند سنتی علم داده را پوشش می‌دهد. نیازی نیست کدی بنویسید، فقط می‌توانید روی سلول‌های زیر کلیک کنید تا آن‌ها را اجرا کرده و نتیجه را مشاهده کنید. به عنوان یک چالش، تشویق می‌شوید که این کد را با داده‌های مختلف امتحان کنید.\n",
"در این مثال، بیایید یک تمرین ساده انجام دهیم که تمام مراحل یک فرایند سنتی علم داده را پوشش می‌دهد. لازم نیست هیچ کدی بنویسید، می‌توانید فقط روی سلول‌های زیر کلیک کنید تا اجرا شوند و نتیجه را مشاهده کنید. به عنوان چالش، تشویق می‌شوید این کد را با داده‌های مختلف امتحان کنید.\n",
"\n",
"## هدف\n",
"\n",
"در این درس، ما درباره مفاهیم مختلف مرتبط با علم داده صحبت کرده‌ایم. بیایید سعی کنیم با انجام **استخراج متن** مفاهیم بیشتری را کشف کنیم. ما با متنی درباره علم داده شروع می‌کنیم، کلمات کلیدی را از آن استخراج می‌کنیم و سپس سعی می‌کنیم نتیجه را تجسم کنیم.\n",
"در این درس، ما درباره مفاهیم مختلف مرتبط با علم داده بحث کرده‌ایم. بیایید با انجام کمی **کاوش متن** سعی کنیم مفاهیم مرتبط بیشتری کشف کنیم. ما با متنی درباره علم داده شروع می‌کنیم، کلمات کلیدی را استخراج می‌کنیم و سپس سعی می‌کنیم نتیجه را تجسم کنیم.\n",
"\n",
"به عنوان متن، از صفحه علم داده در ویکی‌پدیا استفاده خواهیم کرد:\n"
"منبع متن صفحه ویکی‌پدیا درباره علم داده است:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## مرحله ۱: دریافت داده‌ها\n",
"## گام ۱: دریافت داده‌ها\n",
"\n",
"اولین مرحله در هر فرآیند علم داده، دریافت داده‌ها است. ما از کتابخانه `requests` برای این کار استفاده خواهیم کرد:\n"
"اولین گام در هر فرآیند علم داده، دریافت داده‌ها است. ما از کتابخانه `requests` برای این کار استفاده می‌کنیم:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## مرحله ۲: تبدیل داده‌ها\n",
"## گام ۲: تبدیل داده‌ها\n",
"\n",
"گام بعدی تبدیل داده‌ها به شکلی است که برای پردازش مناسب باشد. در مورد ما، کد منبع HTML را از صفحه دانلود کرده‌ایم و باید آن را به متن ساده تبدیل کنیم.\n",
"گام بعدی تبدیل داده‌ها به فرم مناسب برای پردازش است. در مورد ما، کد منبع HTML صفحه را دانلود کرده‌ایم و باید آن را به متن ساده تبدیل کنیم.\n",
"\n",
"روش‌های زیادی برای انجام این کار وجود دارد. ما از ساده‌ترین شیء داخلی [HTMLParser](https://docs.python.org/3/library/html.parser.html) در پایتون استفاده خواهیم کرد. لازم است کلاس `HTMLParser` را زیرکلاس کنیم و کدی را تعریف کنیم که تمام متن داخل تگ‌های HTML را جمع‌آوری کند، به جز تگ‌های `<script>` و `<style>`.\n"
"روش‌های زیادی برای انجام این کار وجود دارد. ما از [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)، یک کتابخانه محبوب پایتون برای تجزیه HTML استفاده خواهیم کرد. BeautifulSoup به ما امکان می‌دهد عناصر HTML خاصی را هدف قرار دهیم، بنابراین می‌توانیم روی محتوای اصلی مقاله در ویکی‌پدیا تمرکز کنیم و برخی از منوهای ناوبری، نوارهای کناری، پاصفحه‌ها و سایر محتوای نامربوط را کاهش دهیم (اگرچه ممکن است هنوز مقداری متن ثابت باقی بماند).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ابتدا باید کتابخانه BeautifulSoup را برای تجزیه HTML نصب کنیم:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## مرحله ۳: دریافت بینشها\n",
"## مرحله ۳: دریافت دیدگاهها\n",
"\n",
"مهم‌ترین مرحله این است که داده‌های خود را به شکلی تبدیل کنیم که بتوانیم از آن‌ها بینش کسب کنیم. در مورد ما، می‌خواهیم کلمات کلیدی را از متن استخراج کنیم و ببینیم کدام کلمات کلیدی معنادارتر هستند.\n",
"مهم‌ترین مرحله تبدیل داده‌های ما به شکلی است که بتوانیم از آن‌ها دیدگاه‌هایی استخراج کنیم. در مورد ما، می‌خواهیم کلمات کلیدی را از متن استخراج کنیم و ببینیم کدام کلمات کلیدی معنی‌دارتر هستند.\n",
"\n",
"ما از کتابخانه پایتون به نام [RAKE](https://github.com/aneesha/RAKE) برای استخراج کلمات کلیدی استفاده خواهیم کرد. ابتدا، بیایید این کتابخانه را نصب کنیم اگر قبلاً موجود نیست:\n"
"از کتابخانه پایتون به نام [RAKE](https://github.com/aneesha/RAKE) برای استخراج کلمات کلیدی استفاده خواهیم کرد. ابتدا، بیایید این کتابخانه را در صورتی که نصب نشده است، نصب کنیم:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"عملکرد اصلی از شیء `Rake` در دسترس است که می‌توانیم با استفاده از برخی پارامترها آن را سفارشی کنیم. در مورد ما، حداقل طول یک کلمه کلیدی را به ۵ کاراکتر، حداقل تکرار یک کلمه کلیدی در سند را به ۳، و حداکثر تعداد کلمات در یک کلمه کلیدی را به ۲ تنظیم خواهیم کرد. می‌توانید با مقادیر دیگر آزمایش کنید و نتیجه را مشاهده کنید.\n"
"قابلیت اصلی از شیء `Rake` در دسترس است که می‌توانیم با استفاده از برخی پارامترها آن را سفارشی کنیم. در مورد ما، حداقل طول یک کلیدواژه را به ۵ کاراکتر، حداقل تکرار یک کلیدواژه در سند را به ۳ و حداکثر تعداد کلمات در یک کلیدواژه را به ۲ تنظیم خواهیم کرد. احساس راحتی کنید که با مقادیر دیگر بازی کنید و نتیجه را مشاهده نمایید.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"ما فهرستی از اصطلاحات به همراه درجه اهمیت مرتبط با آن‌ها به دست آوردیم. همان‌طور که می‌بینید، مرتبط‌ترین حوزه‌ها، مانند یادگیری ماشین و کلان‌داده، در بالاترین موقعیت‌های فهرست قرار دارند.\n",
"ما فهرستی از اصطلاحات را به همراه درجه اهمیت مرتبط به دست آوردیم. همانطور که مشاهده می‌کنید، رشته‌های مرتبط‌تر مانند یادگیری ماشین و داده‌های بزرگ، در بالاترین جایگاه‌های فهرست قرار دارند.\n",
"\n",
"## مرحله ۴: بصری‌سازی نتیجه\n",
"## مرحله ۴: تجسم نتایج\n",
"\n",
"افراد معمولاً داده‌ها را در قالب بصری بهتر تفسیر می‌کنند. بنابراین، اغلب منطقی است که داده‌ها را بصری‌سازی کنیم تا به برخی بینش‌ها دست یابیم. می‌توانیم از کتابخانه `matplotlib` در پایتون برای رسم توزیع ساده کلمات کلیدی با میزان ارتباط آن‌ها استفاده کنیم:\n"
"افراد بهترین تفسیر را از داده‌ها در شکل بصری دارند. بنابراین اغلب منطقی است که برای استخراج برخی بینش‌ها، داده‌ها را تجسم کنیم. ما می‌توانیم از کتابخانه `matplotlib` در پایتون برای رسم توزیع ساده کلیدواژه‌ها با توجه به مرتبط بودنشان استفاده کنیم:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"با این حال، یک روش حتی بهتر برای تجسم فراوانی کلمات وجود دارد - استفاده از **ابر کلمات**. ما نیاز خواهیم داشت یک کتابخانه دیگر نصب کنیم تا ابر کلمات را از لیست کلمات کلیدی خود ترسیم کنیم.\n"
"راه حتی بهتری برای تجسم فراوانی کلمات وجود دارد - استفاده از **ابر کلمات**. ما نیاز داریم که یک کتابخانه دیگر را نصب کنیم تا بتوانیم ابر کلمات را از فهرست کلیدواژه‌های خود رسم کنیم.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"شیء `WordCloud` مسئول دریافت متن اصلی یا لیست از پیش محاسبه‌شده کلمات با فراوانی‌هایشان است و تصویری را بازمی‌گرداند که سپس می‌توان آن را با استفاده از `matplotlib` نمایش داد:\n"
"شیء `WordCloud` مسئول دریافت متن اصلی یا لیستی از کلمات با فراوانی‌های از پیش محاسبه‌شده است و تصویری را بازمی‌گرداند که می‌توان آن را با استفاده از `matplotlib` نمایش داد:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"ما همچنین می‌توانیم متن اصلی را به `WordCloud` بدهیم - بیایید ببینیم آیا می‌توانیم نتیجه مشابهی بگیریم:\n"
"ما همچنین می‌توانیم متن اصلی را به `WordCloud` بدهیم - بیایید ببینیم آیا می‌توانیم نتیجه مشابهی بگیریم یا خیر:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"می‌توانید ببینید که اکنون نمودار کلمات بسیار جذاب‌تر به نظر می‌رسد، اما همچنین شامل نویز زیادی است (مثلاً کلماتی نامرتبط مانند `Retrieved on`). همچنین، تعداد کمتری از کلمات کلیدی که از دو کلمه تشکیل شده‌اند، مانند *data scientist* یا *computer science* دریافت می‌کنیم. این به این دلیل است که الگوریتم RAKE در انتخاب کلمات کلیدی مناسب از متن عملکرد بهتری دارد. این مثال اهمیت پیش‌پردازش و پاکسازی داده‌ها را نشان می‌دهد، زیرا داشتن تصویری واضح در انتها به ما امکان می‌دهد تصمیمات بهتری بگیریم.\n",
"شما می‌توانید ببینید که ابر کلمات اکنون نمای بهتری دارد، اما همچنین شامل نویز زیادی است (مثلاً کلمات نامرتبط مانند `Retrieved on`). همچنین، کلمات کلیدی دوکلمه‌ای کمتری دریافت می‌کنیم، مانند *data scientist* یا *computer science*. این به این دلیل است که الگوریتم RAKE در انتخاب کلمات کلیدی خوب از متن عملکرد بهتری دارد. این مثال اهمیت پیش‌پردازش و پاکسازی داده‌ها را نشان می‌دهد، زیرا تصویر واضح در نهایت به ما این امکان را می‌دهد که تصمیمات بهتری اتخاذ کنیم.\n",
"\n",
"در این تمرین، ما یک فرآیند ساده برای استخراج معنا از متن ویکی‌پدیا را طی کردیم، به شکل کلمات کلیدی و نمودار کلمات. این مثال بسیار ساده است، اما به خوبی تمام مراحل معمولی را که یک دانشمند داده هنگام کار با داده‌ها طی می‌کند، نشان می‌دهد، از جمع‌آوری داده‌ها تا مصورسازی.\n",
"در این تمرین، ما مراحل ساده‌ای برای استخراج معنایی از متن ویکی‌پدیا به شکل کلمات کلیدی و ابر کلمات طی کرده‌ایم. این مثال نسبتاً ساده است، اما تمام مراحل معمولی را که یک دانشمند داده هنگام کار با داده‌ها انجام می‌دهد، از جمع‌آوری داده‌ها تا تجسم، به خوبی نشان می‌دهد.\n",
"\n",
"در دوره ما، تمام این مراحل را به‌طور مفصل بررسی خواهیم کرد.\n"
"در دوره‌ی ما، همه این مراحل را به تفصیل بررسی خواهیم کرد.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**سلب مسئولیت**: \nاین سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما برای دقت تلاش می‌کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادقتی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفه‌ای انسانی توصیه می‌شود. ما هیچ مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**سلب مسئولیت**: \nاین سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما برای دقت تلاش می‌کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است حاوی خطاها یا نادرستی‌هایی باشند. سند اصلی به زبان مادری خود باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات مهم و حیاتی، توصیه می‌شود از ترجمه حرفه‌ای انسانی استفاده شود. ما مسئول هیچ‌گونه سوءتفاهم یا تفسیر نادرستی که ناشی از استفاده از این ترجمه باشد، نمی‌باشیم.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:43:50+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "fa"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
نظریه آمار و احتمال دو حوزه مرتبط از ریاضیات هستند که اهمیت زیادی در علم داده دارند. ممکن است بتوان بدون دانش عمیق ریاضی با داده‌ها کار کرد، اما بهتر است حداقل با برخی مفاهیم پایه آشنا باشید. در اینجا یک مقدمه کوتاه ارائه می‌دهیم که به شما کمک می‌کند شروع کنید.
[![ویدئوی مقدمه](../../../../translated_images/fa/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![ویدئوی مقدمه](../../../../translated_images/fa/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [آزمون پیش از درس](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
ما فقط می‌توانیم درباره احتمال اینکه یک متغیر در یک بازه خاص از مقادیر قرار گیرد صحبت کنیم، مثلا P(t<sub>1</sub>≤X<t<sub>2</sub>). در این حالت، توزیع احتمال با یک **تابع چگالی احتمال** p(x) توصیف می‌شود، به طوری که
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/fa/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/fa/probability-density.a8aad29f17a14afb.webp)
معادل پیوسته توزیع یکنواخت، **توزیع یکنواخت پیوسته** نامیده می‌شود که در یک بازه محدود تعریف شده است. احتمال اینکه مقدار X در یک بازه به طول l قرار گیرد متناسب با l است و تا ۱ افزایش می‌یابد.
@ -73,11 +73,11 @@
در اینجا جعبه‌نموداری که میانگین، میانه و چارک‌ها را برای داده‌های ما نشان می‌دهد آورده شده است:
![جعبه‌نمودار وزن](../../../../translated_images/fa/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![جعبه‌نمودار وزن](../../../../translated_images/fa/weight-boxplot.1dbab1c03af26f8a.webp)
از آنجا که داده‌های ما شامل اطلاعات مربوط به **نقش‌های** مختلف بازیکنان است، می‌توانیم جعبه‌نمودار را بر اساس نقش‌ها نیز رسم کنیم - این کار به ما اجازه می‌دهد تا ایده‌ای درباره تفاوت مقادیر پارامترها در نقش‌های مختلف به دست آوریم. این بار قد را در نظر می‌گیریم:
![جعبه‌نمودار بر اساس نقش](../../../../translated_images/fa/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![جعبه‌نمودار بر اساس نقش](../../../../translated_images/fa/boxplot_byrole.036b27a1c3f52d42.webp)
این نمودار نشان می‌دهد که به طور متوسط، قد بازیکنان نقش اول بیشتر از بازیکنان نقش دوم است. در ادامه این درس یاد خواهیم گرفت که چگونه می‌توانیم این فرضیه را به صورت رسمی‌تر آزمایش کنیم و نشان دهیم که داده‌های ما از نظر آماری معنادار هستند.
@ -85,7 +85,7 @@
برای دیدن اینکه توزیع داده‌های ما چگونه است، می‌توانیم نموداری به نام **هیستوگرام** رسم کنیم. محور X شامل تعدادی بازه وزنی مختلف (به اصطلاح **بخش‌ها**) خواهد بود، و محور عمودی تعداد دفعاتی که نمونه متغیر تصادفی در یک بازه خاص قرار گرفته است را نشان می‌دهد.
![هیستوگرام داده‌های دنیای واقعی](../../../../translated_images/fa/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![هیستوگرام داده‌های دنیای واقعی](../../../../translated_images/fa/weight-histogram.bfd00caf7fc30b14.webp)
از این هیستوگرام می‌توانید ببینید که همه مقادیر حول میانگین وزنی خاصی متمرکز شده‌اند، و هرچه از آن وزن دورتر شویم - وزن‌های کمتری از آن مقدار مشاهده می‌شود. یعنی، احتمال اینکه وزن یک بازیکن بیسبال بسیار متفاوت از میانگین وزن باشد بسیار کم است. واریانس وزن‌ها نشان می‌دهد که وزن‌ها تا چه حد ممکن است از میانگین متفاوت باشند.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
اگر هیستوگرام نمونه‌های تولید شده را رسم کنیم، تصویری بسیار مشابه با تصویر نشان داده شده در بالا خواهیم دید. و اگر تعداد نمونه‌ها و تعداد بخش‌ها را افزایش دهیم، می‌توانیم تصویری از توزیع نرمال که به حالت ایده‌آل نزدیک‌تر است تولید کنیم:
![توزیع نرمال با میانگین=۰ و انحراف معیار=۱](../../../../translated_images/fa/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![توزیع نرمال با میانگین=۰ و انحراف معیار=۱](../../../../translated_images/fa/normal-histogram.dfae0d67c202137d.webp)
*توزیع نرمال با میانگین=۰ و انحراف معیار=۱*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
در مورد ما، مقدار 0.53 نشان می‌دهد که بین وزن و قد یک فرد همبستگی وجود دارد. همچنین می‌توانیم نمودار پراکندگی یک مقدار در مقابل دیگری را رسم کنیم تا رابطه را به صورت بصری ببینیم:
![رابطه بین وزن و قد](../../../../translated_images/fa/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![رابطه بین وزن و قد](../../../../translated_images/fa/weight-height-relationship.3f06bde4ca2aba99.webp)
> مثال‌های بیشتری از همبستگی و کوواریانس را می‌توانید در [دفترچه همراه](notebook.ipynb) پیدا کنید.

@ -1,6 +1,6 @@
# مقدمه‌ای بر علم داده
![داده در عمل](../../../translated_images/fa/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![داده در عمل](../../../translated_images/fa/data.48e22bb7617d8d92.webp)
> عکس از <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">استیون داوسون</a> در <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
در این درس‌ها، شما خواهید آموخت که علم داده چگونه تعریف می‌شود و با ملاحظات اخلاقی که یک دانشمند داده باید در نظر بگیرد آشنا خواهید شد. همچنین خواهید آموخت که داده چگونه تعریف می‌شود و کمی درباره آمار و احتمال، حوزه‌های اصلی علمی علم داده، یاد خواهید گرفت.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| کار با پایتون - _طرح دستی توسط [@nitya](https://twitter.com/nitya)_ |
[![ویدئوی مقدمه](../../../../translated_images/fa/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![ویدئوی مقدمه](../../../../translated_images/fa/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
در حالی که پایگاه‌های داده روش‌های بسیار کارآمدی برای ذخیره‌سازی داده‌ها و جستجوی آن‌ها با استفاده از زبان‌های پرس‌وجو ارائه می‌دهند، انعطاف‌پذیرترین روش پردازش داده‌ها نوشتن برنامه‌ای است که داده‌ها را دستکاری کند. در بسیاری از موارد، انجام یک پرس‌وجوی پایگاه داده می‌تواند مؤثرتر باشد. اما در برخی موارد که پردازش داده‌های پیچیده‌تر مورد نیاز است، این کار به راحتی با SQL قابل انجام نیست.
پردازش داده‌ها را می‌توان با هر زبان برنامه‌نویسی انجام داد، اما برخی زبان‌ها سطح بالاتری برای کار با داده‌ها دارند. دانشمندان داده معمولاً یکی از زبان‌های زیر را ترجیح می‌دهند:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![نمودار سری زمانی](../../../../translated_images/fa/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![نمودار سری زمانی](../../../../translated_images/fa/timeseries-1.80de678ab1cf727e.webp)
حالا فرض کنید که هر هفته یک مهمانی برای دوستان برگزار می‌کنیم و 10 بسته بستنی اضافی برای مهمانی می‌گیریم. می‌توانیم یک سری دیگر، با شاخص هفته، برای نشان دادن این موضوع ایجاد کنیم:
```python
@ -75,7 +75,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![نمودار سری زمانی](../../../../translated_images/fa/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![نمودار سری زمانی](../../../../translated_images/fa/timeseries-2.aae51d575c55181c.webp)
> **توجه** که ما از نحو ساده `total_items+additional_items` استفاده نمی‌کنیم. اگر این کار را می‌کردیم، تعداد زیادی مقدار `NaN` (*Not a Number*) در سری حاصل دریافت می‌کردیم. این به این دلیل است که مقادیر گم‌شده‌ای برای برخی از نقاط شاخص در سری `additional_items` وجود دارد و افزودن `NaN` به هر چیزی نتیجه `NaN` می‌دهد. بنابراین باید پارامتر `fill_value` را هنگام جمع مشخص کنیم.
@ -84,7 +84,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![میانگین‌های سری زمانی ماهانه](../../../../translated_images/fa/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![میانگین‌های سری زمانی ماهانه](../../../../translated_images/fa/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -210,7 +210,7 @@ df = pd.read_csv('file.csv')
از آنجا که می‌خواهیم نشان دهیم چگونه با داده‌ها کار کنیم، از شما دعوت می‌کنیم [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) را باز کنید و از ابتدا تا انتها بخوانید. همچنین می‌توانید سلول‌ها را اجرا کنید و برخی چالش‌هایی که در انتها برای شما گذاشته‌ایم را انجام دهید.
![COVID Spread](../../../../translated_images/fa/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/fa/covidspread.f3d131c4f1d260ab.webp)
> اگر نمی‌دانید چگونه کد را در Jupyter Notebook اجرا کنید، به [این مقاله](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) نگاهی بیندازید.
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) را باز کنید و از ابتدا تا انتها بخوانید. همچنین می‌توانید سلول‌ها را اجرا کنید و برخی چالش‌هایی که در انتها برای شما گذاشته‌ایم را انجام دهید.
![Covid Medical Treatment](../../../../translated_images/fa/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/fa/covidtreat.b2ba59f57ca45fbc.webp)
## پردازش داده‌های تصویری

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# کار با داده‌ها
![عشق به داده](../../../translated_images/fa/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![عشق به داده](../../../translated_images/fa/data-love.a22ef29e6742c852.webp)
> عکس از <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">الکساندر سین</a> در <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
در این درس‌ها، شما با روش‌هایی آشنا خواهید شد که داده‌ها می‌توانند مدیریت، دستکاری و در برنامه‌ها استفاده شوند. شما درباره پایگاه‌های داده رابطه‌ای و غیررابطه‌ای و نحوه ذخیره‌سازی داده‌ها در آن‌ها یاد خواهید گرفت. همچنین اصول کار با پایتون برای مدیریت داده‌ها را خواهید آموخت و با برخی از روش‌های متعدد کار با پایتون برای مدیریت و استخراج داده‌ها آشنا خواهید شد.

@ -42,7 +42,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/fa/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/fa/scatter1.5e1aa5fd6706c5d1.webp)
حالا، همان داده‌ها را با یک طرح رنگی مرتبط با عسل نمایش دهید تا نشان دهید قیمت چگونه در طول سال‌ها تغییر کرده است. می‌توانید این کار را با افزودن پارامتر 'hue' برای نمایش تغییرات سال به سال انجام دهید:
@ -51,7 +51,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/fa/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/fa/scatter2.c0041a58621ca702.webp)
با این تغییر طرح رنگ، می‌توانید ببینید که به وضوح یک پیشرفت قوی در طول سال‌ها از نظر قیمت هر پوند عسل وجود دارد. در واقع، اگر یک مجموعه نمونه از داده‌ها را بررسی کنید (مثلاً ایالت آریزونا)، می‌توانید الگویی از افزایش قیمت سال به سال را با چند استثنا مشاهده کنید:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
می‌توانید ببینید که اندازه نقاط به تدریج افزایش می‌یابد.
![scatterplot 3](../../../../translated_images/fa/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/fa/scatter3.3c160a3d1dcb36b3.webp)
آیا این یک مورد ساده از عرضه و تقاضا است؟ آیا به دلیل عواملی مانند تغییرات اقلیمی و فروپاشی کلنی، عسل کمتری برای خرید در دسترس است و بنابراین قیمت افزایش می‌یابد؟
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
پاسخ: بله، با چند استثنا در حدود سال ۲۰۰۳:
![line chart 1](../../../../translated_images/fa/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/fa/line1.f36eb465229a3b1f.webp)
✅ از آنجا که Seaborn داده‌ها را در یک خط تجمیع می‌کند، "اندازه‌گیری‌های متعدد در هر مقدار x را با رسم میانگین و فاصله اطمینان ۹۵٪ در اطراف میانگین نمایش می‌دهد". [منبع](https://seaborn.pydata.org/tutorial/relational.html). این رفتار زمان‌بر را می‌توان با افزودن `ci=None` غیرفعال کرد.
@ -105,7 +105,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/fa/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/fa/line2.a5b3493dc01058af.webp)
پاسخ: نه واقعاً. اگر به تولید کل نگاه کنید، به نظر می‌رسد که در آن سال خاص افزایش یافته است، حتی اگر به طور کلی مقدار عسل تولید شده در این سال‌ها در حال کاهش باشد.
@ -130,7 +130,7 @@ sns.relplot(
```
در این تجسم، می‌توانید بازده هر کلنی و تعداد کلنی‌ها را سال به سال، کنار هم با تنظیم wrap در ۳ برای ستون‌ها مقایسه کنید:
![facet grid](../../../../translated_images/fa/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/fa/facet.6a34851dcd540050.webp)
برای این مجموعه داده، هیچ چیز خاصی در مورد تعداد کلنی‌ها و بازده آن‌ها، سال به سال و ایالت به ایالت برجسته نیست. آیا راه دیگری برای یافتن همبستگی بین این دو متغیر وجود دارد؟
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/fa/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/fa/dual-line.a4c28ce659603fab.webp)
در حالی که چیزی در حدود سال ۲۰۰۳ به چشم نمی‌آید، این نمودار به ما اجازه می‌دهد این درس را با یک نکته خوشحال‌کننده‌تر به پایان برسانیم: در حالی که تعداد کلنی‌ها به طور کلی در حال کاهش است، تعداد کلنی‌ها در حال تثبیت است حتی اگر بازده هر کلنی کاهش یابد.

@ -60,7 +60,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
در اینجا، بسته `ggplot2` را نصب کرده و سپس با استفاده از دستور `library("ggplot2")` آن را وارد فضای کاری می‌کنید. برای رسم هر نمودار در ggplot، از تابع `ggplot()` استفاده می‌شود و شما مجموعه داده، متغیرهای x و y را به عنوان ویژگی‌ها مشخص می‌کنید. در این مورد، از تابع `geom_line()` استفاده می‌کنیم زیرا هدف ما رسم نمودار خطی است.
![MaxWingspan-lineplot](../../../../../translated_images/fa/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/fa/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
چه چیزی بلافاصله توجه شما را جلب می‌کند؟ به نظر می‌رسد حداقل یک مقدار پرت وجود دارد - این طول بال واقعاً چشمگیر است! طول بال بیش از ۲۰۰۰ سانتی‌متر برابر با بیش از ۲۰ متر است - آیا پتروسورها در مینه‌سوتا پرسه می‌زنند؟ بیایید بررسی کنیم.
@ -78,7 +78,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
ما زاویه را در `theme` مشخص می‌کنیم و برچسب‌های محور x و y را در `xlab()` و `ylab()` به ترتیب مشخص می‌کنیم. `ggtitle()` نامی به نمودار/گراف می‌دهد.
![MaxWingspan-lineplot-improved](../../../../../translated_images/fa/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/fa/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
حتی با چرخش برچسب‌ها به زاویه ۴۵ درجه، تعداد زیادی برای خواندن وجود دارد. بیایید استراتژی متفاوتی را امتحان کنیم: فقط مقادیر پرت را برچسب‌گذاری کنیم و برچسب‌ها را در داخل نمودار قرار دهیم. می‌توانید از نمودار پراکندگی برای ایجاد فضای بیشتر برای برچسب‌گذاری استفاده کنید:
@ -94,7 +94,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
چه چیزی کشف می‌کنید؟
![MaxWingspan-scatterplot](../../../../../translated_images/fa/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/fa/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## فیلتر کردن داده‌های خود
@ -113,7 +113,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
ما یک دیتافریم جدید به نام `birds_filtered` ایجاد کردیم و سپس نمودار پراکندگی رسم کردیم. با حذف مقادیر پرت، داده‌های شما اکنون منسجم‌تر و قابل فهم‌تر است.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/fa/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/fa/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
اکنون که حداقل در مورد طول بال‌ها مجموعه داده تمیزتری داریم، بیایید اطلاعات بیشتری درباره این پرندگان کشف کنیم.
@ -155,7 +155,7 @@ birds_filtered %>% group_by(Category) %>%
```
در قطعه کد زیر، بسته‌های [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) و [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) را نصب می‌کنیم تا به دستکاری و گروه‌بندی داده‌ها برای رسم نمودار میله‌ای انباشته کمک کنیم. ابتدا داده‌ها را بر اساس `Category` پرنده گروه‌بندی کرده و سپس ستون‌های `MinLength`، `MaxLength`، `MinBodyMass`، `MaxBodyMass`، `MinWingspan`، `MaxWingspan` را خلاصه می‌کنیم. سپس، نمودار میله‌ای را با استفاده از بسته `ggplot2` رسم کرده و رنگ‌ها و برچسب‌ها را مشخص می‌کنیم.
![Stacked bar chart](../../../../../translated_images/fa/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/fa/stacked-bar-chart.0c92264e89da7b39.webp)
این نمودار میله‌ای، با این حال، خوانا نیست زیرا داده‌های غیرگروه‌بندی شده زیادی وجود دارد. شما باید فقط داده‌هایی را که می‌خواهید رسم کنید انتخاب کنید، بنابراین بیایید طول پرندگان را بر اساس دسته‌بندی آنها بررسی کنیم.
@ -170,7 +170,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
ابتدا مقادیر منحصر به فرد در ستون `Category` را شمارش کرده و سپس آنها را به یک دیتافریم جدید به نام `birds_count` مرتب می‌کنیم. این داده‌های مرتب شده سپس در همان سطح فاکتور می‌شوند تا به صورت مرتب رسم شوند. با استفاده از `ggplot2` سپس داده‌ها را در یک نمودار میله‌ای رسم می‌کنیم. `coord_flip()` میله‌های افقی را رسم می‌کند.
![category-length](../../../../../translated_images/fa/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/fa/category-length.7e34c296690e85d6.webp)
این نمودار میله‌ای نمای خوبی از تعداد پرندگان در هر دسته‌بندی نشان می‌دهد. با یک نگاه، می‌بینید که بیشترین تعداد پرندگان در این منطقه در دسته اردک‌ها/غازها/آبزیان قرار دارند. مینه‌سوتا "سرزمین ۱۰,۰۰۰ دریاچه" است، بنابراین این تعجب‌آور نیست!
@ -193,7 +193,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
ما داده‌های `birds_filtered` را بر اساس `Category` گروه‌بندی کرده و سپس نمودار میله‌ای رسم می‌کنیم.
![comparing data](../../../../../translated_images/fa/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/fa/comparingdata.f486a450d61c7ca5.webp)
اینجا چیزی تعجب‌آور نیست: مرغ مگس‌خوار کمترین حداکثر طول را در مقایسه با پلیکان‌ها یا غازها دارد. خوب است وقتی داده‌ها منطقی به نظر می‌رسند!
@ -205,7 +205,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/fa/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/fa/superimposed-values.5363f0705a1da416.webp)
## 🚀 چالش

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![طول حداکثر بر اساس راسته](../../../../../translated_images/fa/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![طول حداکثر بر اساس راسته](../../../../../translated_images/fa/max-length-per-order.e5b283d952c78c12.webp)
این نمودار نمای کلی از توزیع طول بدن بر اساس راسته پرندگان ارائه می‌دهد، اما بهترین روش برای نمایش توزیع‌های واقعی نیست. این کار معمولاً با ایجاد یک هیستوگرام انجام می‌شود.
## کار با هیستوگرام‌ها
@ -47,7 +47,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![توزیع در کل مجموعه داده](../../../../../translated_images/fa/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![توزیع در کل مجموعه داده](../../../../../translated_images/fa/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
همانطور که مشاهده می‌کنید، بیشتر از 400 پرنده در این مجموعه داده در محدوده زیر 2000 برای جرم بدن حداکثر قرار دارند. با تغییر پارامتر `bins` به عددی بالاتر، مانند 30، اطلاعات بیشتری کسب کنید:
@ -55,7 +55,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![توزیع با 30 بخش](../../../../../translated_images/fa/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![توزیع با 30 بخش](../../../../../translated_images/fa/distribution-30bins.6a3921ea7a421bf7.webp)
این نمودار توزیع را به صورت کمی دقیق‌تر نشان می‌دهد. می‌توان نموداری کمتر متمایل به سمت چپ ایجاد کرد، با اطمینان از اینکه فقط داده‌های در یک محدوده خاص انتخاب شده‌اند:
@ -67,7 +67,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![هیستوگرام فیلتر شده](../../../../../translated_images/fa/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![هیستوگرام فیلتر شده](../../../../../translated_images/fa/filtered-histogram.6bf5d2bfd8253322.webp)
✅ برخی فیلترها و نقاط داده دیگر را امتحان کنید. برای مشاهده توزیع کامل داده‌ها، فیلتر `['MaxBodyMass']` را حذف کنید تا توزیع‌های برچسب‌گذاری شده نمایش داده شوند.
@ -81,7 +81,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
به نظر می‌رسد یک همبستگی مورد انتظار بین این دو عنصر در طول یک محور مورد انتظار وجود دارد، با یک نقطه همگرایی بسیار قوی:
![نمودار دو‌بعدی](../../../../../translated_images/fa/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![نمودار دو‌بعدی](../../../../../translated_images/fa/2d-plot.c504786f439bd7eb.webp)
هیستوگرام‌ها به طور پیش‌فرض برای داده‌های عددی خوب کار می‌کنند. اگر نیاز داشته باشید توزیع‌ها را بر اساس داده‌های متنی مشاهده کنید چه باید کرد؟
## بررسی مجموعه داده برای توزیع‌ها با استفاده از داده‌های متنی
@ -112,7 +112,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![طول بال و وضعیت حفاظتی](../../../../../translated_images/fa/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![طول بال و وضعیت حفاظتی](../../../../../translated_images/fa/wingspan-conservation-collation.4024e9aa6910866a.webp)
به نظر نمی‌رسد که همبستگی خوبی بین طول بال حداقل و وضعیت حفاظتی وجود داشته باشد. سایر عناصر مجموعه داده را با استفاده از این روش آزمایش کنید. می‌توانید فیلترهای مختلفی را نیز امتحان کنید. آیا همبستگی‌ای پیدا می‌کنید؟
@ -126,7 +126,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![نمودار چگالی](../../../../../translated_images/fa/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![نمودار چگالی](../../../../../translated_images/fa/density-plot.675ccf865b76c690.webp)
می‌توانید ببینید که نمودار داده‌های طول بال حداقل قبلی را بازتاب می‌دهد؛ فقط کمی روان‌تر است. اگر بخواهید آن خط پله‌ای جرم بدن حداکثر در نمودار دوم که ساختید را بازبینی کنید، می‌توانید آن را با استفاده از این روش بسیار خوب روان کنید:
@ -134,7 +134,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![چگالی جرم بدن](../../../../../translated_images/fa/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![چگالی جرم بدن](../../../../../translated_images/fa/bodymass-smooth.d31ce526d82b0a1f.webp)
اگر بخواهید یک خط روان، اما نه خیلی روان داشته باشید، پارامتر `adjust` را ویرایش کنید:
@ -142,7 +142,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![چگالی جرم بدن کمتر روان](../../../../../translated_images/fa/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![چگالی جرم بدن کمتر روان](../../../../../translated_images/fa/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ درباره پارامترهای موجود برای این نوع نمودار بخوانید و آزمایش کنید!
@ -152,7 +152,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![چگالی جرم بدن بر اساس راسته](../../../../../translated_images/fa/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![چگالی جرم بدن بر اساس راسته](../../../../../translated_images/fa/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 چالش

@ -83,7 +83,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
وویلا، یک نمودار دایره‌ای که نسبت‌های این داده‌ها را بر اساس این دو دسته قارچ نشان می‌دهد. بسیار مهم است که ترتیب برچسب‌ها را به درستی تنظیم کنید، به خصوص در اینجا، بنابراین حتماً ترتیب آرایه برچسب‌ها را بررسی کنید!
![نمودار دایره‌ای](../../../../../translated_images/fa/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![نمودار دایره‌ای](../../../../../translated_images/fa/pie1-wb.685df063673751f4.webp)
## دونات!
@ -118,7 +118,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![نمودار دونات](../../../../../translated_images/fa/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![نمودار دونات](../../../../../translated_images/fa/donut-wb.34e6fb275da9d834.webp)
این کد از دو کتابخانه - ggplot2 و webr - استفاده می‌کند. با استفاده از تابع PieDonut در کتابخانه webr، می‌توانیم به راحتی یک نمودار دونات ایجاد کنیم!
@ -156,7 +156,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
با استفاده از نمودار وافل، می‌توانید به وضوح نسبت‌های رنگ‌های کلاهک قارچ‌ها در این مجموعه داده را مشاهده کنید. جالب است که قارچ‌های زیادی با کلاهک سبز وجود دارند!
![نمودار وافل](../../../../../translated_images/fa/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![نمودار وافل](../../../../../translated_images/fa/waffle.aaa75c5337735a6e.webp)
در این درس، شما سه روش برای تجسم نسبت‌ها یاد گرفتید. ابتدا باید داده‌های خود را به دسته‌ها گروه‌بندی کنید و سپس تصمیم بگیرید که بهترین روش برای نمایش داده‌ها چیست - دایره‌ای، دونات، یا وافل. همه این‌ها خوشمزه هستند و کاربر را با یک نمای فوری از مجموعه داده راضی می‌کنند.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![نمودار پراکندگی ۱](../../../../../translated_images/fa/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![نمودار پراکندگی ۱](../../../../../translated_images/fa/scatter1.86b8900674d88b26.webp)
حالا همان داده‌ها را با یک طرح رنگی عسل نمایش دهید تا نشان دهید قیمت چگونه در طول سال‌ها تغییر کرده است. می‌توانید این کار را با افزودن پارامتر 'scale_color_gradientn' انجام دهید تا تغییرات سال به سال را نشان دهید:
@ -52,7 +52,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![نمودار پراکندگی ۲](../../../../../translated_images/fa/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![نمودار پراکندگی ۲](../../../../../translated_images/fa/scatter2.4d1cbc693bad20e2.webp)
با این تغییر طرح رنگی، می‌توانید ببینید که به وضوح یک پیشرفت قوی در طول سال‌ها از نظر قیمت هر پوند عسل وجود دارد. در واقع، اگر یک مجموعه نمونه در داده‌ها را بررسی کنید (مثلاً ایالت آریزونا)، می‌توانید الگویی از افزایش قیمت سال به سال را مشاهده کنید، با چند استثنا:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
می‌توانید ببینید که اندازه نقاط به تدریج افزایش می‌یابد.
![نمودار پراکندگی ۳](../../../../../translated_images/fa/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![نمودار پراکندگی ۳](../../../../../translated_images/fa/scatter3.722d21e6f20b3ea2.webp)
آیا این یک مورد ساده از عرضه و تقاضا است؟ به دلیل عواملی مانند تغییرات اقلیمی و فروپاشی کلنی، آیا عسل کمتری برای خرید در دسترس است و بنابراین قیمت افزایش می‌یابد؟
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
پاسخ: بله، با چند استثنا در حدود سال ۲۰۰۳:
![نمودار خطی ۱](../../../../../translated_images/fa/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![نمودار خطی ۱](../../../../../translated_images/fa/line1.299b576fbb2a59e6.webp)
سؤال: خب، در سال ۲۰۰۳ آیا می‌توانیم افزایش عرضه عسل را نیز مشاهده کنیم؟ اگر تولید کل را سال به سال بررسی کنید چه؟
@ -106,7 +106,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![نمودار خطی ۲](../../../../../translated_images/fa/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![نمودار خطی ۲](../../../../../translated_images/fa/line2.3b18fcda7176ceba.webp)
پاسخ: نه واقعاً. اگر تولید کل را بررسی کنید، به نظر می‌رسد که در آن سال خاص افزایش یافته است، حتی اگر به طور کلی مقدار عسل تولید شده در این سال‌ها در حال کاهش باشد.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
در این تجسم، می‌توانید بازده هر کلنی و تعداد کلنی‌ها را سال به سال، کنار هم با تنظیم wrap در ۳ برای ستون‌ها مقایسه کنید:
![شبکه فاست](../../../../../translated_images/fa/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![شبکه فاست](../../../../../translated_images/fa/facet.491ad90d61c2a7cc.webp)
برای این مجموعه داده، هیچ چیز خاصی در مورد تعداد کلنی‌ها و بازده آن‌ها، سال به سال و ایالت به ایالت برجسته نیست. آیا راه دیگری برای یافتن همبستگی بین این دو متغیر وجود دارد؟
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![نمودارهای روی هم](../../../../../translated_images/fa/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![نمودارهای روی هم](../../../../../translated_images/fa/dual-line.fc4665f360a54018.webp)
در حالی که هیچ چیز خاصی در حدود سال ۲۰۰۳ به چشم نمی‌آید، این اجازه را به ما می‌دهد که این درس را با یک نکته خوشحال‌کننده‌تر به پایان برسانیم: در حالی که تعداد کلنی‌ها به طور کلی در حال کاهش است، تعداد کلنی‌ها در حال تثبیت است حتی اگر بازده هر کلنی کاهش یابد.

@ -38,25 +38,25 @@
حتی اگر یک دانشمند داده در انتخاب نمودار مناسب برای داده‌ها دقت کند، روش‌های زیادی وجود دارد که داده‌ها می‌توانند به گونه‌ای نمایش داده شوند که یک نکته را ثابت کنند، اغلب به قیمت تضعیف خود داده‌ها. نمونه‌های زیادی از نمودارها و اینفوگرافیک‌های گمراه‌کننده وجود دارد!
[![چگونه نمودارها دروغ می‌گویند توسط آلبرتو کایرو](../../../../../translated_images/fa/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "چگونه نمودارها دروغ می‌گویند")
[![چگونه نمودارها دروغ می‌گویند توسط آلبرتو کایرو](../../../../../translated_images/fa/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "چگونه نمودارها دروغ می‌گویند")
> 🎥 روی تصویر بالا کلیک کنید تا یک سخنرانی کنفرانس درباره نمودارهای گمراه‌کننده مشاهده کنید
این نمودار محور X را معکوس می‌کند تا بر اساس تاریخ، حقیقت را وارونه نشان دهد:
![نمودار بد 1](../../../../../translated_images/fa/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![نمودار بد 1](../../../../../translated_images/fa/bad-chart-1.596bc93425a8ac30.webp)
[این نمودار](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) حتی گمراه‌کننده‌تر است، زیرا چشم به سمت راست کشیده می‌شود تا نتیجه‌گیری کند که در طول زمان، موارد COVID در شهرستان‌های مختلف کاهش یافته است. در واقع، اگر به تاریخ‌ها دقت کنید، متوجه می‌شوید که آن‌ها به گونه‌ای مرتب شده‌اند که روند نزولی گمراه‌کننده‌ای ایجاد کنند.
![نمودار بد 2](../../../../../translated_images/fa/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![نمودار بد 2](../../../../../translated_images/fa/bad-chart-2.62edf4d2f30f4e51.webp)
این مثال معروف از رنگ و محور Y معکوس برای گمراه کردن استفاده می‌کند: به جای نتیجه‌گیری اینکه مرگ‌های ناشی از اسلحه پس از تصویب قوانین دوستدار اسلحه افزایش یافته است، در واقع چشم فریب داده می‌شود تا فکر کند که عکس آن درست است:
![نمودار بد 3](../../../../../translated_images/fa/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![نمودار بد 3](../../../../../translated_images/fa/bad-chart-3.e201e2e915a230bc.webp)
این نمودار عجیب نشان می‌دهد که چگونه نسبت‌ها می‌توانند به شکلی دستکاری شوند که خنده‌دار باشد:
![نمودار بد 4](../../../../../translated_images/fa/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![نمودار بد 4](../../../../../translated_images/fa/bad-chart-4.8872b2b881ffa96c.webp)
مقایسه موارد غیرقابل مقایسه یکی دیگر از ترفندهای مشکوک است. یک [وب‌سایت فوق‌العاده](https://tylervigen.com/spurious-correlations) وجود دارد که تماماً درباره 'همبستگی‌های جعلی' است و 'حقایق'ی را نمایش می‌دهد که چیزهایی مانند نرخ طلاق در مین و مصرف مارگارین را همبسته می‌کند. یک گروه در Reddit نیز [استفاده‌های زشت](https://www.reddit.com/r/dataisugly/top/?t=all) از داده‌ها را جمع‌آوری می‌کند.
@ -91,13 +91,13 @@
اگر داده‌های شما متنی و طولانی روی محور X است، می‌توانید متن را برای خوانایی بهتر زاویه دهید. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) امکان رسم سه‌بعدی را ارائه می‌دهد، اگر داده‌های شما از آن پشتیبانی کند. مصورسازی‌های داده‌ای پیشرفته می‌توانند با استفاده از آن تولید شوند.
![نمودارهای سه‌بعدی](../../../../../translated_images/fa/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![نمودارهای سه‌بعدی](../../../../../translated_images/fa/3d.db1734c151eee87d.webp)
## نمایش نمودارهای متحرک و سه‌بعدی
برخی از بهترین مصورسازی‌های داده‌ای امروز متحرک هستند. شرلی وو نمونه‌های شگفت‌انگیزی با D3 دارد، مانند '[گل‌های فیلم](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)'، که هر گل یک مصورسازی از یک فیلم است. نمونه دیگری برای گاردین 'بیرون فرستاده شده' است، یک تجربه تعاملی که مصورسازی‌ها را با Greensock و D3 به علاوه یک قالب مقاله اسکرول‌تلیگ ترکیب می‌کند تا نشان دهد چگونه نیویورک با مشکل بی‌خانمان‌های خود با بیرون فرستادن افراد از شهر برخورد می‌کند.
![بیرون فرستاده شده](../../../../../translated_images/fa/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![بیرون فرستاده شده](../../../../../translated_images/fa/busing.8157cf1bc89a3f65.webp)
> "بیرون فرستاده شده: چگونه آمریکا بی‌خانمان‌های خود را جابه‌جا می‌کند" از [گاردین](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). مصورسازی‌ها توسط نادیه برمر و شرلی وو
@ -107,7 +107,7 @@
شما یک اپلیکیشن وب کامل خواهید کرد که نمای متحرکی از این شبکه اجتماعی را نمایش می‌دهد. این اپلیکیشن از یک کتابخانه استفاده می‌کند که برای ایجاد [نمایی از یک شبکه](https://github.com/emiliorizzo/vue-d3-network) با استفاده از Vue.js و D3 ساخته شده است. هنگامی که اپلیکیشن اجرا می‌شود، می‌توانید گره‌ها را روی صفحه بکشید تا داده‌ها را جابه‌جا کنید.
![روابط](../../../../../translated_images/fa/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![روابط](../../../../../translated_images/fa/liaisons.90ce7360bcf84765.webp)
## پروژه: ساخت نموداری برای نمایش یک شبکه با استفاده از D3.js

@ -1,6 +1,6 @@
# مصورسازی‌ها
![یک زنبور روی گل اسطوخودوس](../../../translated_images/fa/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![یک زنبور روی گل اسطوخودوس](../../../translated_images/fa/bee.0aa1d91132b12e3a.webp)
> عکس از <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">جنا لی</a> در <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
مصورسازی داده‌ها یکی از مهم‌ترین وظایف یک دانشمند داده است. تصاویر به اندازه هزار کلمه ارزش دارند و یک مصورسازی می‌تواند به شما کمک کند تا انواع مختلفی از جنبه‌های جالب داده‌هایتان مانند جهش‌ها، نقاط پرت، گروه‌بندی‌ها، تمایلات و موارد دیگر را شناسایی کنید که می‌توانند به شما در درک داستانی که داده‌هایتان می‌خواهند بگویند، کمک کنند.

@ -16,7 +16,7 @@
این درس بر سه بخش از چرخه عمر تمرکز دارد: جمع‌آوری، پردازش و نگهداری.
![نمودار چرخه عمر علم داده](../../../../translated_images/fa/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![نمودار چرخه عمر علم داده](../../../../translated_images/fa/data-science-lifecycle.a1e362637503c4fb.webp)
> عکس از [مدرسه اطلاعات برکلی](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## جمع‌آوری
@ -92,7 +92,7 @@
|فرآیند تیم علم داده (TDSP)|استاندارد صنعتی برای داده‌کاوی (CRISP-DM)|
|--|--|
|![چرخه عمر تیم علم داده](../../../../translated_images/fa/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![تصویر فرآیند علم داده](../../../../translated_images/fa/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![چرخه عمر تیم علم داده](../../../../translated_images/fa/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![تصویر فرآیند علم داده](../../../../translated_images/fa/CRISP-DM.8bad2b4c66e62aa7.webp) |
| تصویر توسط [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | تصویر توسط [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [پس‌آزمون](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# چرخه حیات علم داده
![ارتباط](../../../translated_images/fa/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![ارتباط](../../../translated_images/fa/communication.06d8e2a88d30d168.webp)
> عکس از <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> در <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
در این درس‌ها، برخی از جنبه‌های چرخه حیات علم داده را بررسی خواهید کرد، از جمله تحلیل و ارتباطات پیرامون داده‌ها.

@ -1,12 +1,12 @@
# علم داده در فضای ابری
![cloud-picture](../../../translated_images/fa/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/fa/cloud-picture.f5526de3c6c6387b.webp)
> عکس از [Jelleke Vanooteghem](https://unsplash.com/@ilumire) در [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
وقتی صحبت از انجام علم داده با داده‌های بزرگ می‌شود، فضای ابری می‌تواند یک تغییر اساسی ایجاد کند. در سه درس بعدی، بررسی خواهیم کرد که فضای ابری چیست و چرا می‌تواند بسیار مفید باشد. همچنین یک مجموعه داده مربوط به نارسایی قلبی را بررسی کرده و مدلی برای ارزیابی احتمال نارسایی قلبی در افراد ایجاد خواهیم کرد. از قدرت فضای ابری برای آموزش، استقرار و استفاده از مدل به دو روش مختلف استفاده خواهیم کرد. یک روش با استفاده از رابط کاربری به صورت "کد کم/بدون کد"، و روش دیگر با استفاده از کیت توسعه نرم‌افزار Azure Machine Learning (Azure ML SDK).
![project-schema](../../../translated_images/fa/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/fa/project-schema.420e56d495624541.webp)
### موضوعات

@ -32,7 +32,7 @@
* [علم داده در مراقبت‌های بهداشتی](https://data-flair.training/blogs/data-science-in-healthcare/) - کاربردهایی مانند تصویربرداری پزشکی (مانند MRI، اشعه ایکس، سی‌تی‌اسکن)، ژنومیک (توالی‌یابی DNA)، توسعه دارو (ارزیابی ریسک، پیش‌بینی موفقیت)، تحلیل‌های پیش‌بینی‌کننده (مراقبت از بیمار و لجستیک تامین)، ردیابی و پیشگیری از بیماری و غیره را برجسته می‌کند.
![کاربردهای علم داده در دنیای واقعی](../../../../translated_images/fa/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) اعتبار تصویر: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![کاربردهای علم داده در دنیای واقعی](../../../../translated_images/fa/data-science-applications.4e5019cd8790ebac.webp) اعتبار تصویر: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
این شکل حوزه‌ها و مثال‌های دیگری برای کاربرد تکنیک‌های علم داده را نشان می‌دهد. آیا می‌خواهید کاربردهای دیگری را بررسی کنید؟ بخش [مرور و مطالعه خود](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) را در زیر ببینید.

@ -13,7 +13,7 @@
2. مجموعه داده‌های [Catalog](https://planetarycomputer.microsoft.com/catalog) را بررسی کنید - هدف هر کدام را یاد بگیرید.
3. از Explorer استفاده کنید - یک مجموعه داده مورد علاقه انتخاب کنید، یک پرسش مرتبط و گزینه رندر مناسب انتخاب کنید.
![Explorer کامپیوتر سیاره‌ای](../../../../translated_images/fa/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![Explorer کامپیوتر سیاره‌ای](../../../../translated_images/fa/planetary-computer-explorer.c1e95a9b053167d6.webp)
`وظیفه شما:`
اکنون مصورسازی‌ای که در مرورگر رندر شده است را بررسی کنید و به سوالات زیر پاسخ دهید:

@ -1,32 +1,32 @@
# علم داده برای مبتدیها - یک برنامه درسی
# علوم داده برای مبتدیان - یک برنامه درسی
[![باز کردن در GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![لایسنس گیت‌هاب](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![همکاران گیت‌هاب](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![مسائل گیت‌هاب](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![درخواست‌های کشش گیت‌هاب](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![درخواست‌های کشش خوش‌آمدید](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![تماشاگران گیت‌هاب](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![انشعابات گیت‌هاب](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![ستاره‌های گیت‌هاب](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
حمایت‌کنندگان ابری آزور در مایکروسافت خوشحالند که یک برنامه درسی ۱۰ هفته‌ای، شامل ۲۰ درس درباره علم داده ارائه دهند. هر درس شامل آزمون‌های قبل و بعد از درس، دستورالعمل‌های کتبی برای تکمیل درس، راه‌حل و یک تکلیف است. آموزش مبتنی بر پروژه ما به شما اجازه می‌دهد در حین ساختن یاد بگیرید، روشی اثبات شده برای ماندگاری مهارت‌های جدید.
مدافعان فضای ابری آزور در مایکروسافت خوشحالند که یک برنامه درسی ۱۰ هفته‌ای با ۲۰ درس درباره علوم داده ارائه دهند. هر درس شامل آزمون‌های قبل و بعد از درس، دستورالعمل‌های نوشتاری برای تکمیل درس، راه‌حل و تمرین است. روش آموزشی مبتنی بر پروژه ما به شما اجازه می‌دهد در حین ساختن یاد بگیرید، روشی اثباتشده برای ماندگاری مهارت‌های جدید.
**با سپاس فراوان از نویسندگان ما:** [Jasmine Greenaway](https://www.twitter.com/paladique)، [Dmitry Soshnikov](http://soshnikov.com)، [Nitya Narasimhan](https://twitter.com/nitya)، [Jalen McGee](https://twitter.com/JalenMcG)، [Jen Looper](https://twitter.com/jenlooper)، [Maud Levy](https://twitter.com/maudstweets)، [Tiffany Souterre](https://twitter.com/TiffanySouterre)، [Christopher Harrison](https://www.twitter.com/geektrainer).
**از نویسندگان محترممان صمیمانه تشکر می‌کنیم:** [جاسمین گرینووی](https://www.twitter.com/paladique)، [دیمیتری سوشنیکوف](http://soshnikov.com)، [نیتیا ناراسیمهان](https://twitter.com/nitya)، [جالن مک‌گی](https://twitter.com/JalenMcG)، [جن لوپر](https://twitter.com/jenlooper)، [مود لوی](https://twitter.com/maudstweets)، [تیفانی سوتری](https://twitter.com/TiffanySouterre)، [کریستوفر هریسون](https://www.twitter.com/geektrainer).
**🙏 تشکر ویژه 🙏 از نویسندگان، بازبینان و مشارکت‌کنندگان محتوا از [سفیران دانشجویی مایکروسافت](https://studentambassadors.microsoft.com/)،** بخصوص آریان آروورا، [Aditya Garg](https://github.com/AdityaGarg00)، [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/)، [Ankita Singh](https://www.linkedin.com/in/ankitasingh007)، [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/)، [Arpita Das](https://www.linkedin.com/in/arpitadas01/)، ChhailBihari Dubey، [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor)، [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb)، [Majd Safi](https://www.linkedin.com/in/majd-s/)، [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/)، [Miguel Correa](https://www.linkedin.com/in/miguelmque/)، [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119)، [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum)، [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/)، [Rohit Yadav](https://www.linkedin.com/in/rty2423)، Samridhi Sharma، [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/)، [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/)، Yogendrasingh Pawar، [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/)، [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
**🙏 تشکر ویژه 🙏 از نویسندگان، بازبینان و مشارکت‌کنندگان محتوا از [سفیران دانشجویی مایکروسافت](https://studentambassadors.microsoft.com/)،** به‌ویژه آریان آرورا، [ادیتیا گارگ](https://github.com/AdityaGarg00)، [آلوندر سانچز](https://www.linkedin.com/in/alondra-sanchez-molina/)، [آنکیتا سینگ](https://www.linkedin.com/in/ankitasingh007)، [آنوپم میشرا](https://www.linkedin.com/in/anupam--mishra/)، [آرپیتا داس](https://www.linkedin.com/in/arpitadas01/)، چایل‌بهایاری دوبی، [دیبری نسوفور](https://www.linkedin.com/in/dibrinsofor)، [دیشیتا باسین](https://www.linkedin.com/in/dishita-bhasin-7065281bb)، [مجد صفی](https://www.linkedin.com/in/majd-s/)، [مکس بلوم](https://www.linkedin.com/in/max-blum-6036a1186/)، [میگل کورئا](https://www.linkedin.com/in/miguelmque/)، [محمد افتهخر (ایفتو) ابن جلال](https://twitter.com/iftu119)، [نوورین طباسم](https://www.linkedin.com/in/nawrin-tabassum)، [ریموند وانگسا پوترا](https://www.linkedin.com/in/raymond-wp/)، [روهیت یاداو](https://www.linkedin.com/in/rty2423)، سمریدهی شارما، [سانیا سینها](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200
[شینا نارولا](https://www.linkedin.com/in/sheena-narua-n/)، [توقیر احمد](https://www.linkedin.com/in/tauqeerahmad5201/)، یوگندراسینگ پاوار، [ویدوشی گوپتا](https://www.linkedin.com/in/vidushi-gupta07/)، [جلسین سوندی](https://www.linkedin.com/in/jasleen-sondhi/)
|![یادداشت تصویری توسط @sketchthedocs https://sketchthedocs.dev](../../translated_images/fa/00-Title.8af36cd35da1ac55.webp)|
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/fa/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| علم داده برای مبتدی‌ها - ادداشت تصویری توسط [@nitya](https://twitter.com/nitya)_ |
| علوم داده برای مبتدیان - _نقشه تصویری توسط [@nitya](https://twitter.com/nitya)_ |
### 🌐 پشتیبانی چندزبانه
@ -35,219 +35,229 @@
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](./README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **ترجیح می‌دهید لوکال کلون کنید؟**
> این مخزن بیش از ۵۰ ترجمه زبانی دارد که اندازه دانلود را بطور قابل توجهی افزایش می‌دهد. برای کلون بدون ترجمه‌ها از sparse checkout استفاده کنید:
> **ترجیح می‌دهید به صورت محلی کلون کنید؟**
>
> این مخزن شامل بیش از ۵۰ ترجمه زبان است که اندازه دانلود را به طور قابل توجهی افزایش می‌دهد. برای کلون کردن بدون ترجمه‌ها، از sparse checkout استفاده کنید:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> این به شما همه چیزی را که برای تکمیل دوره نیاز دارید با سرعت دانلود بسیار سریعتر می‌دهد.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> این به شما همه چیز لازم برای تکمیل دوره را با دانلود بسیار سریع‌تر می‌دهد.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**اگر می‌خواهید زبان‌های ترجمه بیشتری پشتیبانی شوند، فهرست آنها [در اینجا](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) آمده است**
**اگر می‌خواهید زبان‌های ترجمه اضافی پشتیبانی شوند، فهرست آن‌ها [در اینجا](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) است**
#### به جامعه ما بپیوندید
#### به جامعه ما بپیوندید
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
ما یک سری یادگیری در دیسکورد با هوش مصنوعی داریم، بیشتر بیاموزید و از ۱۸ تا ۳۰ سپتامبر ۲۰۲۵ به ما بپیوندید در [سری آموزش با هوش مصنوعی](https://aka.ms/learnwithai/discord). شما نکات و ترفندهای استفاده از GitHub Copilot برای علم داده را دریافت خواهید کرد.
ما سری یادگیری با هوش مصنوعی را در دیسکورد داریم، بیشتر بدانید و از ۱۸ تا ۳۰ سپتامبر ۲۰۲۵ به ما در [سری یادگیری با هوش مصنوعی](https://aka.ms/learnwithai/discord) بپیوندید. شما نکات و ترفندهای استفاده از GitHub Copilot برای علوم داده را خواهید آموخت.
![سری آموزش با هوش مصنوعی](../../translated_images/fa/1.2b28cdc6205e26fe.webp)
![Learn with AI series](../../translated_images/fa/1.2b28cdc6205e26fe.webp)
# آیا شما دانشجو هستید؟
# آیا دانشجو هستید؟
با منابع زیر شروع کنید:
- [صفحه مرکز دانشجویی](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) در این صفحه منابع برای مبتدیان، بسته‌های دانشجویی و حتی روش‌هایی برای دریافت کارت رایگان صدور گواهی خواهید یافت. این صفحه‌ای است که می‌خواهید نشانک بزنید و هر از گاهی بررسی کنید چون ما محتوا را حداقل ماهانه تعویض می‌کنیم.
- [سفیران دانشجویی مایکروسافت](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) به یک جامعه جهانی سفیران دانشجویی بپیوندید، این می‌تواند راه شما به مایکروسافت باشد.
- [صفحه مرکز دانشجویی](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) در این صفحه منابع مبتدی، بسته‌های دانشجویی و حتی راه‌هایی برای دریافت کوپن رایگان گواهی‌نامه را خواهید یافت. این صفحه‌ای است که می‌خواهید نشانه‌گذاری کنید و هر از گاهی بررسی کنید زیرا ما حداقل ماهانه محتوا را تغییر می‌دهیم.
- [سفیران دانشجویی مایکروسافت](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) به جامعه جهانی سفیران دانشجویی بپیوندید، این می‌تواند راه ورود شما به مایکروسافت باشد.
# شروع به کار
## 📚 مستندات
- **[راهنمای نصب](INSTALLATION.md)** - دستورالعمل گام به گام برای مبتدیان
- **[راهنمای استفاده](USAGE.md)** - نمونهها و جریان‌های کاری رایج
- **[عیب‌یابی](TROUBLESHOOTING.md)** - راه‌حل مشکلات رایج
- **[راهنمای مشارکت](CONTRIBUTING.md)** - چگونه در این پروژه مشارکت کنیم
- **[برای معلمان](for-teachers.md)** - راهنمایی تدریس و منابع کلاسی
- **[راهنمای نصب](INSTALLATION.md)** - دستورالعمل‌های گام به گام راه‌اندازی برای مبتدیان
- **[راهنمای استفاده](USAGE.md)** - مثالها و جریان‌های کاری رایج
- **[رفع مشکل](TROUBLESHOOTING.md)** - راه‌حل‌های مشکلات رایج
- **[راهنمای مشارکت](CONTRIBUTING.md)** - چگونه به این پروژه کمک کنیم
- **[برای معلمان](for-teachers.md)** - راهنمای تدریس و منابع کلاسی
## 👨‍🎓 برای دانشجویان
> **مبتدی مطلق**: تازه وارد علم داده شده‌اید؟ با [نمونه‌های دوستانه برای مبتدیان](examples/README.md) ما شروع کنید! این نمونه‌های ساده و کامنت‌گذاری شده به شما کمک می‌کند پایه‌ها را قبل از ورود به برنامه درسی کامل درک کنید.
> **[دانشجویان](https://aka.ms/student-page)**: برای استفاده از این برنامه درسی به صورت خودآموز، کل مخزن را فورک کنید و تمرینات را به تنهایی کامل کنید، از آزمون پیش-درس شروع کنید. سپس درس را بخوانید و بقیه فعالیت‌ها را انجام دهید. سعی کنید پروژه‌ها را با درک درس‌ها بسازید نه کپی کردن کد راه‌حل؛ هرچند آن کد در پوشه /solutions در هر درس مبتنی بر پروژه موجود است. ایده دیگر تشکیل یک گروه مطالعاتی با دوستان و مرور محتوا با هم است. برای مطالعه بیشتر، ما [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) را توصیه می‌کنیم.
> **کاملاً مبتدی:** به علوم داده تازه واردید؟ با [مثال‌های مناسب مبتدیان](examples/README.md) ما شروع کنید! این مثال‌های ساده و با توضیحات کامل به شما کمک می‌کنند قبل از ورود به برنامه درسی کامل، اصول را بفهمید.
> **[دانشجویان](https://aka.ms/student-page)**: برای استفاده از این برنامه به صورت مستقل، کل مخزن را فورک کنید و تمرین‌ها را خودتان کامل کنید، با آزمون پیش‌درس شروع کنید. سپس درس را بخوانید و بقیه فعالیت‌ها را انجام دهید. تلاش کنید پروژه‌ها را با درک درس‌ها بسازید نه با کپی کردن کد راه‌حل؛ البته آن کدها در فولدر /solutions در هر درس پروژه‌محور موجود است. ایده دیگر تشکیل گروه مطالعه با دوستان و مرور محتوایی است. برای مطالعه بیشتر، ما مایکروسافت لرن را پیشنهاد می‌کنیم [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**شروع سریع:**
1. راهنمای [نصب](INSTALLATION.md) را برای راه‌اندازی محیط خود بررسی کنید
2. راهنمای [استفاده](USAGE.md) را برای یادگیری چگونه کار کردن با برنامه درسی مرور کنید
3. با درس ۱ شروع کرده و به ترتیب پیش بروید
4. برای پشتیبانی به [جامعه دیسکورد ما](https://aka.ms/ds4beginners/discord) بپیوندید
1. راهنمای نصب را بررسی کنید تا محیط خود را راه‌اندازی کنید
2. راهنمای استفاده را مرور کنید تا یاد بگیرید چگونه با برنامه کار کنید
3. از درس ۱ شروع کنید و به ترتیب پیش بروید
4. به [جامعه دیسکورد ما](https://aka.ms/ds4beginners/discord) برای دریافت پشتیبانی بپیوندید
## 👩‍🏫 برای معلمان
> **معلمان**: ما [چند پیشنهاد](for-teachers.md) برای چگونگی استفاده از این برنامه درسی ارائه کرده‌ایم. خوشحال می‌شویم بازخورد شما را [در انجمن بحث و گفتگو](https://github.com/microsoft/Data-Science-For-Beginners/discussions) دریافت کنیم!
> **معلمان**: ما [چند پیشنهاد](for-teachers.md) برای استفاده از این برنامه درسی ارائه کرده‌ایم. خوشحال می‌شویم بازخورد شما را در [انجمن بحث ما](https://github.com/microsoft/Data-Science-For-Beginners/discussions) دریافت کنیم!
## ملاقات با تیم
## تیم ما را بشناسید
[![ویدیو تبلیغاتی](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "ویدیو تبلیغاتی")
[![ویدئوی معرفی](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "ویدئوی معرفی")
**گیف توسط** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
**گیف از** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 برای دیدن ویدیو درباره پروژه و افرادی که آن را ساخته‌اند روی تصویر بالا کلیک کنید!
> 🎥 برای دیدن ویدئویی درباره پروژه و افرادی که آن را ساخته‌اند، روی تصویر بالا کلیک کنید!
## روش تدریس
در ساخت این دوره آموزشی، دو اصل آموزشی را انتخاب کرده‌ایم: اطمینان از اینکه پروژه‌محور است و شامل آزمون‌های مکرر باشد. در پایان این مجموعه، دانش‌آموزان اصول پایه‌ای علم داده را یاد خواهند گرفت، از جمله مفاهیم اخلاقی، آماده‌سازی داده‌ها، روش‌های مختلف کار با داده، مصورسازی داده، تحلیل داده، کاربردهای واقعی علم داده و بیشتر.
ما در ساخت این برنامه درسی دو اصل آموزشی را انتخاب کرده‌ایم: اطمینان از اینکه آموزش مبتنی بر پروژه باشد و شامل آزمون‌های مکرر باشد. تا پایان این سری درس‌ها، دانش‌آموزان اصول پایه‌ای علم داده، از جمله مفاهیم اخلاقی، آماده‌سازی داده‌ها، روش‌های مختلف کار با داده‌ها، مصورسازی داده‌ها، تحلیل داده‌ها، موارد کاربرد دنیای واقعی علم داده و موارد بیشتر را یاد خواهند گرفت.
علاوه بر این، یک آزمون کم‌فشار قبل از کلاس، قصد دانش‌آموز را برای یادگیری موضوعی مشخص می‌کند و آزمون دوم پس از کلاس، به تثبیت بیشتر مطلب کمک می‌کند. این دوره طوری طراحی شده که انعطاف‌پذیر و سرگرم‌کننده باشد و می‌توان کل آن یا بخشی از آن را طی کرد. پروژه‌ها کوچک شروع شده و تا پایان چرخه ۱۰ هفته‌ای به تدریج پیچیده‌تر می‌شوند.
علاوه بر این، یک آزمون کم اهمیت قبل از کلاس قصد یادگیری دانش‌آموز را در مورد موضوعی مشخص می‌کند، و یک آزمون دوم پس از کلاس حفظ بیشتر را تضمین می‌کند. این برنامه درسی به گونه‌ای طراحی شده که انعطاف‌پذیر و جذاب باشد و می‌توان آن را به طور کامل یا بخشی از آن را گرفت. پروژه‌ها از کوچک شروع می‌شوند و تا پایان چرخه ده هفته‌ای به تدریج پیچیده‌تر می‌شوند.
> دستورالعمل‌های [Code of Conduct](CODE_OF_CONDUCT.md)، [Contributing](CONTRIBUTING.md) و [Translation](TRANSLATIONS.md) ما را پیدا کنید. بازخورد سازنده شما را خوش‌آمد می‌گوییم!
> راهنمای [رفتارنامه](CODE_OF_CONDUCT.md)، [مشارکت](CONTRIBUTING.md)، [ترجمه](TRANSLATIONS.md) را بیابید. ما از بازخورد سازنده شما استقبال می‌کنیم!
## هر درس شامل:
- یادداشت تصویری اختیاری
- ویدیو تکمیلی اختیاری
- آزمون گرم‌کننده پیش از درس
- درس نوشتاری
- برای درس‌های پروژه‌محور، راهنمای گام‌به‌گام برای ساخت پروژه
- نقشه‌کشی اختیاری
- ویدئوی مکمل اختیاری
- آزمون گرم‌کردن پیش از درس
- درس مکتوب
- برای درس‌های مبتنی بر پروژه، راهنمای گام‌به‌گام ساخت پروژه
- بررسی دانش
- چالش
- مطالعه تکمیلی
- مطالعه مکمل
- تکلیف
- [آزمون پس از درس](https://ff-quizzes.netlify.app/en/)
> **نکته‌ای درباره آزمون‌ها**: همه آزمون‌ها در پوشه Quiz-App قرار دارند، شامل ۴۰ آزمون با سه سوال هر کدام. این‌ها از داخل درس‌ها لینک شده‌اند، اما می‌توان برنامه آزمون را به صورت محلی اجرا یا در Azure مستقر کرد؛ دستورالعمل‌ها در پوشه `quiz-app` قرار دارد. آزمون‌ها به تدریج محلی‌سازی می‌شوند.
> **نکته‌ای درباره آزمون‌ها**: تمام آزمون‌ها در پوشه Quiz-App موجود است، مجموعاً ۴۰ آزمون با سه سوال هر کدام. این آزمونها از داخل درس‌ها لینک شده‌اند اما برنامه آزمون می‌تواند به صورت محلی اجرا یا روی Azure مستقر شود؛ دستورالعمل‌ها در پوشه `quiz-app` آمده است. این آزمون‌ها به تدریج بومی‌سازی می‌شوند.
## 🎓 مثال‌های مناسب مبتدیان
**جدید در علم داده هستید؟** ما یک [دایرکتوری مثال](examples/README.md) ویژه با کدهای ساده و به خوبی کامنت‌گذاری شده ایجاد کرده‌ایم تا به شما در شروع کمک کند:
**به علم داده تازه‌واردید؟** دایرکتوری خاصی از [مثال‌ها](examples/README.md) ساخته‌ایم با کد ساده و کامنت‌گذاری شده برای کمک به شروع شما:
- 🌟 **سلام دنیا** - اولین برنامه علم داده شما
- 📂 **بارگذاری داده‌ها** - یادگیری خواندن و بررسی داده‌ها
- 📂 **بارگذاری داده‌ها** - یادگیری خواندن و بررسی مجموعه داده‌ها
- 📊 **تحلیل ساده** - محاسبه آمار و یافتن الگوها
- 📈 **مصورسازی پایه** - ساخت نمودارها و گراف‌ها
- 🔬 **پروژه دنیای واقعی** - جریان کاری کامل از ابتدا تا انتها
- 📈 **مصورسازی پایه** - ایجاد نمودارها و گراف‌ها
- 🔬 **پروژه دنیای واقعی** - جریان کاری کامل از ابتدا تا پایان
هر مثال شامل کامنت‌های مفصل است که هر مرحله را توضیح می‌دهد، مناسب برای کاملاً مبتدی‌ها!
هر مثال شامل توضیحات جزئی هر مرحله است که آن را برای مبتدیان مطلق ایده‌آل می‌کند!
👉 **[شروع با مثال‌ها](examples/README.md)** 👈
## دروس
## درسها
|![ یادداشت تصویری توسط @sketchthedocs https://sketchthedocs.dev](../../translated_images/fa/00-Roadmap.4905d6567dff4753.webp)|
|![ نقشه‌کشی توسط @sketchthedocs https://sketchthedocs.dev](../../translated_images/fa/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| داده‌کاوی برای مبتدیان: نقشه راه - ادداشت تصویری توسط [@nitya](https://twitter.com/nitya)_ |
| نقشه راه علم داده برای مبتدیان - _نقشهکشی توسط [@nitya](https://twitter.com/nitya)_ |
| شماره درس | موضوع | گروه درس | اهداف یادگیری | درس مرتبط | نویسنده |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| ۰۱ | تعریف علم داده | [مقدمه](1-Introduction/README.md) | یادگیری مفاهیم پایه علم داده و رابطه آن با هوش مصنوعی، یادگیری ماشین و داده‌های بزرگ. | [درس](1-Introduction/01-defining-data-science/README.md) [ویدیو](https://youtu.be/beZ7Mb_oz9I) | [دیمیتری](http://soshnikov.com) |
| ۰۲ | اخلاق در علم داده | [مقدمه](1-Introduction/README.md) | مفاهیم اخلاقی داده، چالش‌ها و چهارچوب‌ها. | [درس](1-Introduction/02-ethics/README.md) | [نیتیا](https://twitter.com/nitya) |
| ۰۳ | تعریف داده | [مقدمه](1-Introduction/README.md) | چگونگی دسته‌بندی داده و منابع معمول آن. | [درس](1-Introduction/03-defining-data/README.md) | [جاسمین](https://www.twitter.com/paladique) |
| ۰۴ | مقدمه‌ای بر آمار و احتمال | [مقدمه](1-Introduction/README.md) | تکنیک‌های ریاضی احتمالات و آمار برای درک داده‌ها. | [درس](1-Introduction/04-stats-and-probability/README.md) [ویدیو](https://youtu.be/Z5Zy85g4Yjw) | [دیمیتری](http://soshnikov.com) |
| ۰۵ | کار با داده‌های رابطه‌ای | [کار با داده](2-Working-With-Data/README.md) | مقدمه‌ای بر داده‌های رابطه‌ای و مبانی بررسی و تحلیل داده‌های رابطه‌ای با زبان پرس‌وجوی ساخت‌یافته، معروف به SQL (تلفظ "سی‌کوئل"). | [درس](2-Working-With-Data/05-relational-databases/README.md) | [کریستوفر](https://www.twitter.com/geektrainer) | | |
| ۰۶ | کار با داده‌های NoSQL | [کار با داده](2-Working-With-Data/README.md) | مقدمه‌ای بر داده‌های غیررابطه‌ای، انواع مختلف آن و مبانی بررسی و تحلیل پایگاه‌های داده سندی. | [درس](2-Working-With-Data/06-non-relational/README.md) | [جاسمین](https://twitter.com/paladique)|
| ۰۷ | کار با پایتون | [کار با داده](2-Working-With-Data/README.md) | مبانی استفاده از پایتون برای بررسی داده‌ها با کتابخانه‌هایی مثل Pandas. داشتن درک پایه‌ای از برنامه‌نویسی پایتون توصیه می‌شود. | [درس](2-Working-With-Data/07-python/README.md) [ویدیو](https://youtu.be/dZjWOGbsN4Y) | [دیمیتری](http://soshnikov.com) |
| ۰۸ | آماده‌سازی داده | [کار با داده](2-Working-With-Data/README.md) | موضوعاتی درباره تکنیک‌های داده برای پاک‌سازی و تبدیل داده‌ها به منظور مقابله با چالش‌های داده‌های گم‌شده، نادرست یا ناقص. | [درس](2-Working-With-Data/08-data-preparation/README.md) | [جاسمین](https://www.twitter.com/paladique) |
| ۰۹ | مصورسازی کمیت‌ها | [مصورسازی داده](3-Data-Visualization/README.md) | یادگیری استفاده از Matplotlib برای مصورسازی داده‌های پرندگان 🦆 | [درس](3-Data-Visualization/09-visualization-quantities/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۰ | مصورسازی توزیع دادهها | [مصورسازی داده](3-Data-Visualization/README.md) | مصورسازی مشاهدات و روندها در بازه‌ای مشخص. | [درس](3-Data-Visualization/10-visualization-distributions/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۱ | مصورسازی نسبت‌ها | [مصورسازی داده](3-Data-Visualization/README.md) | مصورسازی درصدهای گسسته و گروه‌بندیشده. | [درس](3-Data-Visualization/11-visualization-proportions/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۲ | مصورسازی روابط | [مصورسازی داده](3-Data-Visualization/README.md) | مصورسازی اتصالات و همبستگی‌ها بین مجموعه‌های داده و متغیرهایشان. | [درس](3-Data-Visualization/12-visualization-relationships/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۳ | مصورسازی‌های معنادار | [مصورسازی داده](3-Data-Visualization/README.md) | تکنیک‌ها و راهنمایی‌هایی برای ارزشمند کردن مصورسازی‌ها برای حل مؤثر مسائل و کسب بینش. | [درس](3-Data-Visualization/13-meaningful-visualizations/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۴ | مقدمه‌ای بر چرخه عمر علم داده | [چرخه عمر](4-Data-Science-Lifecycle/README.md) | معرفی چرخه عمر علم داده و اولین گام آن در کسب و استخراج داده. | [درس](4-Data-Science-Lifecycle/14-Introduction/README.md) | [جاسمین](https://twitter.com/paladique) |
| ۱۵ | تحلیل | [چرخه عمر](4-Data-Science-Lifecycle/README.md) | این مرحله از چرخه عمر علم داده بر تکنیک‌های تحلیل داده تمرکز دارد. | [درس](4-Data-Science-Lifecycle/15-analyzing/README.md) | [جاسمین](https://twitter.com/paladique) | | |
| ۱۶ | ارتباطات | [چرخه عمر](4-Data-Science-Lifecycle/README.md) | این مرحله از چرخه عمر علم داده بر ارائه بینش‌های داده به شیوه‌ای متمرکز است که تصمیم‌گیرندگان راحت‌تر آنها را درک کنند. | [درس](4-Data-Science-Lifecycle/16-communication/README.md) | [جالن](https://twitter.com/JalenMcG) | | |
| ۱۷ | علم داده در فضای ابری | [داده در فضای ابری](5-Data-Science-In-Cloud/README.md) | این سری دروس، علم داده در فضای ابری و مزایای آن را معرفی می‌کند. | [درس](5-Data-Science-In-Cloud/17-Introduction/README.md) | [تیفانی](https://twitter.com/TiffanySouterre) و [مود](https://twitter.com/maudstweets) |
| ۱۸ | علم داده در فضای ابری | [داده در فضای ابری](5-Data-Science-In-Cloud/README.md) | آموزش مدل‌ها با ابزارهای کد کم. |[درس](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [تیفانی](https://twitter.com/TiffanySouterre) و [مود](https://twitter.com/maudstweets) |
| ۱۹ | علم داده در فضای ابری | [داده در فضای ابری](5-Data-Science-In-Cloud/README.md) | پیاده‌سازی مدل‌ها با Azure Machine Learning Studio. | [درس](5-Data-Science-In-Cloud/19-Azure/README.md)| [تیفانی](https://twitter.com/TiffanySouterre) و [مود](https://twitter.com/maudstweets) |
| ۰۱ | تعریف علم داده | [مقدمه](1-Introduction/README.md) | یادگیری مفاهیم پایه علم داده و ارتباط آن با هوش مصنوعی، یادگیری ماشین، و داده‌های بزرگ. | [درس](1-Introduction/01-defining-data-science/README.md) [ویدئو](https://youtu.be/beZ7Mb_oz9I) | [دیمیتری](http://soshnikov.com) |
| ۰۲ | اخلاق در علم داده | [مقدمه](1-Introduction/README.md) | مفاهیم اخلاق داده، چالش‌ها و چارچوب‌ها. | [درس](1-Introduction/02-ethics/README.md) | [نیتیا](https://twitter.com/nitya) |
| ۰۳ | تعریف داده | [مقدمه](1-Introduction/README.md) | نحوه طبقه‌بندی داده‌ها و منابع رایج آن‌ها. | [درس](1-Introduction/03-defining-data/README.md) | [ژاسمین](https://www.twitter.com/paladique) |
| ۰۴ | مقدمه‌ای بر آمار و احتمال | [مقدمه](1-Introduction/README.md) | تکنیک‌های ریاضی احتمال و آمار برای فهم داده‌ها. | [درس](1-Introduction/04-stats-and-probability/README.md) [ویدئو](https://youtu.be/Z5Zy85g4Yjw) | [دیمیتری](http://soshnikov.com) |
| ۰۵ | کار با داده‌های رابطه‌ای | [کار با داده](2-Working-With-Data/README.md) | مقدمه‌ای بر داده‌های رابطه‌ای و اصول بررسی و تحلیل داده‌های رابطه‌ای با زبان پرس‌وجوی ساختاریافته، معروف به SQL (تلفظ "سی-کول"). | [درس](2-Working-With-Data/05-relational-databases/README.md) | [کریستوفر](https://www.twitter.com/geektrainer) | | |
| ۰۶ | کار با داده‌های NoSQL | [کار با داده](2-Working-With-Data/README.md) | مقدمه‌ای بر داده‌های غیررابطه‌ای، انواع مختلف آن و اصول بررسی و تحلیل پایگاه‌های سندی. | [درس](2-Working-With-Data/06-non-relational/README.md) | [ژاسمین](https://twitter.com/paladique)|
| ۰۷ | کار با پایتون | [کار با داده](2-Working-With-Data/README.md) | اصول استفاده از پایتون برای کاوش داده‌ها با کتابخانه‌هایی مانند Pandas. درک پایه‌ای برنامه‌نویسی پایتون توصیه می‌شود. | [درس](2-Working-With-Data/07-python/README.md) [ویدئو](https://youtu.be/dZjWOGbsN4Y) | [دیمیتری](http://soshnikov.com) |
| ۰۸ | آماده‌سازی داده | [کار با داده](2-Working-With-Data/README.md) | موضوعات مربوط به تکنیک‌های پاک‌سازی و تبدیل داده‌ها برای مقابله با چالش‌های داده‌های ناقص، نادرست یا ناقص. | [درس](2-Working-With-Data/08-data-preparation/README.md) | [ژاسمین](https://www.twitter.com/paladique) |
| ۰۹ | مصورسازی کمیت‌ها | [مصورسازی داده](3-Data-Visualization/README.md) | یادگیری استفاده از Matplotlib برای مصورسازی داده‌های پرنده 🦆 | [درس](3-Data-Visualization/09-visualization-quantities/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۰ | مصورسازی توزیع داده | [مصورسازی داده](3-Data-Visualization/README.md) | مصورسازی مشاهدات و روندها در یک بازه زمانی. | [درس](3-Data-Visualization/10-visualization-distributions/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۱ | مصورسازی نسبت‌ها | [مصورسازی داده](3-Data-Visualization/README.md) | مصورسازی درصدهای گسسته و گروه‌بندی شده. | [درس](3-Data-Visualization/11-visualization-proportions/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۲ | مصورسازی روابط | [مصورسازی داده](3-Data-Visualization/README.md) | مصورسازی ارتباطات و همبستگی‌ها بین مجموعه‌های داده و متغیرهایشان. | [درس](3-Data-Visualization/12-visualization-relationships/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۳ | مصورسازی‌های معنادار | [مصورسازی داده](3-Data-Visualization/README.md) | تکنیک‌ها و راهنمایی برای مفید ساختن مصورسازی‌ها به منظور حل موثر مسئله و کسب بینش. | [درس](3-Data-Visualization/13-meaningful-visualizations/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۴ | مقدمه‌ای بر چرخه عمر علم داده | [چرخه عمر](4-Data-Science-Lifecycle/README.md) | مقدمه‌ای بر چرخه عمر علم داده و اولین مرحله آن که کسب و استخراج داده است. | [درس](4-Data-Science-Lifecycle/14-Introduction/README.md) | [ژاسمین](https://twitter.com/paladique) |
| ۱۵ | تحلیل داده | [چرخه عمر](4-Data-Science-Lifecycle/README.md) | این مرحله از چرخه عمر علم داده بر تکنیک‌های تحلیل داده تمرکز دارد. | [درس](4-Data-Science-Lifecycle/15-analyzing/README.md) | [ژاسمین](https://twitter.com/paladique) | | |
| ۱۶ | ارتباطات | [چرخه عمر](4-Data-Science-Lifecycle/README.md) | این مرحله از چرخه عمر علم داده بر ارائه یافته‌ها به گونه‌ای که تصمیم‌گیرندگان بتوانند راحت‌تر درک کنند متمرکز است. | [درس](4-Data-Science-Lifecycle/16-communication/README.md) | [جالن](https://twitter.com/JalenMcG) | | |
| ۱۷ | علم داده در فضای ابری | [داده ابری](5-Data-Science-In-Cloud/README.md) | این سری درس‌ها علم داده در فضای ابری و مزایای آن را معرفی می‌کند. | [درس](5-Data-Science-In-Cloud/17-Introduction/README.md) | [تیفانی](https://twitter.com/TiffanySouterre) و [ماد](https://twitter.com/maudstweets) |
| ۱۸ | علم داده در فضای ابری | [داده ابری](5-Data-Science-In-Cloud/README.md) | آموزش مدل‌ها با استفاده از ابزارهای Low Code. |[درس](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [تیفانی](https://twitter.com/TiffanySouterre) و [ماد](https://twitter.com/maudstweets) |
| ۱۹ | علم داده در فضای ابری | [داده ابری](5-Data-Science-In-Cloud/README.md) | استقرار مدل‌ها با Azure Machine Learning Studio. | [درس](5-Data-Science-In-Cloud/19-Azure/README.md)| [تیفانی](https://twitter.com/TiffanySouterre) و [ماد](https://twitter.com/maudstweets) |
| ۲۰ | علم داده در دنیای واقعی | [در دنیای واقعی](6-Data-Science-In-Wild/README.md) | پروژه‌های مبتنی بر علم داده در دنیای واقعی. | [درس](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [نیتیا](https://twitter.com/nitya) |
## گیت‌هاب کداسپیس
## گیت‌هاب کدسپیسها
برای باز کردن این نمونه در یک Codespace مراحل زیر را دنبال کنید:
1. منوی کشویی Code را کلیک کرده و گزینه Open with Codespaces را انتخاب کنید.
2. گزینه + New codespace را در پایین پنل انتخاب کنید.
برای اطلاعات بیشتر، مستندات [GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) را بررسی کنید.
2. در پایین پنل، + New codespace را انتخاب کنید.
برای اطلاعات بیشتر، مستندات [گیت‌هاب](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) را بررسی کنید.
## VSCode Remote - Containers
برای باز کردن این مخزن در یک کانتینر با استفاده از ماشین محلی و VSCode با استفاده از افزونه VS Code Remote - Containers مراحل زیر را دنبال کنید:
برای باز کردن این مخزن در یک کانتینر با استفاده از دستگاه محلی و VSCode مراحل زیر را دنبال کنید با استفاده از افزونه VS Code Remote - Containers:
1. اگر برای اولین بار است که از کانتینر توسعه استفاده می‌کنید، لطفاً مطمئن شوید که سیستم شما پیش‌نیازها (مانند نصب Docker) را در [مستندات شروع به کار](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) دارد.
۱. اگر برای اولین بار است که از یک کانتینر توسعه استفاده می‌کنید، اطمینان حاصل کنید سیستم شما پیش‌نیازها (مثلا نصب Docker) را دارد در [مستندات شروع](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
برای استفاده از این مخزن، می‌توانید مخزن را در یک حجم مجزا Docker باز کنید:
برای استفاده از این مخزن، می‌توانید آن را یا در یک حجم مجزا داکر باز کنید:
**توجه**: زیرساخت این کار از فرمان Remote-Containers: **Clone Repository in Container Volume...** برای کلون کردن کد منبع در یک حجم Docker به جای سیستم فایل محلی استفاده می‌کند. [حجم‌ها](https://docs.docker.com/storage/volumes/) مکانیزم ترجیحی برای حفظ داده‌های کانتینر هستند.
**توجه**: این روش در پس‌زمینه فرمان Remote-Containers: **Clone Repository in Container Volume...** را اجرا می‌کند تا کد منبع را در حجم داکر کپی کند، نه در سیستم فایل محلی. [حجم‌ها](https://docs.docker.com/storage/volumes/) مکانیزم ترجیحی برای نگهداری داده‌های کانتینر هستند.
یا نسخه‌ای از مخزن را به‌صورت محلی کلون یا دانلود کنید:
یا نسخه محلی کپی شده یا دانلود شده مخزن را باز کنید:
- این مخزن را در سیستم فایل محلی خود کلون کنید.
- کلید F1 را فشار دهید و فرمان **Remote-Containers: Open Folder in Container...** را انتخاب کنید.
- نسخه کلونشده این پوشه را انتخاب کنید، صبر کنید تا کانتینر شروع شود و سپس شروع به کار کنید.
- نسخه کلون شده این پوشه را انتخاب کنید، صبر کنید کانتینر شروع شود و شروع به کار کنید.
## دسترسی آفلاین
می‌توانید این مستندات را به صورت آفلاین با استفاده از [Docsify](https://docsify.js.org/#/) اجرا کنید. این مخزن را فورک کنید، [Docsify را نصب کنید](https://docsify.js.org/#/quickstart) روی ماشین محلی خود، سپس در پوشه ریشه این مخزن تایپ کنید `docsify serve`. سایت در پورت ۳۰۰۰ روی localhost شما ارائه خواهد شد: `localhost:3000`.
می‌توانید این مستندات را به صورت آفلاین با استفاده از [Docsify](https://docsify.js.org/#/) اجرا کنید. این مخزن را فورک کنید، [Docsify را نصب کنید](https://docsify.js.org/#/quickstart) روی دستگاه محلی خود، سپس در پوشه ریشه این مخزن دستور `docsify serve` را تایپ کنید. سایت روی پورت ۳۰۰۰ در localhost شما سرو خواهد شد: `localhost:3000`.
> توجه کنید که نوت‌بوک‌ها توسط Docsify رندر نمی‌شوند، بنابراین زمانی که نیاز به اجرای نوت‌بوک دارید، آن را جداگانه در VS Code با کرنل پایتون اجرا کنید.
> توجه داشته باشید، دفترچه یادداشت‌ها با Docsify رندر نمی‌شوند، لذا وقتی نیاز به اجرای یک دفترچه یادداشت داشتید، آن را به صورت جداگانه در VS Code با کرنل پایتون اجرا کنید.
## دوره‌های آموزشی دیگر
## برنامه‌های درسی دیگر
تیم ما دوره‌های دیگری تولید می‌کند! نگاهی بیندازید:
تیم ما برنامه‌های درسی دیگری نیز تولید می‌کند! بررسی کنید:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js for Beginners](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain for Beginners](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain4j برای مبتدیان](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js برای مبتدیان](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain برای مبتدیان](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Agents
[![AZD for Beginners](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI for Beginners](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP for Beginners](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI Agents for Beginners](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
### Azure / Edge / MCP / عوامل
[![AZD برای مبتدیان](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI برای مبتدیان](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP برای مبتدیان](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![عوامل هوش مصنوعی برای مبتدیان](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Generative AI Series
[![Generative AI for Beginners](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Generative AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Generative AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![Generative AI (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### سری هوش مصنوعی مولد
[![هوش مصنوعی مولد برای مبتدیان](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![هوش مصنوعی مولد (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![هوش مصنوعی مولد (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![هوش مصنوعی مولد (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### Core Learning
[![ML for Beginners](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Data Science for Beginners](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI for Beginners](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Cybersecurity for Beginners](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Web Dev for Beginners](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT for Beginners](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![XR Development for Beginners](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
### یادگیری پایه
[![یادگیری ماشین برای مبتدیان](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![علم داده برای مبتدیان](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![هوش مصنوعی برای مبتدیان](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![امنیت سایبری برای مبتدیان](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![توسعه وب برای مبتدیان](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![اینترنت اشیاء برای مبتدیان](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![توسعه XR برای مبتدیان](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Copilot Series
[![Copilot for AI Paired Programming](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot for C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot Adventure](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
### سری کمک‌یار
[![کمک‌یار برای برنامه‌نویسی مشارکتی هوش مصنوعی](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![کمک‌یار برای C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![ماجراجویی کمک‌یار](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## دریافت کمک
**با مشکل مواجه شدهاید؟** راهنمای [عیب‌یابی](TROUBLESHOOTING.md) ما را برای یافتن راه‌حل مشکلات رایج بررسی کنید.
**مشکل دارید؟** راهنمای [عیب‌یابی](TROUBLESHOOTING.md) ما را برای راه‌حل مشکلات رایج بررسی کنید.
اگر در ساخت برنامه‌های هوش مصنوعی گیر کرده‌اید یا سوالی دارید. به جمع یادگیرندگان و توسعه‌دهندگان باتجربه در بحث‌ها درباره MCP بپیوندید. این یک جامعه حمایتی است که در آن سوالات پذیرفته شده و دانش به صورت رایگان به اشتراک گذاشته می‌شود.
اگر گیر کردید یا سوالی درباره ساخت برنامه‌های هوش مصنوعی دارید، به بحث‌ها با دیگر یادگیرندگان و توسعه‌دهندگان مجرب درباره MCP بپیوندید. این یک جامعه حمایتی است که در آن سوالات پذیرفته می‌شوند و دانش به صورت آزاد به اشتراک گذاشته می‌شود.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
اگر بازخورد محصول یا خطاهایی در هنگام ساخت داشتید، مراجعه کنید به:
اگر بازخورد محصول یا خطاهایی هنگام ساخت داشتید به اینجا مراجعه کنید:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**توضیح مهم**:
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است حاوی اشتباهات یا نواقص باشند. سند اصلی به زبان بومی خود، منبع معتبر و قابل‌اطمینان به شمار می‌رود. برای اطلاعات حساس، توصیه می‌شود از ترجمه حرفه‌ای انسانی استفاده شود. ما مسئول هیچ گونه سوء تفاهم یا برداشت نادرستی که ناشی از استفاده از این ترجمه باشد، نیستیم.
**سلب مسئولیت**:
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما در تلاش برای دقت هستیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است دارای اشتباهات یا نادرستی‌هایی باشند. سند اصلی به زبان اصلی خود باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حیاتی، استفاده از ترجمه تخصصی توسط انسان توصیه می‌شود. ما در قبال هرگونه سوءتفاهم یا تفسیر نادرست ناشی از استفاده از این ترجمه مسئولیتی نداریم.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@
نیتیا ناراسیمهان، هنرمند
![اسکچ‌نوت نقشه راه](../../../translated_images/fa/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![اسکچ‌نوت نقشه راه](../../../translated_images/fa/00-Roadmap.4905d6567dff4753.webp)
**سلب مسئولیت**:
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه می‌شود از ترجمه حرفه‌ای انسانی استفاده کنید. ما مسئولیتی در قبال سوء تفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "ur"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-28T08:13:52+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "ur"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-27T09:04:34+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "ur"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-28T08:14:25+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "ur"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:04:50+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "ur"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-28T08:15:14+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "ur"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-06T06:38:44+00:00",
@ -360,8 +378,8 @@
"language_code": "ur"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T07:31:37+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-28T08:19:44+00:00",
"source_file": "README.md",
"language_code": "ur"
},

@ -6,7 +6,7 @@
---
[![ڈیٹا سائنس کی تعریف ویڈیو](../../../../translated_images/ur/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![ڈیٹا سائنس کی تعریف ویڈیو](../../../../translated_images/ur/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [لیکچر سے پہلے کا کوئز](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@
اس چیلنج میں، ہم ڈیٹا سائنس کے میدان سے متعلق تصورات کو متن کے ذریعے تلاش کرنے کی کوشش کریں گے۔ ہم ڈیٹا سائنس پر ایک ویکیپیڈیا مضمون لیں گے، متن کو ڈاؤنلوڈ اور پروسیس کریں گے، اور پھر ایک ورڈ کلاؤڈ بنائیں گے جیسا کہ یہ:
![ڈیٹا سائنس کے لیے ورڈ کلاؤڈ](../../../../translated_images/ur/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![ڈیٹا سائنس کے لیے ورڈ کلاؤڈ](../../../../translated_images/ur/ds_wordcloud.664a7c07dca57de0.webp)
کوڈ کو پڑھنے کے لیے [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') پر جائیں۔ آپ کوڈ کو چلا بھی سکتے ہیں، اور دیکھ سکتے ہیں کہ یہ حقیقی وقت میں تمام ڈیٹا تبدیلیاں کیسے انجام دیتا ہے۔

@ -5,13 +5,13 @@
"source": [
"# چیلنج: ڈیٹا سائنس کے بارے میں متن کا تجزیہ\n",
"\n",
"اس مثال میں، آئیے ایک سادہ مشق کریں جو روایتی ڈیٹا سائنس کے عمل کے تمام مراحل کا احاطہ کرتی ہے۔ آپ کو کوئی کوڈ لکھنے کی ضرورت نہیں ہے، آپ صرف نیچے دیے گئے سیلز پر کلک کر کے انہیں چلا سکتے ہیں اور نتیجہ دیکھ سکتے ہیں۔ ایک چیلنج کے طور پر، آپ کو ترغیب دی جاتی ہے کہ اس کوڈ کو مختلف ڈیٹا کے ساتھ آزما کر دیکھیں۔\n",
"اس مثال میں، آئیں ایک سادہ مشق کرتے ہیں جو روایتی ڈیٹا سائنس کے عمل کے تمام مراحل کو شامل کرتا ہے۔ آپ کو کوڈ لکھنے کی ضرورت نہیں ہے، آپ نیچے دیے گئے خلیات پر کلک کر کے ان کو چلائیں اور نتیجہ دیکھیں۔ ایک چیلنج کے طور پر، آپ کو ترغیب دی جاتی ہے کہ اس کوڈ کو مختلف ڈیٹا کے ساتھ آزما کر دیکھیں۔ \n",
"\n",
"## مقصد\n",
"\n",
"اس سبق میں، ہم نے ڈیٹا سائنس سے متعلق مختلف تصورات پر بات کی ہے۔ آئیے کچھ مزید متعلقہ تصورات دریافت کرنے کی کوشش کریں **ٹیکسٹ مائننگ** کے ذریعے۔ ہم ڈیٹا سائنس کے بارے میں ایک متن سے شروع کریں گے، اس سے کلیدی الفاظ نکالیں گے، اور پھر نتیجہ کو بصری طور پر پیش کرنے کی کوشش کریں گے۔\n",
"اس سبق میں، ہم نے ڈیٹا سائنس سے متعلق مختلف تصورات پر بات کی ہے۔ آئیں کچھ اور متعلقہ تصورات دریافت کرنے کی کوشش کریں **ٹیکسٹ مائننگ** کر کے۔ ہم ڈیٹا سائنس کے بارے میں ایک متن سے شروع کریں گے، اس سے کلیدی الفاظ نکالیں گے، اور پھر نتیجہ کو بصری شکل میں پیش کرنے کی کوشش کریں گے۔\n",
"\n",
"بطور متن، میں ڈیٹا سائنس کے بارے میں ویکیپیڈیا کے صفحے کا استعمال کروں گا:\n"
"ایک متن کے طور پر، میں ویکیپیڈیا کے صفحہ ڈیٹا سائنس کا استعمال کروں گا:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## مرحلہ 1: ڈیٹا حاصل کرنا\n",
"## Step 1: ڈیٹا حاصل کرنا\n",
"\n",
"ہر ڈیٹا سائنس کے عمل کا پہلا مرحلہ ڈیٹا حاصل کرنا ہوتا ہے۔ ہم اس کے لیے `requests` لائبریری استعمال کریں گے:\n"
"ہر ڈیٹا سائنس کے عمل کا پہلا قدم ڈیٹا حاصل کرنا ہے۔ ہم اس کے لیے `requests` لائبریری استعمال کریں گے:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## مرحلہ 2: ڈیٹا کو تبدیل کرنا\n",
"## Step 2: ڈیٹا کو تبدیل کرنا\n",
"\n",
"اگلا مرحلہ ڈیٹا کو ایسی شکل میں تبدیل کرنا ہے جو پراسیسنگ کے لیے موزوں ہو۔ ہمارے معاملے میں، ہم نے صفحے سے HTML سورس کوڈ ڈاؤنلوڈ کیا ہے، اور ہمیں اسے سادہ متن میں تبدیل کرنا ہوگا۔\n",
"اگلا قدم ڈیٹا کو پراسیسنگ کے لیے موزوں شکل میں تبدیل کرنا ہے۔ ہمارے کیس میں، ہم نے صفحہ سے HTML سورس کوڈ ڈاؤن لوڈ کیا ہے، اور ہمیں اسے سادہ متن میں تبدیل کرنے کی ضرورت ہے۔\n",
"\n",
"یہ کام کرنے کے کئی طریقے ہیں۔ ہم Python کے سب سے آسان بلٹ ان [HTMLParser](https://docs.python.org/3/library/html.parser.html) آبجیکٹ کا استعمال کریں گے۔ ہمیں `HTMLParser` کلاس کو سب کلاس کرنا ہوگا اور ایسا کوڈ لکھنا ہوگا جو HTML ٹیگز کے اندر موجود تمام متن کو جمع کرے، سوائے `<script>` اور `<style>` ٹیگز کے۔\n"
"یہ کام کئی طریقوں سے کیا جا سکتا ہے۔ ہم [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) استعمال کریں گے، جو HTML پارسنگ کے لیے ایک مقبول پائتھن لائبریری ہے۔ BeautifulSoup ہمیں مخصوص HTML عناصر کو نشانہ بنانے کی اجازت دیتا ہے، تاکہ ہم ویکیپیڈیا کے مرکزی مضمون کے مواد پر توجہ مرکوز کر سکیں اور کچھ نیویگیشن مینیوز، سائیڈبارز، فوٹرز، اور دیگر غیر متعلقہ مواد کو کم کر سکیں (حالانکہ کچھ عام متن اب بھی باقی رہ سکتا ہے)۔\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"سب سے پہلے، ہمیں HTML پارسنگ کے لیے BeautifulSoup لائبریری انسٹال کرنی ہوگی:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## مرحلہ 3: بصیرت حاصل کرنا\n",
"## Step 3: بصیرت حاصل کرنا\n",
"\n",
"سب سے اہم مرحلہ یہ ہے کہ اپنے ڈیٹا کو کسی ایسی شکل میں تبدیل کریں جس سے ہم بصیرت حاصل کر سکیں۔ ہمارے معاملے میں، ہم متن سے کلیدی الفاظ نکالنا چاہتے ہیں اور دیکھنا چاہتے ہیں کہ کون سے کلیدی الفاظ زیادہ معنی خیز ہیں۔\n",
"سب سے اہم قدم ہمارے ڈیٹا کو کسی ایسے فارم میں تبدیل کرنا ہے جس سے ہم بصیرت حاصل کر سکیں۔ ہمارے کیس میں، ہم متن سے کلیدی الفاظ نکالنا چاہتے ہیں، اور دیکھنا چاہتے ہیں کہ کن کلیدی الفاظ کا مطلب زیادہ ہے۔\n",
"\n",
"ہم کلیدی الفاظ نکالنے کے لیے Python کی ایک لائبریری [RAKE](https://github.com/aneesha/RAKE) استعمال کریں گے۔ سب سے پہلے، اگر یہ لائبریری موجود نہ ہو تو اسے انسٹال کرتے ہیں:\n"
"ہم کلیدی الفاظ نکالنے کے لیے Python کی لائبریری [RAKE](https://github.com/aneesha/RAKE) استعمال کریں گے۔ سب سے پہلے، اگر یہ لائبریری موجود نہیں ہے تو اسے انسٹال کرتے ہیں: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"`Rake` کی مرکزی فعالیت دستیاب ہے، جسے ہم کچھ پیرامیٹرز کا استعمال کرتے ہوئے حسب ضرورت بنا سکتے ہیں۔ ہمارے معاملے میں، ہم ایک کلیدی لفظ کی کم از کم لمبائی 5 حروف، دستاویز میں ایک کلیدی لفظ کی کم از کم تکرار 3، اور ایک کلیدی لفظ میں زیادہ سے زیادہ الفاظ کی تعداد 2 مقرر کریں گے۔ دیگر قدروں کے ساتھ تجربہ کرنے اور نتیجہ دیکھنے کے لیے آزاد محسوس کریں۔\n"
"مین فنکشنلٹی `Rake` آبجیکٹ سے دستیاب ہے، جسے ہم کچھ پیرامیٹرز کی مدد سے حسب ضرورت بنا سکتے ہیں۔ ہمارے کیس میں، ہم ایک کی ورڈ کی کم سے کم لمبائی 5 حروف، دستاویز میں کی ورڈ کی کم سے کم تعدد 3، اور کی ورڈ میں الفاظ کی زیادہ سے زیادہ تعداد 2 مقرر کریں گے۔ دوسرے اقدار کے ساتھ آزمانے میں آزادی محسوس کریں اور نتائج کا مشاہدہ کریں۔\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"ہم نے ایک فہرست حاصل کی ہے جس میں شرائط اور ان کے ساتھ اہمیت کی ڈگری شامل ہے۔ جیسا کہ آپ دیکھ سکتے ہیں، سب سے متعلقہ شعبے، جیسے مشین لرننگ اور بڑا ڈیٹا، فہرست میں اوپر کی پوزیشنز پر موجود ہیں۔\n",
"ہم نے الفاظ کی ایک فہرست حاصل کی ہے جو متعلقہ اہمیت کے درجہ کے ساتھ ہے۔ جیسا کہ آپ دیکھ سکتے ہیں، سب سے زیادہ متعلقہ شعبہ جات، جیسے مشین لرننگ اور بگ ڈیٹا، فہرست میں اوپر کے مقامات پر موجود ہیں۔\n",
"\n",
"## مرحلہ 4: نتیجہ کو بصری طور پر دیکھنا\n",
"## قدم 4: نتیجہ کا بصری اظہار\n",
"\n",
"لوگ ڈیٹا کو بصری شکل میں سب سے بہتر سمجھ سکتے ہیں۔ اس لیے اکثر ڈیٹا کو بصری طور پر پیش کرنا معنی خیز ہوتا ہے تاکہ کچھ بصیرت حاصل کی جا سکے۔ ہم Python میں `matplotlib` لائبریری کا استعمال کر سکتے ہیں تاکہ کلیدی الفاظ کی سادہ تقسیم کو ان کی اہمیت کے ساتھ پیش کیا جا سکے۔\n"
"لوگ ڈیٹا کو بصری شکل میں بہتر طریقے سے سمجھ سکتے ہیں۔ اس لیے اکثر یہ فائدہ مند ہوتا ہے کہ ڈیٹا کو بصری طور پر ظاہر کیا جائے تاکہ کچھ بصیرتیں حاصل کی جا سکیں۔ ہم Python میں `matplotlib` لائبریری کا استعمال کر کے کی ورڈز کی ان کی متعلقہ اہمیت کے ساتھ سادہ تقسیم کو پلاٹ کر سکتے ہیں:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"الفاظ کی تعدد کو دیکھنے کا ایک اور بہتر طریقہ موجود ہے - **ورڈ کلاؤڈ** کا استعمال کرتے ہوئے۔ ہمیں اپنی کلیدی الفاظ کی فہرست سے ورڈ کلاؤڈ بنانے کے لیے ایک اور لائبریری انسٹال کرنے کی ضرورت ہوگی۔\n"
"تاہم، الفاظ کی فریکوئنسیز کو دیکھانے کا ایک اور بہتر طریقہ ہے - **ورڈ کلاؤڈ** کا استعمال۔ ہمیں اپنے کلیدی الفاظ کی فہرست سے ورڈ کلاؤڈ بنانے کے لیے ایک اور لائبریری انسٹال کرنے کی ضرورت ہوگی۔\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` آبجیکٹ اصل متن یا پہلے سے حساب شدہ الفاظ کی فہرست ان کی فریکوئنسی کے ساتھ لینے کا ذمہ دار ہے، اور ایک تصویر واپس کرتا ہے، جسے پھر `matplotlib` کے ذریعے دکھایا جا سکتا ہے:\n"
"`WordCloud` آبجیکٹ اصل متن یا پہلے سے حساب شدہ الفاظ کی فہرست ان کی تعدد کے ساتھ لیتا ہے، اور ایک تصویر واپس کرتا ہے، جسے پھر `matplotlib` استعمال کرتے ہوئے دکھایا جا سکتا ہے:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"ہم اصل متن کو `WordCloud` میں بھی دے سکتے ہیں - آئیے دیکھتے ہیں کہ کیا ہم اسی طرح کا نتیجہ حاصل کر سکتے ہیں:\n"
"ہم اصل متن کو بھی `WordCloud` میں دے سکتے ہیں - دیکھتے ہیں کہ کیا ہم مماثل نتیجہ حاصل کر پاتے ہیں:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"آپ دیکھ سکتے ہیں کہ لفظی بادل اب زیادہ متاثر کن لگتا ہے، لیکن اس میں بہت زیادہ شور بھی شامل ہے (مثال کے طور پر، غیر متعلقہ الفاظ جیسے `Retrieved on`)۔ اس کے علاوہ، ہمیں دو الفاظ پر مشتمل کم کلیدی الفاظ ملتے ہیں، جیسے *data scientist* یا *computer science*۔ اس کی وجہ یہ ہے کہ RAKE الگورتھم متن سے اچھے کلیدی الفاظ منتخب کرنے میں کہیں بہتر کام کرتا ہے۔ یہ مثال ڈیٹا کی پیشگی پروسیسنگ اور صفائی کی اہمیت کو واضح کرتی ہے، کیونکہ آخر میں واضح تصویر ہمیں بہتر فیصلے کرنے کی اجازت دے گی۔\n",
"آپ دیکھ سکتے ہیں کہ ورڈ کلاؤڈ اب زیادہ متاثر کن نظر آتا ہے، لیکن اس میں بہت سا شور بھی شامل ہے (مثلاً غیر متعلقہ الفاظ جیسے `Retrieved on`)۔ اس کے علاوہ، ہمیں کم ایسے کلیدی الفاظ ملتے ہیں جو دو الفاظ پر مشتمل ہوتے ہیں، جیسے *data scientist*، یا *computer science*۔ اس کی وجہ یہ ہے کہ RAKE الگورتھم متن سے اچھے کلیدی الفاظ منتخب کرنے میں بہتر کام کرتا ہے۔ یہ مثال ڈیٹا کی پیشگی پروسیسنگ اور صفائی کی اہمیت کو واضح کرتی ہے، کیونکہ آخر میں واضح تصویر ہمیں بہتر فیصلے کرنے کی اجازت دے گی۔\n",
"\n",
"اس مشق میں ہم نے ویکیپیڈیا کے متن سے کچھ مطلب نکالنے کے ایک سادہ عمل کو دیکھا، کلیدی الفاظ اور لفظی بادل کی شکل میں۔ یہ مثال کافی سادہ ہے، لیکن یہ ان تمام عام مراحل کو اچھی طرح سے ظاہر کرتی ہے جو ایک ڈیٹا سائنسدان ڈیٹا کے ساتھ کام کرتے وقت اختیار کرتا ہے، ڈیٹا کے حصول سے لے کر بصری نمائندگی تک۔\n",
"اس مشق میں ہم نے وکیپیڈیا کے متن سے کلیدی الفاظ اور ورڈ کلاؤڈ کی صورت میں کچھ معنی نکالنے کے ایک سادہ عمل سے گزرا ہے۔ یہ مثال کافی سادہ ہے، لیکن یہ اس بات کو اچھی طرح ظاہر کرتی ہے کہ ایک ڈیٹا سائنسدان عام طور پر ڈیٹا کے ساتھ کام کرتے ہوئے کون کون سے اقدامات کرے گا، ڈیٹا کے حصول سے لے کر بصری نمائندگی تک۔\n",
"\n",
"ہمارے کورس میں ہم ان تمام مراحل پر تفصیل سے بات کریں گے۔\n"
"ہمارے کورس میں ہم ان تمام مراحل پر تفصیلی بحث کریں گے۔\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**ڈسکلیمر**: \nیہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا عدم درستگی ہو سکتی ہیں۔ اصل دستاویز، جو اس کی اصل زبان میں ہے، کو مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے لیے ہم ذمہ دار نہیں ہیں۔\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**نااہلی کا نوٹ**: \nاس دستاویز کا ترجمہ مصنوعی ذہانت کے ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کے ذریعے کیا گیا ہے۔ اگرچہ ہم درستگی کے لیے کوشاں ہیں، براہ کرم یاد رکھیں کہ خودکار ترجمے میں غلطیاں یا بے دقتیاں ہو سکتی ہیں۔ اصل دستاویز اپنی مادری زبان میں ہی معتبر ذریعہ سمجھی جانی چاہیے۔ اہم معلومات کے لیے پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمہ کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کی ذمہ داری ہم پر نہیں ہوگی۔\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:38:29+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "ur"
}
},
"nbformat": 4,

@ -5,15 +5,15 @@
"source": [
"# چیلنج: ڈیٹا سائنس کے بارے میں متن کا تجزیہ\n",
"\n",
"> *اس نوٹ بک میں، ہم مختلف یو آر ایل - ویکیپیڈیا کے مشین لرننگ کے مضمون کا استعمال کرنے کا تجربہ کرتے ہیں۔ آپ دیکھ سکتے ہیں کہ، ڈیٹا سائنس کے برعکس، اس مضمون میں بہت سے اصطلاحات شامل ہیں، جو تجزیے کو زیادہ مشکل بنا دیتی ہیں۔ ہمیں کلیدی الفاظ نکالنے کے بعد ڈیٹا کو صاف کرنے کا ایک اور طریقہ تلاش کرنا ہوگا تاکہ کچھ عام لیکن غیر معنی خیز لفظی مجموعوں سے چھٹکارا حاصل کیا جا سکے۔*\n",
"> *اس نوٹ بک میں، ہم مختلف URL - ویکیپیڈیا آرٹیکل آن مشین لرننگ استعمال کرنے کے تجربے کر رہے ہیں۔ آپ دیکھ سکتے ہیں کہ، ڈیٹا سائنس کے برعکس، اس آرٹیکل میں بہت سارے اصطلاحات شامل ہیں، جس سے تجزیہ مزید پیچیدہ ہو جاتا ہے۔ ہمیں کی ورڈ استخراج کے بعد ڈیٹا کو صاف کرنے کے لیے ایک اور طریقہ کار سوچنا ہوگا، تاکہ کچھ متواتر لیکن غیر معنی خیز لفظی امتزاجات سے نجات حاصل کی جا سکے۔*\n",
"\n",
"اس مثال میں، آئیے ایک سادہ مشق کریں جو روایتی ڈیٹا سائنس کے عمل کے تمام مراحل کا احاطہ کرتی ہے۔ آپ کو کوئی کوڈ لکھنے کی ضرورت نہیں ہے، آپ صرف نیچے دیے گئے سیلز پر کلک کر کے انہیں چلا سکتے ہیں اور نتیجہ دیکھ سکتے ہیں۔ ایک چیلنج کے طور پر، آپ کو مختلف ڈیٹا کے ساتھ اس کوڈ کو آزمانے کی ترغیب دی جاتی ہے۔\n",
"اس مثال میں، آئیے ایک آسان مشق کریں جو روایتی ڈیٹا سائنس کے عمل کے تمام مراحل کو شامل کرتی ہے۔ آپ کو کوئی کوڈ لکھنے کی ضرورت نہیں ہے، آپ نیچے دیے گئے سیلز پر کلک کر کے انہیں چلا سکتے ہیں اور نتیجہ دیکھ سکتے ہیں۔ ایک چیلنج کے طور پر، آپ کو ترغیب دی جاتی ہے کہ آپ اس کوڈ کو مختلف ڈیٹا کے ساتھ آزما کر دیکھیں۔\n",
"\n",
"## مقصد\n",
"\n",
"اس سبق میں، ہم نے ڈیٹا سائنس سے متعلق مختلف تصورات پر بات کی ہے۔ آئیے **ٹیکسٹ مائننگ** کے ذریعے مزید متعلقہ تصورات دریافت کرنے کی کوشش کریں۔ ہم ڈیٹا سائنس کے بارے میں ایک متن سے آغاز کریں گے، اس سے کلیدی الفاظ نکالیں گے، اور پھر نتیجہ کو بصری شکل دینے کی کوشش کریں گے۔\n",
"اس سبق میں، ہم نے ڈیٹا سائنس سے متعلق مختلف تصورات پر بات کی ہے۔ آئیے کچھ **متن کی کھدائی** کر کے مزید متعلقہ تصورات تلاش کرنے کی کوشش کریں۔ ہم ڈیٹا سائنس کے بارے میں ایک متن سے شروع کریں گے، اس سے کی ورڈ نکالیں گے، اور پھر نتیجہ کو بصری شکل میں ظاہر کرنے کی کوشش کریں گے۔\n",
"\n",
"بطور متن، میں ویکیپیڈیا پر ڈیٹا سائنس کے صفحے کا استعمال کروں گا:\n"
"متن کے طور پر، میں ویکیپیڈیا کے صفحہ ڈیٹا سائنس کا استعمال کروں گا:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## مرحلہ 1: ڈیٹا حاصل کرنا\n",
"## Step 1: ڈیٹا حاصل کرنا\n",
"\n",
"ڈیٹا سائنس کے ہر عمل کا پہلا مرحلہ ڈیٹا حاصل کرنا ہوتا ہے۔ ہم اس کے لیے `requests` لائبریری استعمال کریں گے:\n"
"ہر ڈیٹا سائنس کے عمل میں پہلا قدم ڈیٹا حاصل کرنا ہوتا ہے۔ ہم اس کے لیے `requests` لائبریری استعمال کریں گے:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## مرحلہ 2: ڈیٹا کو تبدیل کرنا\n",
"\n",
"اگلا مرحلہ یہ ہے کہ ڈیٹا کو اس شکل میں تبدیل کیا جائے جو پروسیسنگ کے لیے موزوں ہو۔ ہمارے معاملے میں، ہم نے صفحے سے HTML سورس کوڈ ڈاؤن لوڈ کیا ہے، اور ہمیں اسے سادہ متن میں تبدیل کرنے کی ضرورت ہے۔\n",
"اگلا مرحلہ ڈیٹا کو پراسیسنگ کے لیے موزوں شکل میں تبدیل کرنا ہے۔ ہمارے کیس میں، ہم نے صفحے سے HTML سورس کوڈ ڈاؤن لوڈ کیا ہے، اور ہمیں اسے سادہ متن میں تبدیل کرنے کی ضرورت ہے۔\n",
"\n",
"یہ کام کرنے کے کئی طریقے ہیں۔ ہم Python کے سب سے آسان بلٹ ان [HTMLParser](https://docs.python.org/3/library/html.parser.html) آبجیکٹ کا استعمال کریں گے۔ ہمیں `HTMLParser` کلاس کو سب کلاس کرنا ہوگا اور ایسا کوڈ ڈیفائن کرنا ہوگا جو HTML ٹیگز کے اندر موجود تمام متن کو جمع کرے، سوائے `<script>` اور `<style>` ٹیگز کے۔\n"
"یہ کام کئی طریقوں سے کیا جا سکتا ہے۔ ہم [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) استعمال کریں گے، جو کہ HTML پارسنگ کے لیے ایک مقبول Python لائبریری ہے۔ BeautifulSoup ہمیں مخصوص HTML عناصر کو ہدف بنانے کی اجازت دیتا ہے، تاکہ ہم ویکی پیڈیا کے اہم مضمون کے مواد پر توجہ مرکوز کر سکیں اور کچھ نیویگیشن مینو، سائڈبارز، فوٹرز، اور دیگر غیر متعلقہ مواد کو کم کر سکیں (حالاں کہ کچھ ببلواریٹیکسٹ اب بھی رہ سکتا ہے)۔\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"سب سے پہلے، ہمیں HTML پارسنگ کے لئے BeautifulSoup لائبریری انسٹال کرنا ہوگی:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## مرحلہ 3: بصیرت حاصل کرنا\n",
"## Step 3: معلومات حاصل کرنا\n",
"\n",
"سب سے اہم مرحلہ یہ ہے کہ اپنے ڈیٹا کو ایسی شکل میں تبدیل کریں جس سے ہم بصیرت حاصل کر سکیں۔ ہمارے معاملے میں، ہم متن سے کلیدی الفاظ نکالنا چاہتے ہیں اور دیکھنا چاہتے ہیں کہ کون سے کلیدی الفاظ زیادہ معنی خیز ہیں۔\n",
"سب سے اہم قدم ہمارے ڈیٹا کو اس شکل میں تبدیل کرنا ہے جس سے ہم معلومات حاصل کر سکیں۔ ہمارے معاملے میں، ہم متن سے کلیدی الفاظ نکالنا چاہتے ہیں، اور دیکھنا چاہتے ہیں کہ کون سے کلیدی الفاظ زیادہ معنی خیز ہیں۔\n",
"\n",
"ہم کلیدی الفاظ نکالنے کے لیے Python کی لائبریری [RAKE](https://github.com/aneesha/RAKE) استعمال کریں گے۔ سب سے پہلے، اگر یہ لائبریری موجود نہ ہو تو اسے انسٹال کریں:\n"
"ہم کلیدی الفاظ نکالنے کے لیے Python کی لائبریری [RAKE](https://github.com/aneesha/RAKE) استعمال کریں گے۔ سب سے پہلے، اگر یہ لائبریری موجود نہ ہو تو اسے انسٹال کرتے ہیں: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"`Rake` کی بنیادی فعالیت دستیاب ہے، جسے ہم کچھ پیرامیٹرز کا استعمال کرتے ہوئے حسب ضرورت بنا سکتے ہیں۔ ہمارے معاملے میں، ہم کلیدی لفظ کی کم از کم لمبائی 5 حروف، دستاویز میں کلیدی لفظ کی کم از کم تکرار 3، اور کلیدی لفظ میں زیادہ سے زیادہ الفاظ کی تعداد 2 مقرر کریں گے۔ دیگر اقدار کے ساتھ تجربہ کرنے اور نتیجہ دیکھنے کے لیے آزاد محسوس کریں۔\n"
"اہم فعالیت `Rake` آبجیکٹ سے دستیاب ہے، جسے ہم کچھ پیرا میٹرز کے ذریعے تخصیص کر سکتے ہیں۔ ہمارے معاملے میں، ہم کسی کلیدی لفظ کی کم از کم لمبائی 5 حروف، دستاویز میں کسی کلیدی لفظ کی کم از کم فریکوئنسی 3، اور کلیدی لفظ میں زیادہ سے زیادہ الفاظ کی تعداد 2 مقرر کریں گے۔ دیگر قدروں کے ساتھ تجربہ کرنے اور نتیجہ دیکھنے میں آزاد محسوس کریں۔\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"ہم نے ایک فہرست حاصل کی ہے جس میں شرائط اور ان کے ساتھ اہمیت کی ڈگری شامل ہے۔ جیسا کہ آپ دیکھ سکتے ہیں، سب سے متعلقہ شعبے، جیسے مشین لرننگ اور بڑا ڈیٹا، فہرست میں اوپر کی پوزیشنز پر موجود ہیں۔\n",
"ہم نے اصطلاحات کی ایک فہرست حاصل کی ہے جس کے ساتھ متعلقہ اہمیت کی ڈگری بھی دی گئی ہے۔ جیسا کہ آپ دیکھ سکتے ہیں، سب سے زیادہ متعلقہ شعبے، جیسے کہ مشین لرننگ اور بگ ڈیٹا، فہرست میں اوپر کے مقامات پر موجود ہیں۔\n",
"\n",
"## مرحلہ 4: نتیجہ کو بصری طور پر دیکھنا\n",
"## Step 4: نتیجہ کا بصری جائزہ\n",
"\n",
"لوگ ڈیٹا کو بصری شکل میں سب سے بہتر سمجھ سکتے ہیں۔ اس لیے اکثر ڈیٹا کو بصری طور پر پیش کرنا معنی خیز ہوتا ہے تاکہ کچھ بصیرت حاصل کی جا سکے۔ ہم Python میں `matplotlib` لائبریری کا استعمال کر سکتے ہیں تاکہ کلیدی الفاظ کی تقسیم کو ان کی اہمیت کے ساتھ سادہ انداز میں پیش کیا جا سکے۔\n"
"لوگ ڈیٹا کو سب سے بہتر بصری شکل میں سمجھ سکتے ہیں۔ اس لیے اکثر یہ سمجھداری ہوتی ہے کہ کچھ بصیرت حاصل کرنے کے لیے ڈیٹا کو بصری شکل میں پیش کیا جائے۔ ہم `matplotlib` لائبریری کو Python میں استعمال کر سکتے ہیں تاکہ کلیدی الفاظ کی ان کی مطابقت کے ساتھ سادہ تقسیم کو گراف کے ذریعے دکھایا جا سکے:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"تاہم، الفاظ کی تعداد کو دیکھنے کا ایک اور بھی بہتر طریقہ ہے - **ورڈ کلاوڈ** کا استعمال۔ ہمیں اپنی کلیدی الفاظ کی فہرست سے ورڈ کلاوڈ بنانے کے لیے ایک اور لائبریری انسٹال کرنے کی ضرورت ہوگی۔\n"
"تاہم، الفاظ کی تعدد کو دیکھنے کا ایک اور بہتر طریقہ ہے - **ورڈ کلاؤڈ** کا استعمال۔ ہمیں اپنی کلیدی الفاظ کی فہرست سے ورڈ کلاؤڈ بنانے کے لیے ایک اور لائبریری انسٹال کرنے کی ضرورت ہوگی۔\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`ورڈکلاوڈ` آبجیکٹ اصل متن یا پہلے سے حساب شدہ الفاظ کی فہرست ان کی فریکوئنسی کے ساتھ لینے کا ذمہ دار ہے، اور ایک تصویر واپس کرتا ہے، جسے پھر `matplotlib` کا استعمال کرتے ہوئے دکھایا جا سکتا ہے:\n"
"`WordCloud` آبجیکٹ اصل متن یا پہلے سے حساب شدہ الفاظ کی فہرست اور ان کی فریکوئنسیز لے کر ایک تصویر بناتا ہے، جسے پھر `matplotlib` کے ذریعے دکھایا جا سکتا ہے:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"ہم اصل متن کو بھی `WordCloud` میں دے سکتے ہیں - آئیے دیکھتے ہیں کہ کیا ہم اسی طرح کا نتیجہ حاصل کر پاتے ہیں:\n"
"ہم `WordCloud` میں اصل متن بھی دے سکتے ہیں - چلیں دیکھتے ہیں کہ کیا ہم مشابہ نتیجہ حاصل کر پاتے ہیں:\n"
],
"metadata": {}
},
@ -490,9 +488,9 @@
{
"cell_type": "markdown",
"source": [
"آپ دیکھ سکتے ہیں کہ لفظی بادل اب زیادہ متاثر کن لگتا ہے، لیکن اس میں بہت زیادہ شور بھی شامل ہے (مثال کے طور پر، غیر متعلقہ الفاظ جیسے `Retrieved on`)۔ اس کے علاوہ، ہمیں دو الفاظ پر مشتمل کم کلیدی الفاظ ملتے ہیں، جیسے *data scientist* یا *computer science*۔ اس کی وجہ یہ ہے کہ RAKE الگورتھم متن سے اچھے کلیدی الفاظ منتخب کرنے میں کہیں بہتر کام کرتا ہے۔ یہ مثال ڈیٹا کی پیشگی پروسیسنگ اور صفائی کی اہمیت کو واضح کرتی ہے، کیونکہ آخر میں ایک واضح تصویر ہمیں بہتر فیصلے کرنے کی اجازت دے گی۔\n",
"آپ دیکھ سکتے ہیں کہ ورڈ کلاؤڈ اب زیادہ متاثر کن نظر آ رہا ہے، لیکن اس میں بہت سا شور بھی شامل ہے (مثلاً غیر متعلقہ الفاظ جیسے `Retrieved on`)۔ نیز، ہمیں کم ایسے کلیدی الفاظ ملتے ہیں جو دو الفاظ پر مشتمل ہوتے ہیں، جیسے *data scientist* یا *computer science*۔ یہ اس لیے ہے کیونکہ RAKE الگورتھم متن سے اچھے کلیدی الفاظ منتخب کرنے میں بہتر کام کرتا ہے۔ یہ مثال ڈیٹا پری پروسیسنگ اور صفائی کی اہمیت کو ظاہر کرتی ہے، کیونکہ آخر میں واضح تصویر ہمیں بہتر فیصلے کرنے کی اجازت دے گی۔\n",
"\n",
"اس مشق میں ہم نے ویکیپیڈیا کے متن سے کچھ مطلب نکالنے کے ایک سادہ عمل کو دیکھا، کلیدی الفاظ اور لفظی بادل کی شکل میں۔ یہ مثال کافی سادہ ہے، لیکن یہ ان تمام عام مراحل کو اچھی طرح ظاہر کرتی ہے جو ایک ڈیٹا سائنسدان ڈیٹا کے ساتھ کام کرتے وقت اختیار کرتا ہے، ڈیٹا کے حصول سے لے کر بصری نمائندگی تک۔\n",
"اس مشق میں ہم نے وکیپیڈیا کے متن سے کچھ معنی نکالنے کے ایک آسان عمل سے گزرا ہے، کلیدی الفاظ اور ورڈ کلاؤڈ کی شکل میں۔ یہ مثال کافی سادہ ہے، لیکن یہ اچھی طرح سے تمام عام مراحل کو ظاہر کرتی ہے جو ایک ڈیٹا سائنسدان ڈیٹا پر کام کرتے ہوئے اٹھاتا ہے، ڈیٹا حاصل کرنے سے لے کر بصری نمائندگی تک۔\n",
"\n",
"ہمارے کورس میں ہم ان تمام مراحل پر تفصیل سے بات کریں گے۔\n"
],
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**ڈسکلیمر**: \nیہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا غیر درستیاں ہو سکتی ہیں۔ اصل دستاویز کو اس کی اصل زبان میں مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ ہم اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے ذمہ دار نہیں ہیں۔\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**ذمہ داری سے مستثنیٰ**: \nیہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ اگرچہ ہم درستگی کے لئے کوشش کرتے ہیں، براہ کرم آگاہ رہیں کہ خودکار ترجمہ میں غلطیاں یا عدم درستگی ہو سکتی ہیں۔ اصل دستاویز اپنی مادری زبان میں معتبر ذریعہ سمجھی جانی چاہیے۔ اہم معلومات کے لیے پیشہ ورانہ انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تعبیر کے لیے ہم ذمہ دار نہیں ہیں۔\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:50:43+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "ur"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
شماریات اور احتمال کا نظریہ ریاضی کے دو ایسے شعبے ہیں جو ڈیٹا سائنس کے لیے انتہائی اہم ہیں۔ ڈیٹا کے ساتھ کام کرنا ممکن ہے چاہے آپ کو ریاضی کی گہری سمجھ نہ ہو، لیکن کچھ بنیادی تصورات جاننا ہمیشہ بہتر ہوتا ہے۔ یہاں ہم ایک مختصر تعارف پیش کریں گے جو آپ کو آغاز کرنے میں مدد دے گا۔
[![تعارفی ویڈیو](../../../../translated_images/ur/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![تعارفی ویڈیو](../../../../translated_images/ur/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [لیکچر سے پہلے کا کوئز](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
ہم صرف اس بات کے احتمال کے بارے میں بات کر سکتے ہیں کہ کوئی متغیر کسی دیے گئے وقفے میں آتا ہے، مثلاً P(t<sub>1</sub>≤X<t<sub>2</sub>)۔ اس صورت میں، احتمال کی تقسیم کو **احتمال کثافت فنکشن** p(x) کے ذریعے بیان کیا جاتا ہے، اس طرح کہ
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ur/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ur/probability-density.a8aad29f17a14afb.webp)
یکساں تقسیم کا مسلسل متبادل **مسلسل یکساں تقسیم** کہلاتا ہے، جو ایک محدود وقفے پر متعین ہوتا ہے۔ احتمال کہ قدر X کسی وقفے کی لمبائی l میں آتی ہے، l کے متناسب ہوتا ہے، اور 1 تک بڑھتا ہے۔
@ -73,11 +73,11 @@
یہاں ہمارے ڈیٹا کے لیے اوسط، میڈین اور چارٹائلز کو ظاہر کرنے والا باکس پلاٹ ہے:
![وزن کا باکس پلاٹ](../../../../translated_images/ur/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![وزن کا باکس پلاٹ](../../../../translated_images/ur/weight-boxplot.1dbab1c03af26f8a.webp)
چونکہ ہمارے ڈیٹا میں مختلف کھلاڑیوں کے **کردار** کے بارے میں معلومات شامل ہیں، ہم کردار کے لحاظ سے بھی باکس پلاٹ بنا سکتے ہیں - یہ ہمیں یہ سمجھنے کی اجازت دے گا کہ کرداروں کے درمیان پیرامیٹرز کی قدریں کیسے مختلف ہیں۔ اس بار ہم قد پر غور کریں گے:
![کردار کے لحاظ سے باکس پلاٹ](../../../../translated_images/ur/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![کردار کے لحاظ سے باکس پلاٹ](../../../../translated_images/ur/boxplot_byrole.036b27a1c3f52d42.webp)
یہ ڈایاگرام ظاہر کرتا ہے کہ، اوسطاً، پہلے بیس مین کا قد دوسرے بیس مین کے قد سے زیادہ ہے۔ اس سبق کے بعد کے حصے میں ہم سیکھیں گے کہ ہم اس مفروضے کو مزید رسمی طور پر کیسے جانچ سکتے ہیں، اور یہ ظاہر کر سکتے ہیں کہ ہمارا ڈیٹا شماریاتی طور پر اہم ہے۔
@ -85,7 +85,7 @@
یہ دیکھنے کے لیے کہ ہمارے ڈیٹا کی تقسیم کیا ہے، ہم ایک گراف بنا سکتے ہیں جسے **ہسٹوگرام** کہا جاتا ہے۔ X-محور مختلف وزن کے وقفوں (نام نہاد **بِنز**) کی تعداد پر مشتمل ہوگا، اور عمودی محور یہ ظاہر کرے گا کہ ہمارے بے ترتیب متغیر کا نمونہ کسی دیے گئے وقفے میں کتنی بار آیا۔
![حقیقی دنیا کے ڈیٹا کا ہسٹوگرام](../../../../translated_images/ur/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![حقیقی دنیا کے ڈیٹا کا ہسٹوگرام](../../../../translated_images/ur/weight-histogram.bfd00caf7fc30b14.webp)
اس ہسٹوگرام سے آپ دیکھ سکتے ہیں کہ تمام قدریں ایک خاص اوسط وزن کے گرد مرکوز ہیں، اور جتنا ہم اس وزن سے دور جاتے ہیں - اتنے ہی کم وزن کی قدریں ملتی ہیں۔ یعنی، یہ بہت غیر ممکن ہے کہ کسی بیس بال کھلاڑی کا وزن اوسط وزن سے بہت مختلف ہو۔ وزن کا واریانس یہ ظاہر کرتا ہے کہ وزن اوسط سے کتنا مختلف ہو سکتا ہے۔
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
اگر ہم پیدا کیے گئے نمونوں کا ہسٹوگرام بنائیں، تو ہمیں اوپر دکھائی گئی تصویر سے بہت ملتی جلتی تصویر نظر آئے گی۔ اور اگر ہم نمونوں کی تعداد اور بِنز کی تعداد بڑھائیں، تو ہم معمولی تقسیم کی ایک تصویر بنا سکتے ہیں جو مثالی کے قریب ہو:
![معمولی تقسیم اوسط=0 اور معیاری انحراف=1 کے ساتھ](../../../../translated_images/ur/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![معمولی تقسیم اوسط=0 اور معیاری انحراف=1 کے ساتھ](../../../../translated_images/ur/normal-histogram.dfae0d67c202137d.webp)
*معمولی تقسیم اوسط=0 اور معیاری انحراف=1 کے ساتھ*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
ہمارے معاملے میں، قدر 0.53 اس بات کی نشاندہی کرتی ہے کہ کسی شخص کے وزن اور قد کے درمیان کچھ تعلق ہے۔ ہم ایک قدر کے دوسرے کے خلاف اسکیٹر پلاٹ بھی بنا سکتے ہیں تاکہ تعلق کو بصری طور پر دیکھا جا سکے:
![وزن اور قد کے درمیان تعلق](../../../../translated_images/ur/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![وزن اور قد کے درمیان تعلق](../../../../translated_images/ur/weight-height-relationship.3f06bde4ca2aba99.webp)
> تعلق اور کوویریئنس کی مزید مثالیں [ساتھ دی گئی نوٹ بک](notebook.ipynb) میں دیکھی جا سکتی ہیں۔

@ -1,6 +1,6 @@
# ڈیٹا سائنس کا تعارف
![عملی ڈیٹا](../../../translated_images/ur/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![عملی ڈیٹا](../../../translated_images/ur/data.48e22bb7617d8d92.webp)
> تصویر از <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">اسٹیفن ڈاسن</a>، <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> پر
ان اسباق میں، آپ جانیں گے کہ ڈیٹا سائنس کو کیسے بیان کیا جاتا ہے اور ان اخلاقی پہلوؤں کے بارے میں سیکھیں گے جنہیں ایک ڈیٹا سائنسدان کو مدنظر رکھنا چاہیے۔ آپ یہ بھی سیکھیں گے کہ ڈیٹا کو کیسے بیان کیا جاتا ہے اور شماریات اور احتمال کے بارے میں کچھ جانیں گے، جو کہ ڈیٹا سائنس کے بنیادی تعلیمی شعبے ہیں۔

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| پائتھون کے ساتھ کام کرنا - _[@nitya](https://twitter.com/nitya) کی طرف سے اسکیچ نوٹ_ |
[![تعارفی ویڈیو](../../../../translated_images/ur/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![تعارفی ویڈیو](../../../../translated_images/ur/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
اگرچہ ڈیٹا بیسز ڈیٹا کو محفوظ کرنے اور انہیں کوئری لینگویجز کے ذریعے تلاش کرنے کے لیے بہت مؤثر طریقے فراہم کرتے ہیں، ڈیٹا پروسیسنگ کا سب سے لچکدار طریقہ اپنا پروگرام لکھ کر ڈیٹا کو تبدیل کرنا ہے۔ اکثر اوقات، ڈیٹا بیس کوئری کرنا زیادہ مؤثر ہوگا۔ لیکن کچھ معاملات میں جب زیادہ پیچیدہ ڈیٹا پروسیسنگ کی ضرورت ہو، تو یہ کام آسانی سے SQL کے ذریعے نہیں کیا جا سکتا۔
ڈیٹا پروسیسنگ کسی بھی پروگرامنگ زبان میں کی جا سکتی ہے، لیکن کچھ زبانیں ڈیٹا کے ساتھ کام کرنے کے لحاظ سے زیادہ اعلیٰ سطح کی ہوتی ہیں۔ ڈیٹا سائنسدان عام طور پر درج ذیل زبانوں میں سے کسی ایک کو ترجیح دیتے ہیں:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![ٹائم سیریز پلاٹ](../../../../translated_images/ur/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![ٹائم سیریز پلاٹ](../../../../translated_images/ur/timeseries-1.80de678ab1cf727e.webp)
اب فرض کریں کہ ہر ہفتے ہم دوستوں کے لیے ایک پارٹی کا اہتمام کرتے ہیں، اور پارٹی کے لیے آئس کریم کے اضافی 10 پیک لیتے ہیں۔ ہم ایک اور سیریز بنا سکتے ہیں، جو ہفتے کے انڈیکس کے ذریعے ظاہر ہو:
```python
@ -75,7 +75,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![ٹائم سیریز پلاٹ](../../../../translated_images/ur/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![ٹائم سیریز پلاٹ](../../../../translated_images/ur/timeseries-2.aae51d575c55181c.webp)
> **نوٹ** کہ ہم سادہ سینٹیکس `total_items+additional_items` استعمال نہیں کر رہے ہیں۔ اگر ہم ایسا کرتے، تو ہمیں نتیجہ میں بہت سے `NaN` (*Not a Number*) اقدار ملتی۔ اس کی وجہ یہ ہے کہ `additional_items` سیریز میں انڈیکس پوائنٹس کے لیے کچھ اقدار غائب ہیں، اور کسی بھی چیز میں `NaN` شامل کرنے سے نتیجہ `NaN` ہوتا ہے۔ اس لیے ہمیں جمع کرتے وقت `fill_value` پیرامیٹر کی وضاحت کرنے کی ضرورت ہوتی ہے۔
@ -84,7 +84,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![ماہانہ ٹائم سیریز اوسط](../../../../translated_images/ur/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![ماہانہ ٹائم سیریز اوسط](../../../../translated_images/ur/timeseries-3.f3147cbc8c624881.webp)
### ڈیٹا فریم
@ -210,7 +210,7 @@ df = pd.read_csv('file.csv')
چونکہ ہم یہ دکھانا چاہتے ہیں کہ ڈیٹا کے ساتھ کیسے کام کیا جائے، ہم آپ کو دعوت دیتے ہیں کہ [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) کھولیں اور اسے شروع سے آخر تک پڑھیں۔ آپ سیلز کو چلا سکتے ہیں اور آخر میں دیے گئے کچھ چیلنجز کو حل کر سکتے ہیں۔
![COVID Spread](../../../../translated_images/ur/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/ur/covidspread.f3d131c4f1d260ab.webp)
> اگر آپ کو Jupyter Notebook میں کوڈ چلانے کا طریقہ معلوم نہیں ہے، تو [اس مضمون](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) کو دیکھیں۔
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) کھولیں اور اسے شروع سے آخر تک پڑھیں۔ آپ سیلز کو چلا سکتے ہیں اور آخر میں دیے گئے کچھ چیلنجز کو حل کر سکتے ہیں۔
![Covid Medical Treatment](../../../../translated_images/ur/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/ur/covidtreat.b2ba59f57ca45fbc.webp)
## تصویری ڈیٹا کی پروسیسنگ

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# ڈیٹا کے ساتھ کام کرنا
![data love](../../../translated_images/ur/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/ur/data-love.a22ef29e6742c852.webp)
> تصویر از <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">الیکزینڈر سن</a> on <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
ان اسباق میں، آپ سیکھیں گے کہ ڈیٹا کو کس طرح منظم، تبدیل، اور ایپلیکیشنز میں استعمال کیا جا سکتا ہے۔ آپ ریلیشنل اور نان ریلیشنل ڈیٹا بیسز کے بارے میں جانیں گے اور یہ کہ ڈیٹا ان میں کس طرح محفوظ کیا جا سکتا ہے۔ آپ Python کے ساتھ ڈیٹا کو منظم کرنے کے بنیادی اصول سیکھیں گے، اور آپ دریافت کریں گے کہ Python کے ذریعے ڈیٹا کو منظم اور مائن کرنے کے کئی طریقے موجود ہیں۔

@ -42,7 +42,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/ur/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/ur/scatter1.5e1aa5fd6706c5d1.webp)
اب، اسی ڈیٹا کو شہد کے رنگ سکیم کے ساتھ دکھائیں تاکہ یہ ظاہر ہو کہ قیمت سال بہ سال کیسے بدلی ہے۔ آپ یہ 'hue' پیرامیٹر شامل کرکے کر سکتے ہیں تاکہ سال بہ سال تبدیلی کو دکھایا جا سکے:
@ -51,7 +51,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/ur/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/ur/scatter2.c0041a58621ca702.webp)
اس رنگ سکیم کی تبدیلی کے ساتھ، آپ واضح طور پر دیکھ سکتے ہیں کہ شہد کی فی پاؤنڈ قیمت میں سال بہ سال ایک مضبوط ترقی ہو رہی ہے۔ درحقیقت، اگر آپ ڈیٹا کے ایک نمونے کو جانچنے کے لیے دیکھیں (مثال کے طور پر، ایریزونا ریاست کو منتخب کریں) تو آپ دیکھ سکتے ہیں کہ قیمت میں سال بہ سال اضافے کا ایک نمونہ موجود ہے، چند استثنائی صورتوں کے ساتھ:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
آپ دیکھ سکتے ہیں کہ نقطوں کے سائز میں بتدریج اضافہ ہو رہا ہے۔
![scatterplot 3](../../../../translated_images/ur/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/ur/scatter3.3c160a3d1dcb36b3.webp)
کیا یہ صرف طلب اور رسد کا معاملہ ہے؟ موسمیاتی تبدیلی اور کالونی کولیپس جیسے عوامل کی وجہ سے، کیا سال بہ سال خریداری کے لیے کم شہد دستیاب ہے، اور اس لیے قیمت بڑھ رہی ہے؟
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
جواب: ہاں، کچھ استثنائی صورتوں کے ساتھ، خاص طور پر 2003 کے آس پاس:
![line chart 1](../../../../translated_images/ur/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/ur/line1.f36eb465229a3b1f.webp)
✅ چونکہ Seaborn ایک لائن کے ارد گرد ڈیٹا کو جمع کر رہا ہے، یہ "ہر x ویلیو پر متعدد پیمائشوں کو اوسط اور اوسط کے ارد گرد 95% اعتماد کے وقفے کو پلاٹ کر کے ظاہر کرتا ہے"۔ [ماخذ](https://seaborn.pydata.org/tutorial/relational.html)۔ اس وقت لینے والے رویے کو `ci=None` شامل کر کے غیر فعال کیا جا سکتا ہے۔
@ -105,7 +105,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/ur/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/ur/line2.a5b3493dc01058af.webp)
جواب: واقعی نہیں۔ اگر آپ کل پیداوار کو دیکھیں، تو یہ خاص سال میں درحقیقت بڑھتی ہوئی نظر آتی ہے، حالانکہ عمومی طور پر ان سالوں کے دوران شہد کی پیداوار میں کمی ہو رہی ہے۔
@ -130,7 +130,7 @@ sns.relplot(
```
اس بصری نمائندگی میں، آپ فی کالونی پیداوار اور کالونیوں کی تعداد کو سال بہ سال، ریاست بہ ریاست، 3 کالمز کے ساتھ موازنہ کر سکتے ہیں:
![facet grid](../../../../translated_images/ur/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/ur/facet.6a34851dcd540050.webp)
اس ڈیٹا سیٹ کے لیے، کالونیوں کی تعداد اور ان کی پیداوار کے حوالے سے سال بہ سال اور ریاست بہ ریاست کچھ خاص نمایاں نہیں ہوتا۔ کیا ان دو متغیرات کے درمیان تعلق تلاش کرنے کے لیے دیکھنے کا کوئی مختلف طریقہ ہے؟
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/ur/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/ur/dual-line.a4c28ce659603fab.webp)
اگرچہ 2003 کے آس پاس آنکھ کو کچھ خاص نظر نہیں آتا، لیکن یہ ہمیں اس سبق کو ایک خوشگوار نوٹ پر ختم کرنے کی اجازت دیتا ہے: اگرچہ مجموعی طور پر کالونیوں کی تعداد میں کمی ہو رہی ہے، کالونیوں کی تعداد مستحکم ہو رہی ہے، چاہے ان کی فی کالونی پیداوار کم ہو رہی ہو۔

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
یہاں، آپ `ggplot2` پیکج انسٹال کرتے ہیں اور پھر اسے `library("ggplot2")` کمانڈ کے ذریعے ورک اسپیس میں درآمد کرتے ہیں۔ ggplot میں کوئی بھی چارٹ پلاٹ کرنے کے لیے، `ggplot()` فنکشن استعمال کیا جاتا ہے اور آپ ڈیٹا سیٹ، x اور y متغیرات کو صفات کے طور پر تفویض کرتے ہیں۔ اس صورت میں، ہم `geom_line()` فنکشن استعمال کرتے ہیں کیونکہ ہمارا مقصد ایک لائن چارٹ بنانا ہے۔
![MaxWingspan-lineplot](../../../../../translated_images/ur/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/ur/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
آپ فوراً کیا نوٹ کرتے ہیں؟ کم از کم ایک آؤٹ لائر موجود ہے - یہ پروں کا پھیلاؤ کافی حیران کن ہے! 2000+ سینٹی میٹر پروں کا پھیلاؤ 20 میٹر سے زیادہ کے برابر ہے - کیا منیسوٹا میں پیٹروڈیکٹائلز گھوم رہے ہیں؟ آئیے تحقیق کریں۔
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
ہم `theme` میں زاویہ تفویض کرتے ہیں اور `xlab()` اور `ylab()` میں x اور y محور کے لیبلز تفویض کرتے ہیں۔ `ggtitle()` چارٹ/گراف کو ایک نام دیتا ہے۔
![MaxWingspan-lineplot-improved](../../../../../translated_images/ur/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/ur/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
لیبلز کو 45 ڈگری پر گھمانے کے باوجود، پڑھنے کے لیے بہت زیادہ ہیں۔ آئیے ایک مختلف حکمت عملی آزمائیں: صرف آؤٹ لائرز کو لیبل کریں اور لیبلز کو چارٹ کے اندر سیٹ کریں۔ آپ لیبلنگ کے لیے اسکیٹر چارٹ استعمال کر سکتے ہیں:
@ -91,7 +91,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
آپ کیا دریافت کرتے ہیں؟
![MaxWingspan-scatterplot](../../../../../translated_images/ur/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/ur/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## اپنے ڈیٹا کو فلٹر کریں
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
ہم نے ایک نیا ڈیٹا فریم `birds_filtered` بنایا اور پھر ایک اسکیٹر چارٹ پلاٹ کیا۔ آؤٹ لائرز کو فلٹر کرنے سے، آپ کا ڈیٹا اب زیادہ مربوط اور قابل فہم ہو گیا ہے۔
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ur/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ur/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
اب جب کہ ہمارے پاس پروں کے پھیلاؤ کے لحاظ سے کم از کم ایک صاف شدہ ڈیٹا سیٹ موجود ہے، آئیے ان پرندوں کے بارے میں مزید دریافت کریں۔
@ -151,7 +151,7 @@ birds_filtered %>% group_by(Category) %>%
```
مندرجہ ذیل کوڈ میں، ہم [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) اور [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) پیکجز انسٹال کرتے ہیں تاکہ ڈیٹا کو جوڑنے اور گروپ کرنے میں مدد ملے تاکہ ایک اسٹیکڈ بار چارٹ پلاٹ کیا جا سکے۔ پہلے، آپ ڈیٹا کو پرندے کے `Category` کے لحاظ سے گروپ کرتے ہیں اور پھر `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` کالمز کو خلاصہ کرتے ہیں۔ پھر، `ggplot2` پیکج کا استعمال کرتے ہوئے بار چارٹ پلاٹ کریں اور مختلف زمرے کے لیے رنگ اور لیبلز تفویض کریں۔
![Stacked bar chart](../../../../../translated_images/ur/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/ur/stacked-bar-chart.0c92264e89da7b39.webp)
یہ بار چارٹ، تاہم، ناقابل پڑھائی ہے کیونکہ بہت زیادہ غیر گروپ شدہ ڈیٹا موجود ہے۔ آپ کو صرف وہ ڈیٹا منتخب کرنے کی ضرورت ہے جسے آپ پلاٹ کرنا چاہتے ہیں، تو آئیے پرندے کے زمرے کی بنیاد پر لمبائی کا جائزہ لیں۔
@ -166,7 +166,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
آپ پہلے `Category` کالم میں منفرد اقدار کی گنتی کرتے ہیں اور پھر انہیں ایک نئے ڈیٹا فریم `birds_count` میں ترتیب دیتے ہیں۔ یہ ترتیب شدہ ڈیٹا پھر اسی سطح پر فیکٹر کیا جاتا ہے تاکہ اسے ترتیب شدہ طریقے سے پلاٹ کیا جا سکے۔ `ggplot2` کا استعمال کرتے ہوئے آپ پھر ڈیٹا کو بار چارٹ میں پلاٹ کرتے ہیں۔ `coord_flip()` افقی بارز پلاٹ کرتا ہے۔
![category-length](../../../../../translated_images/ur/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/ur/category-length.7e34c296690e85d6.webp)
یہ بار چارٹ پرندوں کے ہر زمرے میں تعداد کا ایک اچھا نظارہ دکھاتا ہے۔ ایک نظر میں، آپ دیکھتے ہیں کہ اس علاقے میں سب سے زیادہ تعداد میں پرندے بطخ/گیز/واٹر فاول کے زمرے میں ہیں۔ منیسوٹا '10,000 جھیلوں کی زمین' ہے، لہذا یہ حیرت انگیز نہیں ہے!
@ -189,7 +189,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
ہم `birds_filtered` ڈیٹا کو `Category` کے لحاظ سے گروپ کرتے ہیں اور پھر ایک بار چارٹ پلاٹ کرتے ہیں۔
![comparing data](../../../../../translated_images/ur/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/ur/comparingdata.f486a450d61c7ca5.webp)
یہاں کچھ حیران کن نہیں ہے: ہمینگ برڈز کی زیادہ سے زیادہ لمبائی پیلیکنز یا گیز کے مقابلے میں سب سے کم ہے۔ یہ اچھا ہے جب ڈیٹا منطقی طور پر سمجھ میں آتا ہے!
@ -201,7 +201,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/ur/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/ur/superimposed-values.5363f0705a1da416.webp)
## 🚀 چیلنج

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![آرڈر کے لحاظ سے زیادہ سے زیادہ لمبائی](../../../../../translated_images/ur/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![آرڈر کے لحاظ سے زیادہ سے زیادہ لمبائی](../../../../../translated_images/ur/max-length-per-order.e5b283d952c78c12.webp)
یہ پرندوں کے آرڈر کے لحاظ سے جسمانی لمبائی کی عمومی تقسیم کا جائزہ دیتا ہے، لیکن یہ حقیقی تقسیم کو ظاہر کرنے کا بہترین طریقہ نہیں ہے۔ یہ کام عام طور پر ہسٹوگرام بنا کر کیا جاتا ہے۔
## ہسٹوگرام کے ساتھ کام کرنا
@ -47,7 +47,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![پورے ڈیٹا سیٹ پر تقسیم](../../../../../translated_images/ur/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![پورے ڈیٹا سیٹ پر تقسیم](../../../../../translated_images/ur/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
جیسا کہ آپ دیکھ سکتے ہیں، اس ڈیٹا سیٹ میں موجود 400+ پرندوں میں سے زیادہ تر کا زیادہ سے زیادہ جسمانی وزن 2000 سے کم ہے۔ ڈیٹا کے بارے میں مزید بصیرت حاصل کرنے کے لیے `bins` پیرامیٹر کو زیادہ تعداد، جیسے 30 میں تبدیل کریں:
@ -55,7 +55,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![30 بِنز کے ساتھ تقسیم](../../../../../translated_images/ur/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![30 بِنز کے ساتھ تقسیم](../../../../../translated_images/ur/distribution-30bins.6a3921ea7a421bf7.webp)
یہ چارٹ تقسیم کو تھوڑا زیادہ تفصیلی انداز میں دکھاتا ہے۔ ایک چارٹ جو بائیں طرف کم جھکا ہوا ہو، اس وقت بنایا جا سکتا ہے جب آپ صرف ایک دیے گئے حد کے اندر ڈیٹا کو منتخب کریں:
@ -67,7 +67,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![فلٹر شدہ ہسٹوگرام](../../../../../translated_images/ur/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![فلٹر شدہ ہسٹوگرام](../../../../../translated_images/ur/filtered-histogram.6bf5d2bfd8253322.webp)
✅ کچھ دوسرے فلٹرز اور ڈیٹا پوائنٹس آزمائیں۔ ڈیٹا کی مکمل تقسیم دیکھنے کے لیے، `['MaxBodyMass']` فلٹر کو ہٹا دیں تاکہ لیبل شدہ تقسیمات دکھائی دیں۔
@ -81,7 +81,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
ایسا لگتا ہے کہ ان دو عناصر کے درمیان ایک متوقع محور کے ساتھ ایک متوقع تعلق ہے، جس میں ہم آہنگی کا ایک خاص طور پر مضبوط نقطہ ہے:
![2D پلاٹ](../../../../../translated_images/ur/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2D پلاٹ](../../../../../translated_images/ur/2d-plot.c504786f439bd7eb.webp)
ہسٹوگرامز عددی ڈیٹا کے لیے ڈیفالٹ کے طور پر اچھی طرح کام کرتے ہیں۔ اگر آپ کو متن کے ڈیٹا کے مطابق تقسیمات دیکھنے کی ضرورت ہو تو کیا ہوگا؟
## متن کے ڈیٹا کا استعمال کرتے ہوئے ڈیٹا سیٹ کے لیے تقسیمات کو دریافت کریں
@ -112,7 +112,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![پروں کا پھیلاؤ اور تحفظ کی حالت کا موازنہ](../../../../../translated_images/ur/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![پروں کا پھیلاؤ اور تحفظ کی حالت کا موازنہ](../../../../../translated_images/ur/wingspan-conservation-collation.4024e9aa6910866a.webp)
کم از کم پروں کے پھیلاؤ اور تحفظ کی حالت کے درمیان کوئی اچھا تعلق نظر نہیں آتا۔ اس طریقے کا استعمال کرتے ہوئے ڈیٹا سیٹ کے دوسرے عناصر کو آزمائیں۔ آپ مختلف فلٹرز بھی آزما سکتے ہیں۔ کیا آپ کو کوئی تعلق نظر آتا ہے؟
@ -126,7 +126,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![کثافت پلاٹ](../../../../../translated_images/ur/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![کثافت پلاٹ](../../../../../translated_images/ur/density-plot.675ccf865b76c690.webp)
آپ دیکھ سکتے ہیں کہ یہ پلاٹ کم از کم پروں کے پھیلاؤ کے ڈیٹا کے لیے پچھلے پلاٹ کی عکاسی کرتا ہے؛ یہ صرف تھوڑا سا ہموار ہے۔ اگر آپ اس قدموں والے MaxBodyMass لائن کو دوبارہ دیکھنا چاہتے ہیں جو آپ نے دوسرے چارٹ میں بنایا تھا، تو آپ اسے اس طریقے کا استعمال کرتے ہوئے بہت اچھی طرح سے ہموار کر سکتے ہیں:
@ -134,7 +134,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![جسمانی وزن کی کثافت](../../../../../translated_images/ur/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![جسمانی وزن کی کثافت](../../../../../translated_images/ur/bodymass-smooth.d31ce526d82b0a1f.webp)
اگر آپ ایک ہموار، لیکن زیادہ ہموار نہ ہونے والی لائن چاہتے ہیں، تو `adjust` پیرامیٹر میں ترمیم کریں:
@ -142,7 +142,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![کم ہموار جسمانی وزن](../../../../../translated_images/ur/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![کم ہموار جسمانی وزن](../../../../../translated_images/ur/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ اس قسم کے پلاٹ کے لیے دستیاب پیرامیٹرز کے بارے میں پڑھیں اور تجربہ کریں!
@ -152,7 +152,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![آرڈر کے لحاظ سے جسمانی وزن](../../../../../translated_images/ur/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![آرڈر کے لحاظ سے جسمانی وزن](../../../../../translated_images/ur/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 چیلنج

@ -88,7 +88,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
دیکھیں، ایک پائی چارٹ جو اس ڈیٹا کو ان دو مشرومز کی کلاسز کے مطابق تناسبات دکھاتا ہے۔ لیبلز کی ترتیب کو درست رکھنا خاص طور پر یہاں بہت اہم ہے، لہذا لیبل آرے کی ترتیب کو ضرور چیک کریں!
![پائی چارٹ](../../../../../translated_images/ur/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![پائی چارٹ](../../../../../translated_images/ur/pie1-wb.685df063673751f4.webp)
## ڈونٹس!
@ -123,7 +123,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![ڈونٹ چارٹ](../../../../../translated_images/ur/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![ڈونٹ چارٹ](../../../../../translated_images/ur/donut-wb.34e6fb275da9d834.webp)
یہ کوڈ دو لائبریریوں - ggplot2 اور webr - استعمال کرتا ہے۔ webr لائبریری کے PieDonut فنکشن کا استعمال کرتے ہوئے، ہم آسانی سے ایک ڈونٹ چارٹ بنا سکتے ہیں!
@ -160,7 +160,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
وافل چارٹ کا استعمال کرتے ہوئے، آپ مشرومز کے اس ڈیٹا سیٹ میں ٹوپی کے رنگوں کے تناسب کو واضح طور پر دیکھ سکتے ہیں۔ دلچسپ بات یہ ہے کہ بہت سے سبز ٹوپی والے مشرومز موجود ہیں!
![وافل چارٹ](../../../../../translated_images/ur/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![وافل چارٹ](../../../../../translated_images/ur/waffle.aaa75c5337735a6e.webp)
اس سبق میں، آپ نے تناسبات کو بصری طور پر سمجھنے کے تین طریقے سیکھے۔ پہلے، آپ کو اپنے ڈیٹا کو کیٹیگریز میں گروپ کرنا ہوگا اور پھر فیصلہ کرنا ہوگا کہ ڈیٹا کو دکھانے کا بہترین طریقہ کون سا ہے - پائی، ڈونٹ، یا وافل۔ یہ سب مزیدار ہیں اور صارف کو ڈیٹا سیٹ کا فوری جائزہ فراہم کرتے ہیں۔

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/ur/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/ur/scatter1.86b8900674d88b26.webp)
اب، وہی ڈیٹا شہد کے رنگ سکیم کے ساتھ دکھائیں تاکہ یہ ظاہر ہو کہ قیمت سال بہ سال کیسے بدلی ہے۔ آپ یہ 'scale_color_gradientn' پیرامیٹر شامل کر کے کر سکتے ہیں تاکہ تبدیلی کو ظاہر کیا جا سکے:
@ -52,7 +52,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/ur/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/ur/scatter2.4d1cbc693bad20e2.webp)
اس رنگ سکیم کی تبدیلی کے ساتھ، آپ واضح طور پر دیکھ سکتے ہیں کہ سال بہ سال شہد کی فی پاؤنڈ قیمت میں ایک مضبوط ترقی ہوئی ہے۔ درحقیقت، اگر آپ ڈیٹا کے ایک نمونے کو جانچنے کے لیے دیکھیں (مثال کے طور پر، ایریزونا کی ریاست)، تو آپ دیکھ سکتے ہیں کہ قیمت میں سال بہ سال اضافے کا ایک نمونہ موجود ہے، چند استثناء کے ساتھ:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
آپ دیکھ سکتے ہیں کہ نقطوں کا سائز بتدریج بڑھ رہا ہے۔
![scatterplot 3](../../../../../translated_images/ur/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/ur/scatter3.722d21e6f20b3ea2.webp)
کیا یہ صرف طلب اور رسد کا معاملہ ہے؟ موسمیاتی تبدیلی اور کالونی کولیپس جیسے عوامل کی وجہ سے، کیا سال بہ سال خریداری کے لیے کم شہد دستیاب ہے، اور اس وجہ سے قیمت بڑھ رہی ہے؟
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
جواب: ہاں، کچھ استثناء کے ساتھ، خاص طور پر 2003 کے آس پاس:
![line chart 1](../../../../../translated_images/ur/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/ur/line1.299b576fbb2a59e6.webp)
سوال: ٹھیک ہے، کیا 2003 میں ہم شہد کی فراہمی میں بھی کوئی اضافہ دیکھ سکتے ہیں؟ اگر آپ کل پیداوار کو سال بہ سال دیکھیں تو کیا ہوگا؟
@ -106,7 +106,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/ur/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/ur/line2.3b18fcda7176ceba.webp)
جواب: واقعی نہیں۔ اگر آپ کل پیداوار کو دیکھیں، تو ایسا لگتا ہے کہ اس خاص سال میں یہ درحقیقت بڑھ گئی ہے، حالانکہ عمومی طور پر ان سالوں کے دوران شہد کی پیداوار میں کمی ہو رہی ہے۔
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
اس بصری نمائندگی میں، آپ فی کالونی پیداوار اور کالونیوں کی تعداد کو سال بہ سال، ریاست بہ ریاست، 3 کالمز کے ساتھ موازنہ کر سکتے ہیں:
![facet grid](../../../../../translated_images/ur/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/ur/facet.491ad90d61c2a7cc.webp)
اس ڈیٹا سیٹ کے لیے، کالونیوں کی تعداد اور ان کی پیداوار کے لحاظ سے سال بہ سال اور ریاست بہ ریاست کچھ خاص نمایاں نہیں ہوتا۔ کیا ان دو متغیرات کے درمیان تعلق تلاش کرنے کے لیے دیکھنے کا کوئی مختلف طریقہ ہے؟
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/ur/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/ur/dual-line.fc4665f360a54018.webp)
جبکہ 2003 کے آس پاس کچھ خاص نظر نہیں آتا، یہ ہمیں سبق کو ایک خوشگوار نوٹ پر ختم کرنے کی اجازت دیتا ہے: اگرچہ مجموعی طور پر کالونیوں کی تعداد میں کمی ہو رہی ہے، کالونیوں کی تعداد مستحکم ہو رہی ہے، چاہے ان کی فی کالونی پیداوار کم ہو رہی ہو۔

@ -38,25 +38,25 @@
چاہے ایک ڈیٹا سائنسدان صحیح ڈیٹا کے لیے صحیح چارٹ منتخب کرنے میں محتاط ہو، پھر بھی ڈیٹا کو اس طرح پیش کرنے کے کئی طریقے ہیں جو کسی نکتے کو ثابت کرنے کے لیے استعمال کیے جا سکتے ہیں، اکثر ڈیٹا کی سالمیت کو نقصان پہنچا کر۔ دھوکہ دہی والے چارٹس اور انفراگرافکس کی کئی مثالیں موجود ہیں!
[![البرٹو کائرو کی "How Charts Lie"](../../../../../translated_images/ur/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[![البرٹو کائرو کی "How Charts Lie"](../../../../../translated_images/ur/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 دھوکہ دہی والے چارٹس کے بارے میں ایک کانفرنس ٹاک کے لیے اوپر دی گئی تصویر پر کلک کریں
یہ چارٹ X محور کو الٹا کر کے تاریخ کی بنیاد پر حقیقت کے برعکس دکھاتا ہے:
![خراب چارٹ 1](../../../../../translated_images/ur/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![خراب چارٹ 1](../../../../../translated_images/ur/bad-chart-1.596bc93425a8ac30.webp)
[یہ چارٹ](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) اور بھی زیادہ دھوکہ دہی والا ہے، کیونکہ آنکھ دائیں طرف کھینچی جاتی ہے تاکہ یہ نتیجہ اخذ کیا جا سکے کہ وقت کے ساتھ، مختلف کاؤنٹیز میں COVID کیسز کم ہو گئے ہیں۔ درحقیقت، اگر آپ تاریخوں کو قریب سے دیکھیں تو آپ کو پتہ چلے گا کہ انہیں اس دھوکہ دہی والے نیچے کے رجحان کو ظاہر کرنے کے لیے دوبارہ ترتیب دیا گیا ہے۔
![خراب چارٹ 2](../../../../../translated_images/ur/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![خراب چارٹ 2](../../../../../translated_images/ur/bad-chart-2.62edf4d2f30f4e51.webp)
یہ بدنام زمانہ مثال رنگ اور الٹے Y محور کا استعمال کرتی ہے تاکہ دھوکہ دیا جا سکے: بندوق کے حامی قانون سازی کے نفاذ کے بعد بندوق سے ہونے والی اموات میں اضافے کے بجائے، آنکھ کو دھوکہ دیا جاتا ہے کہ اس کے برعکس سچ ہے:
![خراب چارٹ 3](../../../../../translated_images/ur/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![خراب چارٹ 3](../../../../../translated_images/ur/bad-chart-3.e201e2e915a230bc.webp)
یہ عجیب چارٹ تناسب کو مزاحیہ انداز میں جوڑ توڑ کر دکھاتا ہے:
![خراب چارٹ 4](../../../../../translated_images/ur/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![خراب چارٹ 4](../../../../../translated_images/ur/bad-chart-4.8872b2b881ffa96c.webp)
ناقابل موازنہ چیزوں کا موازنہ کرنا ایک اور مشکوک چال ہے۔ ایک [شاندار ویب سائٹ](https://tylervigen.com/spurious-correlations) 'غلط تعلقات' کے بارے میں ہے جو 'حقائق' کو ظاہر کرتی ہے جیسے مین میں طلاق کی شرح اور مارجرین کے استعمال کے درمیان تعلق۔ ایک Reddit گروپ بھی ڈیٹا کے [بدصورت استعمالات](https://www.reddit.com/r/dataisugly/top/?t=all) کو جمع کرتا ہے۔
@ -91,13 +91,13 @@
اگر آپ کا ڈیٹا X محور پر متنی اور تفصیلی ہے، تو بہتر پڑھنے کے لیے متن کو زاویہ دے سکتے ہیں۔ [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D پلاٹنگ پیش کرتا ہے، اگر آپ کا ڈیٹا اس کی حمایت کرتا ہو۔ اس کا استعمال کرتے ہوئے نفیس بصری نمائیاں تیار کی جا سکتی ہیں۔
![3D پلاٹس](../../../../../translated_images/ur/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3D پلاٹس](../../../../../translated_images/ur/3d.db1734c151eee87d.webp)
## متحرک اور 3D چارٹ ڈسپلے
آج کل کی بہترین بصری نمائیاں متحرک ہوتی ہیں۔ Shirley Wu نے D3 کے ساتھ حیرت انگیز نمائیاں بنائی ہیں، جیسے '[فلم کے پھول](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)'، جہاں ہر پھول ایک فلم کی نمائندگی کرتا ہے۔ Guardian کے لیے ایک اور مثال 'بَسڈ آؤٹ' ہے، جو بصری نمائیاں، Greensock اور D3 کے ساتھ ایک انٹرایکٹو تجربہ ہے، اور ایک اسکرولی ٹیلنگ آرٹیکل فارمیٹ کے ساتھ دکھاتا ہے کہ NYC اپنے بے گھر افراد کو شہر سے باہر بھیج کر کیسے سنبھالتا ہے۔
![بَسڈ آؤٹ](../../../../../translated_images/ur/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![بَسڈ آؤٹ](../../../../../translated_images/ur/busing.8157cf1bc89a3f65.webp)
> "بَسڈ آؤٹ: امریکہ اپنے بے گھر افراد کو کیسے منتقل کرتا ہے" [دی گارڈین](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) سے۔ بصری نمائیاں: Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@
آپ ایک ویب ایپ مکمل کریں گے جو اس سوشل نیٹ ورک کا متحرک منظر دکھائے گی۔ یہ ایک لائبریری کا استعمال کرتی ہے جو Vue.js اور D3 کا استعمال کرتے ہوئے ایک [نیٹ ورک کی نمائیاں](https://github.com/emiliorizzo/vue-d3-network) بنانے کے لیے تیار کی گئی تھی۔ جب ایپ چل رہی ہو، تو آپ اسکرین پر نوڈز کو گھسیٹ کر ڈیٹا کو ادھر ادھر کر سکتے ہیں۔
![liaisons](../../../../../translated_images/ur/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/ur/liaisons.90ce7360bcf84765.webp)
## پروجیکٹ: D3.js کا استعمال کرتے ہوئے نیٹ ورک دکھانے کے لیے ایک چارٹ بنائیں

@ -1,6 +1,6 @@
# تصورات
![ایک شہد کی مکھی لیونڈر کے پھول پر](../../../translated_images/ur/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![ایک شہد کی مکھی لیونڈر کے پھول پر](../../../translated_images/ur/bee.0aa1d91132b12e3a.webp)
> تصویر <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">جینا لی</a> کی جانب سے <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> پر
ڈیٹا کو بصری طور پر پیش کرنا ایک ڈیٹا سائنسدان کے سب سے اہم کاموں میں سے ایک ہے۔ تصاویر ہزاروں الفاظ کے برابر ہوتی ہیں، اور ایک تصور آپ کو اپنے ڈیٹا کے مختلف دلچسپ پہلوؤں جیسے کہ اسپائکس، آؤٹ لائرز، گروپنگز، رجحانات، اور مزید کو پہچاننے میں مدد دے سکتا ہے، جو آپ کو یہ سمجھنے میں مدد دیتا ہے کہ آپ کا ڈیٹا کیا کہانی بیان کر رہا ہے۔

@ -16,7 +16,7 @@
یہ سبق لائف سائیکل کے تین حصوں پر مرکوز ہے: ڈیٹا حاصل کرنا، پراسیسنگ اور دیکھ بھال۔
![ڈیٹا سائنس کے لائف سائیکل کا خاکہ](../../../../translated_images/ur/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![ڈیٹا سائنس کے لائف سائیکل کا خاکہ](../../../../translated_images/ur/data-science-lifecycle.a1e362637503c4fb.webp)
> تصویر [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) کی جانب سے
## ڈیٹا حاصل کرنا
@ -92,7 +92,7 @@
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
|![Team Data Science Lifecycle](../../../../translated_images/ur/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Data Science Process Alliance Image](../../../../translated_images/ur/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Team Data Science Lifecycle](../../../../translated_images/ur/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Data Science Process Alliance Image](../../../../translated_images/ur/CRISP-DM.8bad2b4c66e62aa7.webp) |
| تصویر [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) کی جانب سے | تصویر [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) کی جانب سے |
## [لیکچر کے بعد کا کوئز](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# ڈیٹا سائنس کا لائف سائیکل
![communication](../../../translated_images/ur/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/ur/communication.06d8e2a88d30d168.webp)
> تصویر از <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> on <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
ان اسباق میں، آپ ڈیٹا سائنس کے لائف سائیکل کے کچھ پہلوؤں کو دریافت کریں گے، جن میں ڈیٹا کے تجزیے اور اس کے بارے میں بات چیت شامل ہے۔

@ -1,12 +1,12 @@
# کلاؤڈ میں ڈیٹا سائنس
![cloud-picture](../../../translated_images/ur/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/ur/cloud-picture.f5526de3c6c6387b.webp)
> تصویر [Jelleke Vanooteghem](https://unsplash.com/@ilumire) کی جانب سے [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) پر دستیاب ہے۔
جب بڑے ڈیٹا کے ساتھ ڈیٹا سائنس کرنے کی بات آتی ہے، تو کلاؤڈ ایک انقلابی تبدیلی ثابت ہو سکتا ہے۔ اگلے تین اسباق میں، ہم دیکھیں گے کہ کلاؤڈ کیا ہے اور یہ کیوں مددگار ثابت ہو سکتا ہے۔ ہم دل کی ناکامی کے ڈیٹا سیٹ کا جائزہ لیں گے اور ایک ماڈل بنائیں گے جو کسی شخص کے دل کی ناکامی کے امکانات کا اندازہ لگانے میں مدد کرے گا۔ ہم کلاؤڈ کی طاقت کا استعمال کرتے ہوئے ماڈل کو دو مختلف طریقوں سے تربیت دیں گے، تعینات کریں گے اور استعمال کریں گے۔ ایک طریقہ صرف یوزر انٹرفیس کے ذریعے، جسے "لو کوڈ/نو کوڈ" انداز کہا جاتا ہے، اور دوسرا طریقہ Azure Machine Learning Software Developer Kit (Azure ML SDK) کا استعمال کرتے ہوئے۔
![project-schema](../../../translated_images/ur/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/ur/project-schema.420e56d495624541.webp)
### موضوعات

@ -32,7 +32,7 @@ AI کی جمہوریت کی بدولت، ڈویلپرز کے لیے AI سے چل
* [صحت کی دیکھ بھال میں ڈیٹا سائنس](https://data-flair.training/blogs/data-science-in-healthcare/) - طبی امیجنگ (جیسے MRI، ایکس رے، CT-Scan)، جینومکس (DNA سیکوینسنگ)، دوا کی ترقی (خطرے کی تشخیص، کامیابی کی پیش گوئی)، پیش گوئی تجزیات (مریض کی دیکھ بھال اور سپلائی لاجسٹکس)، بیماری کی ٹریکنگ اور روک تھام وغیرہ جیسے اطلاقات کو اجاگر کرتا ہے۔
![حقیقی دنیا میں ڈیٹا سائنس کے اطلاقات](../../../../translated_images/ur/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) تصویر کا کریڈٹ: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![حقیقی دنیا میں ڈیٹا سائنس کے اطلاقات](../../../../translated_images/ur/data-science-applications.4e5019cd8790ebac.webp) تصویر کا کریڈٹ: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
یہ شکل دیگر ڈومینز اور ڈیٹا سائنس تکنیکوں کے اطلاقات کی مثالیں دکھاتی ہے۔ کیا آپ دیگر اطلاقات کو دریافت کرنا چاہتے ہیں؟ نیچے [جائزہ اور خود مطالعہ](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) سیکشن دیکھیں۔

@ -13,7 +13,7 @@
2. ڈیٹا سیٹ [کیٹلاگ](https://planetarycomputer.microsoft.com/catalog) کو دریافت کریں - ہر ایک کا مقصد سیکھیں۔
3. ایکسپلورر استعمال کریں - دلچسپی کا ایک ڈیٹا سیٹ منتخب کریں، ایک متعلقہ کوئری اور رینڈرنگ آپشن منتخب کریں۔
![سیاروی کمپیوٹر ایکسپلورر](../../../../translated_images/ur/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![سیاروی کمپیوٹر ایکسپلورر](../../../../translated_images/ur/planetary-computer-explorer.c1e95a9b053167d6.webp)
`آپ کا کام:`
اب براؤزر میں رینڈر کی گئی ویژولائزیشن کا مطالعہ کریں اور درج ذیل سوالات کے جواب دیں:

@ -1,57 +1,67 @@
# ڈیٹا سائنس برائے ابتدائی طلبہ - ایک نصاب
# ڈیٹا سائنس برائے ابتدائی افراد - ایک نصاب
[![GitHub Codespaces میں کھولیں](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub لائسنس](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub شراکت دار](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub مسائل](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub پل-ریکویسٹ](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs خوش آمدید](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub نگران](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub فورکس](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub اسٹارز](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
مایکروسافٹ کے Azure کلاؤڈ ایڈووکیٹس خوش ہیں کہ وہ ڈیٹا سائنس کے بارے میں 10 ہفتوں، 20 اسباق پر مشتمل نصاب پیش کریں۔ ہر سبق میں سبق سے پہلے اور سبق کے بعد کوئزز، سبق مکمل کرنے کی تحریری ہدایات، ایک حل، اور ایک اسائنمنٹ شامل ہے۔ ہمارا پروجیکٹ پر مبنی تدریسی طریقہ کار آپ کو سیکھنے کے ساتھ تعمیر کرنے کی اجازت دیتا ہے، جو نئی مہارتوں کو 'چپکانے' کے لیے ایک ثابت شدہ طریقہ ہے۔
مائیکروسافٹ میں Azure کلاؤڈ ایڈووکیٹس خوشی کے ساتھ 10 ہفتوں، 20 اسباق پر مشتمل نصاب پیش کرتے ہیں جو مکمل طور پر ڈیٹا سائنس کے بارے میں ہے۔ ہر سبق میں سبق سے پہلے اور بعد کے کوئزز، سبق مکمل کرنے کی تحریری ہدایات، حل، اور ایک اسائنمنٹ شامل ہیں۔ ہمارا پراجیکٹ پر مبنی تدریسی طریقہ کار آپ کو تعمیر کرتے ہوئے سیکھنے کی اجازت دیتا ہے، جو مہارت کے لیے قابلِ اعتماد طریقہ ہے جس سے نئی مہارتیں بہتر طور پر یاد رہتی ہیں۔
**ہمارے مصنفین کا دلی شکریہ:** [جاسمن گرینوے](https://www.twitter.com/paladique)، [دمیتری سوشنیکوف](http://soshnikov.com)، [نیتیا ناراسمھان](https://twitter.com/nitya)، [جی لین مک گائی](https://twitter.com/JalenMcG)، [جین لوپر](https://twitter.com/jenlooper)، [ماڈ لوی](https://twitter.com/maudstweets)، [ٹیفنی ساؤٹری](https://twitter.com/TiffanySouterre)، [کرسٹوفر ہیرسن](https://www.twitter.com/geektrainer)۔
**ہمارے مصنفین کا تہہ دل سے شکریہ:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 خصوصی شکریہ 🙏 ہمارے [مائیکروسافٹ اسٹوڈنٹ ایمبیسیڈر](https://studentambassadors.microsoft.com/) مصنفین، نقادوں اور مواد کے شراکت داروں کو،** خاص طور پر آریان آرورا، [ادیتیا گرگ](https://github.com/AdityaGarg00)، [الونڈرا سانچیز](https://www.linkedin.com/in/alondra-sanchez-molina/)، [انکیتا سنگھ](https://www.linkedin.com/in/ankitasingh007)، [انوپم مشرا](https://www.linkedin.com/in/anupam--mishra/)، [ارپیتا داس](https://www.linkedin.com/in/arpitadas01/)، خیال بہاری دبے، [ڈبری نسوفور](https://www.linkedin.com/in/dibrinsofor)، [دیشیتا بھاسن](https://www.linkedin.com/in/dishita-bhasin-7065281bb)، [مجد صافی](https://www.linkedin.com/in/majd-s/)، [میکس بلوم](https://www.linkedin.com/in/max-blum-6036a1186/)، [میگوئل کوریا](https://www.linkedin.com/in/miguelmque/)، [محمد افتخر (افتو) ابن جلال](https://twitter.com/iftu119)، [ناورین تبسم](https://www.linkedin.com/in/nawrin-tabassum)، [رائمنڈ وانگسا پترا](https://www.linkedin.com/in/raymond-wp/)، [روہت یادو](https://www.linkedin.com/in/rty2423 سمردھی شرما، [سانیا سنہا](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200)،
[شیانہ نرولا](https://www.linkedin.com/in/sheena-narua-n/)، [توقیر احمد](https://www.linkedin.com/in/tauqeerahmad5201/)، یوگندرسنگھ پاوار، [ودوشی گوپتا](https://www.linkedin.com/in/vidushi-gupta07/)، [جسلیلن سندھی](https://www.linkedin.com/in/jasleen-sondhi/)
**🙏 خصوصی شکریہ 🙏 ہمارے [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) مصنفین، جائزہ لینے والوں اور مواد کے تعاون کرنے والوں کو،** خاص طور پر آریان اورورا، [ادیہ گارگ](https://github.com/AdityaGarg00), [الونڈرا سانچیز](https://www.linkedin.com/in/alondra-sanchez-molina/), [انکیتا سنگھ](https://www.linkedin.com/in/ankitasingh007), [انوپم مشرا](https://www.linkedin.com/in/anupam--mishra/), [آرپیتا داس](https://www.linkedin.com/in/arpitadas01/), چھیلبہاری دُبے، [دبری نسوفور](https://www.linkedin.com/in/dibrinsofor), [دیشیتا بھاسن](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [مجد صافی](https://www.linkedin.com/in/majd-s/), [میکس بلم](https://www.linkedin.com/in/max-blum-6036a1186/), [میگوئل کوریا](https://www.linkedin.com/in/miguelmque/), [محمد افتخار (افتو) ابن جلال](https://twitter.com/iftu119), [نورین طبسم](https://www.linkedin.com/in/nawrin-tabassum), [ریمونڈ وانگسا پوترا](https://www.linkedin.com/in/raymond-wp/), [روہت یادو](https://www.linkedin.com/in/rty2423), سمردھی شرما، [سانیا سنہا](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[شیہ نا نرولا](https://www.linkedin.com/in/sheena-narua-n/), [توقیر احمد](https://www.linkedin.com/in/tauqeerahmad5201/), یوگندرا سنگھ پاور , [ودوشی گپتا](https://www.linkedin.com/in/vidushi-gupta07/), [جسلین سنڈی](https://www.linkedin.com/in/jasleen-sondhi/)
|![@sketchthedocs کی سکیچنوٹ https://sketchthedocs.dev](../../translated_images/ur/00-Title.8af36cd35da1ac55.webp)|
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/ur/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| ڈیٹا سائنس برائے ابتدائی طلبہ - _سکیچنوٹ از [@nitya](https://twitter.com/nitya)_ |
| ابتدائی افراد کے لئے ڈیٹا سائنس - _اسکٹچنوٹ از [@nitya](https://twitter.com/nitya)_ |
### 🌐 کثیر الزبانی حمایت
### 🌐 کثیراللسانی معاونت
#### GitHub ایکشن کے ذریعے معاونت یافتہ (خودکار اور ہمیشہ تازہ ترین)
#### GitHub ایکشن کے ذریعے معاونت (خودکار اور ہمیشہ تازہ ترین)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](./README.md) | [Vietnamese](../vi/README.md)
> **کیا آپ مقامی طور پر کلون کرنا پسند کریں گے؟**
> اس ریپوزیٹری میں 50+ زبانوں کے تراجم شامل ہیں جو ڈاؤن لوڈ کے حجم کو کافی بڑھا دیتے ہیں۔ تراجم کے بغیر کلون کرنے کے لئے sparse checkout استعمال کریں:
> **کچھ مقامی طور پر کلون کرنا پسند کریں؟**
>
> اس ریپوزیٹری میں 50 سے زائد زبانوں کے تراجم شامل ہیں جو ڈاؤن لوڈ کا سائز نمایاں طور پر بڑھاتے ہیں۔ بغیر ترجمے کے کلون کرنے کے لئے sparse checkout استعمال کریں:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> اس سے آپ کو کورس مکمل کرنے کے لیے تمام ضروری چیزیں مل جائیں گی، اور ڈاؤن لوڈ بہت تیز ہوگا۔
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> یہ آپ کو کورس مکمل کرنے کے لیے ہر چیز فراہم کرتا ہے جس کے ساتھ ڈاؤن لوڈ تیز تر ہوگا۔
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**اگر آپ اضافی ترجمہ زبانوں کی حمایت چاہتے ہیں تو وہ [یہاں](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) درج ہیں**
**اگر آپ اضافی ترجمے والی زبانوں کی درخواست کرنا چاہتے ہیں تو وہ یہاں درج ہیں [here](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### ہماری کمیونٹی شامل ہوں
#### ہماری کمیونٹی میں شامل ہوں
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
ہمارے پاس ایک Discord پر "Learn with AI" سیریز جاری ہے، مزید جانیں اور ہمارے ساتھ شامل ہوں [Learn with AI Series](https://aka.ms/learnwithai/discord) میں 18 تا 30 ستمبر، 2025۔ آپ کو GitHub Copilot کے استعمال کے لئے ڈیٹا سائنس میں ٹپس اور ٹرکس ملیں گے۔
ہمارے پاس ایک Discord پر سیکھنے کا AI سلسلہ جاری ہے، مزید معلومات اور شامل ہونے کے لئے [Learn with AI Series](https://aka.ms/learnwithai/discord) پر آئیں، جو 18 سے 30 ستمبر، 2025 تک چل رہا ہے۔ آپ کو GitHub Copilot کو ڈیٹا سائنس کے لیے استعمال کرنے کے ٹپس اور ٹرکس ملیں گے۔
![Learn with AI series](../../translated_images/ur/1.2b28cdc6205e26fe.webp)
@ -59,193 +69,193 @@
مندرجہ ذیل وسائل کے ساتھ شروع کریں:
- [طالب علم ہب صفحہ](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) اس صفحہ میں آپ کو ابتدائی وسائل، طالب علم پیک اور مفت سرٹیفیکیشن ووچر حاصل کرنے کے طریقے ملیں گے۔ یہ وہ صفحہ ہے جسے آپ وقتاً فوقتاً دیکھنا چاہیں گے کیونکہ ہم کم از کم ماہانہ مواد تبدیل کرتے رہتے ہیں۔
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) عالمی طالب علم ایمبیسیڈر کمیونٹی میں شامل ہوں، یہ آپ کا مائیکروسافٹ میں داخلہ کا ذریعہ ہو سکتا ہے۔
- [طالب علم ہب صفحہ](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) اس صفحہ پر آپ کو ابتدائی افراد کے لئے وسائل، طالب علم پیک اور مفت سرٹیفکیٹ واؤچر حاصل کرنے کے طریقے ملیں گے۔ یہ ایک ایسی صفحہ ہے جسے آپ نشان زد کرنا چاہیں گے اور وقتاً فوقتاً چیک کرتے رہیں کیونکہ ہم کم از کم ماہانہ بار مواد تبدیل کرتے رہتے ہیں۔
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) عالمی سطح پر طالب علم سفیروں کی کمیونٹی میں شامل ہوں، یہ ممکنہ طور پر مائیکروسافٹ میں آپ کا دروازہ ہو سکتا ہے۔
# شروع کرنا
# شروعات
## 📚 دستاویزی مواد
## 📚 دستاویزات
- **[انسٹالیشن گائیڈ](INSTALLATION.md)** - ابتدائیوں کے لیے مرحلہ وار سیٹ اپ کی ہدایات
- **[استعمال کا گائیڈ](USAGE.md)** - مثالیں اور عام ورک فلو
- **[مسائل حل کرنا](TROUBLESHOOTING.md)** - عام مسائل کے حل
- **[شراکت دار بننے کا طریقہ](CONTRIBUTING.md)** - اس پروجیکٹ میں تعاون کرنے کا طریقہ
- **[تنصیب کی رہنمائی](INSTALLATION.md)** - ابتدائی افراد کے لیے مرحلہ وار سیٹ اپ کی ہدایات
- **[استعمال کی رہنمائی](USAGE.md)** - مثالیں اور عام کام کرنے کے طریقے
- **[مسائل کا حل](TROUBLESHOOTING.md)** - عام مسائل کے حل
- **[شراکت داری کی رہنمائی](CONTRIBUTING.md)** - اس پروجیکٹ میں کیسے حصہ لیں
- **[اساتذہ کے لیے](for-teachers.md)** - تدریسی رہنمائی اور کلاس روم کے وسائل
## 👨‍🎓 طلبہ کے لیے
> **بالکل نئے**: ڈیٹا سائنس میں نئے ہیں؟ ہمارے [آسان اور وضاحتی مثالوں](examples/README.md) سے شروع کریں! یہ سادہ اور وضاحتی مثالیں آپ کو بنیادی باتیں سمجھنے میں مدد دیں گی اس سے پہلے کہ آپ مکمل نصاب میں جائیں۔
> **[طلبہ](https://aka.ms/student-page)**: اس نصاب کو خود استعمال کرنے کے لیے، پورے ریپو کو فورک کریں اور خود کی مشقیں مکمل کریں، شروع میں ایک پری لیکچر کوئز کے ساتھ۔ پھر لیکچر پڑھیں اور باقی سرگرمیاں مکمل کریں۔ کوشش کریں کہ اسباق کو سمجھ کر پروجیکٹ بنائیں بجائے اس کے کہ حل کے کوڈ کی نقل کریں؛ تاہم، وہ کوڈ ہر پروجیکٹ پر مبنی سبق کے /solutions فولڈر میں دستیاب ہے۔ ایک اور خیال ہے کہ دوستوں کے ساتھ ایک اسٹڈی گروپ بنائیں اور مل کر مواد کا جائزہ لیں۔ مزید مطالعہ کے لیے، ہم [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) کی سفارش کرتے ہیں۔
> **مکمل ابتدائی:** کیا آپ ڈیٹا سائنس میں نئے ہیں؟ ہمارے [ابتدائی دوستانہ مثالوں](examples/README.md) سے شروع کریں! یہ سادہ، اچھی طرح تبصرہ شدہ مثالیں آپ کو بنیادی باتیں سمجھنے میں مدد دیں گی اس سے پہلے کہ آپ پورے نصاب میں داخل ہوں۔
> **[طلبہ](https://aka.ms/student-page)**: یہ نصاب خود استعمال کرنے کے لیے، پوری ریپوزیٹری کو فورک کریں اور اپنے طور پر سرگرمیاں مکمل کریں، لیکچر سے پہلے کوئز سے شروع کریں۔ پھر لیکچر پڑھیں اور باقی سرگرمیاں مکمل کریں۔ حل کاپی کرنے کی بجائے اسباق کو سمجھ کر پروجیکٹس بنانے کی کوشش کریں؛ تاہم، وہ کوڈ ہر پراجیکٹ پر مبنی سبق میں /solutions فولڈر میں دستیاب ہیں۔ ایک اور خیال یہ ہے کہ دوستوں کے ساتھ اسٹڈی گروپ بنائیں اور مواد کو مل کر دیکھیں۔ مزید مطالعات کے لیے، ہم [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) کی تجویز کرتے ہیں۔
**فوری آغاز:**
1. اپنا ماحول ترتیب دینے کے لیے [انسٹالیشن گائیڈ](INSTALLATION.md) دیکھیں
2. نصاب کے ساتھ کام کرنے کے طریقے جاننے کے لیے [استعمال کا گائیڈ](USAGE.md) کا جائزہ لیں
3. سبق نمبر 1 سے شروع کریں اور ترتیب سے آگے بڑھیں
4. مدد کے لیے ہمارے [Discord کمیونٹی](https://aka.ms/ds4beginners/discord) میں شامل ہوں
1. اپنی ماحول ترتیب دینے کے لیے [تنصیب کی رہنمائی](INSTALLATION.md) دیکھیں
2. نصاب کے ساتھ کام کرنے کا طریقہ سیکھنے کے لیے [استعمال کی رہنمائی](USAGE.md) کا جائزہ لیں
3. سبق نمبر 1 سے شروع کریں اور ترتیب وار آگے بڑھیں
4. ہمارے [Discord کمیونٹی](https://aka.ms/ds4beginners/discord) میں شامل ہو کر مدد حاصل کریں
## 👩‍🏫 اساتذہ کے لیے
> **اساتذہ**: ہم نے [کریکولم استعمال کرنے کے لئے کچھ تجاویز شامل کی ہیں](for-teachers.md)۔ ہم آپ کی رائے [ہمارے بحث فورم میں](https://github.com/microsoft/Data-Science-For-Beginners/discussions) جاننا پسند کریں گے!
> **اساتذہ**: ہم نے اس نصاب کے استعمال کے لیے کچھ [تجاویز شامل کی ہیں](for-teachers.md)۔ ہمیں آپ کی رائے سن کر خوشی ہوگی [ہماری مباحثہ فورم](https://github.com/microsoft/Data-Science-For-Beginners/discussions) میں!
## ٹیم سے ملاقات
[![پرومو ویڈیو](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "پرومو ویڈیو")
[![پروومو ویڈیو](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "پروومو ویڈیو")
**گیف بذریعہ** [موہت جیسال](https://www.linkedin.com/in/mohitjaisal)
**گف از** [موہت جیسال](https://www.linkedin.com/in/mohitjaisal)
> 🎥 پروجیکٹ اور اسے بنانے والے افراد کے بارے میں ویڈیو کے لیے اوپر دی گئی تصویر پر کلک کریں!
> 🎥 اوپر دی گئی تصویر پر کلک کریں تاکہ پروجیکٹ اور اسے بنانے والے لوگوں کے بارے میں ویڈیو دیکھ سکیں!
## تعلیم کا طریقہ کار
ہم نے اس نصاب کی تیاری کے دوران دو تعلیمی اصول چنے ہیں: یہ کہ یہ پروجیکٹ پر مبنی ہو اور اس میں بار بار کوئز شامل ہوں۔ اس سیریز کے اختتام تک، طلباء نے ڈیٹا سائنس کے بنیادی اصول سیکھ لیے ہوں گے، جن میں اخلاقی تصورات، ڈیٹا کی تیاری، ڈیٹا کے ساتھ کام کرنے کے مختلف طریقے، ڈیٹا کی تصویری نمائندگی، ڈیٹا کا تجزیہ، ڈیٹا سائنس کے حقیقی دنیا کے استعمال کے معاملات، اور بہت کچھ شامل ہے۔
ہم نے اس کریکولم کی تیاری میں دو تدریسی اصول منتخب کیے ہیں: اسے پروجیکٹ پر مبنی بنانا اور بار بار کوئزز شامل کرنا۔ اس سیریز کے اختتام تک، طلباء ڈیٹا سائنس کے بنیادی اصول سیکھ چکے ہوں گے، جس میں اخلاقی تصورات، ڈیٹا کی تیاری، ڈیٹا کے ساتھ کام کرنے کے مختلف طریقے، ڈیٹا کا تصور، ڈیٹا تجزیہ، ڈیٹا سائنس کے حقیقی دنیا کے استعمال کے کیسز، اور بہت کچھ شامل ہے۔
مزید یہ کہ، کلاس سے پہلے ایک کم دباؤ والا کوئز طالب علم کی کسی موضوع کو سیکھنے کی نیت قائم کرتا ہے، جبکہ کلاس کے بعد دوسرا کوئز اس معلومات کی مزید یادداشت کو یقینی بناتا ہے۔ یہ نصاب لچکدار اور تفریحی بنانے کے لیے ڈیزائن کیا گیا ہے اور پورے یا کسی حصے میں بھی لیا جا سکتا ہے۔ پروجیکٹس شروع میں چھوٹے ہوتے ہیں اور 10 ہفتوں کے دورانیے کے آخر تک پیچیدہ ہوتے جاتے ہیں۔
مزید برآں، کلاس سے پہلے ایک کم دباؤ والا کوئز طلباء کے سیکھنے کے ارادے کو ترتیب دیتا ہے، جبکہ کلاس کے بعد دوسرا کوئز مزید یادداشت کو یقینی بناتا ہے۔ یہ کورس لچک دار اور دلچسپ بنایا گیا ہے اور اسے مکمل یا جزوی طور پر لیا جا سکتا ہے۔ پروجیکٹس چھوٹے سے شروع ہوتے ہیں اور 10 ہفتوں کے دورانیے کے آخر تک پیچیدہ ہوتے چلے جاتے ہیں۔
> ہمارے [کوڈ آف کنڈکٹ](CODE_OF_CONDUCT.md)، [قواعد و ضوابط](CONTRIBUTING.md)، [ترجمہ](TRANSLATIONS.md) کی ہدایات دیکھیں۔ ہم آپ کی تعمیری رائے کا خیرمقدم کرتے ہیں!
> ہمارے [رویہ کا ضابطہ](CODE_OF_CONDUCT.md)، [شراکت داری](CONTRIBUTING.md)، [ترجمہ](TRANSLATIONS.md) رہنما اصول دریافت کریں۔ ہم آپ کی تعمیری رائے کا خیرمقدم کرتے ہیں!
## ہر سبق میں شامل ہے:
## ہر درس میں شامل ہے:
- اختیاری اسکیچ نوٹ
- اختیاری اسکچ نوٹ
- اختیاری اضافی ویڈیو
- سبق سے پہلے گرم اپ کوئز
- سبق کے پہلے گرم اپ کوئز
- تحریری سبق
- پروجیکٹ پر مبنی اسباق کے لیے، پروجیکٹ بنانے کے مرحلہ وار رہنما
- پروجیکٹ پر مبنی اسباق کے لئے، پروجیکٹ بنانے کے مرحلہ وار رہنما
- علم کی جانچ
- ایک چیلنج
- اضافی مطالعہ
- اسباق کے بعد کوئز ([Post-lesson quiz](https://ff-quizzes.netlify.app/en/))
- اضافی پڑھائی
- اسائنمنٹ
- [سبق کے بعد کا کوئز](https://ff-quizzes.netlify.app/en/)
> **کوئز کے بارے میں نوٹ**: تمام کوئزز Quiz-App فولڈر میں شامل ہیں، کل 40 کوئزز ہیں جن میں سے ہر ایک میں تین سوالات ہوتے ہیں۔ یہ اسباق میں لنک کیے گئے ہیں، لیکن کوئز ایپ کو آپ مقامی طور پر چلا سکتے ہیں یا Azure پر تعینات کر سکتے ہیں؛ `quiz-app` فولڈر میں ہدایات پر عمل کریں۔ انہیں بتدریج مقامی زبانوں میں تبدیل کیا جا رہا ہے۔
> **کوئزز کے بارے میں ایک نوٹ**: تمام کوئزز Quiz-App فولڈر میں ہیں، کل 40 کوئزز جن میں ہر ایک میں تین سوالات ہوتے ہیں۔ یہ اسباق کے اندر سے لنک کیے جاتے ہیں، لیکن کوئز ایپ کو مقامی طور پر چلایا جا سکتا ہے یا Azure پر تعینات کیا جا سکتا ہے؛ `quiz-app` فولڈر میں ہدایات پر عمل کریں۔ انہیں بتدریج مقامی زبانوں میں منتقل کیا جا رہا ہے۔
## 🎓 ابتدائی افراد کے لیے مثالیں
## 🎓 ابتدائیوں کے لیے دوستانہ مثالیں
**ڈیٹا سائنس میں نئے ہیں؟** ہم نے ایک خاص [مثالیں ڈائریکٹری](examples/README.md) بنائی ہے جس میں آسان، اچھی طرح سے تبصرہ شدہ کوڈ ہے تاکہ آپ شروع کر سکیں:
**ڈیٹا سائنس میں نئے ہیں؟** ہم نے ایک خاص [مثالوں کا ڈائریکٹری](examples/README.md) بنایا ہے جس میں سادہ، اچھی طرح سے تبصرہ شدہ کوڈ موجود ہے تاکہ آپ آسانی سے شروع کر سکیں:
- 🌟 **ہیلو ورلڈ** - آپ کا پہلا ڈیٹا سائنس پروگرام
- 📂 **ڈیٹا لوڈ کرنا** - ڈیٹا سیٹس کو پڑھنا اور تلاش کرنا سیکھیں
- 📊 **سادہ تجزیہ** - اعدادوشمار کا حساب لگائیں اور پیٹرن تلاش کریں
- 📈 **بنیادی تصویری نمائندگی** - چارٹس اور گراف بنائیں
- 🔬 **حقیقی دنیا کا پروجیکٹ** - ابتدا سے لے کر اختتام تک مکمل ورک فلو
- 🌟 **ہیلو ورلڈ** - آپ کا پہلا ڈیٹا سائنس پروگرام
- 📂 **ڈیٹا لوڈ کرنا** - ڈیٹا سیٹس کو پڑھنے اور دریافت کرنے کا طریقہ سیکھیں
- 📊 **سادہ تجزیہ** - اعدادوشمار کا حساب لگائیں اور پیٹرنز تلاش کریں
- 📈 **بنیادی تصورات** - چارٹ اور گرافس بنائیں
- 🔬 **حقیقی دنیا کا پروجیکٹ** - مکمل ورک فلو ابتدا سے اختتام تک
ہر مثال مکمل تبصروں کے ساتھ ہے جو ہر قدم کی وضاحت کرتے ہیں، جو بالکل ابتدائی افراد کے لیے بہترین ہے!
ہر مثال میں ہر مرحلے کی تفصیلی تشریحات شامل ہیں، جو اسے بالکل ابتدائیوں کے لیے بہترین بناتی ہیں!
👉 **[مثالوں سے شروع کریں](examples/README.md)** 👈
👉 **[مثالوں کے ساتھ شروع کریں](examples/README.md)** 👈
## اسباق
|![ اسکچ نوٹ بذریعہ @sketchthedocs https://sketchthedocs.dev](../../translated_images/ur/00-Roadmap.4905d6567dff4753.webp)|
|![اسکچ نوٹ از @sketchthedocs https://sketchthedocs.dev](../../translated_images/ur/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| ڈیٹا سائنس برائے ابتدائی افراد: روڈ میپ - _اسکیچ نوٹ بذریعہ [@nitya](https://twitter.com/nitya)_ |
| ڈیٹا سائنس برائے ابتدائی: روڈ میپ - _اسکچ نوٹ از [@nitya](https://twitter.com/nitya)_ |
| سبق نمبر | موضوع | سبق کا گروپ | تعلیمی مقاصد | منسلک سبق | مصنف |
| سبق نمبر | موضوع | سبق کا گروپنگ | تعلیمی مقاصد | لنک شدہ سبق | مصنف |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | ڈیٹا سائنس کی تعریف | [تعارف](1-Introduction/README.md) | ڈیٹا سائنس کے بنیادی تصورات اور یہ آرٹیفیشل انٹیلی جنس، مشین لرننگ، اور بڑی ڈیٹا سے کیسے منسلک ہے سیکھنا۔ | [سبق](1-Introduction/01-defining-data-science/README.md) [ویڈیو](https://youtu.be/beZ7Mb_oz9I) | [دمیتری](http://soshnikov.com) |
| 02 | ڈیٹا سائنس اخلاقیات | [تعارف](1-Introduction/README.md) | ڈیٹا کے اخلاقی تصورات، چیلنجز اور فریم ورکس۔ | [سبق](1-Introduction/02-ethics/README.md) | [نیتیا](https://twitter.com/nitya) |
| 03 | ڈیٹا کی تعریف | [تعارف](1-Introduction/README.md) | ڈیٹا کی درجہ بندی اور اس کے عام ذرائع۔ | [سبق](1-Introduction/03-defining-data/README.md) | [جازمین](https://www.twitter.com/paladique) |
| 04 | شماریات اور احتمال کا تعارف | [تعارف](1-Introduction/README.md) | احتمال اور شماریات کی ریاضی تکنیکوں کا استعمال کر کے ڈیٹا کو سمجھنا۔ | [سبق](1-Introduction/04-stats-and-probability/README.md) [ویڈیو](https://youtu.be/Z5Zy85g4Yjw) | [دمیتری](http://soshnikov.com) |
| 05 | تعلقاتی ڈیٹا کے ساتھ کام کرنا | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | تعلقاتی ڈیٹا کا تعارف اور اس کی کھوج اور تجزیہ کے بنیادی اصول Structured Query Language یعنی SQL کے ذریعے۔ | [سبق](2-Working-With-Data/05-relational-databases/README.md) | [کرسٹوفر](https://www.twitter.com/geektrainer) | | |
| 06 | نان SQL ڈیٹا کے ساتھ کام کرنا | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | غیر تعلقاتی ڈیٹا کا تعارف، اس کی مختلف اقسام اور دستاویز ڈیٹا بیس کی کھوج اور تجزیہ کے بنیادی اصول۔ | [سبق](2-Working-With-Data/06-non-relational/README.md) | [جازمین](https://twitter.com/paladique)|
| 07 | پائتھون کے ساتھ کام کرنا | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | پائتھون کا استعمال کرتے ہوئے ڈیٹا کی کھوج کے بنیادی اصول جیسے کہ Pandas لائبریریز۔ پائتھون پروگرامنگ کی بنیادی سمجھ سفارش کی جاتی ہے۔ | [سبق](2-Working-With-Data/07-python/README.md) [ویڈیو](https://youtu.be/dZjWOGbsN4Y) | [دمیتری](http://soshnikov.com) |
| 08 | ڈیٹا کی تیاری | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | گمشدہ، غلط، یا نامکمل ڈیٹا کے چیلنجز کو دور کرنے کے لیے ڈیٹا صاف کرنے اور تبدیل کرنے کی تکنیکیں۔ | [سبق](2-Working-With-Data/08-data-preparation/README.md) | [جازمین](https://www.twitter.com/paladique) |
| 09 | مقدار کی تصویری نمائندگی | [ڈیٹا کی تصویری نمائندگی](3-Data-Visualization/README.md) | Matplotlib کا استعمال کر کے پرندوں کے ڈیٹا کی تصویری نمائندگی سیکھیں 🦆 | [سبق](3-Data-Visualization/09-visualization-quantities/README.md) | [جن](https://twitter.com/jenlooper) |
| 10 | ڈیٹا کی تقسیمات کی تصویری نمائندگی | [ڈیٹا کی تصویری نمائندگی](3-Data-Visualization/README.md) | مشاہدات اور رجحانات کی ایک وقفہ میں تصویری نمائندگی۔ | [سبق](3-Data-Visualization/10-visualization-distributions/README.md) | [جن](https://twitter.com/jenlooper) |
| 11 | تناسب کی تصویری نمائندگی | [ڈیٹا کی تصویری نمائندگی](3-Data-Visualization/README.md) | متفرق اور گروپ شدہ فیصدی کی تصویری نمائندگی۔ | [سبق](3-Data-Visualization/11-visualization-proportions/README.md) | [جن](https://twitter.com/jenlooper) |
| 12 | تعلقات کی تصویری نمائندگی | [ڈیٹا کی تصویری نمائندگی](3-Data-Visualization/README.md) | ڈیٹا سیٹس اور ان کے متغیرات کے درمیان کنکشنز اور تعلقات کی تصویری نمائندگی۔ | [سبق](3-Data-Visualization/12-visualization-relationships/README.md) | [جن](https://twitter.com/jenlooper) |
| 13 | معنی خیز تصویری نمائندگی | [ڈیٹا کی تصویری نمائندگی](3-Data-Visualization/README.md) | اپنی تصویری نمائندگی کو مؤثر مسئلہ حل کرنے اور بصیرت کے لیے قیمتی بنانے کی تکنیکیں اور رہنمائی۔ | [سبق](3-Data-Visualization/13-meaningful-visualizations/README.md) | [جن](https://twitter.com/jenlooper) |
| 14 | ڈیٹا سائنس کے زندگی کے چکر کا تعارف | [زندگی کے چکر](4-Data-Science-Lifecycle/README.md) | ڈیٹا سائنس کے زندگی کے چکر کا تعارف اور ڈیٹا حاصل کرنے اور نکالنے کا پہلا مرحلہ۔ | [سبق](4-Data-Science-Lifecycle/14-Introduction/README.md) | [جازمین](https://twitter.com/paladique) |
| 15 | تجزیہ کرنا | [زندگی کے چکر](4-Data-Science-Lifecycle/README.md) | ڈیٹا سائنس کے زندگی کے چکر کا یہ مرحلہ ڈیٹا کے تجزیہ کرنے کی تکنیکوں پر مرکوز ہے۔ | [سبق](4-Data-Science-Lifecycle/15-analyzing/README.md) | [جازمین](https://twitter.com/paladique) | | |
| 16 | ابلاغ | [زندگی کے چکر](4-Data-Science-Lifecycle/README.md) | ڈیٹا سائنس کے زندگی کے چکر کا یہ مرحلہ ڈیٹا سے حاصل شدہ بصیرتوں کو اس طرح پیش کرنے پر مرکوز ہے جو فیصلہ سازوں کے لیے آسان فہم ہو۔ | [سبق](4-Data-Science-Lifecycle/16-communication/README.md) | [جیلن](https://twitter.com/JalenMcG) | | |
| 17 | کلاؤڈ میں ڈیٹا سائنس | [کلاؤڈ ڈیٹا](5-Data-Science-In-Cloud/README.md) | اس سبقوں کی سیریز میں کلاؤڈ میں ڈیٹا سائنس اور اس کے فوائد کا تعارف کروایا گیا ہے۔ | [سبق](5-Data-Science-In-Cloud/17-Introduction/README.md) | [ٹفنی](https://twitter.com/TiffanySouterre) اور [ماڈ](https://twitter.com/maudstweets) |
| 18 | کلاؤڈ میں ڈیٹا سائنس | [کلاؤڈ ڈیٹا](5-Data-Science-In-Cloud/README.md) | Low Code ٹولز کا استعمال کرتے ہوئے ماڈلز کی تربیت۔ |[سبق](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [ٹفنی](https://twitter.com/TiffanySouterre) اور [ماڈ](https://twitter.com/maudstweets) |
| 19 | کلاؤڈ میں ڈیٹا سائنس | [کلاؤڈ ڈیٹا](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio کے ذریعے ماڈلز کی تعیناتی۔ | [سبق](5-Data-Science-In-Cloud/19-Azure/README.md)| [ٹفنی](https://twitter.com/TiffanySouterre) اور [ماڈ](https://twitter.com/maudstweets) |
| 20 | جنگل میں ڈیٹا سائنس | [وائلڈ میں](6-Data-Science-In-Wild/README.md) | حقیقی دنیا میں ڈیٹا سائنس پر مبنی پروجیکٹس۔ | [سبق](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [نیتیا](https://twitter.com/nitya) |
## گِٹ ہب کوڈ اسپیسز
اس نمونے کو کوڈ اسپیس میں کھولنے کے لیے یہ مراحل انجام دیں:
1. کوڈ کے ڈراپ ڈاؤن مینو پر کلک کریں اور Open with Codespaces کا انتخاب کریں۔
| 01 | ڈیٹا سائنس کی تعریف | [تعارف](1-Introduction/README.md) | ڈیٹا سائنس کے بنیادی تصورات سیکھیں اور یہ کہ یہ مصنوعی ذہانت، مشین لرننگ، اور بڑے ڈیٹا سے کس طرح متعلق ہے۔ | [سبق](1-Introduction/01-defining-data-science/README.md) [ویڈیو](https://youtu.be/beZ7Mb_oz9I) | [دمیتری](http://soshnikov.com) |
| 02 | ڈیٹا سائنس کی اخلاقیات | [تعارف](1-Introduction/README.md) | ڈیٹا اخلاقیات کے تصورات، چیلنجز اور فریم ورکس۔ | [سبق](1-Introduction/02-ethics/README.md) | [نیتیا](https://twitter.com/nitya) |
| 03 | ڈیٹا کی تعریف | [تعارف](1-Introduction/README.md) | ڈیٹا کس طرح درجہ بندی کیا جاتا ہے اور اس کے عام ذرائع۔ | [سبق](1-Introduction/03-defining-data/README.md) | [یاسمین](https://www.twitter.com/paladique) |
| 04 | اعدادوشمار اور احتمال کا تعارف | [تعارف](1-Introduction/README.md) | ڈیٹا کو سمجھنے کے لیے احتمال اور اعدادوشمار کی ریاضی تکنیکیں۔ | [سبق](1-Introduction/04-stats-and-probability/README.md) [ویڈیو](https://youtu.be/Z5Zy85g4Yjw) | [دمیتری](http://soshnikov.com) |
| 05 | تعلقاتی ڈیٹا کے ساتھ کام کرنا | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | تعلقاتی ڈیٹا کا تعارف اور Structured Query Language (SQL) کے ذریعے تعلقاتی ڈیٹا کی کھوج اور تجزیے کی بنیادی باتیں۔ | [سبق](2-Working-With-Data/05-relational-databases/README.md) | [کرسٹوفر](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL ڈیٹا کے ساتھ کام کرنا | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | غیر تعلقاتی ڈیٹا، اس کی مختلف اقسام اور دستاویزی ڈیٹابیس کی کھوج اور تجزیہ کی بنیادی باتوں کا تعارف۔ | [سبق](2-Working-With-Data/06-non-relational/README.md) | [یاسمین](https://twitter.com/paladique)|
| 07 | پائتھن کے ساتھ کام کرنا | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | پینڈاز جیسی لائبریریوں کے ذریعے ڈیٹا کی کھوج کے لیے پائتھن کے استعمال کی بنیادی باتیں۔ پائتھن پروگرامنگ کی بنیادی سمجھ کی سفارش کی جاتی ہے۔ | [سبق](2-Working-With-Data/07-python/README.md) [ویڈیو](https://youtu.be/dZjWOGbsN4Y) | [دمیتری](http://soshnikov.com) |
| 08 | ڈیٹا کی تیاری | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | ڈیٹا کی صفائی اور تبدیلی کی تکنیکیں تاکہ غائب، غلط یا نامکمل ڈیٹا کے مسائل کو حل کیا جا سکے۔ | [سبق](2-Working-With-Data/08-data-preparation/README.md) | [یاسمین](https://www.twitter.com/paladique) |
| 09 | مقدار کی بصری نمائندگی | [ڈیٹا ویژولائزیشن](3-Data-Visualization/README.md) | Matplotlib کا استعمال کرتے ہوئے پرندوں کے ڈیٹا کو بصری شکل میں پیش کریں 🦆 | [سبق](3-Data-Visualization/09-visualization-quantities/README.md) | [جن](https://twitter.com/jenlooper) |
| 10 | ڈیٹا کی تقسیم کی بصری نمائندگی | [ڈیٹا ویژولائزیشن](3-Data-Visualization/README.md) | ایک وقفے کے اندر مشاہدات اور رجحانات کی بصری نمائندگی۔ | [سبق](3-Data-Visualization/10-visualization-distributions/README.md) | [جن](https://twitter.com/jenlooper) |
| 11 | تناسب کی بصری نمائندگی | [ڈیٹا ویژولائزیشن](3-Data-Visualization/README.md) | محدود اور گروپ شدہ فیصدی کی بصری نمائندگی۔ | [سبق](3-Data-Visualization/11-visualization-proportions/README.md) | [جن](https://twitter.com/jenlooper) |
| 12 | تعلقات کی بصری نمائندگی | [ڈیٹا ویژولائزیشن](3-Data-Visualization/README.md) | ڈیٹا کے سیٹوں اور ان کی متغیرات کے درمیان تعلقات اور ربط کی بصری نمائندگی۔ | [سبق](3-Data-Visualization/12-visualization-relationships/README.md) | [جن](https://twitter.com/jenlooper) |
| 13 | معنی خیز بصری نمائندگی | [ڈیٹا ویژولائزیشن](3-Data-Visualization/README.md) | آپ کی بصری نمائندگیوں کو مؤثر مسئلہ حل کرنے اور بصیرت کے لئے قیمتی بنانے کی تکنیکیں اور رہنمائی۔ | [سبق](3-Data-Visualization/13-meaningful-visualizations/README.md) | [جن](https://twitter.com/jenlooper) |
| 14 | ڈیٹا سائنس کے لائف سائیکل کا تعارف | [لائف سائیکل](4-Data-Science-Lifecycle/README.md) | ڈیٹا سائنس کے لائف سائیکل اور اس کے پہلے مرحلے، یعنی ڈیٹا حاصل کرنے اور نکالنے کا تعارف۔ | [سبق](4-Data-Science-Lifecycle/14-Introduction/README.md) | [یاسمین](https://twitter.com/paladique) |
| 15 | تجزیہ کرنا | [لائف سائیکل](4-Data-Science-Lifecycle/README.md) | ڈیٹا سائنس کے لائف سائیکل کا مرحلہ جو ڈیٹا کے تجزیے کی تکنیکوں پر مرکوز ہے۔ | [سبق](4-Data-Science-Lifecycle/15-analyzing/README.md) | [یاسمین](https://twitter.com/paladique) | | |
| 16 | مواصلات | [لائف سائیکل](4-Data-Science-Lifecycle/README.md) | ڈیٹا سائنس کے لائف سائیکل کا مرحلہ جو ڈیٹا سے حاصل کی گئی بصیرت کو اس انداز میں پیش کرنے پر توجہ دیتا ہے تاکہ فیصلہ سازوں کے لیے سمجھنا آسان ہو۔ | [سبق](4-Data-Science-Lifecycle/16-communication/README.md) | [ جیلن](https://twitter.com/JalenMcG) | | |
| 17 | کلاؤڈ میں ڈیٹا سائنس | [کلاؤڈ ڈیٹا](5-Data-Science-In-Cloud/README.md) | کلاؤڈ میں ڈیٹا سائنس اور اس کے فوائد کا تعارف۔ | [سبق](5-Data-Science-In-Cloud/17-Introduction/README.md) | [ٹیفنی](https://twitter.com/TiffanySouterre) اور [ماوڈ](https://twitter.com/maudstweets) |
| 18 | کلاؤڈ میں ڈیٹا سائنس | [کلاؤڈ ڈیٹا](5-Data-Science-In-Cloud/README.md) | Low Code ٹولز استعمال کرتے ہوئے ماڈلز کی تربیت۔ |[سبق](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [ٹیفنی](https://twitter.com/TiffanySouterre) اور [ماوڈ](https://twitter.com/maudstweets) |
| 19 | کلاؤڈ میں ڈیٹا سائنس | [کلاؤڈ ڈیٹا](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio کے ذریعے ماڈلز کی تعیناتی۔ | [سبق](5-Data-Science-In-Cloud/19-Azure/README.md)| [ٹیفنی](https://twitter.com/TiffanySouterre) اور [ماوڈ](https://twitter.com/maudstweets) |
| 20 | جنگل میں ڈیٹا سائنس | [جھنگل میں](6-Data-Science-In-Wild/README.md) | حقیقی دنیا میں ڈیٹا سائنس پر مبنی پروجیکٹس۔ | [سبق](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [نیتیا](https://twitter.com/nitya) |
## GitHub Codespaces
اس نمونے کو Codespace میں کھولنے کے لیے یہ اقدامات کریں:
1. کوڈ ڈراپ ڈاؤن مینو پر کلک کریں اور Open with Codespaces کا انتخاب کریں۔
2. پین کے نیچے + New codespace منتخب کریں۔
مزید معلومات کے لیے [GitHub دستاویزات](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) دیکھیں۔
مزید معلومات کے لیے، [GitHub دستاویزات](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) ملاحظہ کریں۔
## VSCode ریموٹ - کنٹینرز
اپنے مقامی کمپیوٹر اور VSCode کے ذریعے اس ریپو کو کنٹینر میں کھولنے کے لیے VS Code Remote - Containers ایکسٹینشن استعمال کریں:
## VSCode Remote - Containers
اپنے مقامی کمپیوٹر اور VSCode میں VS Code Remote - Containers ایکسٹینشن استعمال کرتے ہوئے اس رپوزٹری کو کنٹینر میں کھولنے کے لیے یہ اقدامات کریں:
1. اگر یہ آپ کا پہلا موقع ہے کہ آپ ڈیولپمنٹ کنٹینر استعمال کر رہے ہیں، تو براہ کرم یقینی بنائیں کہ آپ کا سسٹم [شروعاتی دستاویزات](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) میں بتائے گئے پری ریکویزٹس (مثلاً Docker انسٹال ہونا) کو پورا کرتا ہے۔
1. اگر یہ آپ کی پہلی بار ترقیاتی کنٹینر استعمال کرنے کا موقع ہے، تو براہ کرم اس بات کو یقینی بنائیں کہ آپ کا سسٹم پہلے سے ضروریات پوری کرتا ہے (جیسا کہ Docker انسٹال ہے) [شروع کرنے کی دستاویزات](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) میں۔
اس ریپوزٹری کو استعمال کرنے کے لیے، آپ یا تو اسے ایک علیحدہ Docker والیوم میں کھول سکتے ہیں:
اس رپوزٹری کو استعمال کرنے کے لیے، آپ یا تو رپوزٹری کو ایک علیحدہ Docker والیوم میں کھول سکتے ہیں:
**نوٹ**: اندرونی طور پر، یہ Remote-Containers: **Clone Repository in Container Volume...** کمانڈ کا استعمال کرے گا تاکہ سورس کوڈ کو مقامی فائل سسٹم کے بجائے Docker والیوم میں کلون کیا جائے۔ [Volumes](https://docs.docker.com/storage/volumes/) کنٹینر ڈیٹا کے مستقل رہنے کے لیے ترجیحی طریقہ ہیں۔
**نوٹ**: پس پردہ یہ Remote-Containers: **Clone Repository in Container Volume...** کمانڈ استعمال کرے گا تاکہ سورس کوڈ کو لوکل فائل سسٹم کی بجائے Docker والیوم میں کلون کیا جا سکے۔ [والیومز](https://docs.docker.com/storage/volumes/) کنٹینر ڈیٹا کو محفوظ کرنے کا ترجیحی طریقہ ہیں۔
یا ریپوزٹری کی مقامی کلون یا ڈاؤن لوڈ شدہ ورژن کھولیں:
یا رپوزٹری کی مقامی کلون شدہ یا ڈاؤن لوڈ کی گئی کاپی کو کھولیں:
- اس ریپو کو اپنے مقامی فائل سسٹم پر کلون کریں۔
- اس رپوزٹری کو اپنے لوکل فائل سسٹم پر کلون کریں۔
- F1 دبائیں اور **Remote-Containers: Open Folder in Container...** کمانڈ منتخب کریں۔
- اس فولڈر کی کلون کی گئی کاپی منتخب کریں، کنٹینر کے شروع ہونے کا انتظار کریں، اور تجربہ کریں۔
- فولڈر کی کلون شدہ کاپی منتخب کریں، کنٹینر شروع ہونے کا انتظار کریں، اور آزما کر دیکھیں۔
## آف لائن رسائی
آپ [Docsify](https://docsify.js.org/#/) استعمال کر کے اس دستاویز کو آف لائن چلا سکتے ہیں۔ اس ریپو کو فورک کریں، اپنے مقامی کمپیوٹر پر [Docsify انسٹال کریں](https://docsify.js.org/#/quickstart)، پھر اس ریپو کے روٹ فولڈر میں `docsify serve` ٹائپ کریں۔ ویب سائٹ آپ کے لوکل ہوسٹ پر پورٹ 3000 پر چلائی جائے گی: `localhost:3000`۔
آپ اس دستاویز کو Docsify استعمال کرکے آف لائن چلا سکتے ہیں۔ اس رپوزٹری کو فورک کریں، اپنی مشین پر [Docsify انسٹال کریں](https://docsify.js.org/#/quickstart)، پھر اس رپوزٹری کے روٹ فولڈر میں `docsify serve` ٹائپ کریں۔ ویب سائٹ آپ کے لوکل ہوسٹ پر پورٹ 3000 پر چلائی جائے گی: `localhost:3000`۔
> نوٹ کریں، نوٹ بکس Docsify کے ذریعے رینڈر نہیں ہوں گی، اس لیے جب آپ کو کوئی نوٹ بک چلانی ہو تو اسے علیحدہ VS Code میں Python کرنل کے ساتھ چلائیں۔
> نوٹ کریں، نوٹ بکس Docsify کے ذریعے ظاہر نہیں ہوں گی، لہٰذا جب آپ کو کوئی نوٹ بک چلانی ہو تو اسے VS Code میں پائتھن کرنل کے ساتھ الگ سے چلا لیں۔
## دیگر نصاب
ہماری ٹیم دوسرے نصاب بھی تیار کرتی ہے! دیکھیں:
ہماری ٹیم دیگر نصاب تیار کرتی ہے! دیکھیں:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j ابتدائی افراد کے لیے](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![نو آموزوں کے لیے LangChain.js](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![نو آموزوں کے لیے LangChain](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
### لینگ چین
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js for Beginners](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain for Beginners](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### ایزور / ایج / ایم سی پی / ایجنٹس
[![نو آموزوں کے لیے AZD](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![نو آموزوں کے لیے ایج AI](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![نو آموزوں کے لیے MCP](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![نو آموزوں کے لیے AI ایجنٹس](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
### Azure / Edge / MCP / Agents
[![AZD for Beginners](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI for Beginners](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP for Beginners](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI Agents for Beginners](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### جنریٹیو AI سیریز
[![نو آموزوں کے لیے جنریٹیو AI](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![جنریٹیو AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![جنریٹیو AI (جاوا)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![جنریٹیو AI (جاوا اسکرپٹ)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### Generative AI Series
[![Generative AI for Beginners](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Generative AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Generative AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![Generative AI (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### بنیادی تعلیم
[![نو آموزوں کے لیے ML](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![نو آموزوں کے لیے ڈیٹا سائنس](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![نو آموزوں کے لیے AI](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![نو آموزوں کے لیے سائبر سیکیورٹی](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![نو آموزوں کے لیے ویب ڈویلپمنٹ](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![نو آموزوں کے لیے IoT](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![نو آموزوں کے لیے XR ڈیولپمنٹ](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
### Core Learning
[![ML for Beginners](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Data Science for Beginners](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI for Beginners](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Cybersecurity for Beginners](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Web Dev for Beginners](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT for Beginners](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![XR Development for Beginners](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### کوپائلٹ سیریز
[![AI زوجی پروگرامنگ کے لیے کوپائلٹ](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![C#/.NET کے لیے کوپائلٹ](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![کوپائلٹ مہم](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
### Copilot Series
[![Copilot for AI Paired Programming](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot for C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot Adventure](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## مدد حاصل کرنا
**مسائل کا سامنا ہے؟** عام مسائل کے حل کے لیے ہمارا [مسائل کا حل گائیڈ](TROUBLESHOOTING.md) دیکھیں۔
**کیا آپ کو مسائل درپیش ہیں؟** عام مسائل کے حل کے لیے ہمارا [Troubleshooting Guide](TROUBLESHOOTING.md) چیک کریں۔
اگر آپ پھنس جائیں یا AI ایپس بنانے کے بارے میں کوئی سوال ہو تو MCP کے متعلق سیکھنے والوں اور تجربہ کار ڈویلپرز کے ساتھ شامل ہوں۔ یہ ایک ایسا حمایتی کمیونٹی ہے جہاں سوالات خوش آمدید ہیں اور علم آزادانہ طور پر شیئر کیا جاتا ہے۔
اگر آپ اٹک گئے ہیں یا AI ایپس بنانے کے حوالے سے کوئی سوالات ہیں تو۔ دوسرے سیکھنے والے اور تجربہ کار ڈویلپرز کے ساتھ MCP کی بحثوں میں شامل ہوں۔ یہ ایک معاون کمیونٹی ہے جہاں سوالات کو خوش آمدید کہا جاتا ہے اور علم آزادانہ طور پر شیئر کیا جاتا ہے۔
[![مائیکروسافٹ فاؤنڈری ڈسکارڈ](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
اگر آپ کے پاس پروڈکٹ فیڈبیک یا تعمیر کے دوران کوئی غلطیاں ہوں تو یہاں آئیں:
اگر آپ کے پاس پروڈکٹ فیڈبیک یا تعمیر کے دوران غلطیاں ہیں تو دورہ کریں:
[![مائیکروسافٹ فاؤنڈری ڈیولپر فورم](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**رسیدگی کی وضاحت**:
یہ دستاویز اے آئی ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کے ذریعے ترجمہ کی گئی ہے۔ اگرچہ ہم درستگی کے لیے کوشاں ہیں، براہ کرم اس بات کا خیال رکھیں کہ خودکار تراجم میں غلطیاں یا عدم صحت ہو سکتی ہے۔ اصل دستاویز اپنی مادری زبان میں مستند ماخذ سمجھی جانی چاہیے۔ اہم معلومات کے لیے پیشہ ور انسان ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمہ کے استعمال سے ہونے والی کسی بھی غلط فہمی یا غلط تشریح کی ذمہ داری ہم پر نہیں ہوگی۔
**اخطار**:
یہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کے ذریعے ترجمہ کی گئی ہے۔ اگرچہ ہم درستگی کے لیے کوشاں ہیں، براہ کرم اس بات سے آگاہ رہیں کہ خودکار ترجموں میں غلطیاں یا نادقت ہو سکتی ہیں۔ اصل دستاویز اپنی مقامی زبان میں ہی معتبر ماخذ سمجھی جانی چاہیے۔ اہم معلومات کے لیے پیشہ ور انسانی ترجمہ تجویز کیا جاتا ہے۔ ہم اس ترجمے کے استعمال سے پیدا ہونے والے کسی بھی غلط فہمی یا غلط تشریح کے ذمہ دار نہیں ہیں۔
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@
نیتیا نرسمہن، آرٹسٹ
![روڈمیپ اسکیچ نوٹ](../../../translated_images/ur/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![روڈمیپ اسکیچ نوٹ](../../../translated_images/ur/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "zh-CN"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-28T08:15:40+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "zh-CN"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-25T16:57:01+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "zh-CN"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-28T08:16:09+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "zh-CN"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:06:21+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "zh-CN"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-28T08:16:53+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "zh-CN"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T11:32:04+00:00",
@ -360,8 +378,8 @@
"language_code": "zh-CN"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T07:33:25+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-28T08:21:11+00:00",
"source_file": "README.md",
"language_code": "zh-CN"
},

@ -6,7 +6,7 @@
---
[![数据科学定义视频](../../../../translated_images/zh-CN/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![数据科学定义视频](../../../../translated_images/zh-CN/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [课前测验](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@
在这个挑战中,我们将尝试通过分析文本来找到与数据科学领域相关的概念。我们将选取一篇关于数据科学的维基百科文章,下载并处理文本,然后构建一个像这样的词云:
![数据科学词云](../../../../translated_images/zh-CN/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![数据科学词云](../../../../translated_images/zh-CN/ds_wordcloud.664a7c07dca57de0.webp)
访问 [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 阅读代码。你也可以运行代码,实时查看它如何执行所有数据转换。

@ -5,13 +5,13 @@
"source": [
"# 挑战:分析关于数据科学的文本\n",
"\n",
"在这个例子中,我们将进行一个简单的练习,涵盖传统数据科学流程的所有步骤。你不需要编写任何代码,只需点击下面的单元格来执行它们并观察结果。作为一个挑战,鼓励你尝试用不同的数据运行这些代码。\n",
"在这个例子中,让我们做一个简单的练习,涵盖传统数据科学过程的所有步骤。你不必编写任何代码,只需点击下面的单元格来执行它们并观察结果。作为一个挑战,鼓励你尝试使用不同的数据来运行这段代码。\n",
"\n",
"## 目标\n",
"\n",
"在本课中,我们讨论了与数据科学相关的不同概念。现在让我们通过**文本挖掘**来探索更多相关概念。我们将从一段关于数据科学的文本开始,从中提取关键词,然后尝试可视化结果。\n",
"在本课中,我们讨论了与数据科学相关的不同概念。让我们通过进行一些**文本挖掘**,尝试发现更多相关的概念。我们将从一段关于数据科学的文本开始,从中提取关键词,然后尝试可视化结果。\n",
"\n",
"作为文本素材,我将使用维基百科上关于数据科学的页面:\n"
"作为文本,我将使用维基百科上关于数据科学的页面:\n"
],
"metadata": {}
},
@ -34,7 +34,7 @@
"source": [
"## 第一步:获取数据\n",
"\n",
"数据科学流程的第一步是获取数据。我们将使用 `requests` 库来完成这一任务\n"
"每个数据科学过程的第一步是获取数据。我们将使用 `requests` 库来完成这一步\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## 第2步转换数据\n",
"## Step 2: 转换数据\n",
"\n",
"下一步是将数据转换为适合处理的形式。在我们的案例我们已经从页面下载了HTML源代码现在需要将其转换为纯文本。\n",
"下一步是将数据转换成适合处理的形式。在我们的例子我们已经从页面下载了HTML源代码需要将其转换为纯文本。\n",
"\n",
"有很多方法可以实现这一点。我们将使用Python中最简单的内置对象[HTMLParser](https://docs.python.org/3/library/html.parser.html)。我们需要继承`HTMLParser`类并定义代码以收集HTML标签内的所有文本除了`<script>`和`<style>`标签中的内容。\n"
"有很多方法可以实现这一点。我们将使用[BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)这是一个流行的Python库用于解析HTML。BeautifulSoup允许我们定位特定的HTML元素因此我们可以关注维基百科的主要文章内容减少一些导航菜单、侧边栏、页脚以及其他无关内容尽管一些模板文字可能仍然存在。\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"首先我们需要安装用于HTML解析的BeautifulSoup库\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## 第三步:获取洞察\n",
"## Step 3: 获取洞察\n",
"\n",
"最重要的一步是将数据转化为可以提取洞察的形式。在我们的案例中,我们希望从文本中提取关键词,并查看哪些关键词更有意义。\n",
"最重要的步骤是将我们的数据转换成一种能够提取洞察的形式。在我们的案例中,我们希望从文本中提取关键词,并查看哪些关键词更有意义。\n",
"\n",
"我们将使用一个名为 [RAKE](https://github.com/aneesha/RAKE) Python 进行关键词提取。首先,如果尚未安装该库,我们需要安装它:\n"
"我们将使用名为[RAKE](https://github.com/aneesha/RAKE)的Python库进行关键词提取。首先如果该库尚未安装,我们安装它:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"主要功能可通过 `Rake` 对象实现,我们可以使用一些参数进行自定义。在我们的例子中,我们将关键词的最小长度设置为5个字符关键词在文档中的最小频率设置为3关键词的最大单词数设置为2。可以随意尝试其他值并观察结果。\n"
"主要功能可通过 `Rake` 对象使用,我们可以通过一些参数进行自定义。在我们的例子中,我们将设置关键词的最小长度为5个字符关键词在文档中的最小频率为3关键词中的最大单词数为2。您可以随意调整其他数值并观察结果。\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"我们获得了一份术语列表,并附有相关的重要性程度。如您所见,最相关的领域,例如机器学习和大数据,位于列表的顶部位置。\n",
"我们获得了一个术语列表及其相关的重要程度。如您所见,最相关的学科,如机器学习和大数据,出现在列表的顶部位置。\n",
"\n",
"## 第步:结果可视化\n",
"## 第4步:结果可视化\n",
"\n",
"人们通常通过视觉形式来最好地理解数据。因此,将数据进行可视化以获取一些洞察通常是有意义的。我们可以使用 Python 中的 `matplotlib` 库来绘制关键词及其相关性的简单分布图:\n"
"人们可以通过可视化形式更好地解读数据。因此通常有必要对数据进行可视化以便得出一些见解。我们可以使用Python中的 `matplotlib` 库来绘制关键词与其相关性的简单分布图:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"然而,还有一种更好的方式来可视化词频——使用**词云**。我们需要安装另一个库来根据我们的关键词列表绘制词云。\n"
"然而,还有一种更好的方式来可视化词频——使用**词云**。我们需要安装另一个库来从我们的关键词列表中绘制词云。\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` 对象负责接收原始文本或预先计算的单词及其频率列表,并返回一张图像,然后可以使用 `matplotlib` 显示:\n"
"`WordCloud` 对象负责接收原始文本或预先计算的带有频率的单词列表,并返回图像,然后可以使用 `matplotlib` 显示该图像\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"我们也可以将原始文本传递给 `WordCloud` - 让我们看看是否能够得到类似的结果:\n"
"我们也可以将原始文本传递给 `WordCloud` —— 让我们看看能否得到类似的结果:\n"
],
"metadata": {}
},
@ -372,9 +370,9 @@
{
"cell_type": "markdown",
"source": [
"你可以看到词云现在看起来更吸引人了,但它也包含了很多噪音(例如,像 `Retrieved on` 这样的无关词)。此外,我们得到的双词关键词(例如 *data scientist* 或 *computer science*)也更少了。这是因为 RAKE 算法在从文本中选择优质关键词方面表现更好。这个例子说明了数据预处理和清理的重要性,因为最终清晰的结果能够帮助我们做出更好的决策。\n",
"你可以看到词云现在看起来更令人印象深刻,但它也包含了很多噪声(例如无关的词如 `Retrieved on`)。此外,我们得到的由两个词组成的关键词更少,比如*数据科学家*或*计算机科学*。这是因为RAKE算法在从文本中选择优质关键词方面表现更好。这个例子说明了数据预处理和清理的重要性,因为最终清晰的图像将使我们能够做出更好的决策。\n",
"\n",
"在这个练习中,我们通过一个简单的过程,从维基百科文本中提取了一些意义,以关键词和词云的形式呈现。这个例子虽然很简单,但很好地展示了数据科学家在处理数据时通常会经历的所有步骤,从数据获取到可视化。\n",
"在本练习中,我们通过一个简单的过程从维基百科文本中提取一些含义,以关键词和词云的形式呈现。这个例子相当简单,但很好地展示了数据科学家在处理数据时通常会采取的所有典型步骤,从数据获取到可视化。\n",
"\n",
"在我们的课程中,我们将详细讨论所有这些步骤。\n"
],
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**免责声明** \n本文档使用AI翻译服务[Co-op Translator](https://github.com/Azure/co-op-translator)进行翻译。尽管我们努力确保准确性,但请注意,自动翻译可能包含错误或不准确之处。应以原始语言的文档作为权威来源。对于关键信息,建议使用专业人工翻译。对于因使用本翻译而引起的任何误解或误读,我们概不负责。\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**免责声明** \n本文件通过 AI 翻译服务 [Co-op Translator](https://github.com/Azure/co-op-translator) 进行翻译。虽然我们力求准确,但请注意自动翻译可能存在错误或不准确之处。原文以其原始语言版本为权威。如涉及重要信息,建议采用专业人工翻译。对于因使用此翻译而产生的任何误解或误读,我们概不负责。\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-02T10:11:59+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "zh"
}
},
"nbformat": 4,

@ -5,15 +5,15 @@
"source": [
"# 挑战:分析关于数据科学的文本\n",
"\n",
"> *在本笔记本中我们尝试使用不同的URL——维基百科上关于机器学习的文章。你会发现,与数据科学不同,这篇文章包含了许多术语,这使得分析变得更加复杂。我们需要在完成关键词提取后,想出另一种方法来清理数据,以去除一些频繁但无意义的词组。*\n",
"> *在本笔记本中,我们尝试使用不同的 URL——维基百科上关于机器学习的文章。您可以看到,不同于数据科学,这篇文章包含了大量术语,这使得分析更加复杂。我们需要在关键词提取之后,想出另一种方法来清理数据,以去除一些常见但无意义的词组。*\n",
"\n",
"在这个例子中,让我们做一个简单的练习,涵盖传统数据科学流程的所有步骤。你不需要编写任何代码,只需点击下面的单元格执行它们并观察结果。作为一个挑战,我们鼓励你尝试用不同的数据运行这些代码。\n",
"在这个例子中,让我们做一个涵盖传统数据科学过程所有步骤的简单练习。您不必编写任何代码,只需点击下面的单元格执行它们并观察结果。作为一个挑战,您可以尝试对不同的数据运行这段代码。\n",
"\n",
"## 目标\n",
"\n",
"在本课中,我们讨论与数据科学相关的不同概念。现在让我们通过**文本挖掘**来发现更多相关概念。我们将从一段关于数据科学的文本开始,从中提取关键词,然后尝试可视化结果。\n",
"在本课中,我们一直在讨论与数据科学相关的不同概念。让我们尝试通过进行一些**文本挖掘**来发现更多相关概念。我们将从关于数据科学的文本开始,从中提取关键词,然后尝试可视化结果。\n",
"\n",
"作为文本来源,我将使用维基百科上关于数据科学的页面:\n"
"作为文本,我将使用维基百科上关于数据科学的页面:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## 第一步:获取数据\n",
"\n",
"数据科学流程的第一步是获取数据。我们将使用 `requests` 库来完成这一任务\n"
"每个数据科学流程的第一步是获取数据。我们将使用 `requests` 库来完成这一\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## 第2步转换数据\n",
"\n",
"下一步是将数据转换为适合处理的形式。在我们的例中我们已经从页面下载了HTML源代码现在需要将其转换为纯文本。\n",
"下一步是将数据转换为适合处理的形式。在我们的例我们已经从页面下载了HTML源代码需要将其转换为纯文本。\n",
"\n",
"实现这一目标的方法有很多。我们将使用Python中最简单的内置对象 [HTMLParser](https://docs.python.org/3/library/html.parser.html)。我们需要继承`HTMLParser`类并定义代码以收集HTML标签内的所有文本排除`<script>`和`<style>`标签中的内容。\n"
"有许多方法可以做到这一点。我们将使用[BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)这是一个流行的Python库用于解析HTML。BeautifulSoup允许我们针对特定的HTML元素因此我们可以专注于维基百科的主要文章内容减少一些导航菜单、侧边栏、页脚和其他无关内容虽然仍可能保留一些模板文本。\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"首先我们需要安装用于HTML解析的BeautifulSoup库\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## 第三步:获取洞察\n",
"## Step 3: 获取洞察\n",
"\n",
"最重要的一步是将数据转化为可以提取洞察的形式。在我们的案例中,我们希望从文本中提取关键词,并查看哪些关键词更有意义。\n",
"最重要的一步是将我们的数据转化为可以用来获取洞察的某种形式。在我们的案例中,我们想从文本中提取关键词,并查看哪些关键词更有意义。\n",
"\n",
"我们将使用一个名为 [RAKE](https://github.com/aneesha/RAKE) 的 Python 库来进行关键词提取。首先,如果尚未安装该库,我们需要安装它:\n"
"我们将使用名为[RAKE](https://github.com/aneesha/RAKE)的Python库来进行关键词提取。首先假如该库尚未安装我们先安装它:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"主要功能可通过 `Rake` 对象实现我们可以使用一些参数进行自定义。在我们的例子中我们将关键词的最小长度设置为5个字符关键词在文档中的最小频率设置为3关键词的最大单词数设置为2。可以随意尝试其他值并观察结果。\n"
"主要功能可通过 `Rake` 对象使用我们可以通过一些参数进行自定义。在本例中我们将设置关键词的最小长度为5个字符关键词在文档中出现的最小频率为3次关键词中最多包含的单词数为2。您可以随意调整其他参数值并观察结果。\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"我们获得了一份术语列表,并附有其相关的重要性程度。正如你所看到的,最相关的领域,例如机器学习和大数据,位于列表的顶部位置。\n",
"我们获得了一组术语及其相关的重要程度。如您所见,最相关的学科,如机器学习和大数据,位于列表的顶部位置。\n",
"\n",
"## 第四步:结果可视化\n",
"## 第4步可视化结果\n",
"\n",
"人们通常通过视觉形式来最好地理解数据。因此,将数据可视化以获取一些洞察通常是有意义的。我们可以使用 Python 中的 `matplotlib` 库来绘制关键词及其相关性的简单分布\n"
"人们最能以可视化形式解读数据。因此通常通过可视化数据来获取一些洞见是有意义的。我们可以使用Python中的`matplotlib`库来绘制关键词及其相关性的简单分布:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"然而,还有一种更好的方法来可视化词频——使用**词云**。我们需要安装另一个库来从我们的关键词列表绘制词云。\n"
"然而,还有一种更好的方式来可视化单词频率——使用**词云**。我们需要安装另一个库来从我们的关键词列表绘制词云。\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud`对象负责接收原始文本或预先计算的单词及其频率列表,并返回一个图像,该图像可以使用`matplotlib`显示\n"
"`WordCloud` 对象负责接收原始文本或预先计算的带有频率的单词列表,并返回一张图像,然后可以使用 `matplotlib` 显示该图像\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"我们也可以将原始文本传递给 `WordCloud` - 让我们看看是否能够得到类似的结果:\n"
"我们也可以将原始文本传递给 `WordCloud` —— 让我们看看是否能够获得类似的结果:\n"
],
"metadata": {}
},
@ -490,9 +488,9 @@
{
"cell_type": "markdown",
"source": [
"你可以看到现在的词云看起来更吸引人,但它也包含了很多噪音(例如,像 `Retrieved on` 这样的无关词)。此外,我们得到的由两个词组成的关键词更少,比如 *数据科学家* 或 *计算机科学*。这是因为 RAKE 算法在从文本中选择优质关键词方面表现得更好。这个例子说明了数据预处理和清理的重要性,因为最终清晰的结果将帮助我们做出更好的决策。\n",
"你可以看到词云现在看起来更令人印象深刻,但它也包含了很多噪声(例如,无关的词如 `Retrieved on`)。此外,我们得到的由两个词组成的关键词更少,比如 *data scientist* 或 *computer science*。这是因为RAKE算法在从文本中选择好的关键词方面表现更出色。这个例子说明了数据预处理和清理的重要性因为最终的清晰图像将帮助我们做出更好的决策。\n",
"\n",
"在这个练习中,我们通过一个简单的过程,从维基百科文本中提取了一些意义,以关键词和词云的形式呈现。这个例子虽然很简单,但很好地展示了数据科学家在处理数据时通常会经历的所有步骤,从数据获取到可视化。\n",
"在本练习中,我们通过一个简单的过程从维基百科文本中提取一些有意义的信息,以关键词和词云的形式呈现。这个例子相当简单,但它很好地展示了数据科学家在处理数据时通常会采取的所有典型步骤,从数据获取到可视化。\n",
"\n",
"在我们的课程中,我们将详细讨论所有这些步骤。\n"
],
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**免责声明** \n本文档使用AI翻译服务 [Co-op Translator](https://github.com/Azure/co-op-translator) 进行翻译。尽管我们努力确保翻译的准确性,但请注意,自动翻译可能包含错误或不准确之处。原始语言的文档应被视为权威来源。对于关键信息,建议使用专业人工翻译。我们不对因使用此翻译而产生的任何误解或误读承担责任。\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**免责声明**\n本文档使用 AI 翻译服务 [Co-op Translator](https://github.com/Azure/co-op-translator) 进行翻译。虽然我们力求准确,但请注意,自动翻译可能存在错误或不准确之处。请以原始语言的文档为权威来源。对于重要信息,建议使用专业人工翻译。因使用本翻译所产生的任何误解或误释,我们不承担任何责任。\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-02T10:26:08+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "zh"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
统计学和概率论是数学中两个密切相关的领域,与数据科学高度相关。虽然在没有深厚数学知识的情况下也可以处理数据,但了解一些基本概念仍然是有益的。在这里,我们将提供一个简短的介绍,帮助您入门。
[![介绍视频](../../../../translated_images/zh-CN/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![介绍视频](../../../../translated_images/zh-CN/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [课前测验](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
我们只能讨论变量落入某个值区间的概率,例如 P(t<sub>1</sub>≤X<t<sub>2</sub>)。在这种情况下,概率分布由 **概率密度函数** p(x) 描述,其满足:
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/zh-CN/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/zh-CN/probability-density.a8aad29f17a14afb.webp)
连续型均匀分布是均匀分布的连续版本,定义在有限区间内。值 X 落入长度为 l 的区间的概率与 l 成正比,最大为 1。
@ -73,11 +73,11 @@
以下是显示我们数据的均值、中位数和四分位数的箱形图:
![体重箱形图](../../../../translated_images/zh-CN/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![体重箱形图](../../../../translated_images/zh-CN/weight-boxplot.1dbab1c03af26f8a.webp)
由于我们的数据包含关于不同球员 **角色** 的信息,我们还可以按角色绘制箱形图——这将帮助我们了解参数值在不同角色之间的差异。这次我们考虑身高:
![按角色的箱形图](../../../../translated_images/zh-CN/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![按角色的箱形图](../../../../translated_images/zh-CN/boxplot_byrole.036b27a1c3f52d42.webp)
此图表表明,平均而言,一垒手的身高高于二垒手的身高。在本课程后面,我们将学习如何更正式地验证这一假设,以及如何证明我们的数据在统计上显著。
@ -85,7 +85,7 @@
为了查看我们数据的分布,我们可以绘制一个称为 **直方图** 的图表。X 轴包含多个不同的体重区间(即 **箱**),而 Y 轴显示我们的随机变量样本落入某个区间的次数。
![真实世界数据的直方图](../../../../translated_images/zh-CN/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![真实世界数据的直方图](../../../../translated_images/zh-CN/weight-histogram.bfd00caf7fc30b14.webp)
从这个直方图可以看出,所有值都集中在某个平均体重附近,离平均体重越远,出现该体重值的次数越少。也就是说,棒球运动员的体重与平均体重差异很大的可能性非常小。体重的方差显示了体重与平均体重可能的差异程度。
@ -103,7 +103,7 @@ samples = np.random.normal(mean,std,1000)
如果我们绘制生成样本的直方图,我们会看到与上图非常相似的图像。如果我们增加样本数量和箱数量,我们可以生成更接近理想的正态分布图像:
![均值=0标准差=1 的正态分布](../../../../translated_images/zh-CN/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![均值=0标准差=1 的正态分布](../../../../translated_images/zh-CN/normal-histogram.dfae0d67c202137d.webp)
*均值=0标准差=1 的正态分布*
@ -225,7 +225,7 @@ array([[1. , 0.52959196],
在我们的例子中,值 0.53 表明一个人的体重和身高之间存在一定的相关性。我们还可以绘制一个散点图,将一个值与另一个值进行比较,以直观地观察关系:
![体重与身高的关系](../../../../translated_images/zh-CN/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![体重与身高的关系](../../../../translated_images/zh-CN/weight-height-relationship.3f06bde4ca2aba99.webp)
> 更多关于相关性和协方差的示例可以在 [配套笔记本](notebook.ipynb) 中找到。

@ -1,6 +1,6 @@
# 数据科学简介
![数据的实际应用](../../../translated_images/zh-CN/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![数据的实际应用](../../../translated_images/zh-CN/data.48e22bb7617d8d92.webp)
> 图片由 <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> 提供,来自 <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
在这些课程中,您将了解数据科学的定义,并学习数据科学家必须考虑的伦理问题。您还将学习数据的定义,并对统计学和概率论有一些初步了解,这些是数据科学的核心学术领域。

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| 使用Python - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
[![介绍视频](../../../../translated_images/zh-CN/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![介绍视频](../../../../translated_images/zh-CN/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
虽然数据库提供了非常高效的方式来存储数据并通过查询语言进行查询但最灵活的数据处理方式是编写自己的程序来操作数据。在许多情况下使用数据库查询可能更有效。然而当需要更复杂的数据处理时SQL可能无法轻松完成。
数据处理可以用任何编程语言编写,但有些语言在处理数据方面更高级。数据科学家通常偏好以下语言之一:
@ -63,7 +63,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![时间序列图](../../../../translated_images/zh-CN/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![时间序列图](../../../../translated_images/zh-CN/timeseries-1.80de678ab1cf727e.webp)
假设每周我们都会举办一个朋友聚会并额外拿出10盒冰淇淋用于聚会。我们可以创建另一个以周为索引的Series来展示这一点
```python
@ -74,7 +74,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![时间序列图](../../../../translated_images/zh-CN/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![时间序列图](../../../../translated_images/zh-CN/timeseries-2.aae51d575c55181c.webp)
> **注意** 我们没有使用简单的语法 `total_items+additional_items`。如果使用这种方法我们会在结果Series中得到许多`NaN`*Not a Number*)值。这是因为在`additional_items`的某些索引点上缺少值,而将`NaN`与任何值相加都会得到`NaN`。因此,我们需要在相加时指定`fill_value`参数。
@ -83,7 +83,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![每月时间序列平均值](../../../../translated_images/zh-CN/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![每月时间序列平均值](../../../../translated_images/zh-CN/timeseries-3.f3147cbc8c624881.webp)
### DataFrame数据框
@ -209,7 +209,7 @@ df = pd.read_csv('file.csv')
由于我们想演示如何处理数据,我们邀请你打开 [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) 并从头到尾阅读。你也可以执行单元格,并完成我们在最后留下的一些挑战。
![COVID 传播](../../../../translated_images/zh-CN/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID 传播](../../../../translated_images/zh-CN/covidspread.f3d131c4f1d260ab.webp)
> 如果你不知道如何在 Jupyter Notebook 中运行代码,可以查看 [这篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。
@ -231,7 +231,7 @@ df = pd.read_csv('file.csv')
打开 [`notebook-papers.ipynb`](notebook-papers.ipynb) 并从头到尾阅读。你也可以执行单元格,并完成我们在最后留下的一些挑战。
![COVID 医疗处理](../../../../translated_images/zh-CN/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![COVID 医疗处理](../../../../translated_images/zh-CN/covidtreat.b2ba59f57ca45fbc.webp)
## 处理图像数据

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# 数据处理
![data love](../../../translated_images/zh-CN/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/zh-CN/data-love.a22ef29e6742c852.webp)
> 图片由 <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> 提供,来自 <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
在这些课程中,您将学习一些管理、操作和在应用程序中使用数据的方法。您将了解关系型和非关系型数据库,以及数据如何存储在其中。您将学习使用 Python 管理数据的基础知识,并探索多种使用 Python 管理和挖掘数据的方法。

@ -42,7 +42,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/zh-CN/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/zh-CN/scatter1.5e1aa5fd6706c5d1.webp)
现在用蜂蜜色调展示同样的数据显示价格如何逐年变化。你可以通过添加一个“hue”参数来展示逐年的变化
@ -51,7 +51,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/zh-CN/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/zh-CN/scatter2.c0041a58621ca702.webp)
通过这个颜色方案的变化,你可以明显看到蜂蜜每磅价格在逐年强劲增长。如果你查看数据中的一个样本集(例如选择亚利桑那州),你会发现价格逐年上涨的模式,虽然有少数例外:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
你可以看到点的大小逐渐增加。
![scatterplot 3](../../../../translated_images/zh-CN/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/zh-CN/scatter3.3c160a3d1dcb36b3.webp)
这是否是一个简单的供需问题?由于气候变化和蜂群崩溃等因素,蜂蜜的供应逐年减少,因此价格上涨?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
答案是的除了2003年左右的一些例外
![line chart 1](../../../../translated_images/zh-CN/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/zh-CN/line1.f36eb465229a3b1f.webp)
✅ 由于Seaborn对数据进行聚合它通过绘制均值和均值周围的95%置信区间来显示“每个x值的多个测量值”。[来源](https://seaborn.pydata.org/tutorial/relational.html)。这种耗时的行为可以通过添加`ci=None`来禁用。
@ -105,7 +105,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/zh-CN/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/zh-CN/line2.a5b3493dc01058af.webp)
答案:并不完全。如果你查看总产量,实际上在那一年似乎有所增加,尽管总体而言蜂蜜的产量在这些年间呈下降趋势。
@ -130,7 +130,7 @@ sns.relplot(
```
在这个可视化中你可以比较逐年的每群产量和蜂群数量并将列的wrap设置为3
![facet grid](../../../../translated_images/zh-CN/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/zh-CN/facet.6a34851dcd540050.webp)
对于这个数据集,逐年和各州之间的蜂群数量及其产量并没有特别显著的变化。是否有其他方法可以找到这两个变量之间的相关性?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/zh-CN/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/zh-CN/dual-line.a4c28ce659603fab.webp)
虽然2003年没有明显的异常但这确实让我们以一个稍微乐观的结论结束这节课尽管蜂群数量总体上在下降但蜂群数量正在趋于稳定尽管每群产量在减少。

@ -58,7 +58,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
在这里,你安装了 `ggplot2` 包并通过 `library("ggplot2")` 命令将其导入工作区。要在 ggplot 中绘制任何图表,使用 `ggplot()` 函数并将数据集、x 和 y 变量作为属性指定。在这种情况下,我们使用 `geom_line()` 函数,因为我们要绘制折线图。
![最大翼展折线图](../../../../../translated_images/zh-CN/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![最大翼展折线图](../../../../../translated_images/zh-CN/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
你立即注意到了什么似乎至少有一个异常值——那是一个相当惊人的翼展2000+ 厘米的翼展超过了 20 米——难道明尼苏达州有翼龙在飞翔?让我们调查一下。
@ -76,7 +76,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
我们在 `theme` 中指定了角度,并在 `xlab()``ylab()` 中分别指定了 x 和 y 轴的标签。`ggtitle()` 为图表命名。
![改进后的最大翼展折线图](../../../../../translated_images/zh-CN/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![改进后的最大翼展折线图](../../../../../translated_images/zh-CN/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
即使将标签旋转到 45 度,仍然太多了,难以阅读。让我们尝试另一种策略:仅标记那些异常值,并在图表内设置标签。你可以使用散点图来腾出更多空间进行标记:
@ -92,7 +92,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
你发现了什么?
![最大翼展散点图](../../../../../translated_images/zh-CN/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![最大翼展散点图](../../../../../translated_images/zh-CN/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## 筛选数据
@ -111,7 +111,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
我们创建了一个新的数据框 `birds_filtered`,然后绘制了一个散点图。通过筛选掉异常值,你的数据现在更加连贯且易于理解。
![改进后的最大翼展散点图](../../../../../translated_images/zh-CN/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![改进后的最大翼展散点图](../../../../../translated_images/zh-CN/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
现在我们至少在翼展方面有了一个更干净的数据集,让我们进一步探索这些鸟类。
@ -153,7 +153,7 @@ birds_filtered %>% group_by(Category) %>%
```
在以下代码片段中,我们安装了 [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) 和 [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) 包,以帮助操作和分组数据,从而绘制堆叠条形图。首先,你按鸟类的 `Category` 分组数据,然后汇总 `MinLength`、`MaxLength`、`MinBodyMass`、`MaxBodyMass`、`MinWingspan`、`MaxWingspan` 列。接着,使用 `ggplot2` 包绘制条形图,并为不同类别指定颜色和标签。
![堆叠条形图](../../../../../translated_images/zh-CN/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![堆叠条形图](../../../../../translated_images/zh-CN/stacked-bar-chart.0c92264e89da7b39.webp)
然而,这个条形图由于数据未分组过多而难以阅读。你需要选择要绘制的数据,因此让我们根据鸟类类别查看其长度。
@ -168,7 +168,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
你首先统计 `Category` 列中的唯一值,然后将它们排序到一个新的数据框 `birds_count` 中。接着,将这些排序后的数据按相同顺序分级,以便按排序方式绘制。使用 `ggplot2` 绘制条形图。`coord_flip()` 将条形图水平显示。
![类别长度](../../../../../translated_images/zh-CN/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![类别长度](../../../../../translated_images/zh-CN/category-length.7e34c296690e85d6.webp)
这个条形图很好地展示了每个类别中鸟类的数量。一眼就能看出,这个地区数量最多的鸟类是鸭/鹅/水禽类别。明尼苏达州是“万湖之地”,这并不令人意外!
@ -191,7 +191,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
我们按 `Category``birds_filtered` 数据进行分组,然后绘制条形图。
![比较数据](../../../../../translated_images/zh-CN/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![比较数据](../../../../../translated_images/zh-CN/comparingdata.f486a450d61c7ca5.webp)
这里没有什么令人意外的:蜂鸟的最大长度最小,而鹈鹕或鹅的最大长度较大。当数据符合逻辑时,这是好事!
@ -203,7 +203,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![叠加值](../../../../../translated_images/zh-CN/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![叠加值](../../../../../translated_images/zh-CN/superimposed-values.5363f0705a1da416.webp)
## 🚀 挑战

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![每目最大长度](../../../../../translated_images/zh-CN/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![每目最大长度](../../../../../translated_images/zh-CN/max-length-per-order.e5b283d952c78c12.webp)
这提供了每个鸟类目身体长度的一般分布概览,但这并不是显示真实分布的最佳方式。通常通过创建直方图来完成这一任务。
@ -48,7 +48,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![整个数据集的分布](../../../../../translated_images/zh-CN/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![整个数据集的分布](../../../../../translated_images/zh-CN/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
如你所见,这个数据集中的 400 多种鸟类大多数最大体重都在 2000 以下。通过将 `bins` 参数更改为更高的数字,例如 30可以获得更多数据洞察
@ -56,7 +56,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![30个区间的分布](../../../../../translated_images/zh-CN/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![30个区间的分布](../../../../../translated_images/zh-CN/distribution-30bins.6a3921ea7a421bf7.webp)
此图表以更细致的方式显示分布。通过确保仅选择特定范围内的数据,可以创建一个偏向左侧较少的图表:
@ -68,7 +68,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![过滤后的直方图](../../../../../translated_images/zh-CN/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![过滤后的直方图](../../../../../translated_images/zh-CN/filtered-histogram.6bf5d2bfd8253322.webp)
✅ 尝试其他过滤器和数据点。要查看数据的完整分布,请移除 `['MaxBodyMass']` 过滤器以显示带标签的分布。
@ -82,7 +82,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
可以看到这两个元素沿预期轴存在预期的相关性,其中一个点的收敛特别强:
![二维图](../../../../../translated_images/zh-CN/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![二维图](../../../../../translated_images/zh-CN/2d-plot.c504786f439bd7eb.webp)
直方图默认适用于数值数据。如果需要根据文本数据查看分布该怎么办?
@ -114,7 +114,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![翼展与保护状态的关联](../../../../../translated_images/zh-CN/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![翼展与保护状态的关联](../../../../../translated_images/zh-CN/wingspan-conservation-collation.4024e9aa6910866a.webp)
最小翼展与保护状态之间似乎没有明显的相关性。使用此方法测试数据集中的其他元素。你可以尝试不同的过滤器。是否发现任何相关性?
@ -128,7 +128,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![密度图](../../../../../translated_images/zh-CN/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![密度图](../../../../../translated_images/zh-CN/density-plot.675ccf865b76c690.webp)
你可以看到此图与之前的最小翼展数据图相呼应;它只是稍微平滑了一些。如果你想重新创建第二个图表中那个不平滑的最大体重线,可以通过这种方法很好地将其平滑化:
@ -136,7 +136,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![体重密度](../../../../../translated_images/zh-CN/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![体重密度](../../../../../translated_images/zh-CN/bodymass-smooth.d31ce526d82b0a1f.webp)
如果你想要一个平滑但不过于平滑的线条,可以编辑 `adjust` 参数:
@ -144,7 +144,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![较少平滑的体重](../../../../../translated_images/zh-CN/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![较少平滑的体重](../../../../../translated_images/zh-CN/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ 阅读有关此类图表可用参数的内容并进行实验!
@ -154,7 +154,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![每目体重](../../../../../translated_images/zh-CN/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![每目体重](../../../../../translated_images/zh-CN/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 挑战

@ -84,7 +84,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
瞧,一个饼图展示了根据蘑菇的两种类别的数据比例。在这里,确保标签数组的顺序正确非常重要,因此务必验证标签的构建顺序!
![饼图](../../../../../translated_images/zh-CN/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![饼图](../../../../../translated_images/zh-CN/pie1-wb.685df063673751f4.webp)
## 环形图!
@ -119,7 +119,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![环形图](../../../../../translated_images/zh-CN/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![环形图](../../../../../translated_images/zh-CN/donut-wb.34e6fb275da9d834.webp)
此代码使用了两个库——ggplot2 和 webr。通过 webr 库的 PieDonut 函数,我们可以轻松创建环形图!
@ -157,7 +157,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
使用华夫图,你可以清楚地看到蘑菇数据集中帽颜色的比例。有趣的是,有许多绿色帽子的蘑菇!
![华夫图](../../../../../translated_images/zh-CN/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![华夫图](../../../../../translated_images/zh-CN/waffle.aaa75c5337735a6e.webp)
在本课中,你学习了三种可视化比例的方法。首先,你需要将数据分组为类别,然后决定哪种方式最适合显示数据——饼图、环形图或华夫图。所有这些都很有趣,并能让用户快速了解数据集。

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/zh-CN/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/zh-CN/scatter1.86b8900674d88b26.webp)
现在,用蜂蜜色调展示同样的数据,显示价格随年份的变化。你可以通过添加`scale_color_gradientn`参数来实现逐年变化的可视化:
@ -52,7 +52,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/zh-CN/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/zh-CN/scatter2.4d1cbc693bad20e2.webp)
通过这个颜色方案的变化,你可以明显看到蜂蜜每磅价格在这些年间逐年上涨。如果你查看数据中的一个样本集(例如亚利桑那州),你会发现价格逐年上涨的模式,虽然有少数例外:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
你可以看到点的大小逐渐增大。
![scatterplot 3](../../../../../translated_images/zh-CN/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/zh-CN/scatter3.722d21e6f20b3ea2.webp)
这是否是一个简单的供需关系?由于气候变化和蜂群崩溃等因素,是否导致蜂蜜的供应逐年减少,从而价格上涨?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
答案是的除了2003年左右的一些例外
![line chart 1](../../../../../translated_images/zh-CN/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/zh-CN/line1.299b576fbb2a59e6.webp)
问题那么在2003年我们是否也能看到蜂蜜供应的激增如果你查看逐年的总产量呢
@ -106,7 +106,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/zh-CN/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/zh-CN/line2.3b18fcda7176ceba.webp)
答案:并不明显。如果你查看总产量,实际上在那一年似乎有所增加,尽管总体而言蜂蜜的产量在这些年间是下降的。
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
在这个可视化中你可以比较逐年蜂群产量和蜂群数量并将列数设置为3
![facet grid](../../../../../translated_images/zh-CN/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/zh-CN/facet.491ad90d61c2a7cc.webp)
对于这个数据集,逐年和各州之间,蜂群数量和产量并没有特别突出的变化。是否有其他方法可以发现这两个变量之间的相关性?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/zh-CN/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/zh-CN/dual-line.fc4665f360a54018.webp)
虽然2003年没有明显的异常但这让我们可以以一个稍微乐观的结论结束这节课尽管蜂群数量总体上在下降但蜂群数量正在趋于稳定尽管每群产量在减少。

@ -38,25 +38,25 @@
即使数据科学家小心选择了适合数据的正确图表,也有很多方法可以通过展示数据来证明某种观点,往往以牺牲数据本身为代价。有许多误导性图表和信息图的例子!
[![Alberto Cairo 的《图表如何撒谎》](../../../../../translated_images/zh-CN/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "图表如何撒谎")
[![Alberto Cairo 的《图表如何撒谎》](../../../../../translated_images/zh-CN/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "图表如何撒谎")
> 🎥 点击上方图片观看关于误导性图表的会议演讲
这个图表颠倒了 X 轴的顺序,根据日期显示了与事实相反的内容:
![错误图表 1](../../../../../translated_images/zh-CN/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![错误图表 1](../../../../../translated_images/zh-CN/bad-chart-1.596bc93425a8ac30.webp)
[这个图表](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) 更具误导性,因为视觉上会让人得出结论,随着时间推移,各县的 COVID 病例数在下降。实际上,如果仔细查看日期,你会发现它们被重新排列以制造这种误导性的下降趋势。
![错误图表 2](../../../../../translated_images/zh-CN/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![错误图表 2](../../../../../translated_images/zh-CN/bad-chart-2.62edf4d2f30f4e51.webp)
这个臭名昭著的例子同时使用了颜色和颠倒的 Y 轴来误导:本应得出枪支死亡人数在通过支持枪支的立法后激增的结论,但实际上视觉上被误导认为相反的情况是真实的:
![错误图表 3](../../../../../translated_images/zh-CN/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![错误图表 3](../../../../../translated_images/zh-CN/bad-chart-3.e201e2e915a230bc.webp)
这个奇怪的图表展示了比例如何被操纵,效果令人啼笑皆非:
![错误图表 4](../../../../../translated_images/zh-CN/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![错误图表 4](../../../../../translated_images/zh-CN/bad-chart-4.8872b2b881ffa96c.webp)
比较不可比的事物是另一种阴险的技巧。有一个[精彩的网站](https://tylervigen.com/spurious-correlations) 专门展示“虚假的相关性”比如缅因州的离婚率与人造黄油消费之间的“事实”相关性。Reddit 上还有一个小组收集了[数据的丑陋用法](https://www.reddit.com/r/dataisugly/top/?t=all)。
@ -91,13 +91,13 @@
如果你的数据在 X 轴上是文本且较长,可以将文本倾斜以提高可读性。[plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 提供了 3D 绘图功能,如果你的数据支持的话,可以用它制作复杂的数据可视化。
![3D 图表](../../../../../translated_images/zh-CN/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3D 图表](../../../../../translated_images/zh-CN/3d.db1734c151eee87d.webp)
## 动画和 3D 图表展示
如今一些最佳的数据可视化是动画的。Shirley Wu 使用 D3 制作了许多惊艳的作品,例如“[电影之花](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)”每朵花都是一部电影的可视化。另一个为《卫报》制作的例子是“Bussed Out”一个结合了 Greensock 和 D3 的交互式体验,通过滚动叙事文章格式展示纽约市如何通过将无家可归者送出城市来处理其无家可归问题。
![Bussed Out](../../../../../translated_images/zh-CN/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![Bussed Out](../../../../../translated_images/zh-CN/busing.8157cf1bc89a3f65.webp)
> “Bussed Out: 美国如何转移无家可归者” 来自 [卫报](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study)。可视化由 Nadieh Bremer 和 Shirley Wu 制作
@ -107,7 +107,7 @@
你将完成一个网络应用,展示这个社交网络的动画视图。它使用了一个库来创建[网络可视化](https://github.com/emiliorizzo/vue-d3-network),基于 Vue.js 和 D3。当应用运行时你可以在屏幕上拖动节点以重新排列数据。
![危险关系](../../../../../translated_images/zh-CN/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![危险关系](../../../../../translated_images/zh-CN/liaisons.90ce7360bcf84765.webp)
## 项目:使用 D3.js 构建一个展示网络的图表

@ -1,6 +1,6 @@
# 可视化
![一只蜜蜂停在薰衣草花上](../../../translated_images/zh-CN/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![一只蜜蜂停在薰衣草花上](../../../translated_images/zh-CN/bee.0aa1d91132b12e3a.webp)
> 图片由 <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> 提供,来自 <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
数据可视化是数据科学家最重要的任务之一。图片胜过千言万语,可视化可以帮助你识别数据中的各种有趣部分,例如峰值、异常值、分组、趋势等,从而帮助你理解数据背后的故事。

@ -16,7 +16,7 @@
本课程重点讲解生命周期中的三个部分:数据捕获、数据处理和数据维护。
![数据科学生命周期图示](../../../../translated_images/zh-CN/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![数据科学生命周期图示](../../../../translated_images/zh-CN/data-science-lifecycle.a1e362637503c4fb.webp)
> 图片来源:[伯克利信息学院](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## 数据捕获
@ -89,7 +89,7 @@
|团队数据科学过程 (TDSP)|跨行业数据挖掘标准过程 (CRISP-DM)|
|--|--|
|![团队数据科学生命周期](../../../../translated_images/zh-CN/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![数据科学过程联盟图片](../../../../translated_images/zh-CN/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![团队数据科学生命周期](../../../../translated_images/zh-CN/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![数据科学过程联盟图片](../../../../translated_images/zh-CN/CRISP-DM.8bad2b4c66e62aa7.webp) |
| 图片来源:[Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | 图片来源:[数据科学过程联盟](https://www.datascience-pm.com/crisp-dm-2/) |
## [课后测验](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# 数据科学生命周期
![communication](../../../translated_images/zh-CN/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/zh-CN/communication.06d8e2a88d30d168.webp)
> 图片由 <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> 提供,来自 <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
在这些课程中,您将探索数据科学生命周期的一些方面,包括数据的分析和沟通。

@ -1,12 +1,12 @@
# 云中的数据科学
![cloud-picture](../../../translated_images/zh-CN/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/zh-CN/cloud-picture.f5526de3c6c6387b.webp)
> 图片由 [Jelleke Vanooteghem](https://unsplash.com/@ilumire) 提供,来自 [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
在处理大数据的数据科学时,云计算可以带来革命性的变化。在接下来的三节课中,我们将了解什么是云,以及为什么它非常有用。我们还将探索一个心力衰竭数据集,并构建一个模型来帮助评估某人发生心力衰竭的可能性。我们将利用云的强大功能,通过两种不同的方式来训练、部署和使用模型。一种方式是仅使用用户界面,以低代码/无代码的方式进行;另一种方式是使用 Azure Machine Learning 软件开发工具包 (Azure ML SDK)。
![project-schema](../../../translated_images/zh-CN/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/zh-CN/project-schema.420e56d495624541.webp)
### 主题

@ -32,7 +32,7 @@
* [医疗领域的数据科学](https://data-flair.training/blogs/data-science-in-healthcare/) - 强调应用包括医学影像(如 MRI、X光、CT扫描、基因组学DNA测序、药物开发风险评估、成功预测、预测分析患者护理和供应物流、疾病追踪与预防等。
![数据科学在现实世界中的应用](../../../../translated_images/zh-CN/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) 图片来源:[Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![数据科学在现实世界中的应用](../../../../translated_images/zh-CN/data-science-applications.4e5019cd8790ebac.webp) 图片来源:[Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
图中展示了其他领域和数据科学技术的应用案例。想探索更多应用?查看下面的[复习与自学](../../../../6-Data-Science-In-Wild/20-Real-World-Examples)部分。

@ -13,7 +13,7 @@ Explorer界面如下图所示允许你选择一个数据集从提供的
2. 探索数据集[目录](https://planetarycomputer.microsoft.com/catalog)——了解每个数据集的用途。
3. 使用Explorer——选择一个感兴趣的数据集选择一个相关的查询和渲染选项。
![行星计算机Explorer](../../../../translated_images/zh-CN/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![行星计算机Explorer](../../../../translated_images/zh-CN/planetary-computer-explorer.c1e95a9b053167d6.webp)
`你的任务:`
现在研究浏览器中渲染的可视化,并回答以下问题:

@ -1,4 +1,4 @@
# 面向初学者的数据科学课程
# 数据科学初学者课程
[![在 GitHub Codespaces 中打开](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
@ -8,235 +8,246 @@
[![GitHub 拉取请求](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![欢迎 PR](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub 关注者](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub 分](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub 星](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![GitHub 观察者](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub 分](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub ](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
微软的 Azure 云倡导者很高兴提供一个为期 10 周、包含 20 节课的完整数据科学课程。每节课都包括课前和课后测验、完成课程的书面指导、解决方案以及作业。我们基于项目的教学法让你在构建项目的同时学习,这是新技能“扎根”的有效方式
微软 Azure 云倡导者很高兴提供一个为期10周、共20课的完整数据科学课程。每课均包含课前和课后测验、完成课程所需的书面说明、一个解决方案和一个作业。我们的项目驱动教学法使您在构建中学习这是新技能“扎根”的有效方法
**衷心感谢我们的作者:** [Jasmine Greenaway](https://www.twitter.com/paladique)[Dmitry Soshnikov](http://soshnikov.com)[Nitya Narasimhan](https://twitter.com/nitya)[Jalen McGee](https://twitter.com/JalenMcG)[Jen Looper](https://twitter.com/jenlooper)[Maud Levy](https://twitter.com/maudstweets)[Tiffany Souterre](https://twitter.com/TiffanySouterre)[Christopher Harrison](https://www.twitter.com/geektrainer)。
**衷心感谢我们的作者:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer)。
**🙏 特别感谢我们的 [Microsoft 学生大使](https://studentambassadors.microsoft.com/) 作者、审阅者和内容贡献者,** 尤其是 Aaryan Arora、[Aditya Garg](https://github.com/AdityaGarg00)、[Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/)、[Ankita Singh](https://www.linkedin.com/in/ankitasingh007)、[Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/)、[Arpita Das](https://www.linkedin.com/in/arpitadas01/)、ChhailBihari Dubey、[Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor)、[Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb)、[Majd Safi](https://www.linkedin.com/in/majd-s/)、[Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/)、[Miguel Correa](https://www.linkedin.com/in/miguelmque/)、[Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119)、[Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum)、[Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/)、[Rohit Yadav](https://www.linkedin.com/in/rty2423)、Samridhi Sharma、[Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200)、[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/)、[Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/)、Yogendrasingh Pawar、[Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/)、[Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
**🙏 特别感谢 🙏 我们的 [Microsoft 学生大使](https://studentambassadors.microsoft.com/) 作者、审核者和内容贡献者,** 尤其是 Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/zh-CN/00-Title.8af36cd35da1ac55.webp)|
|![@sketchthedocs 制作的草图笔记 https://sketchthedocs.dev](../../translated_images/zh-CN/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| 面向初学者的数据科学 - _由 [@nitya](https://twitter.com/nitya) 绘制的思维导图_ |
| 数据科学初学者 - _由 [@nitya](https://twitter.com/nitya) 制作的草图笔记_ |
### 🌐 多语言支持
#### 通过 GitHub Action 支持(自动且始终保持最新)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[阿拉伯语](../ar/README.md) | [孟加拉语](../bn/README.md) | [保加利亚语](../bg/README.md) | [缅甸语 (Myanmar)](../my/README.md) | [中文(简体)](./README.md) | [中文(繁体,香港)](../zh-HK/README.md) | [中文(繁体,澳门)](../zh-MO/README.md) | [中文(繁体,台湾)](../zh-TW/README.md) | [克罗地亚语](../hr/README.md) | [捷克语](../cs/README.md) | [丹麦语](../da/README.md) | [荷兰语](../nl/README.md) | [爱沙尼亚语](../et/README.md) | [芬兰语](../fi/README.md) | [法语](../fr/README.md) | [德语](../de/README.md) | [希腊语](../el/README.md) | [希伯来语](../he/README.md) | [印地语](../hi/README.md) | [匈牙利语](../hu/README.md) | [印度尼西亚语](../id/README.md) | [意大利语](../it/README.md) | [日语](../ja/README.md) | [纳达语](../kn/README.md) | [韩语](../ko/README.md) | [立陶宛语](../lt/README.md) | [马来语](../ms/README.md) | [马拉雅拉姆语](../ml/README.md) | [马拉地语](../mr/README.md) | [尼泊尔语](../ne/README.md) | [尼日利亚皮钦语](../pcm/README.md) | [挪威语](../no/README.md) | [波斯语 (法尔西语)](../fa/README.md) | [波兰语](../pl/README.md) | [葡萄牙语(巴西)](../pt-BR/README.md) | [葡萄牙语 (葡萄牙)](../pt-PT/README.md) | [旁遮普语 (Gurmukhi)](../pa/README.md) | [罗马尼亚语](../ro/README.md) | [俄语](../ru/README.md) | [塞尔维亚语 (西里尔字母)](../sr/README.md) | [斯洛伐克语](../sk/README.md) | [斯洛文尼亚语](../sl/README.md) | [西班牙语](../es/README.md) | [斯瓦希里语](../sw/README.md) | [瑞典语](../sv/README.md) | [塔加洛语 (菲律宾语)](../tl/README.md) | [泰米尔语](../ta/README.md) | [泰卢固语](../te/README.md) | [泰语](../th/README.md) | [土耳其语](../tr/README.md) | [乌克兰语](../uk/README.md) | [乌尔都语](../ur/README.md) | [越南语](../vi/README.md)
[阿拉伯语](../ar/README.md) | [孟加拉语](../bn/README.md) | [保加利亚语](../bg/README.md) | [缅甸语(缅甸)](../my/README.md) | [中文(简体)](./README.md) | [中文(繁体,香港)](../zh-HK/README.md) | [中文(繁体,澳门)](../zh-MO/README.md) | [中文(繁体,台湾)](../zh-TW/README.md) | [克罗地亚语](../hr/README.md) | [捷克语](../cs/README.md) | [丹麦语](../da/README.md) | [荷兰语](../nl/README.md) | [爱沙尼亚语](../et/README.md) | [芬兰语](../fi/README.md) | [法语](../fr/README.md) | [德语](../de/README.md) | [希腊语](../el/README.md) | [希伯来语](../he/README.md) | [印地语](../hi/README.md) | [匈牙利语](../hu/README.md) | [印度尼西亚语](../id/README.md) | [意大利语](../it/README.md) | [日语](../ja/README.md) | [纳达语](../kn/README.md) | [韩语](../ko/README.md) | [立陶宛语](../lt/README.md) | [马来语](../ms/README.md) | [马拉雅拉姆语](../ml/README.md) | [马拉地语](../mr/README.md) | [尼泊尔语](../ne/README.md) | [尼日利亚皮钦语](../pcm/README.md) | [挪威语](../no/README.md) | [波斯语(法尔西)](../fa/README.md) | [波兰语](../pl/README.md) | [葡萄牙语(巴西)](../pt-BR/README.md) | [葡萄牙语(葡萄牙)](../pt-PT/README.md) | [旁遮普语(古鲁穆奇文)](../pa/README.md) | [罗马尼亚语](../ro/README.md) | [俄语](../ru/README.md) | [塞尔维亚语(西里尔文)](../sr/README.md) | [斯洛伐克语](../sk/README.md) | [斯洛文尼亚语](../sl/README.md) | [西班牙语](../es/README.md) | [斯瓦希里语](../sw/README.md) | [瑞典语](../sv/README.md) | [他加禄语(菲律宾语)](../tl/README.md) | [泰米尔语](../ta/README.md) | [泰卢固语](../te/README.md) | [泰语](../th/README.md) | [土耳其语](../tr/README.md) | [乌克兰语](../uk/README.md) | [乌尔都语](../ur/README.md) | [越南语](../vi/README.md)
> **偏好本地克隆?**
> 该仓库包含 50 多种语言的翻译,显著增加了下载大小。若想克隆时不包含翻译,请使用稀疏检出:
> **更倾向于本地克隆?**
>
> 本仓库包含50多种语言的翻译显著增加了下载大小。若想克隆时不包含翻译可以使用稀疏检出
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> 这样可以让你更快下载,同时获得完成课程所需的一切内容。
>
> **CMDWindows**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> 这将为您提供完成课程所需的所有内容,且下载速度更快。
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**如果你希望支持更多翻译语言,支持列表见 [这里](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**如果您希望支持额外的翻译语言,支持列表见 [此处](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### 加入我们的社区
#### 加入我们的社区
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
我们正在进行 Discord 上的“与 AI 学习”系列,详情及加入请访问 [Learn with AI Series](https://aka.ms/learnwithai/discord),时间为 2025 年 9 月 18 日至 30 日。你将获得使用 GitHub Copilot 进行数据科学的技巧和窍门。
我们正在进行 Discord 上的“与 AI 学习”系列,详情及加入请访问 [与 AI 学习系列](https://aka.ms/learnwithai/discord)时间为2025年9月18日-30日。您将获得使用 GitHub Copilot 进行数据科学的技巧和窍门。
![Learn with AI series](../../translated_images/zh-CN/1.2b28cdc6205e26fe.webp)
![与 AI 学习系列](../../translated_images/zh-CN/1.2b28cdc6205e26fe.webp)
# 你是学生吗?
请从以下资源开始:
- [学生中心页面](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) 在此页面,你将找到初学者资源、学生包,甚至还有获取免费证书优惠券的方法。这是你值得收藏并定期查看的一页,因为我们至少每月更换内容。
- [Microsoft Learn 学生大使](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) 加入学生大使全球社区,这可能是你进入微软的途径。
- [学生中心页面](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) 在此页面,您会找到适合初学者的资源、学生包,甚至获得免费证书凭证的方式。请收藏并不时查看该页面,因为我们至少每月更新一次内容。
- [微软学习学生大使](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) 加入全球学生大使社区,这可能是您进入微软的途径。
# 入门指南
## 📚 文档
- **[安装指南](INSTALLATION.md)** - 为初学者提供的逐步安装说明
- **[使用指南](USAGE.md)** - 示例和常工作流程
- **[故障排除](TROUBLESHOOTING.md)** - 常见问题解决方案
- **[贡献指南](CONTRIBUTING.md)** - 如何为本项目贡献
- **[安装指南](INSTALLATION.md)** - 针对初学者的逐步设置说明
- **[使用指南](USAGE.md)** - 示例和常工作流程
- **[故障排除](TROUBLESHOOTING.md)** - 常见问题解决方案
- **[贡献指南](CONTRIBUTING.md)** - 如何为本项目做出贡献
- **[教师专用](for-teachers.md)** - 教学指导和课堂资源
## 👨‍🎓 适合学生
> **完全初学者**对数据科学新手?从我们的[初学者友好示例](examples/README.md)开始吧!这些简单且注释丰富的示例将帮助你掌握基础知识,然后再深入完整课程。
> **[学生](https://aka.ms/student-page)**:想独立使用此课程,请 fork 整个仓库并独立完成练习,从课前测验开始。然后阅读讲义并完成后续活动。尝试通过理解课程内容完成项目,而不是直接复制解决方案代码;不过,这些代码在各项目导向课程的 /solutions 文件夹中可用。另一种方法是和朋友组成学习小组,一起学习内容。想进一步学习,我们推荐 [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)。
## 👨‍🎓 学生专用
> **完全初学者**刚接触数据科学?请从我们的[适合初学者的示例](examples/README.md)开始!这些简洁、注释详尽的示例将帮助您理解基础知识,再深入学习完整课程。
> **[学生们](https://aka.ms/student-page)**:若想自行使用本课程,请 fork 整个仓库,自行完成练习,从课前测验开始。然后阅读讲义,完成其余活动。建议通过理解课程内容自己动手创作项目,而非复制解决方案代码;不过,每个项目导向课程中均提供了 /solutions 文件夹的代码。另一个主意是组建学习小组,与朋友们一同学习。进一步学习建议使用 [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)。
**快速开始:**
1. 查看 [安装指南](INSTALLATION.md) 安装环境
2. 阅读 [使用指南](USAGE.md) 学习如何使用课程
1. 查阅 [安装指南](INSTALLATION.md) 设置环境
2. 浏览 [使用指南](USAGE.md) 学习如何使用课程
3. 从第一课开始,按顺序学习
4. 加入我们的 [Discord 社区](https://aka.ms/ds4beginners/discord) 寻求支持
## 👩‍🏫 适合教师
## 👩‍🏫 教师专用
> **教师**:我们在[为教师准备的一些建议](for-teachers.md)中包含了如何使用本课程的信息。我们非常欢迎您在[讨论论坛](https://github.com/microsoft/Data-Science-For-Beginners/discussions)中提供反馈!
> **教师们**:我们[提供了一些建议](for-teachers.md)关于如何使用本课程。欢迎在[讨论论坛](https://github.com/microsoft/Data-Science-For-Beginners/discussions)分享你的反馈!
## 团队介绍
[![宣传视频](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "宣传视频")
**动图作者** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
**Gif作者** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 点击上方图片观看关于项目及其创建者的视频!
> 🎥 点击上方图片观看关于项目和创作者的视频!
## 教学法
我们在构建课程时选择了两个教学原则:确保课程基于项目,并包含频繁的测验。在本系列课程结束时,学生将学会数据科学的基本原理,包括伦理概念、数据准备、不同的数据处理方法、数据可视化、数据分析、数据科学的实应用案例等。
我们在构建课程时选择了两个教学原则:确保课程以项目为基础,并包含频繁的测验。在本系列结束时,学生将学习数据科学的基本原理,包括伦理概念、数据准备、不同的数据处理方式、数据可视化、数据分析、数据科学的实应用案例等。
此外,课前的低压力测验帮助学生树立学习主题的意图课后的测验确保知识的进一步巩固。该课程设计灵活且有趣可以全部学习也可以部分学习。项目从小型开始逐渐在10周周期结束时变得更加复杂。
此外,课前的低风险测验有助于学生明确学习主题的意图而课后的第二次测验则确保进一步巩固知识。本课程设计灵活有趣可以全部完成或部分学习。项目由浅入深随着10周学习周期进展逐渐复杂。
> 查看我们的[行为则](CODE_OF_CONDUCT.md)、[贡献指南](CONTRIBUTING.md)、[翻译指南](TRANSLATIONS.md)。欢迎您的建设性反馈!
> 查看我们的[行为则](CODE_OF_CONDUCT.md)、[贡献指南](CONTRIBUTING.md)、[翻译指南](TRANSLATIONS.md)。我们欢迎您的建设性反馈!
## 每节课包括:
- 可选的草图笔记
- 可选的补充视频
- 可选的手绘笔记
- 可选的辅助视频
- 课前热身测验
- 书面课程
- 基于项目的课程,有逐步项目构建指南
- 知识检查
- 挑战
- 书面课程材料
- 以项目为基础的课程含有构建项目的逐步指南
- 知识点检测
- 一个挑战
- 补充阅读
- 作业
- [课后测验](https://ff-quizzes.netlify.app/en/)
> **关于测验的说明**:所有测验均包含在 Quiz-App 文件夹中共有40个测验每个测验3个问题。课程中提供了链接测验应用也可以本地运行或部署到 Azure请参照 `quiz-app` 文件夹中的说明。测验内容正在逐步本地化。
> **关于测验的说明**:所有测验均保存在 Quiz-App 文件夹中共40个测验每个三题。测验链接嵌入课程中但测验应用可以本地运行或部署到Azure请参阅 `quiz-app` 文件夹中的说明。测验正在逐步本地化。
## 🎓 初学者友好示例
## 🎓 适合初学者的示例
**刚接触数据科学?** 我们创建了一个特别的[示例目录](examples/README.md)提供简单且注释详细的代码,助你入门:
**刚接触数据科学?** 我们创建了一个特别的[示例目录](examples/README.md)包含简单且注释详尽的代码,帮助您入门:
- 🌟 **Hello World** - 的第一个数据科学程序
- 📂 **加载数据** - 学习读取探索数据集
- 📊 **简单分析** - 计算统计量发现模式
- 📈 **基础可视化** - 创建图表与图形
- 🔬 **实际项目** - 从头到尾完成完整工作流
- 🌟 **Hello World** - 的第一个数据科学程序
- 📂 **加载数据** - 学习读取探索数据集
- 📊 **简单分析** - 计算统计量发现模式
- 📈 **基础可视化** - 创建图表和曲线图
- 🔬 **真实项目** - 从开始到完成的完整工作流程
每个示例均包含详细注释,逐步解释每个步骤,非常适合初学者!
每个示例都包含详细的注释,解释每一步,非常适合绝对初学者!
👉 **[从示例开始](examples/README.md)** 👈
## 课程列表
|![@sketchthedocs 制作的草图笔记 https://sketchthedocs.dev](../../translated_images/zh-CN/00-Roadmap.4905d6567dff4753.webp)|
|![ @sketchthedocs 的手绘笔记 https://sketchthedocs.dev](../../translated_images/zh-CN/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| 数据科学初学者路线图 - _草图笔记作者 [@nitya](https://twitter.com/nitya)_ |
| 数据科学初学者路线图 - _手绘笔记作者 [@nitya](https://twitter.com/nitya)_ |
| 课程编号 | 主题 | 课程分组 | 学习目标 | 关联课程 | 作者 |
| 课程编号 | 主题 | 课程归类 | 学习目标 | 关联课程 | 作者 |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | 定义数据科学 | [介绍](1-Introduction/README.md) | 了解数据科学背后的基本概念及其与人工智能、机器学习和大数据的关系。 | [课程](1-Introduction/01-defining-data-science/README.md) [视频](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 01 | 定义数据科学 | [介绍](1-Introduction/README.md) | 了解数据科学的基本概念,以及其与人工智能、机器学习和大数据的关系。 | [课程](1-Introduction/01-defining-data-science/README.md) [视频](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | 数据科学伦理 | [介绍](1-Introduction/README.md) | 数据伦理的概念、挑战与框架。 | [课程](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | 定义数据 | [介绍](1-Introduction/README.md) | 数据分类及其常见来源。 | [课程](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | 统计与概率介 | [介绍](1-Introduction/README.md) | 使用概率与统计的数学技巧理解数据。 | [课程](1-Introduction/04-stats-and-probability/README.md) [视频](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | 关系型数据处理 | [数据处理](2-Working-With-Data/README.md) | 介绍关系型数据及如何使用结构化查询语言SQL读作“see-quell”)探索和分析关系型数据的基础。 | [课程](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | 非关系型数据处理 | [数据处理](2-Working-With-Data/README.md) | 介绍非关系型数据及其各种类型,及文档数据库的基础探索与分析。 | [课程](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Python 数据处理 | [数据处理](2-Working-With-Data/README.md) | 使用 Python 及 Pandas 等库进行数据探索的基础。建议具备 Python 编程基础。 | [课程](2-Working-With-Data/07-python/README.md) [视频](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | 数据准备 | [数据处理](2-Working-With-Data/README.md) | 涉及数据清洗与转换技术,处理缺失、不准确或不完整数据的挑战。 | [课程](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | 数量可视化 | [数据可视化](3-Data-Visualization/README.md) | 学习使用 Matplotlib 可视化鸟类数据 🦆 | [课程](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | 数据分布可视化 | [数据可视化](3-Data-Visualization/README.md) | 可视化观测值和区间内的趋势。 | [课程](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 03 | 定义数据 | [介绍](1-Introduction/README.md) | 数据如何分类及其常见来源。 | [课程](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | 统计与概率介 | [介绍](1-Introduction/README.md) | 使用概率和统计的数学技术理解数据。 | [课程](1-Introduction/04-stats-and-probability/README.md) [视频](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | 关系型数据处理 | [数据处理](2-Working-With-Data/README.md) | 介绍关系型数据及使用结构化查询语言SQL读作“sequel”探索和分析关系型数据的基础知识。 | [课程](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL数据处理 | [数据处理](2-Working-With-Data/README.md) | 介绍非关系型数据、其各种类型及文档数据库的探索和分析基础。 | [课程](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Python数据处理 | [数据处理](2-Working-With-Data/README.md) | 使用Python和Pandas库进行数据探索的基础。建议有Python编程基础。 | [课程](2-Working-With-Data/07-python/README.md) [视频](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | 数据准备 | [数据处理](2-Working-With-Data/README.md) | 关于数据清洗和转换的技术,处理缺失、不准确或不完整数据的挑战。 | [课程](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | 数量可视化 | [数据可视化](3-Data-Visualization/README.md) | 学习使用Matplotlib可视化鸟类数据 🦆 | [课程](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | 数据分布可视化 | [数据可视化](3-Data-Visualization/README.md) | 在区间内可视化观察数据和趋势。 | [课程](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | 比例可视化 | [数据可视化](3-Data-Visualization/README.md) | 可视化离散和分组百分比。 | [课程](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | 关系可视化 | [数据可视化](3-Data-Visualization/README.md) | 可视化数据集合及变量间的联系与相关性。 | [课程](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | 有意义的可视化 | [数据可视化](3-Data-Visualization/README.md) | 提供制作有效问题解决和洞察的可视化的技巧和指导。 | [课程](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | 数据科学生命周期介 | [生命周期](4-Data-Science-Lifecycle/README.md) | 介绍数据科学生命周期及其第一步:数据获取与提取。 | [课程](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | 分析阶段 | [生命周期](4-Data-Science-Lifecycle/README.md) | 数据科学生命周期的分析阶段,侧重数据分析技巧。 | [课程](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | 交流阶段 | [生命周期](4-Data-Science-Lifecycle/README.md) | 此阶段强调以便于决策者理解的方式展示数据洞察。 | [课程](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | 云端数据科学简介 | [云端数据](5-Data-Science-In-Cloud/README.md) | 介绍云端数据科学及其优势。 | [课程](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) 和 [Maud](https://twitter.com/maudstweets) |
| 12 | 关系可视化 | [数据可视化](3-Data-Visualization/README.md) | 可视化数据集及其变量之间的连接和相关性。 | [课程](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | 有意义的可视化 | [数据可视化](3-Data-Visualization/README.md) | 制作有价值的可视化以促进有效的问题解决和洞察的技术与指导。 | [课程](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | 数据科学生命周期介 | [生命周期](4-Data-Science-Lifecycle/README.md) | 介绍数据科学生命周期及其数据采集和提取的第一步。 | [课程](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | 数据分析 | [生命周期](4-Data-Science-Lifecycle/README.md) | 数据科学生命周期中聚焦于数据分析的阶段。 | [课程](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | 交流 | [生命周期](4-Data-Science-Lifecycle/README.md) | 数据科学生命周期中专注于以使决策者更易理解的方式呈现数据洞察的阶段。 | [课程](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | 云端数据科学 | [云端数据](5-Data-Science-In-Cloud/README.md) | 介绍云端数据科学及其好处的系列课程。 | [课程](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) 和 [Maud](https://twitter.com/maudstweets) |
| 18 | 云端数据科学 | [云端数据](5-Data-Science-In-Cloud/README.md) | 使用低代码工具训练模型。 |[课程](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) 和 [Maud](https://twitter.com/maudstweets) |
| 19 | 云端数据科学 | [云端数据](5-Data-Science-In-Cloud/README.md) | 使用 Azure 机器学习工作室部署模型。 | [课程](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) 和 [Maud](https://twitter.com/maudstweets) |
| 20 | 实战中的数据科学 | [实战](6-Data-Science-In-Wild/README.md) | 现实世界中的数据科学项目。 | [课程](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 20 | 现实世界数据科学 | [现实世界](6-Data-Science-In-Wild/README.md) | 现实世界中由数据科学驱动的项目。 | [课程](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
按以下步骤在 Codespace 中打开此示例:
1. 点击 Code 下拉菜单,选择“Open with Codespaces”选项
以下步骤在 Codespace 中打开此示例:
1. 点击 Code 下拉菜单,选择 Open with Codespaces
2. 在面板底部选择 + New codespace。
更多信息请查看 [GitHub 文档](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace)。
更多信息请查看[GitHub文档](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace)。
## VSCode 远程 - 容器
以下步骤使用您本地的 VSCode 远程 - 容器扩展,在容器中打开此仓库:
## VSCode Remote - 容器
照以下步骤,使用本地机器和 VSCode 通过 VS Code Remote - Containers 扩展在容器中打开此仓库:
1. 如果是首次使用开发容器,请确保您的系统满足先决条件(例如安装了 Docker详见[入门文档](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started)。
1. 如果首次使用开发容器,请确认系统满足前提条件(例如安装了 Docker详见[入门文档](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started)。
使用此仓库,您可以选择在隔离的 Docker 卷中打开仓库:
使用此仓库,您可以选择在隔离的 Docker 卷中打开仓库:
**注意**此操作底层将使用 Remote-Containers 的 **Clone Repository in Container Volume...** 命令将源代码克隆到 Docker 卷中,而非本地文件系统。[卷](https://docs.docker.com/storage/volumes/)是持久化容器数据的首选机制。
**注意**底层会使用 Remote-Containers: **Clone Repository in Container Volume...** 命令将源代码克隆到 Docker 卷中,而非本地文件系统。[卷](https://docs.docker.com/storage/volumes/)是持久化容器数据的推荐机制。
或者打开本地克隆或下载的仓库版本:
- 将仓库克隆到本地文件系统。
- 按 F1选择 **Remote-Containers: Open Folder in Container...** 命令。
- 选择克隆的文件夹,等待容器启动,然后开始使用
- 将仓库克隆到本地文件系统。
- 按 F1选择 **Remote-Containers: Open Folder in Container...** 命令。
- 选择本地克隆的文件夹,等待容器启动,开始体验
## 离线访问
您可以使用 [Docsify](https://docsify.js.org/#/) 离线浏览本文档。Fork 本仓库,在本地机器上[安装 Docsify](https://docsify.js.org/#/quickstart),然后在仓库根目录输入 `docsify serve`。网站将在本地主机的3000端口提供服务`localhost:3000`
您可以使用 [Docsify](https://docsify.js.org/#/) 离线运行本文档。Fork 本仓库,在本地安装 Docsify之后在仓库根目录输入 `docsify serve`。网站将在本地 `localhost:3000` 的3000端口提供访问
> 注意,Jupyter 笔记本不会通过 Docsify 渲染,需要运行笔记本时,请在 VS Code 中使用 Python 内核单独运行。
> 注意,笔记本文件不会通过 Docsify 渲染,运行笔记本时请在 VS Code 中启动 Python 内核单独运行。
## 其他课程体系
## 其他课程
我们团队还制作了其他课程!请查看:
我们团队还制作了其他课程!请查看:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![适合初学者的 LangChain4j](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js 入门](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain 入门](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![针对初学者的LangChain4j](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js for Beginners](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain for Beginners](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Agents
[![AZD 入门](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI 入门](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP 入门](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI Agents 入门](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AZD for Beginners](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI for Beginners](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP for Beginners](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI Agents for Beginners](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### 生成式 AI 系列
[![生成式 AI 入门](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![生成式 AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![生成式 AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![生成式 AI (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### Generative AI Series
[![Generative AI for Beginners](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Generative AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Generative AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![Generative AI (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### 核心学习
[![机器学习入门](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![数据科学入门](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![人工智能入门](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![网络安全入门](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Web 开发入门](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![物联网入门](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![XR 开发入门](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
### Core Learning
[![ML for Beginners](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Data Science for Beginners](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI for Beginners](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Cybersecurity for Beginners](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Web Dev for Beginners](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT for Beginners](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![XR Development for Beginners](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Copilot 系列
[![AI 配对编程 Copilot](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![C#/.NET Copilot](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot 冒险](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
### Copilot Series
[![Copilot for AI Paired Programming](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot for C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot Adventure](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## 获取帮助
## Getting Help
**遇到问题?** 请查看我们的[Troubleshooting Guide](TROUBLESHOOTING.md),了解常见问题的解决方案
**遇到问题?** 查看我们的[故障排除指南](TROUBLESHOOTING.md),解决常见问题
如果你遇到卡顿或对构建 AI 应用有任何疑问,欢迎加入其他学习者和经验丰富的开发者,一起讨论 MCP。这里是一个支持性的社区欢迎提问并自由分享知识。
如果你遇到困难或对构建 AI 应用有任何疑问,加入学习者和有经验开发者的讨论,共同探讨 MCP。这里是一个支持性的社区欢迎提问并自由分享知识。
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
@ -248,5 +259,5 @@
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**免责声明**
本文件由AI翻译服务[Co-op Translator](https://github.com/Azure/co-op-translator)翻译完成。虽然我们尽力确保翻译的准确性,但请注意,自动翻译可能包含错误或不准确之处。以原文的母语版本为权威参考。如涉及重要信息,建议使用专业人工翻译。我们不对因使用本翻译而引起的任何误解或误释承担责任。
本文件使用AI翻译服务[Co-op Translator](https://github.com/Azure/co-op-translator)进行翻译。尽管我们力求准确,但请注意,自动翻译可能包含错误或不准确之处。原始母语文档应被视为权威来源。对于重要信息,建议使用专业人工翻译。对于因使用本翻译而产生的任何误解或误释,我们不承担任何责任。
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@
Nitya Narasimhan艺术家
![路线图手绘笔记](../../../translated_images/zh-CN/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![路线图手绘笔记](../../../translated_images/zh-CN/00-Roadmap.4905d6567dff4753.webp)
**免责声明**
本文档使用AI翻译服务 [Co-op Translator](https://github.com/Azure/co-op-translator) 进行翻译。尽管我们努力确保翻译的准确性,但请注意,自动翻译可能包含错误或不准确之处。应以原始语言的文档作为权威来源。对于重要信息,建议使用专业人工翻译。我们不对因使用此翻译而产生的任何误解或误读承担责任。
Loading…
Cancel
Save