[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [آزمون پیش از درس](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@
در این چالش، سعی خواهیم کرد مفاهیم مرتبط با حوزه علم داده را با بررسی متون پیدا کنیم. ما یک مقاله ویکیپدیا درباره علم داده را انتخاب میکنیم، متن را دانلود و پردازش میکنیم، و سپس یک ابر کلمات مانند این تصویر ایجاد میکنیم:


به [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') مراجعه کنید تا کد را مرور کنید. همچنین میتوانید کد را اجرا کنید و ببینید که چگونه تمام تبدیلهای داده را به صورت زنده انجام میدهد.
"در این مثال، بیایید یک تمرین ساده انجام دهیم که تمام مراحل یک فرآیند سنتی علم داده را پوشش میدهد. نیازی نیست کدی بنویسید، فقط میتوانید روی سلولهای زیر کلیک کنید تا آنها را اجرا کرده و نتیجه را مشاهده کنید. به عنوان یک چالش، تشویق میشوید که این کد را با دادههای مختلف امتحان کنید.\n",
"در این مثال، بیایید یک تمرین ساده انجام دهیم که تمام مراحل یک فرایند سنتی علم داده را پوشش میدهد. نیازی به نوشتن کد ندارید، فقط میتوانید روی سلولهای زیر کلیک کنید تا آنها را اجرا کرده و نتیجه را مشاهده کنید. به عنوان یک چالش، تشویق میشوید این کد را با دادههای مختلف امتحان کنید.\n",
"\n",
"## هدف\n",
"\n",
"در این درس، ما درباره مفاهیم مختلف مرتبط با علم داده صحبت کردهایم. بیایید با انجام **متنکاوی** مفاهیم بیشتری را کشف کنیم. ما با متنی درباره علم داده شروع میکنیم، کلمات کلیدی را از آن استخراج میکنیم و سپس سعی میکنیم نتیجه را بصریسازی کنیم.\n",
"در این درس، درباره مفاهیم مختلف مرتبط با علم داده صحبت کردهایم. بیایید با انجام مقداری **کاوش متن** سعی کنیم مفاهیم مرتبط بیشتری کشف کنیم. با متنی درباره علم داده شروع میکنیم، کلمات کلیدی را از آن استخراج میکنیم و سپس سعی میکنیم نتیجه را به صورت تصویری نشان دهیم.\n",
"\n",
"به عنوان متن، از صفحه علم داده در ویکیپدیا استفاده خواهم کرد:\n"
"برای متن، من از صفحه درباره علم داده در ویکیپدیا استفاده میکنم:\n"
],
"metadata": {}
},
@ -34,7 +34,7 @@
"source": [
"## مرحله ۱: دریافت دادهها\n",
"\n",
"اولین مرحله در هر فرآیند علم داده، دریافت دادهها است. ما از کتابخانه `requests` برای این کار استفاده خواهیم کرد:\n"
"اولین قدم در هر فرآیند علم داده، دریافت دادهها است. ما برای این کار از کتابخانه `requests` استفاده خواهیم کرد:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## مرحله ۲: تبدیل دادهها\n",
"## گام ۲: تبدیل دادهها\n",
"\n",
"مرحله بعدی تبدیل دادهها به شکلی است که برای پردازش مناسب باشد. در مورد ما، کد منبع HTML را از صفحه دانلود کردهایم و باید آن را به متن ساده تبدیل کنیم.\n",
"گام بعدی تبدیل دادهها به شکلی است که مناسب پردازش باشد. در مورد ما، کد منبع HTML صفحه را دانلود کردهایم و نیاز داریم آن را به متن ساده تبدیل کنیم.\n",
"\n",
"روشهای زیادی برای انجام این کار وجود دارد. ما از سادهترین شیء داخلی [HTMLParser](https://docs.python.org/3/library/html.parser.html) در پایتون استفاده خواهیم کرد. لازم است کلاس `HTMLParser` را زیرکلاس کنیم و کدی تعریف کنیم که تمام متن داخل تگهای HTML را جمعآوری کند، به جز تگهای `<script>` و `<style>`.\n"
"راههای زیادی برای انجام این کار وجود دارد. ما از [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) استفاده خواهیم کرد، یک کتابخانه محبوب پایتون برای تجزیه HTML. BeautifulSoup به ما اجازه میدهد که عناصر خاص HTML را هدف قرار دهیم، بنابراین میتوانیم روی محتوای اصلی مقاله از ویکیپدیا تمرکز کنیم و برخی منوهای ناوبری، نوارهای کناری، پانوشتها و سایر محتواهای نامرتبط را کاهش دهیم (اگرچه ممکن است هنوز مقداری متن پیشفرض باقی بماند).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ابتدا باید کتابخانه BeautifulSoup برای تجزیه HTML را نصب کنیم:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## مرحله ۳: دریافت بینشها\n",
"## مرحله ۳: بهدست آوردن بینشها\n",
"\n",
"مهمترین مرحله این است که دادههای خود را به شکلی تبدیل کنیم که بتوانیم از آنها بینش کسب کنیم. در مورد ما، هدف استخراج کلمات کلیدی از متن و بررسی این است که کدام کلمات کلیدی معنادارتر هستند.\n",
"مهمترین مرحله این است که دادههای خود را به شکلی تبدیل کنیم که بتوانیم از آنها بینش استخراج کنیم. در مورد ما، میخواهیم کلیدواژههایی را از متن استخراج کنیم و ببینیم کدام کلیدواژهها معنادارتر هستند.\n",
"\n",
"ما از کتابخانه پایتون به نام [RAKE](https://github.com/aneesha/RAKE) برای استخراج کلمات کلیدی استفاده خواهیم کرد. ابتدا، اگر این کتابخانه نصب نشده باشد، باید آن را نصب کنیم:\n"
"ما از کتابخانه پایتون به نام [RAKE](https://github.com/aneesha/RAKE) برای استخراج کلیدواژه استفاده خواهیم کرد. ابتدا، بیایید این کتابخانه را در صورتی که نصب نیست، نصب کنیم:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"عملکرد اصلی از شیء `Rake` در دسترس است، که میتوانیم با استفاده از برخی پارامترها آن را سفارشی کنیم. در مورد ما، طول حداقل یک کلمه کلیدی را به ۵ کاراکتر، حداقل فراوانی یک کلمه کلیدی در سند را به ۳، و حداکثر تعداد کلمات در یک کلمه کلیدی را به ۲ تنظیم خواهیم کرد. آزادانه میتوانید با مقادیر دیگر آزمایش کنید و نتیجه را مشاهده کنید.\n"
"عملکرد اصلی از شیء `Rake` در دسترس است که میتوانیم آن را با استفاده از برخی پارامترها شخصیسازی کنیم. در مورد ما، حداقل طول یک کلیدواژه را ۵ کاراکتر، حداقل فراوانی یک کلیدواژه در سند را ۳ و حداکثر تعداد کلمات در یک کلیدواژه را ۲ تنظیم خواهیم کرد. آزادانه میتوانید با مقادیر دیگر آزمایش کنید و نتیجه را مشاهده کنید.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"ما فهرستی از اصطلاحات به همراه درجه اهمیت مرتبط با آنها به دست آوردیم. همانطور که میبینید، مرتبطترین حوزهها، مانند یادگیری ماشین و کلانداده، در بالاترین موقعیتهای فهرست قرار دارند.\n",
"ما فهرستی از اصطلاحات را همراه با درجه اهمیت مرتبط به دست آوردیم. همانطور که مشاهده میکنید، رشتههای مربوطهترین، مانند یادگیری ماشین و دادههای بزرگ، در موقعیتهای بالای فهرست حضور دارند.\n",
"\n",
"## مرحله ۴: بصریسازی نتیجه\n",
"## مرحله ۴: مصورسازی نتیجه\n",
"\n",
"افراد معمولاً دادهها را در قالب بصری بهتر تفسیر میکنند. بنابراین، اغلب منطقی است که دادهها را بصریسازی کنیم تا بتوانیم بینشهایی از آنها استخراج کنیم. میتوانیم از کتابخانه `matplotlib` در پایتون برای رسم توزیع ساده کلمات کلیدی با میزان ارتباط آنها استفاده کنیم:\n"
"مردم بهترین تفسیر دادهها را در قالب تصویری دارند. بنابراین اغلب منطقی است که دادهها را به صورت مصورسازی شده نمایش دهیم تا بتوانیم برداشتهایی به دست آوریم. میتوانیم از کتابخانه `matplotlib` در پایتون برای رسم توزیع ساده کلمات کلیدی با ارتباط آنها استفاده کنیم:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"راه بهتری برای تجسم فراوانی کلمات وجود دارد - استفاده از **ابر کلمات**. ما نیاز داریم کتابخانه دیگری را نصب کنیم تا ابر کلمات را از لیست کلمات کلیدی خود رسم کنیم.\n"
"با این حال، روش بهتری برای تجسم فراوانی کلمات وجود دارد - استفاده از **ابر کلمات**. ما نیاز داریم کتابخانه دیگری را برای رسم ابر کلمات از لیست کلیدواژههای خود نصب کنیم.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"شیء `WordCloud` مسئول دریافت متن اصلی یا فهرست از پیش محاسبهشدهای از کلمات با فراوانیهایشان است و تصویری را بازمیگرداند که میتوان آن را با استفاده از `matplotlib` نمایش داد:\n"
"شیء `WordCloud` مسئول دریافت متن اصلی یا فهرست کلمات پیشمحاسبهشده با فراوانیهایشان است و تصویری را بازمیگرداند که سپس میتوان با استفاده از `matplotlib` نمایش داد:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"ما همچنین میتوانیم متن اصلی را به `WordCloud` بدهیم - بیایید ببینیم آیا میتوانیم نتیجه مشابهی بگیریم:\n"
"ما همچنین میتوانیم متن اصلی را به `WordCloud` بدهیم - بیایید ببینیم آیا میتوانیم نتیجهی مشابهی بگیریم:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"میتوانید ببینید که اکنون نمودار کلمات جذابتر به نظر میرسد، اما همچنین شامل نویز زیادی است (مثلاً کلماتی نامرتبط مانند `Retrieved on`). همچنین، تعداد کمتری از کلمات کلیدی که از دو کلمه تشکیل شدهاند، مانند *data scientist* یا *computer science* دریافت میکنیم. این به این دلیل است که الگوریتم RAKE در انتخاب کلمات کلیدی مناسب از متن عملکرد بهتری دارد. این مثال اهمیت پیشپردازش و پاکسازی دادهها را نشان میدهد، زیرا داشتن تصویری واضح در انتها به ما امکان میدهد تصمیمات بهتری بگیریم.\n",
"میتوانید ببینید که ابر کلمات اکنون ظاهر چشمگیرتری دارد، اما همچنین شامل نویز زیادی است (مثلاً کلمات نامربوط مانند `Retrieved on`). همچنین، تعداد کلمات کلیدی که شامل دو کلمه هستند، مانند *data scientist* یا *computer science* کمتر است. این به این دلیل است که الگوریتم RAKE در انتخاب کلمات کلیدی خوب از متن عملکرد بسیار بهتری دارد. این مثال اهمیت پیشپردازش و پاکسازی دادهها را نشان میدهد، زیرا تصویر واضح در نهایت به ما اجازه میدهد تصمیمهای بهتری بگیریم.\n",
"\n",
"در این تمرین، ما یک فرآیند ساده برای استخراج معنا از متن ویکیپدیا را طی کردیم، به شکل کلمات کلیدی و نمودار کلمات. این مثال بسیار ساده است، اما به خوبی تمام مراحل معمولی که یک دانشمند داده هنگام کار با دادهها طی میکند را نشان میدهد، از جمعآوری دادهها تا مصورسازی.\n",
"در این تمرین ما از یک فرایند ساده برای استخراج معنی از متن ویکیپدیا استفاده کردیم، به صورت کلمات کلیدی و ابر کلمات. این مثال بسیار ساده است، اما همه مراحل معمولی که یک دانشمند داده هنگام کار با دادهها انجام میدهد، را به خوبی نشان میدهد، از مرحله جمعآوری دادهها تا مرحله تجسم دادهها.\n",
"\n",
"در دوره ما، تمام این مراحل را بهطور مفصل بررسی خواهیم کرد.\n"
"در دوره ما به طور مفصل همه این مراحل را بررسی خواهیم کرد.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**سلب مسئولیت**:\nاین سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه میشود از ترجمه حرفهای انسانی استفاده کنید. ما مسئولیتی در قبال سوء تفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**توجه**:\nاین سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما برای دقت تلاش میکنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است حاوی خطا یا نادرستی باشند. نسخه اصلی سند به زبان مادری آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حیاتی، استفاده از ترجمه حرفهای انسانی توصیه میشود. ما در قبال هرگونه سوءتفاهم یا برداشت نادرست ناشی از استفاده از این ترجمه مسئولیتی نداریم.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"> *در این نوتبوک، ما با استفاده از مقاله ویکیپدیا درباره یادگیری ماشین آزمایش میکنیم. میتوانید ببینید که برخلاف علم داده، این مقاله شامل اصطلاحات زیادی است که تحلیل را پیچیدهتر میکند. ما باید راه دیگری برای پاکسازی دادهها پس از استخراج کلمات کلیدی پیدا کنیم تا از شر برخی ترکیبهای پرتکرار اما بیمعنی خلاص شویم.*\n",
"> *در این دفترچه، ما با استفاده از URLهای مختلف - مقاله ویکیپدیا درباره یادگیری ماشین آزمایش میکنیم. میتوانید ببینید که برخلاف علم داده، این مقاله شامل اصطلاحات زیادی است که تحلیل را پیچیدهتر میکند. ما باید راهی دیگر برای پاکسازی دادهها پس از استخراج کلمات کلیدی پیدا کنیم تا از ترکیبات پرتکرار اما بیمعنی کلمات خلاص شویم.*\n",
"\n",
"در این مثال، بیایید یک تمرین ساده انجام دهیم که تمام مراحل یک فرآیند سنتی علم داده را پوشش میدهد. نیازی نیست کدی بنویسید، فقط میتوانید روی سلولهای زیر کلیک کنید تا آنها را اجرا کرده و نتیجه را مشاهده کنید. به عنوان یک چالش، تشویق میشوید که این کد را با دادههای مختلف امتحان کنید.\n",
"در این مثال، بیایید یک تمرین ساده انجام دهیم که تمام مراحل یک فرایند سنتی علم داده را پوشش میدهد. لازم نیست هیچ کدی بنویسید، میتوانید فقط روی سلولهای زیر کلیک کنید تا اجرا شوند و نتیجه را مشاهده کنید. به عنوان چالش، تشویق میشوید این کد را با دادههای مختلف امتحان کنید.\n",
"\n",
"## هدف\n",
"\n",
"در این درس، ما درباره مفاهیم مختلف مرتبط با علم داده صحبت کردهایم. بیایید سعی کنیم با انجام **استخراج متن** مفاهیم بیشتری را کشف کنیم. ما با متنی درباره علم داده شروع میکنیم، کلمات کلیدی را از آن استخراج میکنیم و سپس سعی میکنیم نتیجه را تجسم کنیم.\n",
"در این درس، ما درباره مفاهیم مختلف مرتبط با علم داده بحث کردهایم. بیایید با انجام کمی **کاوش متن** سعی کنیم مفاهیم مرتبط بیشتری کشف کنیم. ما با متنی درباره علم داده شروع میکنیم، کلمات کلیدی را استخراج میکنیم و سپس سعی میکنیم نتیجه را تجسم کنیم.\n",
"\n",
"به عنوان متن، از صفحه علم داده در ویکیپدیا استفاده خواهیم کرد:\n"
"منبع متن صفحه ویکیپدیا درباره علم داده است:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## مرحله۱: دریافت دادهها\n",
"## گام ۱: دریافت دادهها\n",
"\n",
"اولین مرحله در هر فرآیند علم داده، دریافت دادهها است. ما از کتابخانه `requests` برای این کار استفاده خواهیم کرد:\n"
"اولین گام در هر فرآیند علم داده، دریافت دادهها است. ما از کتابخانه `requests` برای این کار استفاده میکنیم:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## مرحله ۲: تبدیل دادهها\n",
"## گام ۲: تبدیل دادهها\n",
"\n",
"گام بعدی تبدیل دادهها به شکلی است که برای پردازش مناسب باشد. در مورد ما، کد منبع HTML را از صفحه دانلود کردهایم و باید آن را به متن ساده تبدیل کنیم.\n",
"گام بعدی تبدیل دادهها به فرم مناسب برای پردازش است. در مورد ما، کد منبع HTML صفحه را دانلود کردهایم و باید آن را به متن ساده تبدیل کنیم.\n",
"\n",
"روشهای زیادی برای انجام این کار وجود دارد. ما از سادهترین شیء داخلی [HTMLParser](https://docs.python.org/3/library/html.parser.html) در پایتون استفاده خواهیم کرد. لازم است کلاس `HTMLParser` را زیرکلاس کنیم و کدی را تعریف کنیم که تمام متن داخل تگهای HTML را جمعآوری کند، به جز تگهای `<script>` و `<style>`.\n"
"روشهای زیادی برای انجام این کار وجود دارد. ما از [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)، یک کتابخانه محبوب پایتون برای تجزیه HTML استفاده خواهیم کرد. BeautifulSoup به ما امکان میدهد عناصر HTML خاصی را هدف قرار دهیم، بنابراین میتوانیم روی محتوای اصلی مقاله در ویکیپدیا تمرکز کنیم و برخی از منوهای ناوبری، نوارهای کناری، پاصفحهها و سایر محتوای نامربوط را کاهش دهیم (اگرچه ممکن است هنوز مقداری متن ثابت باقی بماند).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"ابتدا باید کتابخانه BeautifulSoup را برای تجزیه HTML نصب کنیم:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## مرحله ۳: دریافت بینشها\n",
"## مرحله ۳: دریافت دیدگاهها\n",
"\n",
"مهمترین مرحله این است که دادههای خود را به شکلی تبدیل کنیم که بتوانیم از آنها بینش کسب کنیم. در مورد ما، میخواهیم کلمات کلیدی را از متن استخراج کنیم و ببینیم کدام کلمات کلیدی معنادارتر هستند.\n",
"مهمترین مرحله تبدیل دادههای ما به شکلی است که بتوانیم از آنها دیدگاههایی استخراج کنیم. در مورد ما، میخواهیم کلمات کلیدی را از متن استخراج کنیم و ببینیم کدام کلمات کلیدی معنیدارتر هستند.\n",
"\n",
"ما از کتابخانه پایتون به نام [RAKE](https://github.com/aneesha/RAKE) برای استخراج کلمات کلیدی استفاده خواهیم کرد. ابتدا، بیایید این کتابخانه را نصب کنیم اگر قبلاً موجود نیست:\n"
"از کتابخانه پایتون به نام [RAKE](https://github.com/aneesha/RAKE) برای استخراج کلمات کلیدی استفاده خواهیم کرد. ابتدا، بیایید این کتابخانه را در صورتی که نصب نشده است، نصب کنیم:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"عملکرد اصلی از شیء `Rake` در دسترس است که میتوانیم با استفاده از برخی پارامترها آن را سفارشی کنیم. در مورد ما، حداقل طول یک کلمه کلیدی را به ۵ کاراکتر، حداقل تکرار یک کلمه کلیدی در سند را به ۳، و حداکثر تعداد کلمات در یک کلمه کلیدی را به ۲ تنظیم خواهیم کرد. میتوانید با مقادیر دیگر آزمایش کنید و نتیجه را مشاهده کنید.\n"
"قابلیت اصلی از شیء `Rake` در دسترس است که میتوانیم با استفاده از برخی پارامترها آن را سفارشی کنیم. در مورد ما، حداقل طول یک کلیدواژه را به ۵ کاراکتر، حداقل تکرار یک کلیدواژه در سند را به ۳ و حداکثر تعداد کلمات در یک کلیدواژه را به ۲ تنظیم خواهیم کرد. احساس راحتی کنید که با مقادیر دیگر بازی کنید و نتیجه را مشاهده نمایید.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"ما فهرستی از اصطلاحات به همراه درجه اهمیت مرتبط با آنها به دست آوردیم. همانطور که میبینید، مرتبطترین حوزهها، مانند یادگیری ماشین و کلانداده، در بالاترین موقعیتهای فهرست قرار دارند.\n",
"ما فهرستی از اصطلاحات را به همراه درجه اهمیت مرتبط به دست آوردیم. همانطور که مشاهده میکنید، رشتههای مرتبطتر مانند یادگیری ماشین و دادههای بزرگ، در بالاترین جایگاههای فهرست قرار دارند.\n",
"\n",
"## مرحله ۴: بصریسازی نتیجه\n",
"## مرحله ۴: تجسم نتایج\n",
"\n",
"افراد معمولاً دادهها را در قالب بصری بهتر تفسیر میکنند. بنابراین، اغلب منطقی است که دادهها را بصریسازی کنیم تا به برخی بینشها دست یابیم. میتوانیم از کتابخانه `matplotlib` در پایتون برای رسم توزیع ساده کلمات کلیدی با میزان ارتباط آنها استفاده کنیم:\n"
"افراد بهترین تفسیر را از دادهها در شکل بصری دارند. بنابراین اغلب منطقی است که برای استخراج برخی بینشها، دادهها را تجسم کنیم. ما میتوانیم از کتابخانه `matplotlib` در پایتون برای رسم توزیع ساده کلیدواژهها با توجه به مرتبط بودنشان استفاده کنیم:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"با این حال، یک روش حتی بهتر برای تجسم فراوانی کلمات وجود دارد - استفاده از **ابر کلمات**. ما نیاز خواهیم داشت یک کتابخانه دیگر نصب کنیم تا ابر کلمات را از لیست کلمات کلیدی خود ترسیم کنیم.\n"
"راه حتی بهتری برای تجسم فراوانی کلمات وجود دارد - استفاده از **ابر کلمات**. ما نیاز داریم که یک کتابخانه دیگر را نصب کنیم تا بتوانیم ابر کلمات را از فهرست کلیدواژههای خود رسم کنیم.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"شیء `WordCloud` مسئول دریافت متن اصلی یا لیست از پیش محاسبهشده کلمات با فراوانیهایشان است و تصویری را بازمیگرداند که سپس میتوان آن را با استفاده از `matplotlib` نمایش داد:\n"
"شیء `WordCloud` مسئول دریافت متن اصلی یا لیستی از کلمات با فراوانیهای از پیش محاسبهشده است و تصویری را بازمیگرداند که میتوان آن را با استفاده از `matplotlib` نمایش داد:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"ما همچنین میتوانیم متن اصلی را به `WordCloud` بدهیم - بیایید ببینیم آیا میتوانیم نتیجه مشابهی بگیریم:\n"
"ما همچنین میتوانیم متن اصلی را به `WordCloud` بدهیم - بیایید ببینیم آیا میتوانیم نتیجه مشابهی بگیریم یا خیر:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"میتوانید ببینید که اکنون نمودار کلمات بسیار جذابتر به نظر میرسد، اما همچنین شامل نویز زیادی است (مثلاً کلماتی نامرتبط مانند `Retrieved on`). همچنین، تعداد کمتری از کلمات کلیدی که از دو کلمه تشکیل شدهاند، مانند *data scientist* یا *computer science* دریافت میکنیم. این به این دلیل است که الگوریتم RAKE در انتخاب کلمات کلیدی مناسب از متن عملکرد بهتری دارد. این مثال اهمیت پیشپردازش و پاکسازی دادهها را نشان میدهد، زیرا داشتن تصویری واضح در انتها به ما امکان میدهد تصمیمات بهتری بگیریم.\n",
"شما میتوانید ببینید که ابر کلمات اکنون نمای بهتری دارد، اما همچنین شامل نویز زیادی است (مثلاً کلمات نامرتبط مانند `Retrieved on`). همچنین، کلمات کلیدی دوکلمهای کمتری دریافت میکنیم، مانند *data scientist* یا *computer science*. این به این دلیل است که الگوریتم RAKE در انتخاب کلمات کلیدی خوب از متن عملکرد بهتری دارد. این مثال اهمیت پیشپردازش و پاکسازی دادهها را نشان میدهد، زیرا تصویر واضح در نهایت به ما این امکان را میدهد که تصمیمات بهتری اتخاذ کنیم.\n",
"\n",
"در این تمرین، ما یک فرآیند ساده برای استخراج معنا از متن ویکیپدیا را طی کردیم، به شکل کلمات کلیدی و نمودار کلمات. این مثال بسیار ساده است، اما به خوبی تمام مراحل معمولی را که یک دانشمند داده هنگام کار با دادهها طی میکند، نشان میدهد، از جمعآوری دادهها تا مصورسازی.\n",
"در این تمرین، ما مراحل سادهای برای استخراج معنایی از متن ویکیپدیا به شکل کلمات کلیدی و ابر کلمات طی کردهایم. این مثال نسبتاً ساده است، اما تمام مراحل معمولی را که یک دانشمند داده هنگام کار با دادهها انجام میدهد، از جمعآوری دادهها تا تجسم، به خوبی نشان میدهد.\n",
"\n",
"در دوره ما، تمام این مراحل را بهطور مفصل بررسی خواهیم کرد.\n"
"در دورهی ما، همه این مراحل را به تفصیل بررسی خواهیم کرد.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**سلب مسئولیت**: \nاین سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما برای دقت تلاش میکنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادقتیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفهای انسانی توصیه میشود. ما هیچ مسئولیتی در قبال سوءتفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**سلب مسئولیت**: \nاین سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما برای دقت تلاش میکنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است حاوی خطاها یا نادرستیهایی باشند. سند اصلی به زبان مادری خود باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات مهم و حیاتی، توصیه میشود از ترجمه حرفهای انسانی استفاده شود. ما مسئول هیچگونه سوءتفاهم یا تفسیر نادرستی که ناشی از استفاده از این ترجمه باشد، نمیباشیم.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
نظریه آمار و احتمال دو حوزه مرتبط از ریاضیات هستند که اهمیت زیادی در علم داده دارند. ممکن است بتوان بدون دانش عمیق ریاضی با دادهها کار کرد، اما بهتر است حداقل با برخی مفاهیم پایه آشنا باشید. در اینجا یک مقدمه کوتاه ارائه میدهیم که به شما کمک میکند شروع کنید.
## [آزمون پیش از درس](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
ما فقط میتوانیم درباره احتمال اینکه یک متغیر در یک بازه خاص از مقادیر قرار گیرد صحبت کنیم، مثلا P(t<sub>1</sub>≤X<t<sub>2</sub>). در این حالت، توزیع احتمال با یک **تابع چگالی احتمال** p(x) توصیف میشود، به طوری که
معادل پیوسته توزیع یکنواخت، **توزیع یکنواخت پیوسته** نامیده میشود که در یک بازه محدود تعریف شده است. احتمال اینکه مقدار X در یک بازه به طول l قرار گیرد متناسب با l است و تا ۱ افزایش مییابد.
@ -73,11 +73,11 @@
در اینجا جعبهنموداری که میانگین، میانه و چارکها را برای دادههای ما نشان میدهد آورده شده است:
از آنجا که دادههای ما شامل اطلاعات مربوط به **نقشهای** مختلف بازیکنان است، میتوانیم جعبهنمودار را بر اساس نقشها نیز رسم کنیم - این کار به ما اجازه میدهد تا ایدهای درباره تفاوت مقادیر پارامترها در نقشهای مختلف به دست آوریم. این بار قد را در نظر میگیریم:


این نمودار نشان میدهد که به طور متوسط، قد بازیکنان نقش اول بیشتر از بازیکنان نقش دوم است. در ادامه این درس یاد خواهیم گرفت که چگونه میتوانیم این فرضیه را به صورت رسمیتر آزمایش کنیم و نشان دهیم که دادههای ما از نظر آماری معنادار هستند.
@ -85,7 +85,7 @@
برای دیدن اینکه توزیع دادههای ما چگونه است، میتوانیم نموداری به نام **هیستوگرام** رسم کنیم. محور X شامل تعدادی بازه وزنی مختلف (به اصطلاح **بخشها**) خواهد بود، و محور عمودی تعداد دفعاتی که نمونه متغیر تصادفی در یک بازه خاص قرار گرفته است را نشان میدهد.
از این هیستوگرام میتوانید ببینید که همه مقادیر حول میانگین وزنی خاصی متمرکز شدهاند، و هرچه از آن وزن دورتر شویم - وزنهای کمتری از آن مقدار مشاهده میشود. یعنی، احتمال اینکه وزن یک بازیکن بیسبال بسیار متفاوت از میانگین وزن باشد بسیار کم است. واریانس وزنها نشان میدهد که وزنها تا چه حد ممکن است از میانگین متفاوت باشند.
اگر هیستوگرام نمونههای تولید شده را رسم کنیم، تصویری بسیار مشابه با تصویر نشان داده شده در بالا خواهیم دید. و اگر تعداد نمونهها و تعداد بخشها را افزایش دهیم، میتوانیم تصویری از توزیع نرمال که به حالت ایدهآل نزدیکتر است تولید کنیم:


*توزیع نرمال با میانگین=۰ و انحراف معیار=۱*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
در مورد ما، مقدار 0.53 نشان میدهد که بین وزن و قد یک فرد همبستگی وجود دارد. همچنین میتوانیم نمودار پراکندگی یک مقدار در مقابل دیگری را رسم کنیم تا رابطه را به صورت بصری ببینیم:


> مثالهای بیشتری از همبستگی و کوواریانس را میتوانید در [دفترچه همراه](notebook.ipynb) پیدا کنید.


> عکس از <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">استیون داوسون</a> در <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
در این درسها، شما خواهید آموخت که علم داده چگونه تعریف میشود و با ملاحظات اخلاقی که یک دانشمند داده باید در نظر بگیرد آشنا خواهید شد. همچنین خواهید آموخت که داده چگونه تعریف میشود و کمی درباره آمار و احتمال، حوزههای اصلی علمی علم داده، یاد خواهید گرفت.
در حالی که پایگاههای داده روشهای بسیار کارآمدی برای ذخیرهسازی دادهها و جستجوی آنها با استفاده از زبانهای پرسوجو ارائه میدهند، انعطافپذیرترین روش پردازش دادهها نوشتن برنامهای است که دادهها را دستکاری کند. در بسیاری از موارد، انجام یک پرسوجوی پایگاه داده میتواند مؤثرتر باشد. اما در برخی موارد که پردازش دادههای پیچیدهتر مورد نیاز است، این کار به راحتی با SQL قابل انجام نیست.
پردازش دادهها را میتوان با هر زبان برنامهنویسی انجام داد، اما برخی زبانها سطح بالاتری برای کار با دادهها دارند. دانشمندان داده معمولاً یکی از زبانهای زیر را ترجیح میدهند:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
حالا فرض کنید که هر هفته یک مهمانی برای دوستان برگزار میکنیم و 10 بسته بستنی اضافی برای مهمانی میگیریم. میتوانیم یک سری دیگر، با شاخص هفته، برای نشان دادن این موضوع ایجاد کنیم:
> **توجه** که ما از نحو ساده `total_items+additional_items` استفاده نمیکنیم. اگر این کار را میکردیم، تعداد زیادی مقدار `NaN` (*Not a Number*) در سری حاصل دریافت میکردیم. این به این دلیل است که مقادیر گمشدهای برای برخی از نقاط شاخص در سری `additional_items` وجود دارد و افزودن `NaN` به هر چیزی نتیجه `NaN` میدهد. بنابراین باید پارامتر `fill_value` را هنگام جمع مشخص کنیم.
@ -84,7 +84,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```


### DataFrame
@ -210,7 +210,7 @@ df = pd.read_csv('file.csv')
از آنجا که میخواهیم نشان دهیم چگونه با دادهها کار کنیم، از شما دعوت میکنیم [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) را باز کنید و از ابتدا تا انتها بخوانید. همچنین میتوانید سلولها را اجرا کنید و برخی چالشهایی که در انتها برای شما گذاشتهایم را انجام دهید.
> اگر نمیدانید چگونه کد را در Jupyter Notebook اجرا کنید، به [این مقاله](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) نگاهی بیندازید.
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) را باز کنید و از ابتدا تا انتها بخوانید. همچنین میتوانید سلولها را اجرا کنید و برخی چالشهایی که در انتها برای شما گذاشتهایم را انجام دهید.




> عکس از <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">الکساندر سین</a> در <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
در این درسها، شما با روشهایی آشنا خواهید شد که دادهها میتوانند مدیریت، دستکاری و در برنامهها استفاده شوند. شما درباره پایگاههای داده رابطهای و غیررابطهای و نحوه ذخیرهسازی دادهها در آنها یاد خواهید گرفت. همچنین اصول کار با پایتون برای مدیریت دادهها را خواهید آموخت و با برخی از روشهای متعدد کار با پایتون برای مدیریت و استخراج دادهها آشنا خواهید شد.
حالا، همان دادهها را با یک طرح رنگی مرتبط با عسل نمایش دهید تا نشان دهید قیمت چگونه در طول سالها تغییر کرده است. میتوانید این کار را با افزودن پارامتر 'hue' برای نمایش تغییرات سال به سال انجام دهید:
با این تغییر طرح رنگ، میتوانید ببینید که به وضوح یک پیشرفت قوی در طول سالها از نظر قیمت هر پوند عسل وجود دارد. در واقع، اگر یک مجموعه نمونه از دادهها را بررسی کنید (مثلاً ایالت آریزونا)، میتوانید الگویی از افزایش قیمت سال به سال را با چند استثنا مشاهده کنید:
آیا این یک مورد ساده از عرضه و تقاضا است؟ آیا به دلیل عواملی مانند تغییرات اقلیمی و فروپاشی کلنی، عسل کمتری برای خرید در دسترس است و بنابراین قیمت افزایش مییابد؟
✅ از آنجا که Seaborn دادهها را در یک خط تجمیع میکند، "اندازهگیریهای متعدد در هر مقدار x را با رسم میانگین و فاصله اطمینان ۹۵٪ در اطراف میانگین نمایش میدهد". [منبع](https://seaborn.pydata.org/tutorial/relational.html). این رفتار زمانبر را میتوان با افزودن `ci=None` غیرفعال کرد.
پاسخ: نه واقعاً. اگر به تولید کل نگاه کنید، به نظر میرسد که در آن سال خاص افزایش یافته است، حتی اگر به طور کلی مقدار عسل تولید شده در این سالها در حال کاهش باشد.
@ -130,7 +130,7 @@ sns.relplot(
```
در این تجسم، میتوانید بازده هر کلنی و تعداد کلنیها را سال به سال، کنار هم با تنظیم wrap در ۳ برای ستونها مقایسه کنید:
برای این مجموعه داده، هیچ چیز خاصی در مورد تعداد کلنیها و بازده آنها، سال به سال و ایالت به ایالت برجسته نیست. آیا راه دیگری برای یافتن همبستگی بین این دو متغیر وجود دارد؟
در حالی که چیزی در حدود سال ۲۰۰۳ به چشم نمیآید، این نمودار به ما اجازه میدهد این درس را با یک نکته خوشحالکنندهتر به پایان برسانیم: در حالی که تعداد کلنیها به طور کلی در حال کاهش است، تعداد کلنیها در حال تثبیت است حتی اگر بازده هر کلنی کاهش یابد.
در اینجا، بسته `ggplot2` را نصب کرده و سپس با استفاده از دستور `library("ggplot2")` آن را وارد فضای کاری میکنید. برای رسم هر نمودار در ggplot، از تابع `ggplot()` استفاده میشود و شما مجموعه داده، متغیرهای x و y را به عنوان ویژگیها مشخص میکنید. در این مورد، از تابع `geom_line()` استفاده میکنیم زیرا هدف ما رسم نمودار خطی است.
چه چیزی بلافاصله توجه شما را جلب میکند؟ به نظر میرسد حداقل یک مقدار پرت وجود دارد - این طول بال واقعاً چشمگیر است! طول بال بیش از ۲۰۰۰ سانتیمتر برابر با بیش از ۲۰ متر است - آیا پتروسورها در مینهسوتا پرسه میزنند؟ بیایید بررسی کنیم.
حتی با چرخش برچسبها به زاویه ۴۵ درجه، تعداد زیادی برای خواندن وجود دارد. بیایید استراتژی متفاوتی را امتحان کنیم: فقط مقادیر پرت را برچسبگذاری کنیم و برچسبها را در داخل نمودار قرار دهیم. میتوانید از نمودار پراکندگی برای ایجاد فضای بیشتر برای برچسبگذاری استفاده کنید:
ما یک دیتافریم جدید به نام `birds_filtered` ایجاد کردیم و سپس نمودار پراکندگی رسم کردیم. با حذف مقادیر پرت، دادههای شما اکنون منسجمتر و قابل فهمتر است.
در قطعه کد زیر، بستههای [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) و [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) را نصب میکنیم تا به دستکاری و گروهبندی دادهها برای رسم نمودار میلهای انباشته کمک کنیم. ابتدا دادهها را بر اساس `Category` پرنده گروهبندی کرده و سپس ستونهای `MinLength`، `MaxLength`، `MinBodyMass`، `MaxBodyMass`، `MinWingspan`، `MaxWingspan` را خلاصه میکنیم. سپس، نمودار میلهای را با استفاده از بسته `ggplot2` رسم کرده و رنگها و برچسبها را مشخص میکنیم.


این نمودار میلهای، با این حال، خوانا نیست زیرا دادههای غیرگروهبندی شده زیادی وجود دارد. شما باید فقط دادههایی را که میخواهید رسم کنید انتخاب کنید، بنابراین بیایید طول پرندگان را بر اساس دستهبندی آنها بررسی کنیم.
ابتدا مقادیر منحصر به فرد در ستون `Category` را شمارش کرده و سپس آنها را به یک دیتافریم جدید به نام `birds_count` مرتب میکنیم. این دادههای مرتب شده سپس در همان سطح فاکتور میشوند تا به صورت مرتب رسم شوند. با استفاده از `ggplot2` سپس دادهها را در یک نمودار میلهای رسم میکنیم. `coord_flip()` میلههای افقی را رسم میکند.
این نمودار میلهای نمای خوبی از تعداد پرندگان در هر دستهبندی نشان میدهد. با یک نگاه، میبینید که بیشترین تعداد پرندگان در این منطقه در دسته اردکها/غازها/آبزیان قرار دارند. مینهسوتا "سرزمین ۱۰,۰۰۰ دریاچه" است، بنابراین این تعجبآور نیست!


این نمودار نمای کلی از توزیع طول بدن بر اساس راسته پرندگان ارائه میدهد، اما بهترین روش برای نمایش توزیعهای واقعی نیست. این کار معمولاً با ایجاد یک هیستوگرام انجام میشود.


همانطور که مشاهده میکنید، بیشتر از 400 پرنده در این مجموعه داده در محدوده زیر 2000 برای جرم بدن حداکثر قرار دارند. با تغییر پارامتر `bins` به عددی بالاتر، مانند 30، اطلاعات بیشتری کسب کنید:


این نمودار توزیع را به صورت کمی دقیقتر نشان میدهد. میتوان نموداری کمتر متمایل به سمت چپ ایجاد کرد، با اطمینان از اینکه فقط دادههای در یک محدوده خاص انتخاب شدهاند:
✅ برخی فیلترها و نقاط داده دیگر را امتحان کنید. برای مشاهده توزیع کامل دادهها، فیلتر `['MaxBodyMass']` را حذف کنید تا توزیعهای برچسبگذاری شده نمایش داده شوند.


به نظر نمیرسد که همبستگی خوبی بین طول بال حداقل و وضعیت حفاظتی وجود داشته باشد. سایر عناصر مجموعه داده را با استفاده از این روش آزمایش کنید. میتوانید فیلترهای مختلفی را نیز امتحان کنید. آیا همبستگیای پیدا میکنید؟
میتوانید ببینید که نمودار دادههای طول بال حداقل قبلی را بازتاب میدهد؛ فقط کمی روانتر است. اگر بخواهید آن خط پلهای جرم بدن حداکثر در نمودار دوم که ساختید را بازبینی کنید، میتوانید آن را با استفاده از این روش بسیار خوب روان کنید:


✅ درباره پارامترهای موجود برای این نوع نمودار بخوانید و آزمایش کنید!
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```


وویلا، یک نمودار دایرهای که نسبتهای این دادهها را بر اساس این دو دسته قارچ نشان میدهد. بسیار مهم است که ترتیب برچسبها را به درستی تنظیم کنید، به خصوص در اینجا، بنابراین حتماً ترتیب آرایه برچسبها را بررسی کنید!
با استفاده از نمودار وافل، میتوانید به وضوح نسبتهای رنگهای کلاهک قارچها در این مجموعه داده را مشاهده کنید. جالب است که قارچهای زیادی با کلاهک سبز وجود دارند!
در این درس، شما سه روش برای تجسم نسبتها یاد گرفتید. ابتدا باید دادههای خود را به دستهها گروهبندی کنید و سپس تصمیم بگیرید که بهترین روش برای نمایش دادهها چیست - دایرهای، دونات، یا وافل. همه اینها خوشمزه هستند و کاربر را با یک نمای فوری از مجموعه داده راضی میکنند.
حالا همان دادهها را با یک طرح رنگی عسل نمایش دهید تا نشان دهید قیمت چگونه در طول سالها تغییر کرده است. میتوانید این کار را با افزودن پارامتر 'scale_color_gradientn' انجام دهید تا تغییرات سال به سال را نشان دهید:
با این تغییر طرح رنگی، میتوانید ببینید که به وضوح یک پیشرفت قوی در طول سالها از نظر قیمت هر پوند عسل وجود دارد. در واقع، اگر یک مجموعه نمونه در دادهها را بررسی کنید (مثلاً ایالت آریزونا)، میتوانید الگویی از افزایش قیمت سال به سال را مشاهده کنید، با چند استثنا:
آیا این یک مورد ساده از عرضه و تقاضا است؟ به دلیل عواملی مانند تغییرات اقلیمی و فروپاشی کلنی، آیا عسل کمتری برای خرید در دسترس است و بنابراین قیمت افزایش مییابد؟
پاسخ: نه واقعاً. اگر تولید کل را بررسی کنید، به نظر میرسد که در آن سال خاص افزایش یافته است، حتی اگر به طور کلی مقدار عسل تولید شده در این سالها در حال کاهش باشد.
برای این مجموعه داده، هیچ چیز خاصی در مورد تعداد کلنیها و بازده آنها، سال به سال و ایالت به ایالت برجسته نیست. آیا راه دیگری برای یافتن همبستگی بین این دو متغیر وجود دارد؟


در حالی که هیچ چیز خاصی در حدود سال ۲۰۰۳ به چشم نمیآید، این اجازه را به ما میدهد که این درس را با یک نکته خوشحالکنندهتر به پایان برسانیم: در حالی که تعداد کلنیها به طور کلی در حال کاهش است، تعداد کلنیها در حال تثبیت است حتی اگر بازده هر کلنی کاهش یابد.
حتی اگر یک دانشمند داده در انتخاب نمودار مناسب برای دادهها دقت کند، روشهای زیادی وجود دارد که دادهها میتوانند به گونهای نمایش داده شوند که یک نکته را ثابت کنند، اغلب به قیمت تضعیف خود دادهها. نمونههای زیادی از نمودارها و اینفوگرافیکهای گمراهکننده وجود دارد!
> 🎥 روی تصویر بالا کلیک کنید تا یک سخنرانی کنفرانس درباره نمودارهای گمراهکننده مشاهده کنید
این نمودار محور X را معکوس میکند تا بر اساس تاریخ، حقیقت را وارونه نشان دهد:


[این نمودار](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) حتی گمراهکنندهتر است، زیرا چشم به سمت راست کشیده میشود تا نتیجهگیری کند که در طول زمان، موارد COVID در شهرستانهای مختلف کاهش یافته است. در واقع، اگر به تاریخها دقت کنید، متوجه میشوید که آنها به گونهای مرتب شدهاند که روند نزولی گمراهکنندهای ایجاد کنند.


این مثال معروف از رنگ و محور Y معکوس برای گمراه کردن استفاده میکند: به جای نتیجهگیری اینکه مرگهای ناشی از اسلحه پس از تصویب قوانین دوستدار اسلحه افزایش یافته است، در واقع چشم فریب داده میشود تا فکر کند که عکس آن درست است:


این نمودار عجیب نشان میدهد که چگونه نسبتها میتوانند به شکلی دستکاری شوند که خندهدار باشد:


مقایسه موارد غیرقابل مقایسه یکی دیگر از ترفندهای مشکوک است. یک [وبسایت فوقالعاده](https://tylervigen.com/spurious-correlations) وجود دارد که تماماً درباره 'همبستگیهای جعلی' است و 'حقایق'ی را نمایش میدهد که چیزهایی مانند نرخ طلاق در مین و مصرف مارگارین را همبسته میکند. یک گروه در Reddit نیز [استفادههای زشت](https://www.reddit.com/r/dataisugly/top/?t=all) از دادهها را جمعآوری میکند.
@ -91,13 +91,13 @@
اگر دادههای شما متنی و طولانی روی محور X است، میتوانید متن را برای خوانایی بهتر زاویه دهید. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) امکان رسم سهبعدی را ارائه میدهد، اگر دادههای شما از آن پشتیبانی کند. مصورسازیهای دادهای پیشرفته میتوانند با استفاده از آن تولید شوند.
برخی از بهترین مصورسازیهای دادهای امروز متحرک هستند. شرلی وو نمونههای شگفتانگیزی با D3 دارد، مانند '[گلهای فیلم](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)'، که هر گل یک مصورسازی از یک فیلم است. نمونه دیگری برای گاردین 'بیرون فرستاده شده' است، یک تجربه تعاملی که مصورسازیها را با Greensock و D3 به علاوه یک قالب مقاله اسکرولتلیگ ترکیب میکند تا نشان دهد چگونه نیویورک با مشکل بیخانمانهای خود با بیرون فرستادن افراد از شهر برخورد میکند.
> "بیرون فرستاده شده: چگونه آمریکا بیخانمانهای خود را جابهجا میکند" از [گاردین](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). مصورسازیها توسط نادیه برمر و شرلی وو
@ -107,7 +107,7 @@
شما یک اپلیکیشن وب کامل خواهید کرد که نمای متحرکی از این شبکه اجتماعی را نمایش میدهد. این اپلیکیشن از یک کتابخانه استفاده میکند که برای ایجاد [نمایی از یک شبکه](https://github.com/emiliorizzo/vue-d3-network) با استفاده از Vue.js و D3 ساخته شده است. هنگامی که اپلیکیشن اجرا میشود، میتوانید گرهها را روی صفحه بکشید تا دادهها را جابهجا کنید.


> عکس از <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">جنا لی</a> در <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
مصورسازی دادهها یکی از مهمترین وظایف یک دانشمند داده است. تصاویر به اندازه هزار کلمه ارزش دارند و یک مصورسازی میتواند به شما کمک کند تا انواع مختلفی از جنبههای جالب دادههایتان مانند جهشها، نقاط پرت، گروهبندیها، تمایلات و موارد دیگر را شناسایی کنید که میتوانند به شما در درک داستانی که دادههایتان میخواهند بگویند، کمک کنند.
این درس بر سه بخش از چرخه عمر تمرکز دارد: جمعآوری، پردازش و نگهداری.


> عکس از [مدرسه اطلاعات برکلی](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## جمعآوری
@ -92,7 +92,7 @@
|فرآیند تیم علم داده (TDSP)|استاندارد صنعتی برای دادهکاوی (CRISP-DM)|
|--|--|
| |  |
| |  |
| تصویر توسط [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | تصویر توسط [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
> عکس از <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> در <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
در این درسها، برخی از جنبههای چرخه حیات علم داده را بررسی خواهید کرد، از جمله تحلیل و ارتباطات پیرامون دادهها.
> عکس از [Jelleke Vanooteghem](https://unsplash.com/@ilumire) در [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
وقتی صحبت از انجام علم داده با دادههای بزرگ میشود، فضای ابری میتواند یک تغییر اساسی ایجاد کند. در سه درس بعدی، بررسی خواهیم کرد که فضای ابری چیست و چرا میتواند بسیار مفید باشد. همچنین یک مجموعه داده مربوط به نارسایی قلبی را بررسی کرده و مدلی برای ارزیابی احتمال نارسایی قلبی در افراد ایجاد خواهیم کرد. از قدرت فضای ابری برای آموزش، استقرار و استفاده از مدل به دو روش مختلف استفاده خواهیم کرد. یک روش با استفاده از رابط کاربری به صورت "کد کم/بدون کد"، و روش دیگر با استفاده از کیت توسعه نرمافزار Azure Machine Learning (Azure ML SDK).
* [علم داده در مراقبتهای بهداشتی](https://data-flair.training/blogs/data-science-in-healthcare/) - کاربردهایی مانند تصویربرداری پزشکی (مانند MRI، اشعه ایکس، سیتیاسکن)، ژنومیک (توالییابی DNA)، توسعه دارو (ارزیابی ریسک، پیشبینی موفقیت)، تحلیلهای پیشبینیکننده (مراقبت از بیمار و لجستیک تامین)، ردیابی و پیشگیری از بیماری و غیره را برجسته میکند.
 اعتبار تصویر: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 اعتبار تصویر: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
این شکل حوزهها و مثالهای دیگری برای کاربرد تکنیکهای علم داده را نشان میدهد. آیا میخواهید کاربردهای دیگری را بررسی کنید؟ بخش [مرور و مطالعه خود](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) را در زیر ببینید.
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
حمایتکنندگان ابری آزور در مایکروسافت خوشحالند که یک برنامه درسی ۱۰ هفتهای، شامل ۲۰ درس درباره علم داده ارائه دهند. هر درس شامل آزمونهای قبل و بعد از درس، دستورالعملهای کتبی برای تکمیل درس، راهحل و یک تکلیف است. آموزش مبتنی بر پروژه ما به شما اجازه میدهد در حین ساختن یاد بگیرید، روشی اثباتشده برای ماندگاری مهارتهای جدید.
مدافعان فضای ابری آزور در مایکروسافت خوشحالند که یک برنامه درسی ۱۰ هفتهای با ۲۰ درس درباره علوم داده ارائه دهند. هر درس شامل آزمونهای قبل و بعد از درس، دستورالعملهای نوشتاری برای تکمیل درس، راهحل و تمرین است. روش آموزشی مبتنی بر پروژه ما به شما اجازه میدهد در حین ساختن یاد بگیرید، روشی اثباتشده برای ماندگاری مهارتهای جدید.
> این مخزن بیش از ۵۰ ترجمه زبانی دارد که اندازه دانلود را بطور قابل توجهی افزایش میدهد. برای کلون بدون ترجمهها از sparse checkout استفاده کنید:
> **ترجیح میدهید به صورت محلی کلون کنید؟**
>
> این مخزن شامل بیش از ۵۰ ترجمه زبان است که اندازه دانلود را به طور قابل توجهی افزایش میدهد. برای کلون کردن بدون ترجمهها، از sparse checkout استفاده کنید:
ما یک سری یادگیری در دیسکورد با هوش مصنوعی داریم، بیشتر بیاموزید و از ۱۸ تا ۳۰ سپتامبر ۲۰۲۵ به ما بپیوندید در [سری آموزش با هوش مصنوعی](https://aka.ms/learnwithai/discord). شما نکات و ترفندهای استفاده از GitHub Copilot برای علم داده را دریافت خواهید کرد.
ما سری یادگیری با هوش مصنوعی را در دیسکورد داریم، بیشتر بدانید و از ۱۸ تا ۳۰ سپتامبر ۲۰۲۵ به ما در [سری یادگیری با هوش مصنوعی](https://aka.ms/learnwithai/discord) بپیوندید. شما نکات و ترفندهای استفاده از GitHub Copilot برای علوم داده را خواهید آموخت.


# آیا شما دانشجو هستید؟
# آیا دانشجو هستید؟
با منابع زیر شروع کنید:
- [صفحه مرکز دانشجویی](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) در این صفحه منابع برای مبتدیان، بستههای دانشجویی و حتی روشهایی برای دریافت کارت رایگان صدور گواهی خواهید یافت. این صفحهای است که میخواهید نشانک بزنید و هر از گاهی بررسی کنید چون ما محتوا را حداقل ماهانه تعویض میکنیم.
- [سفیران دانشجویی مایکروسافت](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) به یک جامعه جهانی سفیران دانشجویی بپیوندید، این میتواند راه شما به مایکروسافت باشد.
- [صفحه مرکز دانشجویی](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) در این صفحه منابع مبتدی، بستههای دانشجویی و حتی راههایی برای دریافت کوپن رایگان گواهینامه را خواهید یافت. این صفحهای است که میخواهید نشانهگذاری کنید و هر از گاهی بررسی کنید زیرا ما حداقل ماهانه محتوا را تغییر میدهیم.
- [سفیران دانشجویی مایکروسافت](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) به جامعه جهانی سفیران دانشجویی بپیوندید، این میتواند راه ورود شما به مایکروسافت باشد.
# شروع به کار
## 📚 مستندات
- **[راهنمای نصب](INSTALLATION.md)** - دستورالعمل گام به گام برای مبتدیان
- **[راهنمای استفاده](USAGE.md)** - نمونهها و جریانهای کاری رایج
- **[راهنمای مشارکت](CONTRIBUTING.md)** - چگونه به این پروژه کمک کنیم
- **[برای معلمان](for-teachers.md)** - راهنمای تدریس و منابع کلاسی
## 👨🎓 برای دانشجویان
> **مبتدی مطلق**: تازه وارد علم داده شدهاید؟ با [نمونههای دوستانه برای مبتدیان](examples/README.md) ما شروع کنید! این نمونههای ساده و کامنتگذاری شده به شما کمک میکند پایهها را قبل از ورود به برنامه درسی کامل درک کنید.
> **[دانشجویان](https://aka.ms/student-page)**: برای استفاده از این برنامه درسی به صورت خودآموز، کل مخزن را فورک کنید و تمرینات را به تنهایی کامل کنید، از آزمون پیش-درس شروع کنید. سپس درس را بخوانید و بقیه فعالیتها را انجام دهید. سعی کنید پروژهها را با درک درسها بسازید نه کپی کردن کد راهحل؛ هرچند آن کد در پوشه /solutions در هر درس مبتنی بر پروژه موجود است. ایده دیگر تشکیل یک گروه مطالعاتی با دوستان و مرور محتوا با هم است. برای مطالعه بیشتر، ما [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) را توصیه میکنیم.
> **کاملاً مبتدی:** به علوم داده تازه واردید؟ با [مثالهای مناسب مبتدیان](examples/README.md) ما شروع کنید! این مثالهای ساده و با توضیحات کامل به شما کمک میکنند قبل از ورود به برنامه درسی کامل، اصول را بفهمید.
> **[دانشجویان](https://aka.ms/student-page)**: برای استفاده از این برنامه به صورت مستقل، کل مخزن را فورک کنید و تمرینها را خودتان کامل کنید، با آزمون پیشدرس شروع کنید. سپس درس را بخوانید و بقیه فعالیتها را انجام دهید. تلاش کنید پروژهها را با درک درسها بسازید نه با کپی کردن کد راهحل؛ البته آن کدها در فولدر /solutions در هر درس پروژهمحور موجود است. ایده دیگر تشکیل گروه مطالعه با دوستان و مرور محتوایی است. برای مطالعه بیشتر، ما مایکروسافت لرن را پیشنهاد میکنیم [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**شروع سریع:**
1. راهنمای [نصب](INSTALLATION.md) را برای راهاندازی محیط خود بررسی کنید
2. راهنمای [استفاده](USAGE.md) را برای یادگیری چگونه کار کردن با برنامه درسی مرور کنید
3. با درس ۱ شروع کرده و به ترتیب پیش بروید
4. برای پشتیبانی به [جامعه دیسکورد ما](https://aka.ms/ds4beginners/discord) بپیوندید
1. راهنمای نصب را بررسی کنید تا محیط خود را راهاندازی کنید
2. راهنمای استفاده را مرور کنید تا یاد بگیرید چگونه با برنامه کار کنید
3. از درس ۱ شروع کنید و به ترتیب پیش بروید
4. به [جامعه دیسکورد ما](https://aka.ms/ds4beginners/discord) برای دریافت پشتیبانی بپیوندید
## 👩🏫 برای معلمان
> **معلمان**: ما [چند پیشنهاد](for-teachers.md) برای چگونگی استفاده از این برنامه درسی ارائه کردهایم. خوشحال میشویم بازخورد شما را [در انجمن بحث و گفتگو](https://github.com/microsoft/Data-Science-For-Beginners/discussions) دریافت کنیم!
> **معلمان**: ما [چند پیشنهاد](for-teachers.md) برای استفاده از این برنامه درسی ارائه کردهایم. خوشحال میشویم بازخورد شما را در [انجمن بحث ما](https://github.com/microsoft/Data-Science-For-Beginners/discussions) دریافت کنیم!
> 🎥 برای دیدن ویدیو درباره پروژه و افرادی که آن را ساختهاند روی تصویر بالا کلیک کنید!
> 🎥 برای دیدن ویدئویی درباره پروژه و افرادی که آن را ساختهاند، روی تصویر بالا کلیک کنید!
## روش تدریس
در ساخت این دوره آموزشی، دو اصل آموزشی را انتخاب کردهایم: اطمینان از اینکه پروژهمحور است و شامل آزمونهای مکرر باشد. در پایان این مجموعه، دانشآموزان اصول پایهای علم داده را یاد خواهند گرفت، از جمله مفاهیم اخلاقی، آمادهسازی دادهها، روشهای مختلف کار با داده، مصورسازی داده، تحلیل داده، کاربردهای واقعی علم داده و بیشتر.
ما در ساخت این برنامه درسی دو اصل آموزشی را انتخاب کردهایم: اطمینان از اینکه آموزش مبتنی بر پروژه باشد و شامل آزمونهای مکرر باشد. تا پایان این سری درسها، دانشآموزان اصول پایهای علم داده، از جمله مفاهیم اخلاقی، آمادهسازی دادهها، روشهای مختلف کار با دادهها، مصورسازی دادهها، تحلیل دادهها، موارد کاربرد دنیای واقعی علم داده و موارد بیشتر را یاد خواهند گرفت.
علاوه بر این، یک آزمون کمفشار قبل از کلاس، قصد دانشآموز را برای یادگیری موضوعی مشخص میکند و آزمون دوم پس از کلاس، به تثبیت بیشتر مطلب کمک میکند. این دوره طوری طراحی شده که انعطافپذیر و سرگرمکننده باشد و میتوان کل آن یا بخشی از آن را طی کرد. پروژهها کوچک شروع شده و تا پایان چرخه ۱۰ هفتهای به تدریج پیچیدهتر میشوند.
علاوه بر این، یک آزمون کم اهمیت قبل از کلاس قصد یادگیری دانشآموز را در مورد موضوعی مشخص میکند، و یک آزمون دوم پس از کلاس حفظ بیشتر را تضمین میکند. این برنامه درسی به گونهای طراحی شده که انعطافپذیر و جذاب باشد و میتوان آن را به طور کامل یا بخشی از آن را گرفت. پروژهها از کوچک شروع میشوند و تا پایان چرخه ده هفتهای به تدریج پیچیدهتر میشوند.
> دستورالعملهای [Code of Conduct](CODE_OF_CONDUCT.md)، [Contributing](CONTRIBUTING.md) و [Translation](TRANSLATIONS.md) ما را پیدا کنید. بازخورد سازنده شما را خوشآمد میگوییم!
> راهنمای [رفتارنامه](CODE_OF_CONDUCT.md)، [مشارکت](CONTRIBUTING.md)، [ترجمه](TRANSLATIONS.md) را بیابید. ما از بازخورد سازنده شما استقبال میکنیم!
## هر درس شامل:
- یادداشت تصویری اختیاری
- ویدیو تکمیلی اختیاری
- آزمون گرمکننده پیش از درس
- درس نوشتاری
- برای درسهای پروژهمحور، راهنمای گامبهگام برای ساخت پروژه
- نقشهکشی اختیاری
- ویدئوی مکمل اختیاری
- آزمون گرمکردن پیش از درس
- درس مکتوب
- برای درسهای مبتنی بر پروژه، راهنمای گامبهگام ساخت پروژه
- بررسی دانش
- چالش
- مطالعه تکمیلی
- مطالعه مکمل
- تکلیف
- [آزمون پس از درس](https://ff-quizzes.netlify.app/en/)
> **نکتهای درباره آزمونها**: همه آزمونها در پوشه Quiz-App قرار دارند، شامل ۴۰ آزمون با سه سوال هر کدام. اینها از داخل درسها لینک شدهاند، اما میتوان برنامه آزمون را به صورت محلی اجرا یا در Azure مستقر کرد؛ دستورالعملها در پوشه `quiz-app` قرار دارد. آزمونها به تدریج محلیسازی میشوند.
> **نکتهای درباره آزمونها**: تمام آزمونها در پوشه Quiz-App موجود است، مجموعاً ۴۰ آزمون با سه سوال هر کدام. این آزمونها از داخل درسها لینک شدهاند اما برنامه آزمون میتواند به صورت محلی اجرا یا روی Azure مستقر شود؛ دستورالعملها در پوشه `quiz-app` آمده است. این آزمونها به تدریج بومیسازی میشوند.
## 🎓 مثالهای مناسب مبتدیان
**جدید در علم داده هستید؟** ما یک [دایرکتوری مثال](examples/README.md) ویژه با کدهای ساده و به خوبی کامنتگذاری شده ایجاد کردهایم تا به شما در شروع کمک کند:
**به علم داده تازهواردید؟** دایرکتوری خاصی از [مثالها](examples/README.md) ساختهایم با کد ساده و کامنتگذاری شده برای کمک به شروع شما:
- 🌟 **سلام دنیا** - اولین برنامه علم داده شما
- 📂 **بارگذاری دادهها** - یادگیری خواندن و بررسی دادهها
- 📂 **بارگذاری دادهها** - یادگیری خواندن و بررسی مجموعه دادهها
- 📊 **تحلیل ساده** - محاسبه آمار و یافتن الگوها
- 📈 **مصورسازی پایه** - ساخت نمودارها و گرافها
- 🔬 **پروژه دنیای واقعی** - جریان کاری کامل از ابتدا تا انتها
- 📈 **مصورسازی پایه** - ایجاد نمودارها و گرافها
- 🔬 **پروژه دنیای واقعی** - جریان کاری کامل از ابتدا تا پایان
هر مثال شامل کامنتهای مفصل است که هر مرحله را توضیح میدهد، مناسب برای کاملاً مبتدیها!
هر مثال شامل توضیحات جزئی هر مرحله است که آن را برای مبتدیان مطلق ایدهآل میکند!
👉 **[شروع با مثالها](examples/README.md)** 👈
## دروس
## درسها
||
||
|:---:|
| دادهکاوی برای مبتدیان: نقشه راه - _یادداشت تصویری توسط [@nitya](https://twitter.com/nitya)_ |
| نقشه راه علم داده برای مبتدیان - _نقشهکشی توسط [@nitya](https://twitter.com/nitya)_ |
| شماره درس | موضوع | گروه درس | اهداف یادگیری | درس مرتبط | نویسنده |
| ۰۱ | تعریف علم داده | [مقدمه](1-Introduction/README.md) | یادگیری مفاهیم پایه علم داده و رابطه آن با هوش مصنوعی، یادگیری ماشین و دادههای بزرگ. | [درس](1-Introduction/01-defining-data-science/README.md) [ویدیو](https://youtu.be/beZ7Mb_oz9I) | [دیمیتری](http://soshnikov.com) |
| ۰۲ | اخلاق در علم داده | [مقدمه](1-Introduction/README.md) | مفاهیم اخلاقی داده، چالشها و چهارچوبها. | [درس](1-Introduction/02-ethics/README.md) | [نیتیا](https://twitter.com/nitya) |
| ۰۳ | تعریف داده | [مقدمه](1-Introduction/README.md) | چگونگی دستهبندی داده و منابع معمول آن. | [درس](1-Introduction/03-defining-data/README.md) | [جاسمین](https://www.twitter.com/paladique) |
| ۰۴ | مقدمهای بر آمار و احتمال | [مقدمه](1-Introduction/README.md) | تکنیکهای ریاضی احتمالات و آمار برای درک دادهها. | [درس](1-Introduction/04-stats-and-probability/README.md) [ویدیو](https://youtu.be/Z5Zy85g4Yjw) | [دیمیتری](http://soshnikov.com) |
| ۰۵ | کار با دادههای رابطهای | [کار با داده](2-Working-With-Data/README.md) | مقدمهای بر دادههای رابطهای و مبانی بررسی و تحلیل دادههای رابطهای با زبان پرسوجوی ساختیافته، معروف به SQL (تلفظ "سیکوئل"). | [درس](2-Working-With-Data/05-relational-databases/README.md) | [کریستوفر](https://www.twitter.com/geektrainer) | | |
| ۰۶ | کار با دادههای NoSQL | [کار با داده](2-Working-With-Data/README.md) | مقدمهای بر دادههای غیررابطهای، انواع مختلف آن و مبانی بررسی و تحلیل پایگاههای داده سندی. | [درس](2-Working-With-Data/06-non-relational/README.md) | [جاسمین](https://twitter.com/paladique)|
| ۰۷ | کار با پایتون | [کار با داده](2-Working-With-Data/README.md) | مبانی استفاده از پایتون برای بررسی دادهها با کتابخانههایی مثل Pandas. داشتن درک پایهای از برنامهنویسی پایتون توصیه میشود. | [درس](2-Working-With-Data/07-python/README.md) [ویدیو](https://youtu.be/dZjWOGbsN4Y) | [دیمیتری](http://soshnikov.com) |
| ۰۸ | آمادهسازی داده | [کار با داده](2-Working-With-Data/README.md) | موضوعاتی درباره تکنیکهای داده برای پاکسازی و تبدیل دادهها به منظور مقابله با چالشهای دادههای گمشده، نادرست یا ناقص. | [درس](2-Working-With-Data/08-data-preparation/README.md) | [جاسمین](https://www.twitter.com/paladique) |
| ۰۹ | مصورسازی کمیتها | [مصورسازی داده](3-Data-Visualization/README.md) | یادگیری استفاده از Matplotlib برای مصورسازی دادههای پرندگان 🦆 | [درس](3-Data-Visualization/09-visualization-quantities/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۰ | مصورسازی توزیع دادهها | [مصورسازی داده](3-Data-Visualization/README.md) | مصورسازی مشاهدات و روندها در بازهای مشخص. | [درس](3-Data-Visualization/10-visualization-distributions/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۲ | مصورسازی روابط | [مصورسازی داده](3-Data-Visualization/README.md) | مصورسازی اتصالات و همبستگیها بین مجموعههای داده و متغیرهایشان. | [درس](3-Data-Visualization/12-visualization-relationships/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۳ | مصورسازیهای معنادار | [مصورسازی داده](3-Data-Visualization/README.md) | تکنیکها و راهنماییهایی برای ارزشمند کردن مصورسازیها برای حل مؤثر مسائل و کسب بینش. | [درس](3-Data-Visualization/13-meaningful-visualizations/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۴ | مقدمهای بر چرخه عمر علم داده | [چرخه عمر](4-Data-Science-Lifecycle/README.md) | معرفی چرخه عمر علم داده و اولین گام آن در کسب و استخراج داده. | [درس](4-Data-Science-Lifecycle/14-Introduction/README.md) | [جاسمین](https://twitter.com/paladique) |
| ۱۵ | تحلیل | [چرخه عمر](4-Data-Science-Lifecycle/README.md) | این مرحله از چرخه عمر علم داده بر تکنیکهای تحلیل داده تمرکز دارد. | [درس](4-Data-Science-Lifecycle/15-analyzing/README.md) | [جاسمین](https://twitter.com/paladique) | | |
| ۱۶ | ارتباطات | [چرخه عمر](4-Data-Science-Lifecycle/README.md) | این مرحله از چرخه عمر علم داده بر ارائه بینشهای داده به شیوهای متمرکز است که تصمیمگیرندگان راحتتر آنها را درک کنند. | [درس](4-Data-Science-Lifecycle/16-communication/README.md) | [جالن](https://twitter.com/JalenMcG) | | |
| ۱۷ | علم داده در فضای ابری | [داده در فضای ابری](5-Data-Science-In-Cloud/README.md) | این سری دروس، علم داده در فضای ابری و مزایای آن را معرفی میکند. | [درس](5-Data-Science-In-Cloud/17-Introduction/README.md) | [تیفانی](https://twitter.com/TiffanySouterre) و [مود](https://twitter.com/maudstweets) |
| ۱۸ | علم داده در فضای ابری | [داده در فضای ابری](5-Data-Science-In-Cloud/README.md) | آموزش مدلها با ابزارهای کد کم. |[درس](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [تیفانی](https://twitter.com/TiffanySouterre) و [مود](https://twitter.com/maudstweets) |
| ۱۹ | علم داده در فضای ابری | [داده در فضای ابری](5-Data-Science-In-Cloud/README.md) | پیادهسازی مدلها با Azure Machine Learning Studio. | [درس](5-Data-Science-In-Cloud/19-Azure/README.md)| [تیفانی](https://twitter.com/TiffanySouterre) و [مود](https://twitter.com/maudstweets) |
| ۰۱ | تعریف علم داده | [مقدمه](1-Introduction/README.md) | یادگیری مفاهیم پایه علم داده و ارتباط آن با هوش مصنوعی، یادگیری ماشین، و دادههای بزرگ. | [درس](1-Introduction/01-defining-data-science/README.md) [ویدئو](https://youtu.be/beZ7Mb_oz9I) | [دیمیتری](http://soshnikov.com) |
| ۰۲ | اخلاق در علم داده | [مقدمه](1-Introduction/README.md) | مفاهیم اخلاق داده، چالشها و چارچوبها. | [درس](1-Introduction/02-ethics/README.md) | [نیتیا](https://twitter.com/nitya) |
| ۰۳ | تعریف داده | [مقدمه](1-Introduction/README.md) | نحوه طبقهبندی دادهها و منابع رایج آنها. | [درس](1-Introduction/03-defining-data/README.md) | [ژاسمین](https://www.twitter.com/paladique) |
| ۰۴ | مقدمهای بر آمار و احتمال | [مقدمه](1-Introduction/README.md) | تکنیکهای ریاضی احتمال و آمار برای فهم دادهها. | [درس](1-Introduction/04-stats-and-probability/README.md) [ویدئو](https://youtu.be/Z5Zy85g4Yjw) | [دیمیتری](http://soshnikov.com) |
| ۰۵ | کار با دادههای رابطهای | [کار با داده](2-Working-With-Data/README.md) | مقدمهای بر دادههای رابطهای و اصول بررسی و تحلیل دادههای رابطهای با زبان پرسوجوی ساختاریافته، معروف به SQL (تلفظ "سی-کول"). | [درس](2-Working-With-Data/05-relational-databases/README.md) | [کریستوفر](https://www.twitter.com/geektrainer) | | |
| ۰۶ | کار با دادههای NoSQL | [کار با داده](2-Working-With-Data/README.md) | مقدمهای بر دادههای غیررابطهای، انواع مختلف آن و اصول بررسی و تحلیل پایگاههای سندی. | [درس](2-Working-With-Data/06-non-relational/README.md) | [ژاسمین](https://twitter.com/paladique)|
| ۰۷ | کار با پایتون | [کار با داده](2-Working-With-Data/README.md) | اصول استفاده از پایتون برای کاوش دادهها با کتابخانههایی مانند Pandas. درک پایهای برنامهنویسی پایتون توصیه میشود. | [درس](2-Working-With-Data/07-python/README.md) [ویدئو](https://youtu.be/dZjWOGbsN4Y) | [دیمیتری](http://soshnikov.com) |
| ۰۸ | آمادهسازی داده | [کار با داده](2-Working-With-Data/README.md) | موضوعات مربوط به تکنیکهای پاکسازی و تبدیل دادهها برای مقابله با چالشهای دادههای ناقص، نادرست یا ناقص. | [درس](2-Working-With-Data/08-data-preparation/README.md) | [ژاسمین](https://www.twitter.com/paladique) |
| ۰۹ | مصورسازی کمیتها | [مصورسازی داده](3-Data-Visualization/README.md) | یادگیری استفاده از Matplotlib برای مصورسازی دادههای پرنده 🦆 | [درس](3-Data-Visualization/09-visualization-quantities/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۰ | مصورسازی توزیع داده | [مصورسازی داده](3-Data-Visualization/README.md) | مصورسازی مشاهدات و روندها در یک بازه زمانی. | [درس](3-Data-Visualization/10-visualization-distributions/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۲ | مصورسازی روابط | [مصورسازی داده](3-Data-Visualization/README.md) | مصورسازی ارتباطات و همبستگیها بین مجموعههای داده و متغیرهایشان. | [درس](3-Data-Visualization/12-visualization-relationships/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۳ | مصورسازیهای معنادار | [مصورسازی داده](3-Data-Visualization/README.md) | تکنیکها و راهنمایی برای مفید ساختن مصورسازیها به منظور حل موثر مسئله و کسب بینش. | [درس](3-Data-Visualization/13-meaningful-visualizations/README.md) | [جن](https://twitter.com/jenlooper) |
| ۱۴ | مقدمهای بر چرخه عمر علم داده | [چرخه عمر](4-Data-Science-Lifecycle/README.md) | مقدمهای بر چرخه عمر علم داده و اولین مرحله آن که کسب و استخراج داده است. | [درس](4-Data-Science-Lifecycle/14-Introduction/README.md) | [ژاسمین](https://twitter.com/paladique) |
| ۱۵ | تحلیل داده | [چرخه عمر](4-Data-Science-Lifecycle/README.md) | این مرحله از چرخه عمر علم داده بر تکنیکهای تحلیل داده تمرکز دارد. | [درس](4-Data-Science-Lifecycle/15-analyzing/README.md) | [ژاسمین](https://twitter.com/paladique) | | |
| ۱۶ | ارتباطات | [چرخه عمر](4-Data-Science-Lifecycle/README.md) | این مرحله از چرخه عمر علم داده بر ارائه یافتهها به گونهای که تصمیمگیرندگان بتوانند راحتتر درک کنند متمرکز است. | [درس](4-Data-Science-Lifecycle/16-communication/README.md) | [جالن](https://twitter.com/JalenMcG) | | |
| ۱۷ | علم داده در فضای ابری | [داده ابری](5-Data-Science-In-Cloud/README.md) | این سری درسها علم داده در فضای ابری و مزایای آن را معرفی میکند. | [درس](5-Data-Science-In-Cloud/17-Introduction/README.md) | [تیفانی](https://twitter.com/TiffanySouterre) و [ماد](https://twitter.com/maudstweets) |
| ۱۸ | علم داده در فضای ابری | [داده ابری](5-Data-Science-In-Cloud/README.md) | آموزش مدلها با استفاده از ابزارهای Low Code. |[درس](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [تیفانی](https://twitter.com/TiffanySouterre) و [ماد](https://twitter.com/maudstweets) |
| ۱۹ | علم داده در فضای ابری | [داده ابری](5-Data-Science-In-Cloud/README.md) | استقرار مدلها با Azure Machine Learning Studio. | [درس](5-Data-Science-In-Cloud/19-Azure/README.md)| [تیفانی](https://twitter.com/TiffanySouterre) و [ماد](https://twitter.com/maudstweets) |
| ۲۰ | علم داده در دنیای واقعی | [در دنیای واقعی](6-Data-Science-In-Wild/README.md) | پروژههای مبتنی بر علم داده در دنیای واقعی. | [درس](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [نیتیا](https://twitter.com/nitya) |
## گیتهاب کداسپیس
## گیتهاب کدسپیسها
برای باز کردن این نمونه در یک Codespace مراحل زیر را دنبال کنید:
1. منوی کشویی Code را کلیک کرده و گزینه Open with Codespaces را انتخاب کنید.
2. گزینه + New codespace را در پایین پنل انتخاب کنید.
برای اطلاعات بیشتر، مستندات [GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) را بررسی کنید.
2. در پایین پنل، + New codespace را انتخاب کنید.
برای اطلاعات بیشتر، مستندات [گیتهاب](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) را بررسی کنید.
## VSCode Remote - Containers
برای باز کردن این مخزن در یک کانتینر با استفاده از ماشین محلی و VSCode با استفاده از افزونه VS Code Remote - Containers مراحل زیر را دنبال کنید:
برای باز کردن این مخزن در یک کانتینر با استفاده از دستگاه محلی و VSCode مراحل زیر را دنبال کنید با استفاده از افزونه VS Code Remote - Containers:
1. اگر برای اولین بار است که از کانتینر توسعه استفاده میکنید، لطفاً مطمئن شوید که سیستم شما پیشنیازها (مانند نصب Docker) را در [مستندات شروع به کار](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) دارد.
۱. اگر برای اولین بار است که از یک کانتینر توسعه استفاده میکنید، اطمینان حاصل کنید سیستم شما پیشنیازها (مثلا نصب Docker) را دارد در [مستندات شروع](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
برای استفاده از این مخزن، میتوانید مخزن را در یک حجم مجزا Docker باز کنید:
برای استفاده از این مخزن، میتوانید آن را یا در یک حجم مجزا داکر باز کنید:
**توجه**: زیرساخت این کار از فرمان Remote-Containers: **Clone Repository in Container Volume...** برای کلون کردن کد منبع در یک حجم Docker به جای سیستم فایل محلی استفاده میکند. [حجمها](https://docs.docker.com/storage/volumes/) مکانیزم ترجیحی برای حفظ دادههای کانتینر هستند.
**توجه**: این روش در پسزمینه فرمان Remote-Containers: **Clone Repository in Container Volume...** را اجرا میکند تا کد منبع را در حجم داکر کپی کند، نه در سیستم فایل محلی. [حجمها](https://docs.docker.com/storage/volumes/) مکانیزم ترجیحی برای نگهداری دادههای کانتینر هستند.
یا نسخهای از مخزن را بهصورت محلی کلون یا دانلود کنید:
یا نسخه محلی کپی شده یا دانلود شده مخزن را باز کنید:
- این مخزن را در سیستم فایل محلی خود کلون کنید.
- کلید F1 را فشار دهید و فرمان **Remote-Containers: Open Folder in Container...** را انتخاب کنید.
- نسخه کلونشده این پوشه را انتخاب کنید، صبر کنید تا کانتینر شروع شود و سپس شروع به کار کنید.
- نسخه کلونشده این پوشه را انتخاب کنید، صبر کنید کانتینر شروع شود و شروع به کار کنید.
## دسترسی آفلاین
میتوانید این مستندات را به صورت آفلاین با استفاده از [Docsify](https://docsify.js.org/#/) اجرا کنید. این مخزن را فورک کنید، [Docsify را نصب کنید](https://docsify.js.org/#/quickstart) روی ماشین محلی خود، سپس در پوشه ریشه این مخزن تایپ کنید `docsify serve`. سایت در پورت ۳۰۰۰ روی localhost شما ارائه خواهد شد: `localhost:3000`.
میتوانید این مستندات را به صورت آفلاین با استفاده از [Docsify](https://docsify.js.org/#/) اجرا کنید. این مخزن را فورک کنید، [Docsify را نصب کنید](https://docsify.js.org/#/quickstart) روی دستگاه محلی خود، سپس در پوشه ریشه این مخزن دستور `docsify serve` را تایپ کنید. سایت روی پورت ۳۰۰۰ در localhost شما سرو خواهد شد: `localhost:3000`.
> توجه کنید که نوتبوکها توسط Docsify رندر نمیشوند، بنابراین زمانی که نیاز به اجرای نوتبوک دارید، آن را جداگانه در VS Code با کرنل پایتون اجرا کنید.
> توجه داشته باشید، دفترچه یادداشتها با Docsify رندر نمیشوند، لذا وقتی نیاز به اجرای یک دفترچه یادداشت داشتید، آن را به صورت جداگانه در VS Code با کرنل پایتون اجرا کنید.
## دورههای آموزشی دیگر
## برنامههای درسی دیگر
تیم ما دورههای دیگری تولید میکند! نگاهی بیندازید:
تیم ما برنامههای درسی دیگری نیز تولید میکند! بررسی کنید:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Agents
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
### Azure / Edge / MCP / عوامل
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Generative AI Series
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### سری هوش مصنوعی مولد
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
### یادگیری پایه
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Copilot Series
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**با مشکل مواجه شدهاید؟** راهنمای [عیبیابی](TROUBLESHOOTING.md) ما را برای یافتن راهحل مشکلات رایج بررسی کنید.
**مشکل دارید؟** راهنمای [عیبیابی](TROUBLESHOOTING.md) ما را برای راهحل مشکلات رایج بررسی کنید.
اگر در ساخت برنامههای هوش مصنوعی گیر کردهاید یا سوالی دارید. به جمع یادگیرندگان و توسعهدهندگان باتجربه در بحثها درباره MCP بپیوندید. این یک جامعه حمایتی است که در آن سوالات پذیرفته شده و دانش به صورت رایگان به اشتراک گذاشته میشود.
اگر گیر کردید یا سوالی درباره ساخت برنامههای هوش مصنوعی دارید، به بحثها با دیگر یادگیرندگان و توسعهدهندگان مجرب درباره MCP بپیوندید. این یک جامعه حمایتی است که در آن سوالات پذیرفته میشوند و دانش به صورت آزاد به اشتراک گذاشته میشود.
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است حاوی اشتباهات یا نواقص باشند. سند اصلی به زبان بومی خود، منبع معتبر و قابلاطمینان به شمار میرود. برای اطلاعات حساس، توصیه میشود از ترجمه حرفهای انسانی استفاده شود. ما مسئول هیچ گونه سوء تفاهم یا برداشت نادرستی که ناشی از استفاده از این ترجمه باشد، نیستیم.
**سلب مسئولیت**:
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما در تلاش برای دقت هستیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است دارای اشتباهات یا نادرستیهایی باشند. سند اصلی به زبان اصلی خود باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حیاتی، استفاده از ترجمه تخصصی توسط انسان توصیه میشود. ما در قبال هرگونه سوءتفاهم یا تفسیر نادرست ناشی از استفاده از این ترجمه مسئولیتی نداریم.
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه میشود از ترجمه حرفهای انسانی استفاده کنید. ما مسئولیتی در قبال سوء تفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.
[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [لیکچر سے پہلے کا کوئز](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@
اس چیلنج میں، ہم ڈیٹا سائنس کے میدان سے متعلق تصورات کو متن کے ذریعے تلاش کرنے کی کوشش کریں گے۔ ہم ڈیٹا سائنس پر ایک ویکیپیڈیا مضمون لیں گے، متن کو ڈاؤنلوڈ اور پروسیس کریں گے، اور پھر ایک ورڈ کلاؤڈ بنائیں گے جیسا کہ یہ:


کوڈ کو پڑھنے کے لیے [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') پر جائیں۔ آپ کوڈ کو چلا بھی سکتے ہیں، اور دیکھ سکتے ہیں کہ یہ حقیقی وقت میں تمام ڈیٹا تبدیلیاں کیسے انجام دیتا ہے۔
"اس مثال میں، آئیے ایک سادہ مشق کریں جو روایتی ڈیٹا سائنس کے عمل کے تمام مراحل کا احاطہ کرتی ہے۔ آپ کو کوئی کوڈ لکھنے کی ضرورت نہیں ہے، آپ صرف نیچے دیے گئے سیلز پر کلک کر کے انہیں چلا سکتے ہیں اور نتیجہ دیکھ سکتے ہیں۔ ایک چیلنج کے طور پر، آپ کو ترغیب دی جاتی ہے کہ اس کوڈ کو مختلف ڈیٹا کے ساتھ آزما کر دیکھیں۔\n",
"اس مثال میں، آئیں ایک سادہ مشق کرتے ہیں جو روایتی ڈیٹا سائنس کے عمل کے تمام مراحل کو شامل کرتا ہے۔ آپ کو کوڈ لکھنے کی ضرورت نہیں ہے، آپ نیچے دیے گئے خلیات پر کلک کر کے ان کو چلائیں اور نتیجہ دیکھیں۔ ایک چیلنج کے طور پر، آپ کو ترغیب دی جاتی ہے کہ اس کوڈ کو مختلف ڈیٹا کے ساتھ آزما کر دیکھیں۔\n",
"\n",
"## مقصد\n",
"\n",
"اس سبق میں، ہم نے ڈیٹا سائنس سے متعلق مختلف تصورات پر بات کی ہے۔ آئیے کچھ مزید متعلقہ تصورات دریافت کرنے کی کوشش کریں **ٹیکسٹ مائننگ** کے ذریعے۔ ہم ڈیٹا سائنس کے بارے میں ایک متن سے شروع کریں گے، اس سے کلیدی الفاظ نکالیں گے، اور پھر نتیجہ کو بصری طور پر پیش کرنے کی کوشش کریں گے۔\n",
"اس سبق میں، ہم نے ڈیٹا سائنس سے متعلق مختلف تصورات پر بات کی ہے۔ آئیں کچھ اور متعلقہ تصورات دریافت کرنے کی کوشش کریں **ٹیکسٹ مائننگ** کر کے۔ ہم ڈیٹا سائنس کے بارے میں ایک متن سے شروع کریں گے، اس سے کلیدی الفاظ نکالیں گے، اور پھر نتیجہ کو بصری شکل میں پیش کرنے کی کوشش کریں گے۔\n",
"\n",
"بطور متن، میں ڈیٹا سائنس کے بارے میں ویکیپیڈیا کے صفحے کا استعمال کروں گا:\n"
"ایک متن کے طور پر، میں ویکیپیڈیا کے صفحہ ڈیٹا سائنس کا استعمال کروں گا:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## مرحلہ 1: ڈیٹا حاصل کرنا\n",
"## Step 1: ڈیٹا حاصل کرنا\n",
"\n",
"ہر ڈیٹا سائنس کے عمل کا پہلا مرحلہ ڈیٹا حاصل کرنا ہوتا ہے۔ ہم اس کے لیے `requests` لائبریری استعمال کریں گے:\n"
"ہر ڈیٹا سائنس کے عمل کا پہلا قدم ڈیٹا حاصل کرنا ہے۔ ہم اس کے لیے `requests` لائبریری استعمال کریں گے:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## مرحلہ 2: ڈیٹا کو تبدیل کرنا\n",
"## Step 2: ڈیٹا کو تبدیل کرنا\n",
"\n",
"اگلا مرحلہ ڈیٹا کو ایسی شکل میں تبدیل کرنا ہے جو پراسیسنگ کے لیے موزوں ہو۔ ہمارے معاملے میں، ہم نے صفحے سے HTML سورس کوڈ ڈاؤنلوڈ کیا ہے، اور ہمیں اسے سادہ متن میں تبدیل کرنا ہوگا۔\n",
"اگلا قدم ڈیٹا کو پراسیسنگ کے لیے موزوں شکل میں تبدیل کرنا ہے۔ ہمارے کیس میں، ہم نے صفحہ سے HTML سورس کوڈ ڈاؤن لوڈ کیا ہے، اور ہمیں اسے سادہ متن میں تبدیل کرنے کی ضرورت ہے۔\n",
"\n",
"یہ کام کرنے کے کئی طریقے ہیں۔ ہم Python کے سب سے آسان بلٹ ان [HTMLParser](https://docs.python.org/3/library/html.parser.html) آبجیکٹ کا استعمال کریں گے۔ ہمیں `HTMLParser` کلاس کو سب کلاس کرنا ہوگا اور ایسا کوڈ لکھنا ہوگا جو HTML ٹیگز کے اندر موجود تمام متن کو جمع کرے، سوائے `<script>` اور `<style>` ٹیگز کے۔\n"
"یہ کام کئی طریقوں سے کیا جا سکتا ہے۔ ہم [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) استعمال کریں گے، جو HTML پارسنگ کے لیے ایک مقبول پائتھن لائبریری ہے۔ BeautifulSoup ہمیں مخصوص HTML عناصر کو نشانہ بنانے کی اجازت دیتا ہے، تاکہ ہم ویکیپیڈیا کے مرکزی مضمون کے مواد پر توجہ مرکوز کر سکیں اور کچھ نیویگیشن مینیوز، سائیڈبارز، فوٹرز، اور دیگر غیر متعلقہ مواد کو کم کر سکیں (حالانکہ کچھ عام متن اب بھی باقی رہ سکتا ہے)۔\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"سب سے پہلے، ہمیں HTML پارسنگ کے لیے BeautifulSoup لائبریری انسٹال کرنی ہوگی:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## مرحلہ 3: بصیرت حاصل کرنا\n",
"## Step 3: بصیرت حاصل کرنا\n",
"\n",
"سب سے اہم مرحلہ یہ ہے کہ اپنے ڈیٹا کو کسی ایسی شکل میں تبدیل کریں جس سے ہم بصیرت حاصل کر سکیں۔ ہمارے معاملے میں، ہم متن سے کلیدی الفاظ نکالنا چاہتے ہیں اور دیکھنا چاہتے ہیں کہ کون سے کلیدی الفاظ زیادہ معنی خیز ہیں۔\n",
"سب سے اہم قدم ہمارے ڈیٹا کو کسی ایسے فارم میں تبدیل کرنا ہے جس سے ہم بصیرت حاصل کر سکیں۔ ہمارے کیس میں، ہم متن سے کلیدی الفاظ نکالنا چاہتے ہیں، اور دیکھنا چاہتے ہیں کہ کن کلیدی الفاظ کا مطلب زیادہ ہے۔\n",
"\n",
"ہم کلیدی الفاظ نکالنے کے لیے Python کی ایک لائبریری [RAKE](https://github.com/aneesha/RAKE) استعمال کریں گے۔ سب سے پہلے، اگر یہ لائبریری موجود نہ ہو تو اسے انسٹال کرتے ہیں:\n"
"ہم کلیدی الفاظ نکالنے کے لیے Python کی لائبریری [RAKE](https://github.com/aneesha/RAKE) استعمال کریں گے۔ سب سے پہلے، اگر یہ لائبریری موجود نہیں ہے تو اسے انسٹال کرتے ہیں: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"`Rake` کی مرکزی فعالیت دستیاب ہے، جسے ہم کچھ پیرامیٹرز کا استعمال کرتے ہوئے حسب ضرورت بنا سکتے ہیں۔ ہمارے معاملے میں، ہم ایک کلیدی لفظ کی کم از کم لمبائی 5 حروف، دستاویز میں ایک کلیدی لفظ کی کم از کم تکرار 3، اور ایک کلیدی لفظ میں زیادہ سے زیادہ الفاظ کی تعداد 2 مقرر کریں گے۔ دیگر قدروں کے ساتھ تجربہ کرنے اور نتیجہ دیکھنے کے لیے آزاد محسوس کریں۔\n"
"مین فنکشنلٹی `Rake` آبجیکٹ سے دستیاب ہے، جسے ہم کچھ پیرامیٹرز کی مدد سے حسب ضرورت بنا سکتے ہیں۔ ہمارے کیس میں، ہم ایک کی ورڈ کی کم سے کم لمبائی 5 حروف، دستاویز میں کی ورڈ کی کم سے کم تعدد 3، اور کی ورڈ میں الفاظ کی زیادہ سے زیادہ تعداد 2 مقرر کریں گے۔ دوسرے اقدار کے ساتھ آزمانے میں آزادی محسوس کریں اور نتائج کا مشاہدہ کریں۔\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"ہم نے ایک فہرست حاصل کی ہے جس میں شرائط اور ان کے ساتھ اہمیت کی ڈگری شامل ہے۔ جیسا کہ آپ دیکھ سکتے ہیں، سب سے متعلقہ شعبے، جیسے مشین لرننگ اور بڑا ڈیٹا، فہرست میں اوپر کی پوزیشنز پر موجود ہیں۔\n",
"ہم نے الفاظ کی ایک فہرست حاصل کی ہے جو متعلقہ اہمیت کے درجہ کے ساتھ ہے۔ جیسا کہ آپ دیکھ سکتے ہیں، سب سے زیادہ متعلقہ شعبہ جات، جیسے مشین لرننگ اور بگ ڈیٹا، فہرست میں اوپر کے مقامات پر موجود ہیں۔\n",
"\n",
"## مرحلہ 4: نتیجہ کو بصری طور پر دیکھنا\n",
"## قدم 4: نتیجہ کا بصری اظہار\n",
"\n",
"لوگ ڈیٹا کو بصری شکل میں سب سے بہتر سمجھ سکتے ہیں۔ اس لیے اکثر ڈیٹا کو بصری طور پر پیش کرنا معنی خیز ہوتا ہے تاکہ کچھ بصیرت حاصل کی جا سکے۔ ہم Python میں `matplotlib` لائبریری کا استعمال کر سکتے ہیں تاکہ کلیدی الفاظ کی سادہ تقسیم کو ان کی اہمیت کے ساتھ پیش کیا جا سکے۔\n"
"لوگ ڈیٹا کو بصری شکل میں بہتر طریقے سے سمجھ سکتے ہیں۔ اس لیے اکثر یہ فائدہ مند ہوتا ہے کہ ڈیٹا کو بصری طور پر ظاہر کیا جائے تاکہ کچھ بصیرتیں حاصل کی جا سکیں۔ ہم Python میں `matplotlib` لائبریری کا استعمال کر کے کی ورڈز کی ان کی متعلقہ اہمیت کے ساتھ سادہ تقسیم کو پلاٹ کر سکتے ہیں:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"الفاظ کی تعدد کو دیکھنے کا ایک اور بہتر طریقہ موجود ہے - **ورڈ کلاؤڈ** کا استعمال کرتے ہوئے۔ ہمیں اپنی کلیدی الفاظ کی فہرست سے ورڈ کلاؤڈ بنانے کے لیے ایک اور لائبریری انسٹال کرنے کی ضرورت ہوگی۔\n"
"تاہم، الفاظ کی فریکوئنسیز کو دیکھانے کا ایک اور بہتر طریقہ ہے - **ورڈ کلاؤڈ** کا استعمال۔ ہمیں اپنے کلیدی الفاظ کی فہرست سے ورڈ کلاؤڈ بنانے کے لیے ایک اور لائبریری انسٹال کرنے کی ضرورت ہوگی۔\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` آبجیکٹ اصل متن یا پہلے سے حساب شدہ الفاظ کی فہرست ان کی فریکوئنسی کے ساتھ لینے کا ذمہ دار ہے، اور ایک تصویر واپس کرتا ہے، جسے پھر `matplotlib` کے ذریعے دکھایا جا سکتا ہے:\n"
"`WordCloud` آبجیکٹ اصل متن یا پہلے سے حساب شدہ الفاظ کی فہرست ان کی تعدد کے ساتھ لیتا ہے، اور ایک تصویر واپس کرتا ہے، جسے پھر `matplotlib` استعمال کرتے ہوئے دکھایا جا سکتا ہے:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"ہم اصل متن کو `WordCloud` میں بھی دے سکتے ہیں - آئیے دیکھتے ہیں کہ کیا ہم اسی طرح کا نتیجہ حاصل کر سکتے ہیں:\n"
"ہم اصل متن کو بھی `WordCloud` میں دے سکتے ہیں - دیکھتے ہیں کہ کیا ہم مماثل نتیجہ حاصل کر پاتے ہیں:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"آپ دیکھ سکتے ہیں کہ لفظی بادل اب زیادہ متاثر کن لگتا ہے، لیکن اس میں بہت زیادہ شور بھی شامل ہے (مثال کے طور پر، غیر متعلقہ الفاظ جیسے `Retrieved on`)۔ اس کے علاوہ، ہمیں دو الفاظ پر مشتمل کم کلیدی الفاظ ملتے ہیں، جیسے *data scientist* یا *computer science*۔ اس کی وجہ یہ ہے کہ RAKE الگورتھم متن سے اچھے کلیدی الفاظ منتخب کرنے میں کہیں بہتر کام کرتا ہے۔ یہ مثال ڈیٹا کی پیشگی پروسیسنگ اور صفائی کی اہمیت کو واضح کرتی ہے، کیونکہ آخر میں واضح تصویر ہمیں بہتر فیصلے کرنے کی اجازت دے گی۔\n",
"آپ دیکھ سکتے ہیں کہ ورڈ کلاؤڈ اب زیادہ متاثر کن نظر آتا ہے، لیکن اس میں بہت سا شور بھی شامل ہے (مثلاً غیر متعلقہ الفاظ جیسے `Retrieved on`)۔ اس کے علاوہ، ہمیں کم ایسے کلیدی الفاظ ملتے ہیں جو دو الفاظ پر مشتمل ہوتے ہیں، جیسے *data scientist*، یا *computer science*۔ اس کی وجہ یہ ہے کہ RAKE الگورتھم متن سے اچھے کلیدی الفاظ منتخب کرنے میں بہتر کام کرتا ہے۔ یہ مثال ڈیٹا کی پیشگی پروسیسنگ اور صفائی کی اہمیت کو واضح کرتی ہے، کیونکہ آخر میں واضح تصویر ہمیں بہتر فیصلے کرنے کی اجازت دے گی۔\n",
"\n",
"اس مشق میں ہم نے ویکیپیڈیا کے متن سے کچھ مطلب نکالنے کے ایک سادہ عمل کو دیکھا، کلیدی الفاظ اور لفظی بادل کی شکل میں۔ یہ مثال کافی سادہ ہے، لیکن یہ ان تمام عام مراحل کو اچھی طرح سے ظاہر کرتی ہے جو ایک ڈیٹا سائنسدان ڈیٹا کے ساتھ کام کرتے وقت اختیار کرتا ہے، ڈیٹا کے حصول سے لے کر بصری نمائندگی تک۔\n",
"اس مشق میں ہم نے وکیپیڈیا کے متن سے کلیدی الفاظ اور ورڈ کلاؤڈ کی صورت میں کچھ معنی نکالنے کے ایک سادہ عمل سے گزرا ہے۔ یہ مثال کافی سادہ ہے، لیکن یہ اس بات کو اچھی طرح ظاہر کرتی ہے کہ ایک ڈیٹا سائنسدان عام طور پر ڈیٹا کے ساتھ کام کرتے ہوئے کون کون سے اقدامات کرے گا، ڈیٹا کے حصول سے لے کر بصری نمائندگی تک۔\n",
"\n",
"ہمارے کورس میں ہم ان تمام مراحل پر تفصیل سے بات کریں گے۔\n"
"ہمارے کورس میں ہم ان تمام مراحل پر تفصیلی بحث کریں گے۔\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**ڈسکلیمر**: \nیہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا عدم درستگی ہو سکتی ہیں۔ اصل دستاویز، جو اس کی اصل زبان میں ہے، کو مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے لیے ہم ذمہ دار نہیں ہیں۔\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**نااہلی کا نوٹ**: \nاس دستاویز کا ترجمہ مصنوعی ذہانت کے ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کے ذریعے کیا گیا ہے۔ اگرچہ ہم درستگی کے لیے کوشاں ہیں، براہ کرم یاد رکھیں کہ خودکار ترجمے میں غلطیاں یا بے دقتیاں ہو سکتی ہیں۔ اصل دستاویز اپنی مادری زبان میں ہی معتبر ذریعہ سمجھی جانی چاہیے۔ اہم معلومات کے لیے پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمہ کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کی ذمہ داری ہم پر نہیں ہوگی۔\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"> *اس نوٹ بک میں، ہم مختلف یو آر ایل - ویکیپیڈیا کے مشین لرننگ کے مضمون کا استعمال کرنے کا تجربہ کرتے ہیں۔ آپ دیکھ سکتے ہیں کہ، ڈیٹا سائنس کے برعکس، اس مضمون میں بہت سے اصطلاحات شامل ہیں، جو تجزیے کو زیادہ مشکل بنا دیتی ہیں۔ ہمیں کلیدی الفاظ نکالنے کے بعد ڈیٹا کو صاف کرنے کا ایک اور طریقہ تلاش کرنا ہوگا تاکہ کچھ عام لیکن غیر معنی خیز لفظی مجموعوں سے چھٹکارا حاصل کیا جا سکے۔*\n",
"> *اس نوٹ بک میں، ہم مختلف URL - ویکیپیڈیا آرٹیکل آن مشین لرننگ استعمال کرنے کے تجربے کر رہے ہیں۔ آپ دیکھ سکتے ہیں کہ، ڈیٹا سائنس کے برعکس، اس آرٹیکل میں بہت سارے اصطلاحات شامل ہیں، جس سے تجزیہ مزید پیچیدہ ہو جاتا ہے۔ ہمیں کی ورڈ استخراج کے بعد ڈیٹا کو صاف کرنے کے لیے ایک اور طریقہ کار سوچنا ہوگا، تاکہ کچھ متواتر لیکن غیر معنی خیز لفظی امتزاجات سے نجات حاصل کی جا سکے۔*\n",
"\n",
"اس مثال میں، آئیے ایک سادہ مشق کریں جو روایتی ڈیٹا سائنس کے عمل کے تمام مراحل کا احاطہ کرتی ہے۔ آپ کو کوئی کوڈ لکھنے کی ضرورت نہیں ہے، آپ صرف نیچے دیے گئے سیلز پر کلک کر کے انہیں چلا سکتے ہیں اور نتیجہ دیکھ سکتے ہیں۔ ایک چیلنج کے طور پر، آپ کو مختلف ڈیٹا کے ساتھ اس کوڈ کو آزمانے کی ترغیب دی جاتی ہے۔\n",
"اس مثال میں، آئیے ایک آسان مشق کریں جو روایتی ڈیٹا سائنس کے عمل کے تمام مراحل کو شامل کرتی ہے۔ آپ کو کوئی کوڈ لکھنے کی ضرورت نہیں ہے، آپ نیچے دیے گئے سیلز پر کلک کر کے انہیں چلا سکتے ہیں اور نتیجہ دیکھ سکتے ہیں۔ ایک چیلنج کے طور پر، آپ کو ترغیب دی جاتی ہے کہ آپ اس کوڈ کو مختلف ڈیٹا کے ساتھ آزما کر دیکھیں۔\n",
"\n",
"## مقصد\n",
"\n",
"اس سبق میں، ہم نے ڈیٹا سائنس سے متعلق مختلف تصورات پر بات کی ہے۔ آئیے **ٹیکسٹ مائننگ** کے ذریعے مزید متعلقہ تصورات دریافت کرنے کی کوشش کریں۔ ہم ڈیٹا سائنس کے بارے میں ایک متن سے آغاز کریں گے، اس سے کلیدی الفاظ نکالیں گے، اور پھر نتیجہ کو بصری شکل دینے کی کوشش کریں گے۔\n",
"اس سبق میں، ہم نے ڈیٹا سائنس سے متعلق مختلف تصورات پر بات کی ہے۔ آئیے کچھ **متن کی کھدائی** کر کے مزید متعلقہ تصورات تلاش کرنے کی کوشش کریں۔ ہم ڈیٹا سائنس کے بارے میں ایک متن سے شروع کریں گے، اس سے کی ورڈ نکالیں گے، اور پھر نتیجہ کو بصری شکل میں ظاہر کرنے کی کوشش کریں گے۔\n",
"\n",
"بطور متن، میں ویکیپیڈیا پر ڈیٹا سائنس کے صفحے کا استعمال کروں گا:\n"
"متن کے طور پر، میں ویکیپیڈیا کے صفحہ ڈیٹا سائنس کا استعمال کروں گا:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## مرحلہ 1: ڈیٹا حاصل کرنا\n",
"## Step 1: ڈیٹا حاصل کرنا\n",
"\n",
"ڈیٹا سائنس کے ہر عمل کا پہلا مرحلہ ڈیٹا حاصل کرنا ہوتا ہے۔ ہم اس کے لیے `requests` لائبریری استعمال کریں گے:\n"
"ہر ڈیٹا سائنس کے عمل میں پہلا قدم ڈیٹا حاصل کرنا ہوتا ہے۔ ہم اس کے لیے `requests` لائبریری استعمال کریں گے:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## مرحلہ 2: ڈیٹا کو تبدیل کرنا\n",
"\n",
"اگلا مرحلہ یہ ہے کہ ڈیٹا کو اس شکل میں تبدیل کیا جائے جو پروسیسنگ کے لیے موزوں ہو۔ ہمارے معاملے میں، ہم نے صفحے سے HTML سورس کوڈ ڈاؤن لوڈ کیا ہے، اور ہمیں اسے سادہ متن میں تبدیل کرنے کی ضرورت ہے۔\n",
"اگلا مرحلہ ڈیٹا کو پراسیسنگ کے لیے موزوں شکل میں تبدیل کرنا ہے۔ ہمارے کیس میں، ہم نے صفحے سے HTML سورس کوڈ ڈاؤن لوڈ کیا ہے، اور ہمیں اسے سادہ متن میں تبدیل کرنے کی ضرورت ہے۔\n",
"\n",
"یہ کام کرنے کے کئی طریقے ہیں۔ ہم Python کے سب سے آسان بلٹ ان [HTMLParser](https://docs.python.org/3/library/html.parser.html) آبجیکٹ کا استعمال کریں گے۔ ہمیں `HTMLParser` کلاس کو سب کلاس کرنا ہوگا اور ایسا کوڈ ڈیفائن کرنا ہوگا جو HTML ٹیگز کے اندر موجود تمام متن کو جمع کرے، سوائے `<script>` اور `<style>` ٹیگز کے۔\n"
"یہ کام کئی طریقوں سے کیا جا سکتا ہے۔ ہم [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) استعمال کریں گے، جو کہ HTML پارسنگ کے لیے ایک مقبول Python لائبریری ہے۔ BeautifulSoup ہمیں مخصوص HTML عناصر کو ہدف بنانے کی اجازت دیتا ہے، تاکہ ہم ویکی پیڈیا کے اہم مضمون کے مواد پر توجہ مرکوز کر سکیں اور کچھ نیویگیشن مینو، سائڈبارز، فوٹرز، اور دیگر غیر متعلقہ مواد کو کم کر سکیں (حالاں کہ کچھ ببلواریٹیکسٹ اب بھی رہ سکتا ہے)۔\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"سب سے پہلے، ہمیں HTML پارسنگ کے لئے BeautifulSoup لائبریری انسٹال کرنا ہوگی:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## مرحلہ 3: بصیرت حاصل کرنا\n",
"## Step 3: معلومات حاصل کرنا\n",
"\n",
"سب سے اہم مرحلہ یہ ہے کہ اپنے ڈیٹا کو ایسی شکل میں تبدیل کریں جس سے ہم بصیرت حاصل کر سکیں۔ ہمارے معاملے میں، ہم متن سے کلیدی الفاظ نکالنا چاہتے ہیں اور دیکھنا چاہتے ہیں کہ کون سے کلیدی الفاظ زیادہ معنی خیز ہیں۔\n",
"سب سے اہم قدم ہمارے ڈیٹا کو اس شکل میں تبدیل کرنا ہے جس سے ہم معلومات حاصل کر سکیں۔ ہمارے معاملے میں، ہم متن سے کلیدی الفاظ نکالنا چاہتے ہیں، اور دیکھنا چاہتے ہیں کہ کون سے کلیدی الفاظ زیادہ معنی خیز ہیں۔\n",
"\n",
"ہم کلیدی الفاظ نکالنے کے لیے Python کی لائبریری [RAKE](https://github.com/aneesha/RAKE) استعمال کریں گے۔ سب سے پہلے، اگر یہ لائبریری موجود نہ ہو تو اسے انسٹال کریں:\n"
"ہم کلیدی الفاظ نکالنے کے لیے Python کی لائبریری [RAKE](https://github.com/aneesha/RAKE) استعمال کریں گے۔ سب سے پہلے، اگر یہ لائبریری موجود نہ ہو تو اسے انسٹال کرتے ہیں:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"`Rake` کی بنیادی فعالیت دستیاب ہے، جسے ہم کچھ پیرامیٹرز کا استعمال کرتے ہوئے حسب ضرورت بنا سکتے ہیں۔ ہمارے معاملے میں، ہم کلیدی لفظ کی کم از کم لمبائی 5 حروف، دستاویز میں کلیدی لفظ کی کم از کم تکرار 3، اور کلیدی لفظ میں زیادہ سے زیادہ الفاظ کی تعداد 2 مقرر کریں گے۔ دیگر اقدار کے ساتھ تجربہ کرنے اور نتیجہ دیکھنے کے لیے آزاد محسوس کریں۔\n"
"اہم فعالیت `Rake` آبجیکٹ سے دستیاب ہے، جسے ہم کچھ پیرا میٹرز کے ذریعے تخصیص کر سکتے ہیں۔ ہمارے معاملے میں، ہم کسی کلیدی لفظ کی کم از کم لمبائی 5 حروف، دستاویز میں کسی کلیدی لفظ کی کم از کم فریکوئنسی 3، اور کلیدی لفظ میں زیادہ سے زیادہ الفاظ کی تعداد 2 مقرر کریں گے۔ دیگر قدروں کے ساتھ تجربہ کرنے اور نتیجہ دیکھنے میں آزاد محسوس کریں۔\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"ہم نے ایک فہرست حاصل کی ہے جس میں شرائط اور ان کے ساتھ اہمیت کی ڈگری شامل ہے۔ جیسا کہ آپ دیکھ سکتے ہیں، سب سے متعلقہ شعبے، جیسے مشین لرننگ اور بڑا ڈیٹا، فہرست میں اوپر کی پوزیشنز پر موجود ہیں۔\n",
"ہم نے اصطلاحات کی ایک فہرست حاصل کی ہے جس کے ساتھ متعلقہ اہمیت کی ڈگری بھی دی گئی ہے۔ جیسا کہ آپ دیکھ سکتے ہیں، سب سے زیادہ متعلقہ شعبے، جیسے کہ مشین لرننگ اور بگ ڈیٹا، فہرست میں اوپر کے مقامات پر موجود ہیں۔\n",
"\n",
"## مرحلہ 4: نتیجہ کو بصری طور پر دیکھنا\n",
"## Step 4: نتیجہ کا بصری جائزہ\n",
"\n",
"لوگ ڈیٹا کو بصری شکل میں سب سے بہتر سمجھ سکتے ہیں۔ اس لیے اکثر ڈیٹا کو بصری طور پر پیش کرنا معنی خیز ہوتا ہے تاکہ کچھ بصیرت حاصل کی جا سکے۔ ہم Python میں `matplotlib` لائبریری کا استعمال کر سکتے ہیں تاکہ کلیدی الفاظ کی تقسیم کو ان کی اہمیت کے ساتھ سادہ انداز میں پیش کیا جا سکے۔\n"
"لوگ ڈیٹا کو سب سے بہتر بصری شکل میں سمجھ سکتے ہیں۔ اس لیے اکثر یہ سمجھداری ہوتی ہے کہ کچھ بصیرت حاصل کرنے کے لیے ڈیٹا کو بصری شکل میں پیش کیا جائے۔ ہم `matplotlib` لائبریری کو Python میں استعمال کر سکتے ہیں تاکہ کلیدی الفاظ کی ان کی مطابقت کے ساتھ سادہ تقسیم کو گراف کے ذریعے دکھایا جا سکے:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"تاہم، الفاظ کی تعداد کو دیکھنے کا ایک اور بھی بہتر طریقہ ہے - **ورڈ کلاوڈ** کا استعمال۔ ہمیں اپنی کلیدی الفاظ کی فہرست سے ورڈ کلاوڈ بنانے کے لیے ایک اور لائبریری انسٹال کرنے کی ضرورت ہوگی۔\n"
"تاہم، الفاظ کی تعدد کو دیکھنے کا ایک اور بہتر طریقہ ہے - **ورڈ کلاؤڈ** کا استعمال۔ ہمیں اپنی کلیدی الفاظ کی فہرست سے ورڈ کلاؤڈ بنانے کے لیے ایک اور لائبریری انسٹال کرنے کی ضرورت ہوگی۔\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`ورڈکلاوڈ` آبجیکٹ اصل متن یا پہلے سے حساب شدہ الفاظ کی فہرست ان کی فریکوئنسی کے ساتھ لینے کا ذمہ دار ہے، اور ایک تصویر واپس کرتا ہے، جسے پھر `matplotlib` کا استعمال کرتے ہوئے دکھایا جا سکتا ہے:\n"
"`WordCloud` آبجیکٹ اصل متن یا پہلے سے حساب شدہ الفاظ کی فہرست اور ان کی فریکوئنسیز لے کر ایک تصویر بناتا ہے، جسے پھر `matplotlib` کے ذریعے دکھایا جا سکتا ہے:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"ہم اصل متن کو بھی `WordCloud` میں دے سکتے ہیں - آئیے دیکھتے ہیں کہ کیا ہم اسی طرح کا نتیجہ حاصل کر پاتے ہیں:\n"
"ہم `WordCloud` میں اصل متن بھی دے سکتے ہیں - چلیں دیکھتے ہیں کہ کیا ہم مشابہ نتیجہ حاصل کر پاتے ہیں:\n"
],
"metadata": {}
},
@ -490,9 +488,9 @@
{
"cell_type": "markdown",
"source": [
"آپ دیکھ سکتے ہیں کہ لفظی بادل اب زیادہ متاثر کن لگتا ہے، لیکن اس میں بہت زیادہ شور بھی شامل ہے (مثال کے طور پر، غیر متعلقہ الفاظ جیسے `Retrieved on`)۔ اس کے علاوہ، ہمیں دو الفاظ پر مشتمل کم کلیدی الفاظ ملتے ہیں، جیسے *data scientist* یا *computer science*۔ اس کی وجہ یہ ہے کہ RAKE الگورتھم متن سے اچھے کلیدی الفاظ منتخب کرنے میں کہیں بہتر کام کرتا ہے۔ یہ مثال ڈیٹا کی پیشگی پروسیسنگ اور صفائی کی اہمیت کو واضح کرتی ہے، کیونکہ آخر میں ایک واضح تصویر ہمیں بہتر فیصلے کرنے کی اجازت دے گی۔\n",
"آپ دیکھ سکتے ہیں کہ ورڈ کلاؤڈ اب زیادہ متاثر کن نظر آ رہا ہے، لیکن اس میں بہت سا شور بھی شامل ہے (مثلاً غیر متعلقہ الفاظ جیسے `Retrieved on`)۔ نیز، ہمیں کم ایسے کلیدی الفاظ ملتے ہیں جو دو الفاظ پر مشتمل ہوتے ہیں، جیسے *data scientist* یا *computer science*۔ یہ اس لیے ہے کیونکہ RAKE الگورتھم متن سے اچھے کلیدی الفاظ منتخب کرنے میں بہتر کام کرتا ہے۔ یہ مثال ڈیٹا پری پروسیسنگ اور صفائی کی اہمیت کو ظاہر کرتی ہے، کیونکہ آخر میں واضح تصویر ہمیں بہتر فیصلے کرنے کی اجازت دے گی۔\n",
"\n",
"اس مشق میں ہم نے ویکیپیڈیا کے متن سے کچھ مطلب نکالنے کے ایک سادہ عمل کو دیکھا، کلیدی الفاظ اور لفظی بادل کی شکل میں۔ یہ مثال کافی سادہ ہے، لیکن یہ ان تمام عام مراحل کو اچھی طرح ظاہر کرتی ہے جو ایک ڈیٹا سائنسدان ڈیٹا کے ساتھ کام کرتے وقت اختیار کرتا ہے، ڈیٹا کے حصول سے لے کر بصری نمائندگی تک۔\n",
"اس مشق میں ہم نے وکیپیڈیا کے متن سے کچھ معنی نکالنے کے ایک آسان عمل سے گزرا ہے، کلیدی الفاظ اور ورڈ کلاؤڈ کی شکل میں۔ یہ مثال کافی سادہ ہے، لیکن یہ اچھی طرح سے تمام عام مراحل کو ظاہر کرتی ہے جو ایک ڈیٹا سائنسدان ڈیٹا پر کام کرتے ہوئے اٹھاتا ہے، ڈیٹا حاصل کرنے سے لے کر بصری نمائندگی تک۔\n",
"\n",
"ہمارے کورس میں ہم ان تمام مراحل پر تفصیل سے بات کریں گے۔\n"
],
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**ڈسکلیمر**: \nیہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا غیر درستیاں ہو سکتی ہیں۔ اصل دستاویز کو اس کی اصل زبان میں مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ ہم اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے ذمہ دار نہیں ہیں۔\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**ذمہ داری سے مستثنیٰ**: \nیہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ اگرچہ ہم درستگی کے لئے کوشش کرتے ہیں، براہ کرم آگاہ رہیں کہ خودکار ترجمہ میں غلطیاں یا عدم درستگی ہو سکتی ہیں۔ اصل دستاویز اپنی مادری زبان میں معتبر ذریعہ سمجھی جانی چاہیے۔ اہم معلومات کے لیے پیشہ ورانہ انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تعبیر کے لیے ہم ذمہ دار نہیں ہیں۔\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
شماریات اور احتمال کا نظریہ ریاضی کے دو ایسے شعبے ہیں جو ڈیٹا سائنس کے لیے انتہائی اہم ہیں۔ ڈیٹا کے ساتھ کام کرنا ممکن ہے چاہے آپ کو ریاضی کی گہری سمجھ نہ ہو، لیکن کچھ بنیادی تصورات جاننا ہمیشہ بہتر ہوتا ہے۔ یہاں ہم ایک مختصر تعارف پیش کریں گے جو آپ کو آغاز کرنے میں مدد دے گا۔
## [لیکچر سے پہلے کا کوئز](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
ہم صرف اس بات کے احتمال کے بارے میں بات کر سکتے ہیں کہ کوئی متغیر کسی دیے گئے وقفے میں آتا ہے، مثلاً P(t<sub>1</sub>≤X<t<sub>2</sub>)۔ اس صورت میں، احتمال کی تقسیم کو **احتمال کثافت فنکشن** p(x) کے ذریعے بیان کیا جاتا ہے، اس طرح کہ
یکساں تقسیم کا مسلسل متبادل **مسلسل یکساں تقسیم** کہلاتا ہے، جو ایک محدود وقفے پر متعین ہوتا ہے۔ احتمال کہ قدر X کسی وقفے کی لمبائی l میں آتی ہے، l کے متناسب ہوتا ہے، اور 1 تک بڑھتا ہے۔
@ -73,11 +73,11 @@
یہاں ہمارے ڈیٹا کے لیے اوسط، میڈین اور چارٹائلز کو ظاہر کرنے والا باکس پلاٹ ہے:


چونکہ ہمارے ڈیٹا میں مختلف کھلاڑیوں کے **کردار** کے بارے میں معلومات شامل ہیں، ہم کردار کے لحاظ سے بھی باکس پلاٹ بنا سکتے ہیں - یہ ہمیں یہ سمجھنے کی اجازت دے گا کہ کرداروں کے درمیان پیرامیٹرز کی قدریں کیسے مختلف ہیں۔ اس بار ہم قد پر غور کریں گے:


یہ ڈایاگرام ظاہر کرتا ہے کہ، اوسطاً، پہلے بیس مین کا قد دوسرے بیس مین کے قد سے زیادہ ہے۔ اس سبق کے بعد کے حصے میں ہم سیکھیں گے کہ ہم اس مفروضے کو مزید رسمی طور پر کیسے جانچ سکتے ہیں، اور یہ ظاہر کر سکتے ہیں کہ ہمارا ڈیٹا شماریاتی طور پر اہم ہے۔
@ -85,7 +85,7 @@
یہ دیکھنے کے لیے کہ ہمارے ڈیٹا کی تقسیم کیا ہے، ہم ایک گراف بنا سکتے ہیں جسے **ہسٹوگرام** کہا جاتا ہے۔ X-محور مختلف وزن کے وقفوں (نام نہاد **بِنز**) کی تعداد پر مشتمل ہوگا، اور عمودی محور یہ ظاہر کرے گا کہ ہمارے بے ترتیب متغیر کا نمونہ کسی دیے گئے وقفے میں کتنی بار آیا۔


اس ہسٹوگرام سے آپ دیکھ سکتے ہیں کہ تمام قدریں ایک خاص اوسط وزن کے گرد مرکوز ہیں، اور جتنا ہم اس وزن سے دور جاتے ہیں - اتنے ہی کم وزن کی قدریں ملتی ہیں۔ یعنی، یہ بہت غیر ممکن ہے کہ کسی بیس بال کھلاڑی کا وزن اوسط وزن سے بہت مختلف ہو۔ وزن کا واریانس یہ ظاہر کرتا ہے کہ وزن اوسط سے کتنا مختلف ہو سکتا ہے۔
اگر ہم پیدا کیے گئے نمونوں کا ہسٹوگرام بنائیں، تو ہمیں اوپر دکھائی گئی تصویر سے بہت ملتی جلتی تصویر نظر آئے گی۔ اور اگر ہم نمونوں کی تعداد اور بِنز کی تعداد بڑھائیں، تو ہم معمولی تقسیم کی ایک تصویر بنا سکتے ہیں جو مثالی کے قریب ہو:


*معمولی تقسیم اوسط=0 اور معیاری انحراف=1 کے ساتھ*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
ہمارے معاملے میں، قدر 0.53 اس بات کی نشاندہی کرتی ہے کہ کسی شخص کے وزن اور قد کے درمیان کچھ تعلق ہے۔ ہم ایک قدر کے دوسرے کے خلاف اسکیٹر پلاٹ بھی بنا سکتے ہیں تاکہ تعلق کو بصری طور پر دیکھا جا سکے:


> تعلق اور کوویریئنس کی مزید مثالیں [ساتھ دی گئی نوٹ بک](notebook.ipynb) میں دیکھی جا سکتی ہیں۔
> تصویر از <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">اسٹیفن ڈاسن</a>، <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> پر
ان اسباق میں، آپ جانیں گے کہ ڈیٹا سائنس کو کیسے بیان کیا جاتا ہے اور ان اخلاقی پہلوؤں کے بارے میں سیکھیں گے جنہیں ایک ڈیٹا سائنسدان کو مدنظر رکھنا چاہیے۔ آپ یہ بھی سیکھیں گے کہ ڈیٹا کو کیسے بیان کیا جاتا ہے اور شماریات اور احتمال کے بارے میں کچھ جانیں گے، جو کہ ڈیٹا سائنس کے بنیادی تعلیمی شعبے ہیں۔
اگرچہ ڈیٹا بیسز ڈیٹا کو محفوظ کرنے اور انہیں کوئری لینگویجز کے ذریعے تلاش کرنے کے لیے بہت مؤثر طریقے فراہم کرتے ہیں، ڈیٹا پروسیسنگ کا سب سے لچکدار طریقہ اپنا پروگرام لکھ کر ڈیٹا کو تبدیل کرنا ہے۔ اکثر اوقات، ڈیٹا بیس کوئری کرنا زیادہ مؤثر ہوگا۔ لیکن کچھ معاملات میں جب زیادہ پیچیدہ ڈیٹا پروسیسنگ کی ضرورت ہو، تو یہ کام آسانی سے SQL کے ذریعے نہیں کیا جا سکتا۔
ڈیٹا پروسیسنگ کسی بھی پروگرامنگ زبان میں کی جا سکتی ہے، لیکن کچھ زبانیں ڈیٹا کے ساتھ کام کرنے کے لحاظ سے زیادہ اعلیٰ سطح کی ہوتی ہیں۔ ڈیٹا سائنسدان عام طور پر درج ذیل زبانوں میں سے کسی ایک کو ترجیح دیتے ہیں:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
اب فرض کریں کہ ہر ہفتے ہم دوستوں کے لیے ایک پارٹی کا اہتمام کرتے ہیں، اور پارٹی کے لیے آئس کریم کے اضافی 10 پیک لیتے ہیں۔ ہم ایک اور سیریز بنا سکتے ہیں، جو ہفتے کے انڈیکس کے ذریعے ظاہر ہو:
> **نوٹ** کہ ہم سادہ سینٹیکس `total_items+additional_items` استعمال نہیں کر رہے ہیں۔ اگر ہم ایسا کرتے، تو ہمیں نتیجہ میں بہت سے `NaN` (*Not a Number*) اقدار ملتی۔ اس کی وجہ یہ ہے کہ `additional_items` سیریز میں انڈیکس پوائنٹس کے لیے کچھ اقدار غائب ہیں، اور کسی بھی چیز میں `NaN` شامل کرنے سے نتیجہ `NaN` ہوتا ہے۔ اس لیے ہمیں جمع کرتے وقت `fill_value` پیرامیٹر کی وضاحت کرنے کی ضرورت ہوتی ہے۔
چونکہ ہم یہ دکھانا چاہتے ہیں کہ ڈیٹا کے ساتھ کیسے کام کیا جائے، ہم آپ کو دعوت دیتے ہیں کہ [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) کھولیں اور اسے شروع سے آخر تک پڑھیں۔ آپ سیلز کو چلا سکتے ہیں اور آخر میں دیے گئے کچھ چیلنجز کو حل کر سکتے ہیں۔
> اگر آپ کو Jupyter Notebook میں کوڈ چلانے کا طریقہ معلوم نہیں ہے، تو [اس مضمون](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) کو دیکھیں۔
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) کھولیں اور اسے شروع سے آخر تک پڑھیں۔ آپ سیلز کو چلا سکتے ہیں اور آخر میں دیے گئے کچھ چیلنجز کو حل کر سکتے ہیں۔


> تصویر از <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">الیکزینڈر سن</a> on <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
ان اسباق میں، آپ سیکھیں گے کہ ڈیٹا کو کس طرح منظم، تبدیل، اور ایپلیکیشنز میں استعمال کیا جا سکتا ہے۔ آپ ریلیشنل اور نان ریلیشنل ڈیٹا بیسز کے بارے میں جانیں گے اور یہ کہ ڈیٹا ان میں کس طرح محفوظ کیا جا سکتا ہے۔ آپ Python کے ساتھ ڈیٹا کو منظم کرنے کے بنیادی اصول سیکھیں گے، اور آپ دریافت کریں گے کہ Python کے ذریعے ڈیٹا کو منظم اور مائن کرنے کے کئی طریقے موجود ہیں۔
اب، اسی ڈیٹا کو شہد کے رنگ سکیم کے ساتھ دکھائیں تاکہ یہ ظاہر ہو کہ قیمت سال بہ سال کیسے بدلی ہے۔ آپ یہ 'hue' پیرامیٹر شامل کرکے کر سکتے ہیں تاکہ سال بہ سال تبدیلی کو دکھایا جا سکے:
اس رنگ سکیم کی تبدیلی کے ساتھ، آپ واضح طور پر دیکھ سکتے ہیں کہ شہد کی فی پاؤنڈ قیمت میں سال بہ سال ایک مضبوط ترقی ہو رہی ہے۔ درحقیقت، اگر آپ ڈیٹا کے ایک نمونے کو جانچنے کے لیے دیکھیں (مثال کے طور پر، ایریزونا ریاست کو منتخب کریں) تو آپ دیکھ سکتے ہیں کہ قیمت میں سال بہ سال اضافے کا ایک نمونہ موجود ہے، چند استثنائی صورتوں کے ساتھ:
کیا یہ صرف طلب اور رسد کا معاملہ ہے؟ موسمیاتی تبدیلی اور کالونی کولیپس جیسے عوامل کی وجہ سے، کیا سال بہ سال خریداری کے لیے کم شہد دستیاب ہے، اور اس لیے قیمت بڑھ رہی ہے؟
✅ چونکہ Seaborn ایک لائن کے ارد گرد ڈیٹا کو جمع کر رہا ہے، یہ "ہر x ویلیو پر متعدد پیمائشوں کو اوسط اور اوسط کے ارد گرد 95% اعتماد کے وقفے کو پلاٹ کر کے ظاہر کرتا ہے"۔ [ماخذ](https://seaborn.pydata.org/tutorial/relational.html)۔ اس وقت لینے والے رویے کو `ci=None` شامل کر کے غیر فعال کیا جا سکتا ہے۔
جواب: واقعی نہیں۔ اگر آپ کل پیداوار کو دیکھیں، تو یہ خاص سال میں درحقیقت بڑھتی ہوئی نظر آتی ہے، حالانکہ عمومی طور پر ان سالوں کے دوران شہد کی پیداوار میں کمی ہو رہی ہے۔
@ -130,7 +130,7 @@ sns.relplot(
```
اس بصری نمائندگی میں، آپ فی کالونی پیداوار اور کالونیوں کی تعداد کو سال بہ سال، ریاست بہ ریاست، 3 کالمز کے ساتھ موازنہ کر سکتے ہیں:
اس ڈیٹا سیٹ کے لیے، کالونیوں کی تعداد اور ان کی پیداوار کے حوالے سے سال بہ سال اور ریاست بہ ریاست کچھ خاص نمایاں نہیں ہوتا۔ کیا ان دو متغیرات کے درمیان تعلق تلاش کرنے کے لیے دیکھنے کا کوئی مختلف طریقہ ہے؟
اگرچہ 2003 کے آس پاس آنکھ کو کچھ خاص نظر نہیں آتا، لیکن یہ ہمیں اس سبق کو ایک خوشگوار نوٹ پر ختم کرنے کی اجازت دیتا ہے: اگرچہ مجموعی طور پر کالونیوں کی تعداد میں کمی ہو رہی ہے، کالونیوں کی تعداد مستحکم ہو رہی ہے، چاہے ان کی فی کالونی پیداوار کم ہو رہی ہو۔
یہاں، آپ `ggplot2` پیکج انسٹال کرتے ہیں اور پھر اسے `library("ggplot2")` کمانڈ کے ذریعے ورک اسپیس میں درآمد کرتے ہیں۔ ggplot میں کوئی بھی چارٹ پلاٹ کرنے کے لیے، `ggplot()` فنکشن استعمال کیا جاتا ہے اور آپ ڈیٹا سیٹ، x اور y متغیرات کو صفات کے طور پر تفویض کرتے ہیں۔ اس صورت میں، ہم `geom_line()` فنکشن استعمال کرتے ہیں کیونکہ ہمارا مقصد ایک لائن چارٹ بنانا ہے۔
آپ فوراً کیا نوٹ کرتے ہیں؟ کم از کم ایک آؤٹ لائر موجود ہے - یہ پروں کا پھیلاؤ کافی حیران کن ہے! 2000+ سینٹی میٹر پروں کا پھیلاؤ 20 میٹر سے زیادہ کے برابر ہے - کیا منیسوٹا میں پیٹروڈیکٹائلز گھوم رہے ہیں؟ آئیے تحقیق کریں۔
لیبلز کو 45 ڈگری پر گھمانے کے باوجود، پڑھنے کے لیے بہت زیادہ ہیں۔ آئیے ایک مختلف حکمت عملی آزمائیں: صرف آؤٹ لائرز کو لیبل کریں اور لیبلز کو چارٹ کے اندر سیٹ کریں۔ آپ لیبلنگ کے لیے اسکیٹر چارٹ استعمال کر سکتے ہیں:
ہم نے ایک نیا ڈیٹا فریم `birds_filtered` بنایا اور پھر ایک اسکیٹر چارٹ پلاٹ کیا۔ آؤٹ لائرز کو فلٹر کرنے سے، آپ کا ڈیٹا اب زیادہ مربوط اور قابل فہم ہو گیا ہے۔
مندرجہ ذیل کوڈ میں، ہم [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) اور [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) پیکجز انسٹال کرتے ہیں تاکہ ڈیٹا کو جوڑنے اور گروپ کرنے میں مدد ملے تاکہ ایک اسٹیکڈ بار چارٹ پلاٹ کیا جا سکے۔ پہلے، آپ ڈیٹا کو پرندے کے `Category` کے لحاظ سے گروپ کرتے ہیں اور پھر `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` کالمز کو خلاصہ کرتے ہیں۔ پھر، `ggplot2` پیکج کا استعمال کرتے ہوئے بار چارٹ پلاٹ کریں اور مختلف زمرے کے لیے رنگ اور لیبلز تفویض کریں۔


یہ بار چارٹ، تاہم، ناقابل پڑھائی ہے کیونکہ بہت زیادہ غیر گروپ شدہ ڈیٹا موجود ہے۔ آپ کو صرف وہ ڈیٹا منتخب کرنے کی ضرورت ہے جسے آپ پلاٹ کرنا چاہتے ہیں، تو آئیے پرندے کے زمرے کی بنیاد پر لمبائی کا جائزہ لیں۔
آپ پہلے `Category` کالم میں منفرد اقدار کی گنتی کرتے ہیں اور پھر انہیں ایک نئے ڈیٹا فریم `birds_count` میں ترتیب دیتے ہیں۔ یہ ترتیب شدہ ڈیٹا پھر اسی سطح پر فیکٹر کیا جاتا ہے تاکہ اسے ترتیب شدہ طریقے سے پلاٹ کیا جا سکے۔ `ggplot2` کا استعمال کرتے ہوئے آپ پھر ڈیٹا کو بار چارٹ میں پلاٹ کرتے ہیں۔ `coord_flip()` افقی بارز پلاٹ کرتا ہے۔
یہ بار چارٹ پرندوں کے ہر زمرے میں تعداد کا ایک اچھا نظارہ دکھاتا ہے۔ ایک نظر میں، آپ دیکھتے ہیں کہ اس علاقے میں سب سے زیادہ تعداد میں پرندے بطخ/گیز/واٹر فاول کے زمرے میں ہیں۔ منیسوٹا '10,000 جھیلوں کی زمین' ہے، لہذا یہ حیرت انگیز نہیں ہے!
یہاں کچھ حیران کن نہیں ہے: ہمینگ برڈز کی زیادہ سے زیادہ لمبائی پیلیکنز یا گیز کے مقابلے میں سب سے کم ہے۔ یہ اچھا ہے جب ڈیٹا منطقی طور پر سمجھ میں آتا ہے!


یہ پرندوں کے آرڈر کے لحاظ سے جسمانی لمبائی کی عمومی تقسیم کا جائزہ دیتا ہے، لیکن یہ حقیقی تقسیم کو ظاہر کرنے کا بہترین طریقہ نہیں ہے۔ یہ کام عام طور پر ہسٹوگرام بنا کر کیا جاتا ہے۔


جیسا کہ آپ دیکھ سکتے ہیں، اس ڈیٹا سیٹ میں موجود 400+ پرندوں میں سے زیادہ تر کا زیادہ سے زیادہ جسمانی وزن 2000 سے کم ہے۔ ڈیٹا کے بارے میں مزید بصیرت حاصل کرنے کے لیے `bins` پیرامیٹر کو زیادہ تعداد، جیسے 30 میں تبدیل کریں:


یہ چارٹ تقسیم کو تھوڑا زیادہ تفصیلی انداز میں دکھاتا ہے۔ ایک چارٹ جو بائیں طرف کم جھکا ہوا ہو، اس وقت بنایا جا سکتا ہے جب آپ صرف ایک دیے گئے حد کے اندر ڈیٹا کو منتخب کریں:


کم از کم پروں کے پھیلاؤ اور تحفظ کی حالت کے درمیان کوئی اچھا تعلق نظر نہیں آتا۔ اس طریقے کا استعمال کرتے ہوئے ڈیٹا سیٹ کے دوسرے عناصر کو آزمائیں۔ آپ مختلف فلٹرز بھی آزما سکتے ہیں۔ کیا آپ کو کوئی تعلق نظر آتا ہے؟
آپ دیکھ سکتے ہیں کہ یہ پلاٹ کم از کم پروں کے پھیلاؤ کے ڈیٹا کے لیے پچھلے پلاٹ کی عکاسی کرتا ہے؛ یہ صرف تھوڑا سا ہموار ہے۔ اگر آپ اس قدموں والے MaxBodyMass لائن کو دوبارہ دیکھنا چاہتے ہیں جو آپ نے دوسرے چارٹ میں بنایا تھا، تو آپ اسے اس طریقے کا استعمال کرتے ہوئے بہت اچھی طرح سے ہموار کر سکتے ہیں:
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```


دیکھیں، ایک پائی چارٹ جو اس ڈیٹا کو ان دو مشرومز کی کلاسز کے مطابق تناسبات دکھاتا ہے۔ لیبلز کی ترتیب کو درست رکھنا خاص طور پر یہاں بہت اہم ہے، لہذا لیبل آرے کی ترتیب کو ضرور چیک کریں!
یہ کوڈ دو لائبریریوں - ggplot2 اور webr - استعمال کرتا ہے۔ webr لائبریری کے PieDonut فنکشن کا استعمال کرتے ہوئے، ہم آسانی سے ایک ڈونٹ چارٹ بنا سکتے ہیں!
وافل چارٹ کا استعمال کرتے ہوئے، آپ مشرومز کے اس ڈیٹا سیٹ میں ٹوپی کے رنگوں کے تناسب کو واضح طور پر دیکھ سکتے ہیں۔ دلچسپ بات یہ ہے کہ بہت سے سبز ٹوپی والے مشرومز موجود ہیں!
اس سبق میں، آپ نے تناسبات کو بصری طور پر سمجھنے کے تین طریقے سیکھے۔ پہلے، آپ کو اپنے ڈیٹا کو کیٹیگریز میں گروپ کرنا ہوگا اور پھر فیصلہ کرنا ہوگا کہ ڈیٹا کو دکھانے کا بہترین طریقہ کون سا ہے - پائی، ڈونٹ، یا وافل۔ یہ سب مزیدار ہیں اور صارف کو ڈیٹا سیٹ کا فوری جائزہ فراہم کرتے ہیں۔
اب، وہی ڈیٹا شہد کے رنگ سکیم کے ساتھ دکھائیں تاکہ یہ ظاہر ہو کہ قیمت سال بہ سال کیسے بدلی ہے۔ آپ یہ 'scale_color_gradientn' پیرامیٹر شامل کر کے کر سکتے ہیں تاکہ تبدیلی کو ظاہر کیا جا سکے:
اس رنگ سکیم کی تبدیلی کے ساتھ، آپ واضح طور پر دیکھ سکتے ہیں کہ سال بہ سال شہد کی فی پاؤنڈ قیمت میں ایک مضبوط ترقی ہوئی ہے۔ درحقیقت، اگر آپ ڈیٹا کے ایک نمونے کو جانچنے کے لیے دیکھیں (مثال کے طور پر، ایریزونا کی ریاست)، تو آپ دیکھ سکتے ہیں کہ قیمت میں سال بہ سال اضافے کا ایک نمونہ موجود ہے، چند استثناء کے ساتھ:
کیا یہ صرف طلب اور رسد کا معاملہ ہے؟ موسمیاتی تبدیلی اور کالونی کولیپس جیسے عوامل کی وجہ سے، کیا سال بہ سال خریداری کے لیے کم شہد دستیاب ہے، اور اس وجہ سے قیمت بڑھ رہی ہے؟
جواب: واقعی نہیں۔ اگر آپ کل پیداوار کو دیکھیں، تو ایسا لگتا ہے کہ اس خاص سال میں یہ درحقیقت بڑھ گئی ہے، حالانکہ عمومی طور پر ان سالوں کے دوران شہد کی پیداوار میں کمی ہو رہی ہے۔
اس ڈیٹا سیٹ کے لیے، کالونیوں کی تعداد اور ان کی پیداوار کے لحاظ سے سال بہ سال اور ریاست بہ ریاست کچھ خاص نمایاں نہیں ہوتا۔ کیا ان دو متغیرات کے درمیان تعلق تلاش کرنے کے لیے دیکھنے کا کوئی مختلف طریقہ ہے؟
جبکہ 2003 کے آس پاس کچھ خاص نظر نہیں آتا، یہ ہمیں سبق کو ایک خوشگوار نوٹ پر ختم کرنے کی اجازت دیتا ہے: اگرچہ مجموعی طور پر کالونیوں کی تعداد میں کمی ہو رہی ہے، کالونیوں کی تعداد مستحکم ہو رہی ہے، چاہے ان کی فی کالونی پیداوار کم ہو رہی ہو۔
چاہے ایک ڈیٹا سائنسدان صحیح ڈیٹا کے لیے صحیح چارٹ منتخب کرنے میں محتاط ہو، پھر بھی ڈیٹا کو اس طرح پیش کرنے کے کئی طریقے ہیں جو کسی نکتے کو ثابت کرنے کے لیے استعمال کیے جا سکتے ہیں، اکثر ڈیٹا کی سالمیت کو نقصان پہنچا کر۔ دھوکہ دہی والے چارٹس اور انفراگرافکس کی کئی مثالیں موجود ہیں!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 دھوکہ دہی والے چارٹس کے بارے میں ایک کانفرنس ٹاک کے لیے اوپر دی گئی تصویر پر کلک کریں
یہ چارٹ X محور کو الٹا کر کے تاریخ کی بنیاد پر حقیقت کے برعکس دکھاتا ہے:
[یہ چارٹ](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) اور بھی زیادہ دھوکہ دہی والا ہے، کیونکہ آنکھ دائیں طرف کھینچی جاتی ہے تاکہ یہ نتیجہ اخذ کیا جا سکے کہ وقت کے ساتھ، مختلف کاؤنٹیز میں COVID کیسز کم ہو گئے ہیں۔ درحقیقت، اگر آپ تاریخوں کو قریب سے دیکھیں تو آپ کو پتہ چلے گا کہ انہیں اس دھوکہ دہی والے نیچے کے رجحان کو ظاہر کرنے کے لیے دوبارہ ترتیب دیا گیا ہے۔
یہ بدنام زمانہ مثال رنگ اور الٹے Y محور کا استعمال کرتی ہے تاکہ دھوکہ دیا جا سکے: بندوق کے حامی قانون سازی کے نفاذ کے بعد بندوق سے ہونے والی اموات میں اضافے کے بجائے، آنکھ کو دھوکہ دیا جاتا ہے کہ اس کے برعکس سچ ہے:
ناقابل موازنہ چیزوں کا موازنہ کرنا ایک اور مشکوک چال ہے۔ ایک [شاندار ویب سائٹ](https://tylervigen.com/spurious-correlations) 'غلط تعلقات' کے بارے میں ہے جو 'حقائق' کو ظاہر کرتی ہے جیسے مین میں طلاق کی شرح اور مارجرین کے استعمال کے درمیان تعلق۔ ایک Reddit گروپ بھی ڈیٹا کے [بدصورت استعمالات](https://www.reddit.com/r/dataisugly/top/?t=all) کو جمع کرتا ہے۔
@ -91,13 +91,13 @@
اگر آپ کا ڈیٹا X محور پر متنی اور تفصیلی ہے، تو بہتر پڑھنے کے لیے متن کو زاویہ دے سکتے ہیں۔ [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D پلاٹنگ پیش کرتا ہے، اگر آپ کا ڈیٹا اس کی حمایت کرتا ہو۔ اس کا استعمال کرتے ہوئے نفیس بصری نمائیاں تیار کی جا سکتی ہیں۔
آج کل کی بہترین بصری نمائیاں متحرک ہوتی ہیں۔ Shirley Wu نے D3 کے ساتھ حیرت انگیز نمائیاں بنائی ہیں، جیسے '[فلم کے پھول](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)'، جہاں ہر پھول ایک فلم کی نمائندگی کرتا ہے۔ Guardian کے لیے ایک اور مثال 'بَسڈ آؤٹ' ہے، جو بصری نمائیاں، Greensock اور D3 کے ساتھ ایک انٹرایکٹو تجربہ ہے، اور ایک اسکرولی ٹیلنگ آرٹیکل فارمیٹ کے ساتھ دکھاتا ہے کہ NYC اپنے بے گھر افراد کو شہر سے باہر بھیج کر کیسے سنبھالتا ہے۔
> "بَسڈ آؤٹ: امریکہ اپنے بے گھر افراد کو کیسے منتقل کرتا ہے" [دی گارڈین](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) سے۔ بصری نمائیاں: Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@
آپ ایک ویب ایپ مکمل کریں گے جو اس سوشل نیٹ ورک کا متحرک منظر دکھائے گی۔ یہ ایک لائبریری کا استعمال کرتی ہے جو Vue.js اور D3 کا استعمال کرتے ہوئے ایک [نیٹ ورک کی نمائیاں](https://github.com/emiliorizzo/vue-d3-network) بنانے کے لیے تیار کی گئی تھی۔ جب ایپ چل رہی ہو، تو آپ اسکرین پر نوڈز کو گھسیٹ کر ڈیٹا کو ادھر ادھر کر سکتے ہیں۔


> تصویر <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">جینا لی</a> کی جانب سے <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> پر
ڈیٹا کو بصری طور پر پیش کرنا ایک ڈیٹا سائنسدان کے سب سے اہم کاموں میں سے ایک ہے۔ تصاویر ہزاروں الفاظ کے برابر ہوتی ہیں، اور ایک تصور آپ کو اپنے ڈیٹا کے مختلف دلچسپ پہلوؤں جیسے کہ اسپائکس، آؤٹ لائرز، گروپنگز، رجحانات، اور مزید کو پہچاننے میں مدد دے سکتا ہے، جو آپ کو یہ سمجھنے میں مدد دیتا ہے کہ آپ کا ڈیٹا کیا کہانی بیان کر رہا ہے۔
یہ سبق لائف سائیکل کے تین حصوں پر مرکوز ہے: ڈیٹا حاصل کرنا، پراسیسنگ اور دیکھ بھال۔


> تصویر [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) کی جانب سے
## ڈیٹا حاصل کرنا
@ -92,7 +92,7 @@
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
| |  |
| |  |
| تصویر [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) کی جانب سے | تصویر [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) کی جانب سے |
## [لیکچر کے بعد کا کوئز](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> تصویر از <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> on <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
ان اسباق میں، آپ ڈیٹا سائنس کے لائف سائیکل کے کچھ پہلوؤں کو دریافت کریں گے، جن میں ڈیٹا کے تجزیے اور اس کے بارے میں بات چیت شامل ہے۔
> تصویر [Jelleke Vanooteghem](https://unsplash.com/@ilumire) کی جانب سے [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) پر دستیاب ہے۔
جب بڑے ڈیٹا کے ساتھ ڈیٹا سائنس کرنے کی بات آتی ہے، تو کلاؤڈ ایک انقلابی تبدیلی ثابت ہو سکتا ہے۔ اگلے تین اسباق میں، ہم دیکھیں گے کہ کلاؤڈ کیا ہے اور یہ کیوں مددگار ثابت ہو سکتا ہے۔ ہم دل کی ناکامی کے ڈیٹا سیٹ کا جائزہ لیں گے اور ایک ماڈل بنائیں گے جو کسی شخص کے دل کی ناکامی کے امکانات کا اندازہ لگانے میں مدد کرے گا۔ ہم کلاؤڈ کی طاقت کا استعمال کرتے ہوئے ماڈل کو دو مختلف طریقوں سے تربیت دیں گے، تعینات کریں گے اور استعمال کریں گے۔ ایک طریقہ صرف یوزر انٹرفیس کے ذریعے، جسے "لو کوڈ/نو کوڈ" انداز کہا جاتا ہے، اور دوسرا طریقہ Azure Machine Learning Software Developer Kit (Azure ML SDK) کا استعمال کرتے ہوئے۔
@ -32,7 +32,7 @@ AI کی جمہوریت کی بدولت، ڈویلپرز کے لیے AI سے چل
* [صحت کی دیکھ بھال میں ڈیٹا سائنس](https://data-flair.training/blogs/data-science-in-healthcare/) - طبی امیجنگ (جیسے MRI، ایکس رے، CT-Scan)، جینومکس (DNA سیکوینسنگ)، دوا کی ترقی (خطرے کی تشخیص، کامیابی کی پیش گوئی)، پیش گوئی تجزیات (مریض کی دیکھ بھال اور سپلائی لاجسٹکس)، بیماری کی ٹریکنگ اور روک تھام وغیرہ جیسے اطلاقات کو اجاگر کرتا ہے۔
 تصویر کا کریڈٹ: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 تصویر کا کریڈٹ: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
یہ شکل دیگر ڈومینز اور ڈیٹا سائنس تکنیکوں کے اطلاقات کی مثالیں دکھاتی ہے۔ کیا آپ دیگر اطلاقات کو دریافت کرنا چاہتے ہیں؟ نیچے [جائزہ اور خود مطالعہ](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) سیکشن دیکھیں۔
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
مایکروسافٹ کے Azure کلاؤڈ ایڈووکیٹس خوش ہیں کہ وہ ڈیٹا سائنس کے بارے میں 10 ہفتوں، 20 اسباق پر مشتمل نصاب پیش کریں۔ ہر سبق میں سبق سے پہلے اور سبق کے بعد کوئزز، سبق مکمل کرنے کی تحریری ہدایات، ایک حل، اور ایک اسائنمنٹ شامل ہے۔ ہمارا پروجیکٹ پر مبنی تدریسی طریقہ کار آپ کو سیکھنے کے ساتھ تعمیر کرنے کی اجازت دیتا ہے، جو نئی مہارتوں کو 'چپکانے' کے لیے ایک ثابت شدہ طریقہ ہے۔
مائیکروسافٹ میں Azure کلاؤڈ ایڈووکیٹس خوشی کے ساتھ 10 ہفتوں، 20 اسباق پر مشتمل نصاب پیش کرتے ہیں جو مکمل طور پر ڈیٹا سائنس کے بارے میں ہے۔ ہر سبق میں سبق سے پہلے اور بعد کے کوئزز، سبق مکمل کرنے کی تحریری ہدایات، حل، اور ایک اسائنمنٹ شامل ہیں۔ ہمارا پراجیکٹ پر مبنی تدریسی طریقہ کار آپ کو تعمیر کرتے ہوئے سیکھنے کی اجازت دیتا ہے، جو مہارت کے لیے قابلِ اعتماد طریقہ ہے جس سے نئی مہارتیں بہتر طور پر یاد رہتی ہیں۔
> اس ریپوزیٹری میں 50+ زبانوں کے تراجم شامل ہیں جو ڈاؤن لوڈ کے حجم کو کافی بڑھا دیتے ہیں۔ تراجم کے بغیر کلون کرنے کے لئے sparse checkout استعمال کریں:
> **کچھ مقامی طور پر کلون کرنا پسند کریں؟**
>
> اس ریپوزیٹری میں 50 سے زائد زبانوں کے تراجم شامل ہیں جو ڈاؤن لوڈ کا سائز نمایاں طور پر بڑھاتے ہیں۔ بغیر ترجمے کے کلون کرنے کے لئے sparse checkout استعمال کریں:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> یہ آپ کو کورس مکمل کرنے کے لیے ہر چیز فراہم کرتا ہے جس کے ساتھ ڈاؤن لوڈ تیز تر ہوگا۔
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**اگر آپ اضافی ترجمہ زبانوں کی حمایت چاہتے ہیں تو وہ [یہاں](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) درج ہیں**
**اگر آپ اضافی ترجمے والی زبانوں کی درخواست کرنا چاہتے ہیں تو وہ یہاں درج ہیں [here](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
ہمارے پاس ایک Discord پر "Learn with AI" سیریز جاری ہے، مزید جانیں اور ہمارے ساتھ شامل ہوں [Learn with AI Series](https://aka.ms/learnwithai/discord) میں 18 تا 30 ستمبر، 2025۔ آپ کو GitHub Copilot کے استعمال کے لئے ڈیٹا سائنس میں ٹپس اور ٹرکس ملیں گے۔
ہمارے پاس ایک Discord پر سیکھنے کا AI سلسلہ جاری ہے، مزید معلومات اور شامل ہونے کے لئے [Learn with AI Series](https://aka.ms/learnwithai/discord) پر آئیں، جو 18 سے 30 ستمبر، 2025 تک چل رہا ہے۔ آپ کو GitHub Copilot کو ڈیٹا سائنس کے لیے استعمال کرنے کے ٹپس اور ٹرکس ملیں گے۔

@ -59,193 +69,193 @@
مندرجہ ذیل وسائل کے ساتھ شروع کریں:
- [طالب علم ہب صفحہ](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) اس صفحہ میں آپ کو ابتدائی وسائل، طالب علم پیک اور مفت سرٹیفیکیشن ووچر حاصل کرنے کے طریقے ملیں گے۔ یہ وہ صفحہ ہے جسے آپ وقتاً فوقتاً دیکھنا چاہیں گے کیونکہ ہم کم از کم ماہانہ مواد تبدیل کرتے رہتے ہیں۔
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) عالمی طالب علم ایمبیسیڈر کمیونٹی میں شامل ہوں، یہ آپ کا مائیکروسافٹ میں داخلہ کا ذریعہ ہو سکتا ہے۔
- [طالب علم ہب صفحہ](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) اس صفحہ پر آپ کو ابتدائی افراد کے لئے وسائل، طالب علم پیک اور مفت سرٹیفکیٹ واؤچر حاصل کرنے کے طریقے ملیں گے۔ یہ ایک ایسی صفحہ ہے جسے آپ نشان زد کرنا چاہیں گے اور وقتاً فوقتاً چیک کرتے رہیں کیونکہ ہم کم از کم ماہانہ بار مواد تبدیل کرتے رہتے ہیں۔
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) عالمی سطح پر طالب علم سفیروں کی کمیونٹی میں شامل ہوں، یہ ممکنہ طور پر مائیکروسافٹ میں آپ کا دروازہ ہو سکتا ہے۔
# شروع کرنا
# شروعات
## 📚 دستاویزی مواد
## 📚 دستاویزات
- **[انسٹالیشن گائیڈ](INSTALLATION.md)** - ابتدائیوں کے لیے مرحلہ وار سیٹ اپ کی ہدایات
- **[استعمال کا گائیڈ](USAGE.md)** - مثالیں اور عام ورک فلو
- **[مسائل حل کرنا](TROUBLESHOOTING.md)** - عام مسائل کے حل
- **[شراکت دار بننے کا طریقہ](CONTRIBUTING.md)** - اس پروجیکٹ میں تعاون کرنے کا طریقہ
- **[تنصیب کی رہنمائی](INSTALLATION.md)** - ابتدائی افراد کے لیے مرحلہ وار سیٹ اپ کی ہدایات
- **[استعمال کی رہنمائی](USAGE.md)** - مثالیں اور عام کام کرنے کے طریقے
- **[مسائل کا حل](TROUBLESHOOTING.md)** - عام مسائل کے حل
- **[شراکت داری کی رہنمائی](CONTRIBUTING.md)** - اس پروجیکٹ میں کیسے حصہ لیں
- **[اساتذہ کے لیے](for-teachers.md)** - تدریسی رہنمائی اور کلاس روم کے وسائل
## 👨🎓 طلبہ کے لیے
> **بالکل نئے**: ڈیٹا سائنس میں نئے ہیں؟ ہمارے [آسان اور وضاحتی مثالوں](examples/README.md) سے شروع کریں! یہ سادہ اور وضاحتی مثالیں آپ کو بنیادی باتیں سمجھنے میں مدد دیں گی اس سے پہلے کہ آپ مکمل نصاب میں جائیں۔
> **[طلبہ](https://aka.ms/student-page)**: اس نصاب کو خود استعمال کرنے کے لیے، پورے ریپو کو فورک کریں اور خود کی مشقیں مکمل کریں، شروع میں ایک پری لیکچر کوئز کے ساتھ۔ پھر لیکچر پڑھیں اور باقی سرگرمیاں مکمل کریں۔ کوشش کریں کہ اسباق کو سمجھ کر پروجیکٹ بنائیں بجائے اس کے کہ حل کے کوڈ کی نقل کریں؛ تاہم، وہ کوڈ ہر پروجیکٹ پر مبنی سبق کے /solutions فولڈر میں دستیاب ہے۔ ایک اور خیال ہے کہ دوستوں کے ساتھ ایک اسٹڈی گروپ بنائیں اور مل کر مواد کا جائزہ لیں۔ مزید مطالعہ کے لیے، ہم [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) کی سفارش کرتے ہیں۔
> **مکمل ابتدائی:** کیا آپ ڈیٹا سائنس میں نئے ہیں؟ ہمارے [ابتدائی دوستانہ مثالوں](examples/README.md) سے شروع کریں! یہ سادہ، اچھی طرح تبصرہ شدہ مثالیں آپ کو بنیادی باتیں سمجھنے میں مدد دیں گی اس سے پہلے کہ آپ پورے نصاب میں داخل ہوں۔
> **[طلبہ](https://aka.ms/student-page)**: یہ نصاب خود استعمال کرنے کے لیے، پوری ریپوزیٹری کو فورک کریں اور اپنے طور پر سرگرمیاں مکمل کریں، لیکچر سے پہلے کوئز سے شروع کریں۔ پھر لیکچر پڑھیں اور باقی سرگرمیاں مکمل کریں۔ حل کاپی کرنے کی بجائے اسباق کو سمجھ کر پروجیکٹس بنانے کی کوشش کریں؛ تاہم، وہ کوڈ ہر پراجیکٹ پر مبنی سبق میں /solutions فولڈر میں دستیاب ہیں۔ ایک اور خیال یہ ہے کہ دوستوں کے ساتھ اسٹڈی گروپ بنائیں اور مواد کو مل کر دیکھیں۔ مزید مطالعات کے لیے، ہم [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) کی تجویز کرتے ہیں۔
**فوری آغاز:**
1. اپنا ماحول ترتیب دینے کے لیے [انسٹالیشن گائیڈ](INSTALLATION.md) دیکھیں
2. نصاب کے ساتھ کام کرنے کے طریقے جاننے کے لیے [استعمال کا گائیڈ](USAGE.md) کا جائزہ لیں
3. سبق نمبر 1 سے شروع کریں اور ترتیب سے آگے بڑھیں
4. مدد کے لیے ہمارے [Discord کمیونٹی](https://aka.ms/ds4beginners/discord) میں شامل ہوں
1. اپنی ماحول ترتیب دینے کے لیے [تنصیب کی رہنمائی](INSTALLATION.md) دیکھیں
2. نصاب کے ساتھ کام کرنے کا طریقہ سیکھنے کے لیے [استعمال کی رہنمائی](USAGE.md) کا جائزہ لیں
3. سبق نمبر 1 سے شروع کریں اور ترتیب وار آگے بڑھیں
4. ہمارے [Discord کمیونٹی](https://aka.ms/ds4beginners/discord) میں شامل ہو کر مدد حاصل کریں
## 👩🏫 اساتذہ کے لیے
> **اساتذہ**: ہم نے [کریکولم استعمال کرنے کے لئے کچھ تجاویز شامل کی ہیں](for-teachers.md)۔ ہم آپ کی رائے [ہمارے بحث فورم میں](https://github.com/microsoft/Data-Science-For-Beginners/discussions) جاننا پسند کریں گے!
> **اساتذہ**: ہم نے اس نصاب کے استعمال کے لیے کچھ [تجاویز شامل کی ہیں](for-teachers.md)۔ ہمیں آپ کی رائے سن کر خوشی ہوگی [ہماری مباحثہ فورم](https://github.com/microsoft/Data-Science-For-Beginners/discussions) میں!
> 🎥 پروجیکٹ اور اسے بنانے والے افراد کے بارے میں ویڈیو کے لیے اوپر دی گئی تصویر پر کلک کریں!
> 🎥 اوپر دی گئی تصویر پر کلک کریں تاکہ پروجیکٹ اور اسے بنانے والے لوگوں کے بارے میں ویڈیو دیکھ سکیں!
## تعلیم کا طریقہ کار
ہم نے اس نصاب کی تیاری کے دوران دو تعلیمی اصول چنے ہیں: یہ کہ یہ پروجیکٹ پر مبنی ہو اور اس میں بار بار کوئز شامل ہوں۔ اس سیریز کے اختتام تک، طلباء نے ڈیٹا سائنس کے بنیادی اصول سیکھ لیے ہوں گے، جن میں اخلاقی تصورات، ڈیٹا کی تیاری، ڈیٹا کے ساتھ کام کرنے کے مختلف طریقے، ڈیٹا کی تصویری نمائندگی، ڈیٹا کا تجزیہ، ڈیٹا سائنس کے حقیقی دنیا کے استعمال کے معاملات، اور بہت کچھ شامل ہے۔
ہم نے اس کریکولم کی تیاری میں دو تدریسی اصول منتخب کیے ہیں: اسے پروجیکٹ پر مبنی بنانا اور بار بار کوئزز شامل کرنا۔ اس سیریز کے اختتام تک، طلباء ڈیٹا سائنس کے بنیادی اصول سیکھ چکے ہوں گے، جس میں اخلاقی تصورات، ڈیٹا کی تیاری، ڈیٹا کے ساتھ کام کرنے کے مختلف طریقے، ڈیٹا کا تصور، ڈیٹا تجزیہ، ڈیٹا سائنس کے حقیقی دنیا کے استعمال کے کیسز، اور بہت کچھ شامل ہے۔
مزید یہ کہ، کلاس سے پہلے ایک کم دباؤ والا کوئز طالب علم کی کسی موضوع کو سیکھنے کی نیت قائم کرتا ہے، جبکہ کلاس کے بعد دوسرا کوئز اس معلومات کی مزید یادداشت کو یقینی بناتا ہے۔ یہ نصاب لچکدار اور تفریحی بنانے کے لیے ڈیزائن کیا گیا ہے اور پورے یا کسی حصے میں بھی لیا جا سکتا ہے۔ پروجیکٹس شروع میں چھوٹے ہوتے ہیں اور 10 ہفتوں کے دورانیے کے آخر تک پیچیدہ ہوتے جاتے ہیں۔
مزید برآں، کلاس سے پہلے ایک کم دباؤ والا کوئز طلباء کے سیکھنے کے ارادے کو ترتیب دیتا ہے، جبکہ کلاس کے بعد دوسرا کوئز مزید یادداشت کو یقینی بناتا ہے۔ یہ کورس لچک دار اور دلچسپ بنایا گیا ہے اور اسے مکمل یا جزوی طور پر لیا جا سکتا ہے۔ پروجیکٹس چھوٹے سے شروع ہوتے ہیں اور 10 ہفتوں کے دورانیے کے آخر تک پیچیدہ ہوتے چلے جاتے ہیں۔
> ہمارے [کوڈ آف کنڈکٹ](CODE_OF_CONDUCT.md)، [قواعد و ضوابط](CONTRIBUTING.md)، [ترجمہ](TRANSLATIONS.md) کی ہدایات دیکھیں۔ ہم آپ کی تعمیری رائے کا خیرمقدم کرتے ہیں!
> ہمارے [رویہ کا ضابطہ](CODE_OF_CONDUCT.md)، [شراکت داری](CONTRIBUTING.md)، [ترجمہ](TRANSLATIONS.md) رہنما اصول دریافت کریں۔ ہم آپ کی تعمیری رائے کا خیرمقدم کرتے ہیں!
## ہر سبق میں شامل ہے:
## ہر درس میں شامل ہے:
- اختیاری اسکیچ نوٹ
- اختیاری اسکچ نوٹ
- اختیاری اضافی ویڈیو
- سبق سے پہلے گرم اپ کوئز
- سبق کے پہلے گرم اپ کوئز
- تحریری سبق
- پروجیکٹ پر مبنی اسباق کے لیے، پروجیکٹ بنانے کے مرحلہ وار رہنما
- پروجیکٹ پر مبنی اسباق کے لئے، پروجیکٹ بنانے کے مرحلہ وار رہنما
- علم کی جانچ
- ایک چیلنج
- اضافی مطالعہ
- اسباق کے بعد کوئز ([Post-lesson quiz](https://ff-quizzes.netlify.app/en/))
- اضافی پڑھائی
- اسائنمنٹ
- [سبق کے بعد کا کوئز](https://ff-quizzes.netlify.app/en/)
> **کوئز کے بارے میں نوٹ**: تمام کوئزز Quiz-App فولڈر میں شامل ہیں، کل 40 کوئزز ہیں جن میں سے ہر ایک میں تین سوالات ہوتے ہیں۔ یہ اسباق میں لنک کیے گئے ہیں، لیکن کوئز ایپ کو آپ مقامی طور پر چلا سکتے ہیں یا Azure پر تعینات کر سکتے ہیں؛ `quiz-app` فولڈر میں ہدایات پر عمل کریں۔ انہیں بتدریج مقامی زبانوں میں تبدیل کیا جا رہا ہے۔
> **کوئزز کے بارے میں ایک نوٹ**: تمام کوئزز Quiz-App فولڈر میں ہیں، کل 40 کوئزز جن میں ہر ایک میں تین سوالات ہوتے ہیں۔ یہ اسباق کے اندر سے لنک کیے جاتے ہیں، لیکن کوئز ایپ کو مقامی طور پر چلایا جا سکتا ہے یا Azure پر تعینات کیا جا سکتا ہے؛ `quiz-app` فولڈر میں ہدایات پر عمل کریں۔ انہیں بتدریج مقامی زبانوں میں منتقل کیا جا رہا ہے۔
## 🎓 ابتدائی افراد کے لیے مثالیں
## 🎓 ابتدائیوں کے لیے دوستانہ مثالیں
**ڈیٹا سائنس میں نئے ہیں؟** ہم نے ایک خاص [مثالیں ڈائریکٹری](examples/README.md) بنائی ہے جس میں آسان، اچھی طرح سے تبصرہ شدہ کوڈ ہے تاکہ آپ شروع کر سکیں:
**ڈیٹا سائنس میں نئے ہیں؟** ہم نے ایک خاص [مثالوں کا ڈائریکٹری](examples/README.md) بنایا ہے جس میں سادہ، اچھی طرح سے تبصرہ شدہ کوڈ موجود ہے تاکہ آپ آسانی سے شروع کر سکیں:
- 🌟 **ہیلو ورلڈ** - آپ کا پہلا ڈیٹا سائنس پروگرام
- 📂 **ڈیٹا لوڈ کرنا** - ڈیٹا سیٹس کو پڑھنا اور تلاش کرنا سیکھیں
- 📊 **سادہ تجزیہ** - اعدادوشمار کا حساب لگائیں اور پیٹرن تلاش کریں
- 📈 **بنیادی تصویری نمائندگی** - چارٹس اور گراف بنائیں
- 🔬 **حقیقی دنیا کا پروجیکٹ** - ابتدا سے لے کر اختتام تک مکمل ورک فلو
- 🌟 **ہیلو ورلڈ** - آپ کا پہلا ڈیٹا سائنس پروگرام
- 📂 **ڈیٹا لوڈ کرنا** - ڈیٹا سیٹس کو پڑھنے اور دریافت کرنے کا طریقہ سیکھیں
- 📊 **سادہ تجزیہ** - اعدادوشمار کا حساب لگائیں اور پیٹرنز تلاش کریں
- 📈 **بنیادی تصورات** - چارٹ اور گرافس بنائیں
- 🔬 **حقیقی دنیا کا پروجیکٹ** - مکمل ورک فلو ابتدا سے اختتام تک
ہر مثال مکمل تبصروں کے ساتھ ہے جو ہر قدم کی وضاحت کرتے ہیں، جو بالکل ابتدائی افراد کے لیے بہترین ہے!
ہر مثال میں ہر مرحلے کی تفصیلی تشریحات شامل ہیں، جو اسے بالکل ابتدائیوں کے لیے بہترین بناتی ہیں!
👉 **[مثالوں سے شروع کریں](examples/README.md)** 👈
👉 **[مثالوں کے ساتھ شروع کریں](examples/README.md)** 👈
| 01 | ڈیٹا سائنس کی تعریف | [تعارف](1-Introduction/README.md) | ڈیٹا سائنس کے بنیادی تصورات اور یہ آرٹیفیشل انٹیلی جنس، مشین لرننگ، اور بڑی ڈیٹا سے کیسے منسلک ہے سیکھنا۔ | [سبق](1-Introduction/01-defining-data-science/README.md) [ویڈیو](https://youtu.be/beZ7Mb_oz9I) | [دمیتری](http://soshnikov.com) |
| 03 | ڈیٹا کی تعریف | [تعارف](1-Introduction/README.md) | ڈیٹا کی درجہ بندی اور اس کے عام ذرائع۔ | [سبق](1-Introduction/03-defining-data/README.md) | [جازمین](https://www.twitter.com/paladique) |
| 04 | شماریات اور احتمال کا تعارف | [تعارف](1-Introduction/README.md) | احتمال اور شماریات کی ریاضی تکنیکوں کا استعمال کر کے ڈیٹا کو سمجھنا۔ | [سبق](1-Introduction/04-stats-and-probability/README.md) [ویڈیو](https://youtu.be/Z5Zy85g4Yjw) | [دمیتری](http://soshnikov.com) |
| 05 | تعلقاتی ڈیٹا کے ساتھ کام کرنا | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | تعلقاتی ڈیٹا کا تعارف اور اس کی کھوج اور تجزیہ کے بنیادی اصول Structured Query Language یعنی SQL کے ذریعے۔ | [سبق](2-Working-With-Data/05-relational-databases/README.md) | [کرسٹوفر](https://www.twitter.com/geektrainer) | | |
| 06 | نان SQL ڈیٹا کے ساتھ کام کرنا | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | غیر تعلقاتی ڈیٹا کا تعارف، اس کی مختلف اقسام اور دستاویز ڈیٹا بیس کی کھوج اور تجزیہ کے بنیادی اصول۔ | [سبق](2-Working-With-Data/06-non-relational/README.md) | [جازمین](https://twitter.com/paladique)|
| 07 | پائتھون کے ساتھ کام کرنا | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | پائتھون کا استعمال کرتے ہوئے ڈیٹا کی کھوج کے بنیادی اصول جیسے کہ Pandas لائبریریز۔ پائتھون پروگرامنگ کی بنیادی سمجھ سفارش کی جاتی ہے۔ | [سبق](2-Working-With-Data/07-python/README.md) [ویڈیو](https://youtu.be/dZjWOGbsN4Y) | [دمیتری](http://soshnikov.com) |
| 08 | ڈیٹا کی تیاری | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | گمشدہ، غلط، یا نامکمل ڈیٹا کے چیلنجز کو دور کرنے کے لیے ڈیٹا صاف کرنے اور تبدیل کرنے کی تکنیکیں۔ | [سبق](2-Working-With-Data/08-data-preparation/README.md) | [جازمین](https://www.twitter.com/paladique) |
| 09 | مقدار کی تصویری نمائندگی | [ڈیٹا کی تصویری نمائندگی](3-Data-Visualization/README.md) | Matplotlib کا استعمال کر کے پرندوں کے ڈیٹا کی تصویری نمائندگی سیکھیں 🦆 | [سبق](3-Data-Visualization/09-visualization-quantities/README.md) | [جن](https://twitter.com/jenlooper) |
| 10 | ڈیٹا کی تقسیمات کی تصویری نمائندگی | [ڈیٹا کی تصویری نمائندگی](3-Data-Visualization/README.md) | مشاہدات اور رجحانات کی ایک وقفہ میں تصویری نمائندگی۔ | [سبق](3-Data-Visualization/10-visualization-distributions/README.md) | [جن](https://twitter.com/jenlooper) |
| 11 | تناسب کی تصویری نمائندگی | [ڈیٹا کی تصویری نمائندگی](3-Data-Visualization/README.md) | متفرق اور گروپ شدہ فیصدی کی تصویری نمائندگی۔ | [سبق](3-Data-Visualization/11-visualization-proportions/README.md) | [جن](https://twitter.com/jenlooper) |
| 12 | تعلقات کی تصویری نمائندگی | [ڈیٹا کی تصویری نمائندگی](3-Data-Visualization/README.md) | ڈیٹا سیٹس اور ان کے متغیرات کے درمیان کنکشنز اور تعلقات کی تصویری نمائندگی۔ | [سبق](3-Data-Visualization/12-visualization-relationships/README.md) | [جن](https://twitter.com/jenlooper) |
| 13 | معنی خیز تصویری نمائندگی | [ڈیٹا کی تصویری نمائندگی](3-Data-Visualization/README.md) | اپنی تصویری نمائندگی کو مؤثر مسئلہ حل کرنے اور بصیرت کے لیے قیمتی بنانے کی تکنیکیں اور رہنمائی۔ | [سبق](3-Data-Visualization/13-meaningful-visualizations/README.md) | [جن](https://twitter.com/jenlooper) |
| 14 | ڈیٹا سائنس کے زندگی کے چکر کا تعارف | [زندگی کے چکر](4-Data-Science-Lifecycle/README.md) | ڈیٹا سائنس کے زندگی کے چکر کا تعارف اور ڈیٹا حاصل کرنے اور نکالنے کا پہلا مرحلہ۔ | [سبق](4-Data-Science-Lifecycle/14-Introduction/README.md) | [جازمین](https://twitter.com/paladique) |
| 15 | تجزیہ کرنا | [زندگی کے چکر](4-Data-Science-Lifecycle/README.md) | ڈیٹا سائنس کے زندگی کے چکر کا یہ مرحلہ ڈیٹا کے تجزیہ کرنے کی تکنیکوں پر مرکوز ہے۔ | [سبق](4-Data-Science-Lifecycle/15-analyzing/README.md) | [جازمین](https://twitter.com/paladique) | | |
| 16 | ابلاغ | [زندگی کے چکر](4-Data-Science-Lifecycle/README.md) | ڈیٹا سائنس کے زندگی کے چکر کا یہ مرحلہ ڈیٹا سے حاصل شدہ بصیرتوں کو اس طرح پیش کرنے پر مرکوز ہے جو فیصلہ سازوں کے لیے آسان فہم ہو۔ | [سبق](4-Data-Science-Lifecycle/16-communication/README.md) | [جیلن](https://twitter.com/JalenMcG) | | |
| 17 | کلاؤڈ میں ڈیٹا سائنس | [کلاؤڈ ڈیٹا](5-Data-Science-In-Cloud/README.md) | اس سبقوں کی سیریز میں کلاؤڈ میں ڈیٹا سائنس اور اس کے فوائد کا تعارف کروایا گیا ہے۔ | [سبق](5-Data-Science-In-Cloud/17-Introduction/README.md) | [ٹفنی](https://twitter.com/TiffanySouterre) اور [ماڈ](https://twitter.com/maudstweets) |
| 18 | کلاؤڈ میں ڈیٹا سائنس | [کلاؤڈ ڈیٹا](5-Data-Science-In-Cloud/README.md) | Low Code ٹولز کا استعمال کرتے ہوئے ماڈلز کی تربیت۔ |[سبق](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [ٹفنی](https://twitter.com/TiffanySouterre) اور [ماڈ](https://twitter.com/maudstweets) |
| 19 | کلاؤڈ میں ڈیٹا سائنس | [کلاؤڈ ڈیٹا](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio کے ذریعے ماڈلز کی تعیناتی۔ | [سبق](5-Data-Science-In-Cloud/19-Azure/README.md)| [ٹفنی](https://twitter.com/TiffanySouterre) اور [ماڈ](https://twitter.com/maudstweets) |
| 20 | جنگل میں ڈیٹا سائنس | [وائلڈ میں](6-Data-Science-In-Wild/README.md) | حقیقی دنیا میں ڈیٹا سائنس پر مبنی پروجیکٹس۔ | [سبق](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [نیتیا](https://twitter.com/nitya) |
## گِٹ ہب کوڈ اسپیسز
اس نمونے کو کوڈ اسپیس میں کھولنے کے لیے یہ مراحل انجام دیں:
1. کوڈ کے ڈراپ ڈاؤن مینو پر کلک کریں اور Open with Codespaces کا انتخاب کریں۔
| 01 | ڈیٹا سائنس کی تعریف | [تعارف](1-Introduction/README.md) | ڈیٹا سائنس کے بنیادی تصورات سیکھیں اور یہ کہ یہ مصنوعی ذہانت، مشین لرننگ، اور بڑے ڈیٹا سے کس طرح متعلق ہے۔ | [سبق](1-Introduction/01-defining-data-science/README.md) [ویڈیو](https://youtu.be/beZ7Mb_oz9I) | [دمیتری](http://soshnikov.com) |
| 02 | ڈیٹا سائنس کی اخلاقیات | [تعارف](1-Introduction/README.md) | ڈیٹا اخلاقیات کے تصورات، چیلنجز اور فریم ورکس۔ | [سبق](1-Introduction/02-ethics/README.md) | [نیتیا](https://twitter.com/nitya) |
| 03 | ڈیٹا کی تعریف | [تعارف](1-Introduction/README.md) | ڈیٹا کس طرح درجہ بندی کیا جاتا ہے اور اس کے عام ذرائع۔ | [سبق](1-Introduction/03-defining-data/README.md) | [یاسمین](https://www.twitter.com/paladique) |
| 04 | اعدادوشمار اور احتمال کا تعارف | [تعارف](1-Introduction/README.md) | ڈیٹا کو سمجھنے کے لیے احتمال اور اعدادوشمار کی ریاضی تکنیکیں۔ | [سبق](1-Introduction/04-stats-and-probability/README.md) [ویڈیو](https://youtu.be/Z5Zy85g4Yjw) | [دمیتری](http://soshnikov.com) |
| 05 | تعلقاتی ڈیٹا کے ساتھ کام کرنا | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | تعلقاتی ڈیٹا کا تعارف اور Structured Query Language (SQL) کے ذریعے تعلقاتی ڈیٹا کی کھوج اور تجزیے کی بنیادی باتیں۔ | [سبق](2-Working-With-Data/05-relational-databases/README.md) | [کرسٹوفر](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL ڈیٹا کے ساتھ کام کرنا | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | غیر تعلقاتی ڈیٹا، اس کی مختلف اقسام اور دستاویزی ڈیٹابیس کی کھوج اور تجزیہ کی بنیادی باتوں کا تعارف۔ | [سبق](2-Working-With-Data/06-non-relational/README.md) | [یاسمین](https://twitter.com/paladique)|
| 07 | پائتھن کے ساتھ کام کرنا | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | پینڈاز جیسی لائبریریوں کے ذریعے ڈیٹا کی کھوج کے لیے پائتھن کے استعمال کی بنیادی باتیں۔ پائتھن پروگرامنگ کی بنیادی سمجھ کی سفارش کی جاتی ہے۔ | [سبق](2-Working-With-Data/07-python/README.md) [ویڈیو](https://youtu.be/dZjWOGbsN4Y) | [دمیتری](http://soshnikov.com) |
| 08 | ڈیٹا کی تیاری | [ڈیٹا کے ساتھ کام](2-Working-With-Data/README.md) | ڈیٹا کی صفائی اور تبدیلی کی تکنیکیں تاکہ غائب، غلط یا نامکمل ڈیٹا کے مسائل کو حل کیا جا سکے۔ | [سبق](2-Working-With-Data/08-data-preparation/README.md) | [یاسمین](https://www.twitter.com/paladique) |
| 09 | مقدار کی بصری نمائندگی | [ڈیٹا ویژولائزیشن](3-Data-Visualization/README.md) | Matplotlib کا استعمال کرتے ہوئے پرندوں کے ڈیٹا کو بصری شکل میں پیش کریں 🦆 | [سبق](3-Data-Visualization/09-visualization-quantities/README.md) | [جن](https://twitter.com/jenlooper) |
| 10 | ڈیٹا کی تقسیم کی بصری نمائندگی | [ڈیٹا ویژولائزیشن](3-Data-Visualization/README.md) | ایک وقفے کے اندر مشاہدات اور رجحانات کی بصری نمائندگی۔ | [سبق](3-Data-Visualization/10-visualization-distributions/README.md) | [جن](https://twitter.com/jenlooper) |
| 11 | تناسب کی بصری نمائندگی | [ڈیٹا ویژولائزیشن](3-Data-Visualization/README.md) | محدود اور گروپ شدہ فیصدی کی بصری نمائندگی۔ | [سبق](3-Data-Visualization/11-visualization-proportions/README.md) | [جن](https://twitter.com/jenlooper) |
| 12 | تعلقات کی بصری نمائندگی | [ڈیٹا ویژولائزیشن](3-Data-Visualization/README.md) | ڈیٹا کے سیٹوں اور ان کی متغیرات کے درمیان تعلقات اور ربط کی بصری نمائندگی۔ | [سبق](3-Data-Visualization/12-visualization-relationships/README.md) | [جن](https://twitter.com/jenlooper) |
| 13 | معنی خیز بصری نمائندگی | [ڈیٹا ویژولائزیشن](3-Data-Visualization/README.md) | آپ کی بصری نمائندگیوں کو مؤثر مسئلہ حل کرنے اور بصیرت کے لئے قیمتی بنانے کی تکنیکیں اور رہنمائی۔ | [سبق](3-Data-Visualization/13-meaningful-visualizations/README.md) | [جن](https://twitter.com/jenlooper) |
| 14 | ڈیٹا سائنس کے لائف سائیکل کا تعارف | [لائف سائیکل](4-Data-Science-Lifecycle/README.md) | ڈیٹا سائنس کے لائف سائیکل اور اس کے پہلے مرحلے، یعنی ڈیٹا حاصل کرنے اور نکالنے کا تعارف۔ | [سبق](4-Data-Science-Lifecycle/14-Introduction/README.md) | [یاسمین](https://twitter.com/paladique) |
| 15 | تجزیہ کرنا | [لائف سائیکل](4-Data-Science-Lifecycle/README.md) | ڈیٹا سائنس کے لائف سائیکل کا مرحلہ جو ڈیٹا کے تجزیے کی تکنیکوں پر مرکوز ہے۔ | [سبق](4-Data-Science-Lifecycle/15-analyzing/README.md) | [یاسمین](https://twitter.com/paladique) | | |
| 16 | مواصلات | [لائف سائیکل](4-Data-Science-Lifecycle/README.md) | ڈیٹا سائنس کے لائف سائیکل کا مرحلہ جو ڈیٹا سے حاصل کی گئی بصیرت کو اس انداز میں پیش کرنے پر توجہ دیتا ہے تاکہ فیصلہ سازوں کے لیے سمجھنا آسان ہو۔ | [سبق](4-Data-Science-Lifecycle/16-communication/README.md) | [جیلن](https://twitter.com/JalenMcG) | | |
| 17 | کلاؤڈ میں ڈیٹا سائنس | [کلاؤڈ ڈیٹا](5-Data-Science-In-Cloud/README.md) | کلاؤڈ میں ڈیٹا سائنس اور اس کے فوائد کا تعارف۔ | [سبق](5-Data-Science-In-Cloud/17-Introduction/README.md) | [ٹیفنی](https://twitter.com/TiffanySouterre) اور [ماوڈ](https://twitter.com/maudstweets) |
| 18 | کلاؤڈ میں ڈیٹا سائنس | [کلاؤڈ ڈیٹا](5-Data-Science-In-Cloud/README.md) | Low Code ٹولز استعمال کرتے ہوئے ماڈلز کی تربیت۔ |[سبق](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [ٹیفنی](https://twitter.com/TiffanySouterre) اور [ماوڈ](https://twitter.com/maudstweets) |
| 19 | کلاؤڈ میں ڈیٹا سائنس | [کلاؤڈ ڈیٹا](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio کے ذریعے ماڈلز کی تعیناتی۔ | [سبق](5-Data-Science-In-Cloud/19-Azure/README.md)| [ٹیفنی](https://twitter.com/TiffanySouterre) اور [ماوڈ](https://twitter.com/maudstweets) |
| 20 | جنگل میں ڈیٹا سائنس | [جھنگل میں](6-Data-Science-In-Wild/README.md) | حقیقی دنیا میں ڈیٹا سائنس پر مبنی پروجیکٹس۔ | [سبق](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [نیتیا](https://twitter.com/nitya) |
## GitHub Codespaces
اس نمونے کو Codespace میں کھولنے کے لیے یہ اقدامات کریں:
1. کوڈ ڈراپ ڈاؤن مینو پر کلک کریں اور Open with Codespaces کا انتخاب کریں۔
2. پین کے نیچے + New codespace منتخب کریں۔
مزید معلومات کے لیے [GitHub دستاویزات](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) دیکھیں۔
مزید معلومات کے لیے، [GitHub دستاویزات](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) ملاحظہ کریں۔
## VSCode ریموٹ - کنٹینرز
اپنے مقامی کمپیوٹر اور VSCode کے ذریعے اس ریپو کو کنٹینر میں کھولنے کے لیے VS Code Remote - Containers ایکسٹینشن استعمال کریں:
## VSCode Remote - Containers
اپنے مقامی کمپیوٹر اور VSCode میں VS Code Remote - Containers ایکسٹینشن استعمال کرتے ہوئے اس رپوزٹری کو کنٹینر میں کھولنے کے لیے یہ اقدامات کریں:
1. اگر یہ آپ کا پہلا موقع ہے کہ آپ ڈیولپمنٹ کنٹینر استعمال کر رہے ہیں، تو براہ کرم یقینی بنائیں کہ آپ کا سسٹم [شروعاتی دستاویزات](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) میں بتائے گئے پری ریکویزٹس (مثلاً Docker انسٹال ہونا) کو پورا کرتا ہے۔
1. اگر یہ آپ کی پہلی بار ترقیاتی کنٹینر استعمال کرنے کا موقع ہے، تو براہ کرم اس بات کو یقینی بنائیں کہ آپ کا سسٹم پہلے سے ضروریات پوری کرتا ہے (جیسا کہ Docker انسٹال ہے) [شروع کرنے کی دستاویزات](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) میں۔
اس ریپوزٹری کو استعمال کرنے کے لیے، آپ یا تو اسے ایک علیحدہ Docker والیوم میں کھول سکتے ہیں:
اس رپوزٹری کو استعمال کرنے کے لیے، آپ یا تو رپوزٹری کو ایک علیحدہ Docker والیوم میں کھول سکتے ہیں:
**نوٹ**: اندرونی طور پر، یہ Remote-Containers: **Clone Repository in Container Volume...** کمانڈ کا استعمال کرے گا تاکہ سورس کوڈ کو مقامی فائل سسٹم کے بجائے Docker والیوم میں کلون کیا جائے۔ [Volumes](https://docs.docker.com/storage/volumes/) کنٹینر ڈیٹا کے مستقل رہنے کے لیے ترجیحی طریقہ ہیں۔
**نوٹ**: پس پردہ یہ Remote-Containers: **Clone Repository in Container Volume...** کمانڈ استعمال کرے گا تاکہ سورس کوڈ کو لوکل فائل سسٹم کی بجائے Docker والیوم میں کلون کیا جا سکے۔ [والیومز](https://docs.docker.com/storage/volumes/) کنٹینر ڈیٹا کو محفوظ کرنے کا ترجیحی طریقہ ہیں۔
یا ریپوزٹری کی مقامی کلون یا ڈاؤن لوڈ شدہ ورژن کھولیں:
یا رپوزٹری کی مقامی کلون شدہ یا ڈاؤن لوڈ کی گئی کاپی کو کھولیں:
- اس ریپو کو اپنے مقامی فائل سسٹم پر کلون کریں۔
- اس رپوزٹری کو اپنے لوکل فائل سسٹم پر کلون کریں۔
- F1 دبائیں اور **Remote-Containers: Open Folder in Container...** کمانڈ منتخب کریں۔
- اس فولڈر کی کلون کی گئی کاپی منتخب کریں، کنٹینر کے شروع ہونے کا انتظار کریں، اور تجربہ کریں۔
- فولڈر کی کلون شدہ کاپی منتخب کریں، کنٹینر شروع ہونے کا انتظار کریں، اور آزما کر دیکھیں۔
## آف لائن رسائی
آپ [Docsify](https://docsify.js.org/#/) استعمال کر کے اس دستاویز کو آف لائن چلا سکتے ہیں۔ اس ریپو کو فورک کریں، اپنے مقامی کمپیوٹر پر [Docsify انسٹال کریں](https://docsify.js.org/#/quickstart)، پھر اس ریپو کے روٹ فولڈر میں `docsify serve` ٹائپ کریں۔ ویب سائٹ آپ کے لوکل ہوسٹ پر پورٹ 3000 پر چلائی جائے گی: `localhost:3000`۔
آپ اس دستاویز کو Docsify استعمال کرکے آف لائن چلا سکتے ہیں۔ اس رپوزٹری کو فورک کریں، اپنی مشین پر [Docsify انسٹال کریں](https://docsify.js.org/#/quickstart)، پھر اس رپوزٹری کے روٹ فولڈر میں `docsify serve` ٹائپ کریں۔ ویب سائٹ آپ کے لوکل ہوسٹ پر پورٹ 3000 پر چلائی جائے گی: `localhost:3000`۔
> نوٹ کریں، نوٹ بکس Docsify کے ذریعے رینڈر نہیں ہوں گی، اس لیے جب آپ کو کوئی نوٹ بک چلانی ہو تو اسے علیحدہ VS Code میں Python کرنل کے ساتھ چلائیں۔
> نوٹ کریں، نوٹ بکس Docsify کے ذریعے ظاہر نہیں ہوں گی، لہٰذا جب آپ کو کوئی نوٹ بک چلانی ہو تو اسے VS Code میں پائتھن کرنل کے ساتھ الگ سے چلا لیں۔
## دیگر نصاب
ہماری ٹیم دوسرے نصاب بھی تیار کرتی ہے! دیکھیں:
ہماری ٹیم دیگر نصاب تیار کرتی ہے! دیکھیں:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
### لینگ چین
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### ایزور / ایج / ایم سی پی / ایجنٹس
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
### Azure / Edge / MCP / Agents
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### جنریٹیو AI سیریز
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### Generative AI Series
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### بنیادی تعلیم
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
### Core Learning
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### کوپائلٹ سیریز
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**مسائل کا سامنا ہے؟** عام مسائل کے حل کے لیے ہمارا [مسائل کا حل گائیڈ](TROUBLESHOOTING.md) دیکھیں۔
**کیا آپ کو مسائل درپیش ہیں؟** عام مسائل کے حل کے لیے ہمارا [Troubleshooting Guide](TROUBLESHOOTING.md) چیک کریں۔
اگر آپ پھنس جائیں یا AI ایپس بنانے کے بارے میں کوئی سوال ہو تو MCP کے متعلق سیکھنے والوں اور تجربہ کار ڈویلپرز کے ساتھ شامل ہوں۔ یہ ایک ایسا حمایتی کمیونٹی ہے جہاں سوالات خوش آمدید ہیں اور علم آزادانہ طور پر شیئر کیا جاتا ہے۔
اگر آپ اٹک گئے ہیں یا AI ایپس بنانے کے حوالے سے کوئی سوالات ہیں تو۔ دوسرے سیکھنے والے اور تجربہ کار ڈویلپرز کے ساتھ MCP کی بحثوں میں شامل ہوں۔ یہ ایک معاون کمیونٹی ہے جہاں سوالات کو خوش آمدید کہا جاتا ہے اور علم آزادانہ طور پر شیئر کیا جاتا ہے۔
یہ دستاویز اے آئی ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کے ذریعے ترجمہ کی گئی ہے۔ اگرچہ ہم درستگی کے لیے کوشاں ہیں، براہ کرم اس بات کا خیال رکھیں کہ خودکار تراجم میں غلطیاں یا عدم صحت ہو سکتی ہے۔ اصل دستاویز اپنی مادری زبان میں مستند ماخذ سمجھی جانی چاہیے۔ اہم معلومات کے لیے پیشہ ور انسان ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمہ کے استعمال سے ہونے والی کسی بھی غلط فہمی یا غلط تشریح کی ذمہ داری ہم پر نہیں ہوگی۔
**اخطار**:
یہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کے ذریعے ترجمہ کی گئی ہے۔ اگرچہ ہم درستگی کے لیے کوشاں ہیں، براہ کرم اس بات سے آگاہ رہیں کہ خودکار ترجموں میں غلطیاں یا نادقت ہو سکتی ہیں۔ اصل دستاویز اپنی مقامی زبان میں ہی معتبر ماخذ سمجھی جانی چاہیے۔ اہم معلومات کے لیے پیشہ ور انسانی ترجمہ تجویز کیا جاتا ہے۔ ہم اس ترجمے کے استعمال سے پیدا ہونے والے کسی بھی غلط فہمی یا غلط تشریح کے ذمہ دار نہیں ہیں۔
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### 生成式 AI 系列
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### Generative AI Series
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)