Merge pull request #745 from microsoft/update-translations

chore(i18n): sync translations with latest source changes
pull/747/head
Lee Stott 6 days ago committed by GitHub
commit 947b40e5ca
No known key found for this signature in database
GPG Key ID: B5690EEEBB952194

@ -36,13 +36,23 @@ Azure Cloud Advocates at Microsoft are pleased to offer a 10-week, 20-lesson cur
[Arabic](./translations/ar/README.md) | [Bengali](./translations/bn/README.md) | [Bulgarian](./translations/bg/README.md) | [Burmese (Myanmar)](./translations/my/README.md) | [Chinese (Simplified)](./translations/zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](./translations/zh-HK/README.md) | [Chinese (Traditional, Macau)](./translations/zh-MO/README.md) | [Chinese (Traditional, Taiwan)](./translations/zh-TW/README.md) | [Croatian](./translations/hr/README.md) | [Czech](./translations/cs/README.md) | [Danish](./translations/da/README.md) | [Dutch](./translations/nl/README.md) | [Estonian](./translations/et/README.md) | [Finnish](./translations/fi/README.md) | [French](./translations/fr/README.md) | [German](./translations/de/README.md) | [Greek](./translations/el/README.md) | [Hebrew](./translations/he/README.md) | [Hindi](./translations/hi/README.md) | [Hungarian](./translations/hu/README.md) | [Indonesian](./translations/id/README.md) | [Italian](./translations/it/README.md) | [Japanese](./translations/ja/README.md) | [Kannada](./translations/kn/README.md) | [Korean](./translations/ko/README.md) | [Lithuanian](./translations/lt/README.md) | [Malay](./translations/ms/README.md) | [Malayalam](./translations/ml/README.md) | [Marathi](./translations/mr/README.md) | [Nepali](./translations/ne/README.md) | [Nigerian Pidgin](./translations/pcm/README.md) | [Norwegian](./translations/no/README.md) | [Persian (Farsi)](./translations/fa/README.md) | [Polish](./translations/pl/README.md) | [Portuguese (Brazil)](./translations/pt-BR/README.md) | [Portuguese (Portugal)](./translations/pt-PT/README.md) | [Punjabi (Gurmukhi)](./translations/pa/README.md) | [Romanian](./translations/ro/README.md) | [Russian](./translations/ru/README.md) | [Serbian (Cyrillic)](./translations/sr/README.md) | [Slovak](./translations/sk/README.md) | [Slovenian](./translations/sl/README.md) | [Spanish](./translations/es/README.md) | [Swahili](./translations/sw/README.md) | [Swedish](./translations/sv/README.md) | [Tagalog (Filipino)](./translations/tl/README.md) | [Tamil](./translations/ta/README.md) | [Telugu](./translations/te/README.md) | [Thai](./translations/th/README.md) | [Turkish](./translations/tr/README.md) | [Ukrainian](./translations/uk/README.md) | [Urdu](./translations/ur/README.md) | [Vietnamese](./translations/vi/README.md)
> **Prefer to Clone Locally?**
>
> This repository includes 50+ language translations which significantly increases the download size. To clone without translations, use sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> This gives you everything you need to complete the course with a much faster download.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "ar"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-28T08:50:32+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "ar"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-27T09:04:22+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "ar"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-28T08:51:00+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "ar"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:02:24+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "ar"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-28T08:51:47+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "ar"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-06T06:23:58+00:00",
@ -360,8 +378,8 @@
"language_code": "ar"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T07:26:21+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-28T08:56:48+00:00",
"source_file": "README.md",
"language_code": "ar"
},

@ -6,7 +6,7 @@
---
[![فيديو تعريف علم البيانات](../../../../translated_images/ar/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![فيديو تعريف علم البيانات](../../../../translated_images/ar/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [اختبار ما قبل المحاضرة](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@
في هذا التحدي، سنحاول العثور على المفاهيم ذات الصلة بمجال علم البيانات من خلال النظر في النصوص. سنأخذ مقالة من ويكيبيديا عن علم البيانات، ونقوم بتنزيل ومعالجة النص، ثم نبني سحابة كلمات مثل هذه:
![سحابة كلمات لعلم البيانات](../../../../translated_images/ar/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![سحابة كلمات لعلم البيانات](../../../../translated_images/ar/ds_wordcloud.664a7c07dca57de0.webp)
قم بزيارة [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') لقراءة الكود. يمكنك أيضًا تشغيل الكود، ومشاهدة كيفية تنفيذ جميع تحويلات البيانات في الوقت الفعلي.

@ -3,13 +3,13 @@
{
"cell_type": "markdown",
"source": [
"# التحدي: تحليل النصوص حول علم البيانات\n",
"# التحدي: تحليل نص حول علم البيانات\n",
"\n",
"في هذا المثال، سنقوم بممارسة بسيطة تغطي جميع خطوات عملية علم البيانات التقليدية. لا تحتاج إلى كتابة أي كود، يمكنك فقط النقر على الخلايا أدناه لتنفيذها وملاحظة النتيجة. كجزء من التحدي، يُشجَّعك على تجربة هذا الكود مع بيانات مختلفة.\n",
"في هذا المثال، دعنا نقوم بتمرين بسيط يشمل جميع خطوات عملية علم البيانات التقليدية. لست مضطراً لكتابة أي كود، يمكنك فقط النقر على الخلايا أدناه لتنفيذها وملاحظة النتيجة. كتحدٍ، يُشجعك تجربة هذا الكود مع بيانات مختلفة.\n",
"\n",
"## الهدف\n",
"\n",
"في هذه الدرس، ناقشنا مفاهيم مختلفة تتعلق بعلم البيانات. دعونا نحاول اكتشاف المزيد من المفاهيم ذات الصلة من خلال القيام بـ **تنقيب النصوص**. سنبدأ بنص حول علم البيانات، نستخرج الكلمات المفتاحية منه، ثم نحاول تصور النتيجة.\n",
"في هذا الدرس، كنا نناقش مفاهيم مختلفة مرتبطة بعلم البيانات. دعنا نحاول اكتشاف المزيد من المفاهيم ذات الصلة من خلال القيام بـ **تنقيب النصوص**. سنبدأ بنص حول علم البيانات، نستخرج منه الكلمات المفتاحية، ومن ثم نحاول تصور النتيجة.\n",
"\n",
"كنص، سأستخدم الصفحة الخاصة بعلم البيانات من ويكيبيديا:\n"
],
@ -34,7 +34,7 @@
"source": [
"## الخطوة 1: الحصول على البيانات\n",
"\n",
"الخطوة الأولى في كل عملية علم البيانات هي الحصول على البيانات. سنستخدم مكتبة `requests` للقيام بذلك:\n"
"الخطوة الأولى في كل عملية علم بيانات هي الحصول على البيانات. سنستخدم مكتبة `requests` للقيام بذلك:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## الخطوة 2: تحويل البيانات\n",
"\n",
"الخطوة التالية هي تحويل البيانات إلى الشكل المناسب للمعالجة. في حالتنا، قمنا بتنزيل كود المصدر الخاص بـ HTML من الصفحة، ونحتاج إلى تحويله إلى نص عادي.\n",
"الخطوة التالية هي تحويل البيانات إلى الشكل المناسب للمعالجة. في حالتنا، قمنا بتنزيل شفرة مصدر HTML من الصفحة، ونحتاج إلى تحويلها إلى نص عادي.\n",
"\n",
"هناك العديد من الطرق التي يمكن من خلالها القيام بذلك. سنستخدم أبسط كائن مدمج [HTMLParser](https://docs.python.org/3/library/html.parser.html) من Python. نحتاج إلى إنشاء فئة فرعية من `HTMLParser` وتعريف الكود الذي سيجمع كل النصوص داخل علامات HTML، باستثناء علامات `<script>` و `<style>`.\n"
"هناك عدة طرق للقيام بذلك. سنستخدم [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)، وهي مكتبة بايثون شهيرة لتحليل HTML. تتيح لنا BeautifulSoup استهداف عناصر HTML محددة، حتى نتمكن من التركيز على محتوى المقال الرئيسي من ويكيبيديا وتقليل بعض قوائم التنقل، الأشرطة الجانبية، التذييلات، والمحتويات الأخرى غير ذات الصلة (مع أنه قد يبقى بعض النصوص الثابتة).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"أولاً، نحتاج إلى تثبيت مكتبة BeautifulSoup لتحليل HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## الخطوة 3: الحصول على رؤى\n",
"## الخطوة 3: الحصول على الرؤى\n",
"\n",
"الخطوة الأهم هي تحويل بياناتنا إلى شكل يمكننا من خلاله استخلاص رؤى. في حالتنا، نريد استخراج الكلمات المفتاحية من النص، ومعرفة أي الكلمات المفتاحية أكثر أهمية.\n",
"أهم خطوة هي تحويل بياناتنا إلى شكل يمكننا من خلاله استخلاص الرؤى. في حالتنا، نريد استخراج الكلمات المفتاحية من النص، ورؤية أي الكلمات المفتاحية أكثر معنى.\n",
"\n",
"سنستخدم مكتبة بايثون تسمى [RAKE](https://github.com/aneesha/RAKE) لاستخراج الكلمات المفتاحية. أولاً، دعونا نقوم بتثبيت هذه المكتبة إذا لم تكن موجودة:\n"
"سنستخدم مكتبة بايثون تسمى [RAKE](https://github.com/aneesha/RAKE) لاستخراج الكلمات المفتاحية. أولاً، لنقم بتثبيت هذه المكتبة في حال لم تكن موجودة: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"تتوفر الوظيفة الرئيسية من كائن `Rake`، والذي يمكننا تخصيصه باستخدام بعض المعلمات. في حالتنا، سنحدد الحد الأدنى لطول الكلمة الرئيسية ليكون 5 أحرف، والحد الأدنى لتكرار الكلمة الرئيسية في المستند ليكون 3، والحد الأقصى لعدد الكلمات في الكلمة الرئيسية ليكون 2. لا تتردد في تجربة قيم أخرى وملاحظة النتيجة.\n"
"الوظيفة الرئيسية متاحة من كائن `Rake`، الذي يمكننا تخصيصه باستخدام بعض المعلمات. في حالتنا، سنحدد الحد الأدنى لطول الكلمة المفتاحية بـ 5 أحرف، والحد الأدنى لتكرار الكلمة المفتاحية في الوثيقة بـ 3، والحد الأقصى لعدد الكلمات في الكلمة المفتاحية - إلى 2. لا تتردد في تجربة قيم أخرى ومراقبة النتيجة.\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"حصلنا على قائمة من المصطلحات مع درجة الأهمية المرتبطة بها. كما ترى، فإن التخصصات الأكثر أهمية، مثل تعلم الآلة والبيانات الضخمة، موجودة في القائمة في المراكز العليا.\n",
"\n",
"لقد حصلنا على قائمة بالمصطلحات مع الدرجة المرتبطة لكل منها من حيث الأهمية. كما تلاحظ، التخصصات الأكثر صلة، مثل التعلم الآلي والبيانات الضخمة، موجودة في القائمة في المراتب الأعلى.\n",
"\n",
"## الخطوة 4: تصور النتيجة\n",
"\n",
"يمكن للناس تفسير البيانات بشكل أفضل عندما تكون في شكل بصري. لذلك، غالبًا ما يكون من المنطقي تصور البيانات لاستخلاص بعض الأفكار. يمكننا استخدام مكتبة `matplotlib` في بايثون لرسم توزيع بسيط للكلمات المفتاحية مع مدى أهميتها:\n"
"يمكن للناس تفسير البيانات بشكل أفضل عندما تكون في شكل بصري. لذلك، غالبًا ما يكون من المنطقي تصور البيانات من أجل استخلاص بعض الرؤى. يمكننا استخدام مكتبة `matplotlib` في بايثون لرسم توزيع بسيط للكلمات المفتاحية مع مدى ارتباطها:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"هناك، مع ذلك، طريقة أفضل لتصور تكرار الكلمات - باستخدام **سحابة الكلمات**. سنحتاج إلى تثبيت مكتبة أخرى لرسم سحابة الكلمات من قائمة الكلمات الرئيسية الخاصة بنا.\n"
"ومع ذلك، هناك طريقة أفضل لتصور تكرار الكلمات - باستخدام **سحابة الكلمات**. سنحتاج إلى تثبيت مكتبة أخرى لرسم سحابة الكلمات من قائمة الكلمات المفتاحية الخاصة بنا.\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"`كائن WordCloud مسؤول عن استلام النص الأصلي أو قائمة الكلمات المحسوبة مسبقًا مع تردداتها، ويعيد صورة يمكن عرضها باستخدام matplotlib:`\n"
"كائن `WordCloud` مسؤول عن استلام النص الأصلي، أو قائمة الكلمات مع تردداتها المحسوبة مسبقًا، وإرجاع صورة يمكن عرضها باستخدام `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"يمكننا أيضًا تمرير النص الأصلي إلى `WordCloud` - دعنا نرى إذا كنا قادرين على الحصول على نتيجة مشابهة:\n"
"يمكننا أيضًا تمرير النص الأصلي إلى `WordCloud` - لنرَ إذا كنا قادرين على الحصول على نتيجة مشابهة:\n"
],
"metadata": {}
},
@ -372,9 +371,9 @@
{
"cell_type": "markdown",
"source": [
"يمكنك أن ترى أن سحابة الكلمات أصبحت الآن أكثر جاذبية، لكنها تحتوي أيضًا على الكثير من الضوضاء (مثل كلمات غير ذات صلة مثل `Retrieved on`). بالإضافة إلى ذلك، نحصل على عدد أقل من الكلمات المفتاحية التي تتكون من كلمتين، مثل *عالم بيانات* أو *علوم الحاسوب*. السبب في ذلك هو أن خوارزمية RAKE تقوم بعمل أفضل بكثير في اختيار الكلمات المفتاحية الجيدة من النص. يوضح هذا المثال أهمية معالجة البيانات وتنظيفها، لأن الصورة الواضحة في النهاية ستسمح لنا باتخاذ قرارات أفضل.\n",
"يمكنك أن ترى أن سحابة الكلمات تبدو الآن أكثر إثارة للإعجاب، لكنها تحتوي أيضًا على الكثير من الضوضاء (مثل الكلمات غير المرتبطة مثل `تم الاسترجاع في`). بالإضافة إلى ذلك، نحصل على عدد أقل من الكلمات المفتاحية التي تتكون من كلمتين، مثل *عالم بيانات*، أو *علوم الحاسب*. هذا لأن خوارزمية RAKE تقوم بعمل أفضل عند اختيار الكلمات المفتاحية الجيدة من النص. يوضح هذا المثال أهمية المعالجة المسبقة للبيانات وتنظيفها، لأن الصورة الواضحة في النهاية ستسمح لنا باتخاذ قرارات أفضل.\n",
"\n",
"في هذا التمرين، قمنا بعملية بسيطة لاستخراج بعض المعاني من نصوص ويكيبيديا، على شكل كلمات مفتاحية وسحابة كلمات. هذا المثال بسيط جدًا، لكنه يوضح بشكل جيد جميع الخطوات النموذجية التي يقوم بها عالم البيانات عند العمل مع البيانات، بدءًا من الحصول على البيانات وصولاً إلى التصور.\n",
"في هذا التمرين، مررنا بعملية بسيطة لاستخلاص بعض المعاني من نص ويكيبيديا، على شكل كلمات مفتاحية وسحابة كلمات. هذا المثال بسيط جدًا، لكنه يوضح جيدًا جميع الخطوات النموذجية التي سيتبعها عالم البيانات عند العمل مع البيانات، بدءًا من الحصول على البيانات، وصولاً إلى التمثيل البصري.\n",
"\n",
"في دورتنا، سنناقش جميع هذه الخطوات بالتفصيل.\n"
],
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**إخلاء المسؤولية**: \nتم ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الموثوق. للحصول على معلومات حاسمة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**إخلاء المسؤولية**:\nتمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية [Co-op Translator](https://github.com/Azure/co-op-translator). رغم أننا نسعى للدقة، يرجى العلم بأن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الرسمي والموثوق. بالنسبة للمعلومات الهامة، يُنصح بالاستعانة بترجمة مهنية بشرية. نحن غير مسؤولين عن أي سوء فهم أو تفسير ناتج عن استخدام هذه الترجمة.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +417,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:28:08+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "ar"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# التحدي: تحليل النصوص حول علم البيانات\n",
"# التحدي: تحليل نص حول علم البيانات\n",
"\n",
"> *في هذا الدفتر، نجرب استخدام رابط مختلف - مقال ويكيبيديا عن التعلم الآلي. يمكنك أن تلاحظ أن هذا المقال، على عكس علم البيانات، يحتوي على الكثير من المصطلحات، مما يجعل التحليل أكثر تعقيدًا. نحتاج إلى إيجاد طريقة أخرى لتنظيف البيانات بعد استخراج الكلمات المفتاحية، للتخلص من بعض التراكيب الشائعة ولكن غير ذات المعنى.*\n",
"> *في هذه المفكرة، نجرب استخدام رابط مختلف - مقالة ويكيبيديا عن التعلم الآلي. يمكنك أن ترى، على عكس علم البيانات، أن هذه المقالة تحتوي على الكثير من المصطلحات، مما يجعل التحليل أكثر تعقيدًا. نحتاج إلى إيجاد طريقة أخرى لتنظيف البيانات بعد استخراج الكلمات المفتاحية، للتخلص من بعض التركيبات الشائعة ولكن غير المفيدة من الكلمات.*\n",
"\n",
"في هذا المثال، دعونا نقوم بتمرين بسيط يغطي جميع خطوات عملية علم البيانات التقليدية. ليس عليك كتابة أي كود، يمكنك فقط النقر على الخلايا أدناه لتنفيذها وملاحظة النتيجة. كجزء من التحدي، يُشجَّعك على تجربة هذا الكود مع بيانات مختلفة.\n",
"في هذا المثال، لنقم بتمرين بسيط يغطي جميع خطوات عملية علم البيانات التقليدية. ليس عليك كتابة أي كود، يمكنك فقط النقر على الخلايا أدناه لتنفيذها وملاحظة النتيجة. كتحدي، نشجعك على تجربة هذا الكود مع بيانات مختلفة.\n",
"\n",
"## الهدف\n",
"\n",
"في هذا الدرس، كنا نتحدث عن مفاهيم مختلفة تتعلق بعلم البيانات. دعونا نحاول اكتشاف المزيد من المفاهيم ذات الصلة من خلال القيام ببعض **التنقيب عن النصوص**. سنبدأ بنص حول علم البيانات، نستخرج منه الكلمات المفتاحية، ثم نحاول تصور النتيجة.\n",
"في هذا الدرس، ناقشنا مفاهيم مختلفة تتعلق بعلم البيانات. دعنا نحاول اكتشاف مفاهيم مرتبطة أكثر من خلال القيام ببعض **التنقيب النصي**. سنبدأ بنص عن علم البيانات، نستخرج منه الكلمات المفتاحية، ثم نحاول تصور النتيجة.\n",
"\n",
"كنص، سأستخدم صفحة علم البيانات من ويكيبيديا:\n"
"كنص، سأستخدم الصفحة الخاصة بعلم البيانات من ويكيبيديا:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## الخطوة 1: الحصول على البيانات\n",
"\n",
"أول خطوة في أي عملية علم بيانات هي الحصول على البيانات. سنستخدم مكتبة `requests` للقيام بذلك:\n"
"الخطوة الأولى في كل عملية علم بيانات هي الحصول على البيانات. سنستخدم مكتبة `requests` للقيام بذلك:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## الخطوة 2: تحويل البيانات\n",
"\n",
"الخطوة التالية هي تحويل البيانات إلى الشكل المناسب للمعالجة. في حالتنا، قمنا بتنزيل الشيفرة المصدرية لـ HTML من الصفحة، ونحتاج إلى تحويلها إلى نص عادي.\n",
"الخطوة التالية هي تحويل البيانات إلى الشكل المناسب للمعالجة. في حالتنا، قمنا بتحميل شفرة المصدر HTML من الصفحة، ونحتاج إلى تحويلها إلى نص عادي.\n",
"\n",
"هناك العديد من الطرق التي يمكن من خلالها القيام بذلك. سنستخدم أبسط كائن مدمج [HTMLParser](https://docs.python.org/3/library/html.parser.html) من بايثون. نحتاج إلى إنشاء فئة فرعية من `HTMLParser` وتعريف الشيفرة التي ستجمع كل النصوص داخل علامات HTML، باستثناء علامات `<script>` و `<style>`.\n"
"هناك العديد من الطرق التي يمكن من خلالها القيام بذلك. سنستخدم [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)، وهي مكتبة Python شهيرة لتحليل HTML. تتيح لنا BeautifulSoup استهداف عناصر HTML معينة، بحيث يمكننا التركيز على المحتوى الرئيسي للمقال من ويكيبيديا وتقليل بعض قوائم التنقل، الأشرطة الجانبية، التذييلات، ومحتويات أخرى غير ذات صلة (على الرغم من أن بعض النصوص الافتراضية قد تظل موجودة).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"أولاً، نحتاج إلى تثبيت مكتبة BeautifulSoup لتحليل HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## الخطوة 3: الحصول على رؤى\n",
"## الخطوة 3: الحصول على الرؤى\n",
"\n",
"الخطوة الأهم هي تحويل بياناتنا إلى شكل يمكننا من خلاله استنتاج رؤى. في حالتنا، نريد استخراج الكلمات المفتاحية من النص، ومعرفة أي الكلمات المفتاحية أكثر أهمية.\n",
"الخطوة الأهم هي تحويل بياناتنا إلى شكل يمكننا من خلاله استخلاص الرؤى. في حالتنا، نريد استخراج الكلمات المفتاحية من النص، ورؤية الكلمات المفتاحية التي تحمل معاني أكثر.\n",
"\n",
"سنستخدم مكتبة بايثون تُسمى [RAKE](https://github.com/aneesha/RAKE) لاستخراج الكلمات المفتاحية. أولاً، دعونا نقوم بتثبيت هذه المكتبة في حال لم تكن موجودة:\n"
"سنستخدم مكتبة بايثون تسمى [RAKE](https://github.com/aneesha/RAKE) لاستخراج الكلمات المفتاحية. أولاً، دعنا نقم بتثبيت هذه المكتبة في حال لم تكن موجودة:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"الوظيفة الرئيسية متاحة من كائن `Rake`، والذي يمكننا تخصيصه باستخدام بعض المعلمات. في حالتنا، سنقوم بتعيين الحد الأدنى لطول الكلمة الرئيسية إلى 5 أحرف، والحد الأدنى لتكرار الكلمة الرئيسية في المستند إلى 3، والحد الأقصى لعدد الكلمات في الكلمة الرئيسية إلى 2. لا تتردد في تجربة قيم أخرى وملاحظة النتيجة.\n"
"الوظيفة الرئيسية متاحة من كائن `Rake`، الذي يمكننا تخصيصه باستخدام بعض المعلمات. في حالتنا، سنحدد الحد الأدنى لطول الكلمة المفتاحية إلى 5 أحرف، والحد الأدنى لتكرار الكلمة المفتاحية في المستند إلى 3، والحد الأقصى لعدد الكلمات في الكلمة المفتاحية إلى 2. لا تتردد في تجربة قيم أخرى وملاحظة النتيجة.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"حصلنا على قائمة بالمصطلحات مع درجة الأهمية المرتبطة بها. كما ترى، فإن التخصصات الأكثر صلة، مثل تعلم الآلة والبيانات الضخمة، تظهر في المراكز الأولى من القائمة.\n",
"حصلنا على قائمة مصطلحات مع درجة الأهمية المرتبطة بها. كما ترى، فإن التخصصات الأكثر صلة، مثل التعلم الآلي والبيانات الضخمة، موجودة في القائمة في المراتب العليا.\n",
"\n",
"## الخطوة 4: تصور النتيجة\n",
"\n",
"يمكن للناس فهم البيانات بشكل أفضل عندما تكون في شكل مرئي. لذلك، غالبًا ما يكون من المنطقي تصور البيانات لاستخلاص بعض الأفكار. يمكننا استخدام مكتبة `matplotlib` في بايثون لرسم توزيع بسيط للكلمات المفتاحية مع مدى أهميتها:\n"
"يمكن للناس تفسير البيانات بشكل أفضل في الشكل البصري. لذلك غالبًا ما يكون من المنطقي تصور البيانات من أجل استخلاص بعض الرؤى. يمكننا استخدام مكتبة `matplotlib` في بايثون لرسم توزيع بسيط للكلمات المفتاحية مع مدى صلتها:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"هناك، مع ذلك، طريقة أفضل لتصور تكرار الكلمات - باستخدام **سحابة الكلمات**. سنحتاج إلى تثبيت مكتبة أخرى لرسم سحابة الكلمات من قائمة الكلمات الرئيسية الخاصة بنا.\n"
"هناك، مع ذلك، طريقة أفضل لرسم تواتر الكلمات - باستخدام **سحابة الكلمات**. سنحتاج إلى تثبيت مكتبة أخرى لرسم سحابة الكلمات من قائمة الكلمات المفتاحية لدينا.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`كائن WordCloud مسؤول عن استلام النص الأصلي أو قائمة الكلمات المحسوبة مسبقًا مع تردداتها، ويعيد صورة يمكن عرضها باستخدام matplotlib:`\n"
"كائن `WordCloud` مسؤول عن استلام النص الأصلي، أو قائمة محسوبة مسبقًا من الكلمات مع تردداتها، ويعيد صورة، والتي يمكن بعد ذلك عرضها باستخدام `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"يمكننا أيضًا تمرير النص الأصلي إلى `WordCloud` - لنرى ما إذا كنا قادرين على الحصول على نتيجة مشابهة:\n"
"يمكننا أيضًا تمرير النص الأصلي إلى `WordCloud` - لنرَ إذا كنا قادرين على الحصول على نتيجة مماثلة:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"يمكنك أن ترى أن سحابة الكلمات أصبحت الآن أكثر جاذبية، لكنها تحتوي أيضًا على الكثير من الضوضاء (مثل كلمات غير ذات صلة مثل `Retrieved on`). بالإضافة إلى ذلك، نحصل على عدد أقل من الكلمات المفتاحية التي تتكون من كلمتين، مثل *عالم بيانات* أو *علوم الحاسوب*. السبب في ذلك هو أن خوارزمية RAKE تقوم بعمل أفضل بكثير في اختيار الكلمات المفتاحية الجيدة من النص. يوضح هذا المثال أهمية معالجة البيانات وتنظيفها، لأن الصورة الواضحة في النهاية ستسمح لنا باتخاذ قرارات أفضل.\n",
"يمكنك أن ترى أن سحابة الكلمات تبدو الآن أكثر إثارة للإعجاب، لكنها تحتوي أيضاً على الكثير من الضوضاء (مثل الكلمات غير المرتبطة مثل `Retrieved on`). كذلك، نحصل على عدد أقل من الكلمات المفتاحية التي تتكون من كلمتين، مثل *عالم بيانات*، أو *علوم الحاسوب*. هذا لأن خوارزمية RAKE تقوم بعمل أفضل بكثير في اختيار الكلمات المفتاحية الجيدة من النص. يوضح هذا المثال أهمية المعالجة المسبقة للبيانات وتنظيفها، لأن الصورة الواضحة في النهاية ستسمح لنا باتخاذ قرارات أفضل.\n",
"\n",
"في هذا التمرين، قمنا بعملية بسيطة لاستخراج بعض المعاني من نصوص ويكيبيديا، على شكل كلمات مفتاحية وسحابة كلمات. هذا المثال بسيط جدًا، لكنه يوضح بشكل جيد جميع الخطوات النموذجية التي يقوم بها عالم البيانات عند العمل مع البيانات، بدءًا من الحصول على البيانات وصولاً إلى التصور.\n",
"في هذا التمرين مررنا بعملية بسيطة لاستخلاص بعض المعاني من نص ويكيبيديا، في شكل كلمات مفتاحية وسحابة كلمات. هذا المثال بسيط جداً، لكنه يوضح جيداً جميع الخطوات النموذجية التي سيأخذها عالم البيانات عند العمل مع البيانات، بدءًا من الحصول على البيانات، وحتى التمثيل البصري.\n",
"\n",
"في دورتنا، سنناقش جميع هذه الخطوات بالتفصيل.\n"
"في دورتنا سنناقش جميع هذه الخطوات بالتفصيل.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**إخلاء المسؤولية**: \nتم ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الرسمي. للحصول على معلومات حاسمة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**إخلاء المسؤولية**: \nتمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى جاهدين للدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الرسمي والموثوق. للحصول على معلومات هامة أو حرجة، يُنصح بالاستعانة بترجمة بشرية مهنية. نحن غير مسؤولين عن أي سوء فهم أو تفسير خاطئ ناتج عن استخدام هذه الترجمة.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:38:58+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "ar"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
نظرية الإحصاء والاحتمالات هما مجالان مترابطان في الرياضيات ولهما أهمية كبيرة في علم البيانات. يمكن العمل مع البيانات دون معرفة عميقة بالرياضيات، ولكن من الأفضل معرفة بعض المفاهيم الأساسية على الأقل. هنا سنقدم مقدمة قصيرة لمساعدتك على البدء.
[![فيديو المقدمة](../../../../translated_images/ar/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![فيديو المقدمة](../../../../translated_images/ar/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [اختبار ما قبل المحاضرة](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
يمكننا فقط الحديث عن احتمال أن يقع المتغير في نطاق معين من القيم، مثل P(t<sub>1</sub>≤X<t<sub>2</sub>). في هذه الحالة، يتم وصف توزيع الاحتمالات بواسطة **دالة كثافة الاحتمال** p(x)، بحيث
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ar/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ar/probability-density.a8aad29f17a14afb.webp)
النظير المتصل للتوزيع المنتظم يُسمى **التوزيع المنتظم المتصل**، والذي يتم تعريفه على فاصل محدود. احتمال أن تقع القيمة X في فاصل طوله l يتناسب مع l، ويصل إلى 1.
@ -73,11 +73,11 @@
إليك مخطط الصندوق الذي يظهر المتوسط، الوسيط والرباعيات لبياناتنا:
![مخطط الصندوق للوزن](../../../../translated_images/ar/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![مخطط الصندوق للوزن](../../../../translated_images/ar/weight-boxplot.1dbab1c03af26f8a.webp)
نظرًا لأن بياناتنا تحتوي على معلومات حول **الأدوار** المختلفة للاعبين، يمكننا أيضًا إنشاء مخطط الصندوق حسب الدور - مما يسمح لنا بفهم كيفية اختلاف قيم المعلمات عبر الأدوار. هذه المرة سننظر في الطول:
![مخطط الصندوق حسب الدور](../../../../translated_images/ar/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![مخطط الصندوق حسب الدور](../../../../translated_images/ar/boxplot_byrole.036b27a1c3f52d42.webp)
يشير هذا الرسم إلى أنه، في المتوسط، يكون طول لاعبي القاعدة الأولى أعلى من طول لاعبي القاعدة الثانية. لاحقًا في هذا الدرس، سنتعلم كيفية اختبار هذه الفرضية بشكل أكثر رسمية، وكيفية إثبات أن بياناتنا ذات دلالة إحصائية لإظهار ذلك.
@ -85,7 +85,7 @@
لرؤية توزيع بياناتنا، يمكننا رسم رسم بياني يُسمى **الهيستوجرام**. يحتوي المحور X على عدد من فواصل الوزن المختلفة (ما يُسمى **الصناديق**)، ويُظهر المحور العمودي عدد المرات التي كانت فيها عينة المتغير العشوائي داخل فاصل معين.
![هيستوجرام للبيانات الواقعية](../../../../translated_images/ar/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![هيستوجرام للبيانات الواقعية](../../../../translated_images/ar/weight-histogram.bfd00caf7fc30b14.webp)
من هذا الهيستوجرام، يمكنك رؤية أن جميع القيم تتمركز حول متوسط وزن معين، وكلما ابتعدنا عن ذلك الوزن - قل عدد الأوزان التي لها تلك القيمة. أي أنه من غير المحتمل جدًا أن يكون وزن لاعب البيسبول مختلفًا جدًا عن متوسط الوزن. يظهر تباين الأوزان مدى احتمال اختلاف الأوزان عن المتوسط.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
إذا قمنا برسم الهيستوجرام للعينات المولدة، سنرى صورة مشابهة جدًا لتلك الموضحة أعلاه. وإذا قمنا بزيادة عدد العينات وعدد الصناديق، يمكننا توليد صورة للتوزيع الطبيعي تكون أقرب إلى المثالية:
![توزيع طبيعي بمتوسط=0 وانحراف معياري=1](../../../../translated_images/ar/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![توزيع طبيعي بمتوسط=0 وانحراف معياري=1](../../../../translated_images/ar/normal-histogram.dfae0d67c202137d.webp)
*توزيع طبيعي بمتوسط=0 وانحراف معياري=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
في حالتنا، تشير القيمة 0.53 إلى وجود بعض الارتباط بين وزن وطول الشخص. يمكننا أيضًا إنشاء مخطط انتشار لقيمة مقابل الأخرى لرؤية العلاقة بصريًا:
![العلاقة بين الوزن والطول](../../../../translated_images/ar/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![العلاقة بين الوزن والطول](../../../../translated_images/ar/weight-height-relationship.3f06bde4ca2aba99.webp)
> يمكن العثور على المزيد من أمثلة الارتباط والتغاير في [دفتر الملاحظات المرافق](notebook.ipynb).

@ -1,6 +1,6 @@
# مقدمة في علم البيانات
![البيانات في العمل](../../../translated_images/ar/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![البيانات في العمل](../../../translated_images/ar/data.48e22bb7617d8d92.webp)
> الصورة بواسطة <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ستيفن داوسون</a> على <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
في هذه الدروس، ستتعرف على كيفية تعريف علم البيانات وستتعلم عن الاعتبارات الأخلاقية التي يجب أن يأخذها عالم البيانات بعين الاعتبار. كما ستتعرف على تعريف البيانات وستتعلم قليلاً عن الإحصاء والاحتمالات، وهما المجالان الأكاديميان الأساسيان لعلم البيانات.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| العمل مع بايثون - _رسم توضيحي بواسطة [@nitya](https://twitter.com/nitya)_ |
[![فيديو مقدمة](../../../../translated_images/ar/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![فيديو مقدمة](../../../../translated_images/ar/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
بينما توفر قواعد البيانات طرقًا فعالة جدًا لتخزين البيانات واستعلامها باستخدام لغات الاستعلام، فإن الطريقة الأكثر مرونة لمعالجة البيانات هي كتابة برنامج خاص بك لمعالجتها. في كثير من الحالات، يكون إجراء استعلام قاعدة بيانات أكثر فعالية. ومع ذلك، في بعض الحالات التي تتطلب معالجة بيانات أكثر تعقيدًا، لا يمكن القيام بذلك بسهولة باستخدام SQL.
يمكن برمجة معالجة البيانات بأي لغة برمجة، ولكن هناك لغات معينة تعتبر عالية المستوى فيما يتعلق بالعمل مع البيانات. يفضل علماء البيانات عادةً إحدى اللغات التالية:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![رسم بياني للسلاسل الزمنية](../../../../translated_images/ar/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![رسم بياني للسلاسل الزمنية](../../../../translated_images/ar/timeseries-1.80de678ab1cf727e.webp)
الآن افترض أننا ننظم حفلة للأصدقاء كل أسبوع، ونأخذ 10 عبوات إضافية من الآيس كريم للحفلة. يمكننا إنشاء سلسلة أخرى، مفهرسة حسب الأسبوع، لتوضيح ذلك:
```python
@ -75,7 +75,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![رسم بياني للسلاسل الزمنية](../../../../translated_images/ar/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![رسم بياني للسلاسل الزمنية](../../../../translated_images/ar/timeseries-2.aae51d575c55181c.webp)
> **ملاحظة** أننا لا نستخدم الصيغة البسيطة `total_items+additional_items`. إذا فعلنا ذلك، فسنحصل على الكثير من القيم `NaN` (*ليس رقمًا*) في السلسلة الناتجة. هذا لأن هناك قيم مفقودة لبعض نقاط الفهرس في سلسلة `additional_items`، وإضافة `NaN` إلى أي شيء يؤدي إلى `NaN`. لذلك نحتاج إلى تحديد معلمة `fill_value` أثناء الجمع.
@ -84,7 +84,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![متوسطات السلاسل الزمنية الشهرية](../../../../translated_images/ar/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![متوسطات السلاسل الزمنية الشهرية](../../../../translated_images/ar/timeseries-3.f3147cbc8c624881.webp)
### إطار البيانات
@ -210,7 +210,7 @@ df = pd.read_csv('file.csv')
نظرًا لأننا نريد توضيح كيفية التعامل مع البيانات، ندعوك لفتح [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) وقراءته من البداية إلى النهاية. يمكنك أيضًا تنفيذ الخلايا، والقيام ببعض التحديات التي تركناها لك في النهاية.
![انتشار COVID](../../../../translated_images/ar/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![انتشار COVID](../../../../translated_images/ar/covidspread.f3d131c4f1d260ab.webp)
> إذا كنت لا تعرف كيفية تشغيل الكود في Jupyter Notebook، ألقِ نظرة على [هذه المقالة](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
افتح [`notebook-papers.ipynb`](notebook-papers.ipynb) وقراءته من البداية إلى النهاية. يمكنك أيضًا تنفيذ الخلايا، والقيام ببعض التحديات التي تركناها لك في النهاية.
![علاج COVID الطبي](../../../../translated_images/ar/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![علاج COVID الطبي](../../../../translated_images/ar/covidtreat.b2ba59f57ca45fbc.webp)
## معالجة بيانات الصور

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# العمل مع البيانات
![حب البيانات](../../../translated_images/ar/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![حب البيانات](../../../translated_images/ar/data-love.a22ef29e6742c852.webp)
> الصورة بواسطة <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ألكسندر سين</a> على <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
في هذه الدروس، ستتعلم بعض الطرق التي يمكن من خلالها إدارة البيانات ومعالجتها واستخدامها في التطبيقات. ستتعرف على قواعد البيانات العلائقية وغير العلائقية وكيف يمكن تخزين البيانات فيها. ستتعلم أساسيات العمل مع Python لإدارة البيانات، وستكتشف بعض الطرق العديدة التي يمكنك من خلالها استخدام Python لإدارة البيانات واستخراجها.

@ -42,7 +42,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/ar/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/ar/scatter1.5e1aa5fd6706c5d1.webp)
الآن، اعرض نفس البيانات باستخدام نظام ألوان يشبه العسل لعرض كيفية تطور السعر على مدار السنوات. يمكنك القيام بذلك عن طريق إضافة معلمة 'hue' لعرض التغيير عامًا بعد عام:
@ -51,7 +51,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/ar/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/ar/scatter2.c0041a58621ca702.webp)
مع هذا التغيير في نظام الألوان، يمكنك أن ترى بوضوح تقدمًا قويًا على مدار السنوات فيما يتعلق بسعر العسل لكل رطل. بالفعل، إذا نظرت إلى مجموعة بيانات للتحقق (اختر ولاية معينة، مثل أريزونا)، يمكنك رؤية نمط زيادة الأسعار عامًا بعد عام، مع بعض الاستثناءات:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
يمكنك رؤية حجم النقاط يزداد تدريجيًا.
![scatterplot 3](../../../../translated_images/ar/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/ar/scatter3.3c160a3d1dcb36b3.webp)
هل هذا مجرد حالة بسيطة من العرض والطلب؟ بسبب عوامل مثل تغير المناخ وانهيار المستعمرات، هل هناك كمية أقل من العسل المتاحة للشراء عامًا بعد عام، وبالتالي ترتفع الأسعار؟
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
الإجابة: نعم، مع بعض الاستثناءات حول عام 2003:
![line chart 1](../../../../translated_images/ar/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/ar/line1.f36eb465229a3b1f.webp)
✅ لأن Seaborn يقوم بتجميع البيانات حول خط واحد، فإنه يعرض "القياسات المتعددة عند كل قيمة x عن طريق رسم المتوسط وفاصل الثقة بنسبة 95% حول المتوسط". [المصدر](https://seaborn.pydata.org/tutorial/relational.html). يمكن تعطيل هذا السلوك الذي يستغرق وقتًا عن طريق إضافة `ci=None`.
@ -105,7 +105,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/ar/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/ar/line2.a5b3493dc01058af.webp)
الإجابة: ليس حقًا. إذا نظرت إلى الإنتاج الإجمالي، يبدو أنه قد زاد في ذلك العام تحديدًا، على الرغم من أن كمية العسل المنتجة عمومًا في انخفاض خلال هذه السنوات.
@ -130,7 +130,7 @@ sns.relplot(
```
في هذا التصور، يمكنك مقارنة الإنتاج لكل مستعمرة وعدد المستعمرات عامًا بعد عام، جنبًا إلى جنب مع التفاف مضبوط على 3 للأعمدة:
![facet grid](../../../../translated_images/ar/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/ar/facet.6a34851dcd540050.webp)
بالنسبة لهذه المجموعة من البيانات، لا يبرز شيء بشكل خاص فيما يتعلق بعدد المستعمرات وإنتاجها، عامًا بعد عام وولاية بعد ولاية. هل هناك طريقة مختلفة للبحث عن علاقة بين هذين المتغيرين؟
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/ar/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/ar/dual-line.a4c28ce659603fab.webp)
بينما لا يبرز شيء للعين حول عام 2003، فإنه يسمح لنا بإنهاء هذا الدرس بملاحظة أكثر إيجابية: على الرغم من وجود انخفاض عام في عدد المستعمرات، فإن عدد المستعمرات يستقر حتى لو كان إنتاجها لكل مستعمرة يتناقص.

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
هنا، تقوم بتثبيت حزمة `ggplot2` ثم استيرادها إلى مساحة العمل باستخدام الأمر `library("ggplot2")`. لرسم أي مخطط في ggplot، يتم استخدام وظيفة `ggplot()` وتحديد مجموعة البيانات، متغيرات x و y كسمات. في هذه الحالة، نستخدم وظيفة `geom_line()` لأننا نهدف إلى رسم مخطط خطي.
![MaxWingspan-lineplot](../../../../../translated_images/ar/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/ar/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
ما الذي تلاحظه فورًا؟ يبدو أن هناك على الأقل نقطة شاذة واحدة - هذا عرض جناح كبير جدًا! عرض جناح يزيد عن 2000 سنتيمتر يساوي أكثر من 20 مترًا - هل هناك تيروداكتيلات تتجول في مينيسوتا؟ دعونا نحقق في الأمر.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
نحدد الزاوية في `theme` ونحدد تسميات المحورين x و y في `xlab()` و `ylab()` على التوالي. يعطي `ggtitle()` اسمًا للرسم البياني/المخطط.
![MaxWingspan-lineplot-improved](../../../../../translated_images/ar/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/ar/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
حتى مع تدوير التسميات إلى 45 درجة، هناك الكثير منها لقراءتها. دعونا نحاول استراتيجية مختلفة: قم بتسمية النقاط الشاذة فقط وضع التسميات داخل الرسم البياني. يمكنك استخدام مخطط مبعثر لتوفير مساحة أكبر للتسمية:
@ -91,7 +91,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
ماذا تكتشف؟
![MaxWingspan-scatterplot](../../../../../translated_images/ar/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/ar/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## تصفية البيانات الخاصة بك
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
قمنا بإنشاء إطار بيانات جديد `birds_filtered` ثم رسمنا مخططًا مبعثرًا. من خلال تصفية النقاط الشاذة، أصبحت بياناتك الآن أكثر تماسكًا وفهمًا.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ar/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ar/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
الآن بعد أن أصبح لدينا مجموعة بيانات أنظف على الأقل من حيث عرض الجناح، دعونا نكتشف المزيد عن هذه الطيور.
@ -151,7 +151,7 @@ birds_filtered %>% group_by(Category) %>%
```
في المقتطف التالي، نقوم بتثبيت حزم [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) و[lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) للمساعدة في معالجة وتجميع البيانات من أجل رسم مخطط عمودي مكدس. أولاً، نقوم بتجميع البيانات حسب `Category` الطيور ثم تلخيص الأعمدة `MinLength`, `MaxLength`, `MinBodyMass`,`MaxBodyMass`,`MinWingspan`,`MaxWingspan`. ثم، نرسم المخطط العمودي باستخدام حزمة `ggplot2` ونحدد الألوان للفئات المختلفة والتسميات.
![Stacked bar chart](../../../../../translated_images/ar/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/ar/stacked-bar-chart.0c92264e89da7b39.webp)
ومع ذلك، هذا المخطط العمودي غير قابل للقراءة لأنه يحتوي على الكثير من البيانات غير المجمعة. تحتاج إلى اختيار البيانات التي تريد رسمها فقط، لذا دعونا ننظر إلى طول الطيور بناءً على فئتها.
@ -166,7 +166,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
أولاً، تقوم بعد القيم الفريدة في عمود `Category` ثم ترتيبها في إطار بيانات جديد `birds_count`. يتم ترتيب هذه البيانات المصفاة بنفس المستوى بحيث يتم رسمها بطريقة مرتبة. باستخدام `ggplot2`، تقوم بعد ذلك برسم البيانات في مخطط عمودي. يقوم `coord_flip()` برسم الأعمدة أفقيًا.
![category-length](../../../../../translated_images/ar/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/ar/category-length.7e34c296690e85d6.webp)
يوفر هذا المخطط العمودي عرضًا جيدًا لعدد الطيور في كل فئة. في لمحة، ترى أن أكبر عدد من الطيور في هذه المنطقة ينتمي إلى فئة البط/الإوز/طيور الماء. مينيسوتا هي "أرض 10,000 بحيرة"، لذا هذا ليس مفاجئًا!
@ -189,7 +189,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
نقوم بتجميع بيانات `birds_filtered` حسب `Category` ثم رسم مخطط عمودي.
![comparing data](../../../../../translated_images/ar/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/ar/comparingdata.f486a450d61c7ca5.webp)
لا شيء مفاجئ هنا: الطيور الطنانة لديها أقل طول أقصى مقارنة بالبجع أو الإوز. من الجيد عندما تكون البيانات منطقية!
@ -201,7 +201,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/ar/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/ar/superimposed-values.5363f0705a1da416.webp)
## 🚀 تحدي

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![الطول الأقصى لكل رتبة](../../../../../translated_images/ar/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![الطول الأقصى لكل رتبة](../../../../../translated_images/ar/max-length-per-order.e5b283d952c78c12.webp)
يوفر هذا نظرة عامة على التوزيع العام لطول الجسم لكل رتبة من الطيور، ولكنه ليس الطريقة المثلى لعرض التوزيعات الحقيقية. عادةً ما يتم التعامل مع هذه المهمة من خلال إنشاء مخطط هيستوجرام.
@ -48,7 +48,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![التوزيع على المجموعة الكاملة](../../../../../translated_images/ar/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![التوزيع على المجموعة الكاملة](../../../../../translated_images/ar/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
كما ترى، فإن معظم الطيور البالغ عددها 400+ في هذه المجموعة تقع في نطاق أقل من 2000 بالنسبة لأقصى كتلة جسم. احصل على مزيد من الفهم للبيانات عن طريق تغيير معلمة `bins` إلى رقم أعلى، مثل 30:
@ -56,7 +56,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![التوزيع-30 صناديق](../../../../../translated_images/ar/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![التوزيع-30 صناديق](../../../../../translated_images/ar/distribution-30bins.6a3921ea7a421bf7.webp)
يعرض هذا المخطط التوزيع بطريقة أكثر تفصيلًا. يمكن إنشاء مخطط أقل انحرافًا إلى اليسار عن طريق التأكد من اختيار البيانات فقط ضمن نطاق معين:
@ -68,7 +68,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![هيستوجرام مصفى](../../../../../translated_images/ar/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![هيستوجرام مصفى](../../../../../translated_images/ar/filtered-histogram.6bf5d2bfd8253322.webp)
✅ جرب بعض الفلاتر ونقاط البيانات الأخرى. لرؤية التوزيع الكامل للبيانات، قم بإزالة الفلتر `['MaxBodyMass']` لعرض التوزيعات المسماة.
@ -82,7 +82,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
يبدو أن هناك علاقة متوقعة بين هذين العنصرين على محور متوقع، مع نقطة تقارب قوية بشكل خاص:
![مخطط ثنائي الأبعاد](../../../../../translated_images/ar/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![مخطط ثنائي الأبعاد](../../../../../translated_images/ar/2d-plot.c504786f439bd7eb.webp)
تعمل الهيستوجرامات بشكل جيد افتراضيًا مع البيانات الرقمية. ماذا لو كنت بحاجة إلى رؤية التوزيعات وفقًا للبيانات النصية؟
@ -114,7 +114,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![امتداد الجناح وحالة الحفظ](../../../../../translated_images/ar/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![امتداد الجناح وحالة الحفظ](../../../../../translated_images/ar/wingspan-conservation-collation.4024e9aa6910866a.webp)
لا يبدو أن هناك علاقة جيدة بين امتداد الجناح الأدنى وحالة الحفظ. اختبر عناصر أخرى من مجموعة البيانات باستخدام هذه الطريقة. يمكنك تجربة فلاتر مختلفة أيضًا. هل تجد أي علاقة؟
@ -128,7 +128,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![مخطط الكثافة](../../../../../translated_images/ar/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![مخطط الكثافة](../../../../../translated_images/ar/density-plot.675ccf865b76c690.webp)
يمكنك أن ترى كيف يعكس المخطط السابق بيانات امتداد الجناح الأدنى؛ إنه فقط أكثر سلاسة. إذا كنت ترغب في إعادة النظر في خط MaxBodyMass المتعرج في المخطط الثاني الذي أنشأته، يمكنك تنعيمه بشكل جيد جدًا عن طريق إعادة إنشائه باستخدام هذه الطريقة:
@ -136,7 +136,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![كثافة كتلة الجسم](../../../../../translated_images/ar/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![كثافة كتلة الجسم](../../../../../translated_images/ar/bodymass-smooth.d31ce526d82b0a1f.webp)
إذا كنت تريد خطًا ناعمًا، ولكن ليس ناعمًا جدًا، قم بتحرير معلمة `adjust`:
@ -144,7 +144,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![كتلة الجسم الأقل نعومة](../../../../../translated_images/ar/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![كتلة الجسم الأقل نعومة](../../../../../translated_images/ar/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ اقرأ عن المعلمات المتاحة لهذا النوع من المخططات وجربها!
@ -154,7 +154,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![كتلة الجسم لكل رتبة](../../../../../translated_images/ar/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![كتلة الجسم لكل رتبة](../../../../../translated_images/ar/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 تحدٍ

@ -88,7 +88,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
ها هو، مخطط دائري يظهر نسب هذه البيانات وفقًا لهاتين الفئتين من الفطر. من المهم جدًا الحصول على ترتيب التسميات بشكل صحيح، خاصة هنا، لذا تأكد من التحقق من الترتيب الذي يتم بناء مصفوفة التسميات به!
![مخطط دائري](../../../../../translated_images/ar/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![مخطط دائري](../../../../../translated_images/ar/pie1-wb.685df063673751f4.webp)
## دونات!
@ -123,7 +123,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![مخطط دونات](../../../../../translated_images/ar/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![مخطط دونات](../../../../../translated_images/ar/donut-wb.34e6fb275da9d834.webp)
يستخدم هذا الكود المكتبتين - ggplot2 وwebr. باستخدام وظيفة PieDonut من مكتبة webr، يمكننا إنشاء مخطط دونات بسهولة!
@ -160,7 +160,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
باستخدام مخطط وافل، يمكنك رؤية نسب ألوان قبعات الفطر في هذه المجموعة البيانات بوضوح. من المثير للاهتمام أن هناك العديد من الفطر ذو القبعات الخضراء!
![مخطط وافل](../../../../../translated_images/ar/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![مخطط وافل](../../../../../translated_images/ar/waffle.aaa75c5337735a6e.webp)
في هذه الدرس، تعلمت ثلاث طرق لتصور النسب. أولاً، تحتاج إلى تجميع بياناتك في فئات ثم تقرر الطريقة الأفضل لعرض البيانات - دائري، دونات، أو وافل. جميعها لذيذة وتمنح المستخدم لمحة فورية عن مجموعة البيانات.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/ar/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/ar/scatter1.86b8900674d88b26.webp)
الآن، اعرض نفس البيانات باستخدام نظام ألوان العسل لإظهار كيفية تطور السعر على مر السنين. يمكنك القيام بذلك عن طريق إضافة معامل 'scale_color_gradientn' لإظهار التغيير عامًا بعد عام:
@ -52,7 +52,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/ar/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/ar/scatter2.4d1cbc693bad20e2.webp)
مع هذا التغيير في نظام الألوان، يمكنك أن ترى بوضوح تقدمًا قويًا على مر السنين فيما يتعلق بسعر العسل لكل رطل. بالفعل، إذا نظرت إلى مجموعة بيانات عينة للتحقق (اختر ولاية معينة، مثل أريزونا)، يمكنك رؤية نمط زيادة الأسعار عامًا بعد عام، مع بعض الاستثناءات:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
يمكنك رؤية حجم النقاط يزداد تدريجيًا.
![scatterplot 3](../../../../../translated_images/ar/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/ar/scatter3.722d21e6f20b3ea2.webp)
هل هذا مجرد حالة بسيطة من العرض والطلب؟ بسبب عوامل مثل تغير المناخ وانهيار المستعمرات، هل هناك كمية أقل من العسل المتاحة للشراء عامًا بعد عام، وبالتالي يرتفع السعر؟
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
الإجابة: نعم، مع بعض الاستثناءات حول عام 2003:
![line chart 1](../../../../../translated_images/ar/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/ar/line1.299b576fbb2a59e6.webp)
السؤال: حسنًا، في عام 2003 هل يمكننا أيضًا رؤية زيادة في كمية العسل المتوفرة؟ ماذا لو نظرت إلى الإنتاج الإجمالي عامًا بعد عام؟
@ -106,7 +106,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/ar/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/ar/line2.3b18fcda7176ceba.webp)
الإجابة: ليس حقًا. إذا نظرت إلى الإنتاج الإجمالي، يبدو أنه قد زاد في ذلك العام بالذات، على الرغم من أن كمية العسل المنتجة عمومًا كانت في انخفاض خلال هذه السنوات.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
في هذا التصور، يمكنك مقارنة الإنتاج لكل مستعمرة وعدد المستعمرات عامًا بعد عام جنبًا إلى جنب مع التفاف مضبوط على 3 للأعمدة:
![facet grid](../../../../../translated_images/ar/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/ar/facet.491ad90d61c2a7cc.webp)
بالنسبة لهذه المجموعة من البيانات، لا يبرز أي شيء بشكل خاص فيما يتعلق بعدد المستعمرات وإنتاجها، عامًا بعد عام وولاية بعد ولاية. هل هناك طريقة مختلفة للنظر في إيجاد علاقة بين هذين المتغيرين؟
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/ar/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/ar/dual-line.fc4665f360a54018.webp)
بينما لا يبرز شيء للعين حول عام 2003، فإنه يسمح لنا بإنهاء هذا الدرس بملاحظة أكثر سعادة: على الرغم من وجود انخفاض عام في عدد المستعمرات، فإن عدد المستعمرات يستقر حتى لو كان إنتاجها لكل مستعمرة يتناقص.

@ -38,25 +38,25 @@
حتى إذا كان عالم البيانات حريصًا على اختيار الرسم البياني المناسب للبيانات المناسبة، هناك العديد من الطرق التي يمكن بها عرض البيانات لإثبات نقطة معينة، غالبًا على حساب البيانات نفسها. هناك العديد من الأمثلة على الرسوم البيانية والمخططات المضللة!
[![كيف تكذب الرسوم البيانية بواسطة ألبرتو كايرو](../../../../../translated_images/ar/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "كيف تكذب الرسوم البيانية")
[![كيف تكذب الرسوم البيانية بواسطة ألبرتو كايرو](../../../../../translated_images/ar/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "كيف تكذب الرسوم البيانية")
> 🎥 انقر على الصورة أعلاه لمشاهدة محاضرة حول الرسوم البيانية المضللة
هذا الرسم البياني يعكس المحور X ليظهر عكس الحقيقة بناءً على التاريخ:
![رسم سيء 1](../../../../../translated_images/ar/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![رسم سيء 1](../../../../../translated_images/ar/bad-chart-1.596bc93425a8ac30.webp)
[هذا الرسم البياني](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) أكثر تضليلًا، حيث يجذب العين إلى اليمين لتستنتج أن حالات COVID قد انخفضت مع الزمن في المقاطعات المختلفة. في الواقع، إذا نظرت عن كثب إلى التواريخ، ستجد أنها أعيد ترتيبها لإظهار هذا الاتجاه المضلل.
![رسم سيء 2](../../../../../translated_images/ar/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![رسم سيء 2](../../../../../translated_images/ar/bad-chart-2.62edf4d2f30f4e51.webp)
هذا المثال الشهير يستخدم الألوان ومحور Y مقلوب لخداع العين: بدلاً من استنتاج أن وفيات الأسلحة ارتفعت بعد تمرير تشريعات داعمة للأسلحة، يتم خداع العين لتعتقد العكس:
![رسم سيء 3](../../../../../translated_images/ar/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![رسم سيء 3](../../../../../translated_images/ar/bad-chart-3.e201e2e915a230bc.webp)
هذا الرسم الغريب يظهر كيف يمكن التلاعب بالنسب، بشكل مضحك:
![رسم سيء 4](../../../../../translated_images/ar/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![رسم سيء 4](../../../../../translated_images/ar/bad-chart-4.8872b2b881ffa96c.webp)
مقارنة ما لا يمكن مقارنته هي خدعة أخرى مشبوهة. هناك [موقع ويب رائع](https://tylervigen.com/spurious-correlations) يعرض "ارتباطات زائفة" تظهر "حقائق" تربط بين أشياء مثل معدل الطلاق في ولاية مين واستهلاك المارجرين. كما أن هناك مجموعة على Reddit تجمع [الاستخدامات السيئة](https://www.reddit.com/r/dataisugly/top/?t=all) للبيانات.
@ -91,13 +91,13 @@
إذا كانت بياناتك نصية وطويلة على المحور X، يمكنك إمالة النص لتحسين القراءة. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) يقدم رسومات ثلاثية الأبعاد إذا كانت بياناتك تدعم ذلك. يمكن إنتاج تصورات بيانات متطورة باستخدامه.
![رسومات ثلاثية الأبعاد](../../../../../translated_images/ar/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![رسومات ثلاثية الأبعاد](../../../../../translated_images/ar/3d.db1734c151eee87d.webp)
## الرسوم المتحركة وعرض الرسوم ثلاثية الأبعاد
بعض أفضل تصورات البيانات اليوم متحركة. شيرلي وو لديها أمثلة مذهلة باستخدام D3، مثل '[زهور الأفلام](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)'، حيث يمثل كل زهرة تصورًا لفيلم. مثال آخر للجارديان هو 'باصات المشردين'، تجربة تفاعلية تجمع بين التصورات مع Greensock وD3 بالإضافة إلى تنسيق مقال سردي لعرض كيفية تعامل مدينة نيويورك مع مشكلة المشردين من خلال إرسالهم خارج المدينة.
![باصات المشردين](../../../../../translated_images/ar/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![باصات المشردين](../../../../../translated_images/ar/busing.8157cf1bc89a3f65.webp)
> "باصات المشردين: كيف تنقل أمريكا مشرديها" من [الجارديان](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). تصورات بواسطة نادية بريمر وشيرلي وو.
@ -107,7 +107,7 @@
ستكمل تطبيق ويب يعرض عرضًا متحركًا لهذه الشبكة الاجتماعية. يستخدم مكتبة تم إنشاؤها لإنشاء [تصور لشبكة](https://github.com/emiliorizzo/vue-d3-network) باستخدام Vue.js وD3. عندما يعمل التطبيق، يمكنك سحب العقد على الشاشة لتحريك البيانات.
![العلاقات](../../../../../translated_images/ar/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![العلاقات](../../../../../translated_images/ar/liaisons.90ce7360bcf84765.webp)
## المشروع: بناء رسم بياني لعرض شبكة باستخدام D3.js

@ -1,6 +1,6 @@
# التصورات
![نحلة على زهرة اللافندر](../../../translated_images/ar/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![نحلة على زهرة اللافندر](../../../translated_images/ar/bee.0aa1d91132b12e3a.webp)
> الصورة بواسطة <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> على <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
تصور البيانات هو أحد أهم المهام التي يقوم بها عالم البيانات. الصور تعادل ألف كلمة، ويمكن للتصور أن يساعدك في التعرف على جميع أنواع الأجزاء المثيرة للاهتمام في بياناتك مثل القمم، والقيم الشاذة، والتجمعات، والاتجاهات، والمزيد، مما يمكن أن يساعدك في فهم القصة التي تحاول بياناتك سردها.

@ -16,7 +16,7 @@
تركز هذه الدرس على ثلاثة أجزاء من دورة الحياة: الالتقاط، المعالجة، والصيانة.
![رسم بياني لدورة حياة علم البيانات](../../../../translated_images/ar/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![رسم بياني لدورة حياة علم البيانات](../../../../translated_images/ar/data-science-lifecycle.a1e362637503c4fb.webp)
> صورة بواسطة [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## الالتقاط
@ -92,7 +92,7 @@
|عملية فريق علم البيانات (TDSP)|المعيار الصناعي لعملية التنقيب عن البيانات (CRISP-DM)|
|--|--|
|![دورة حياة فريق علم البيانات](../../../../translated_images/ar/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![صورة عملية علم البيانات](../../../../translated_images/ar/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![دورة حياة فريق علم البيانات](../../../../translated_images/ar/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![صورة عملية علم البيانات](../../../../translated_images/ar/CRISP-DM.8bad2b4c66e62aa7.webp) |
| صورة بواسطة [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | صورة بواسطة [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [اختبار ما بعد المحاضرة](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# دورة حياة علم البيانات
![التواصل](../../../translated_images/ar/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![التواصل](../../../translated_images/ar/communication.06d8e2a88d30d168.webp)
> الصورة بواسطة <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> على <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
في هذه الدروس، ستستكشف بعض جوانب دورة حياة علم البيانات، بما في ذلك التحليل والتواصل حول البيانات.

@ -1,12 +1,12 @@
# علم البيانات في السحابة
![cloud-picture](../../../translated_images/ar/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/ar/cloud-picture.f5526de3c6c6387b.webp)
> الصورة بواسطة [Jelleke Vanooteghem](https://unsplash.com/@ilumire) من [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
عندما يتعلق الأمر بممارسة علم البيانات مع البيانات الضخمة، يمكن أن تكون السحابة نقطة تحول. في الدروس الثلاثة القادمة، سنستعرض ما هي السحابة ولماذا يمكن أن تكون مفيدة جدًا. سنقوم أيضًا باستكشاف مجموعة بيانات عن فشل القلب وبناء نموذج يساعد في تقييم احتمالية إصابة شخص بفشل القلب. سنستخدم قوة السحابة لتدريب النموذج ونشره واستهلاكه بطريقتين مختلفتين. الطريقة الأولى باستخدام واجهة المستخدم فقط بأسلوب "Low code/No code"، والطريقة الثانية باستخدام Azure Machine Learning Software Developer Kit (Azure ML SDK).
![project-schema](../../../translated_images/ar/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/ar/project-schema.420e56d495624541.webp)
### المواضيع

@ -32,7 +32,7 @@
* [علم البيانات في الرعاية الصحية](https://data-flair.training/blogs/data-science-in-healthcare/) - يبرز تطبيقات مثل التصوير الطبي (مثل التصوير بالرنين المغناطيسي، الأشعة السينية، التصوير المقطعي)، الجينوميات (تسلسل الحمض النووي)، تطوير الأدوية (تقييم المخاطر، التنبؤ بالنجاح)، التحليلات التنبؤية (رعاية المرضى ولوجستيات الإمداد)، تتبع الأمراض والوقاية منها، إلخ.
![تطبيقات علم البيانات في العالم الحقيقي](../../../../translated_images/ar/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) مصدر الصورة: [Data Flair: 6 Amazing Data Science Applications](https://data-flair.training/blogs/data-science-applications/)
![تطبيقات علم البيانات في العالم الحقيقي](../../../../translated_images/ar/data-science-applications.4e5019cd8790ebac.webp) مصدر الصورة: [Data Flair: 6 Amazing Data Science Applications](https://data-flair.training/blogs/data-science-applications/)
تُظهر الصورة مجالات وأمثلة أخرى لتطبيق تقنيات علم البيانات. هل تريد استكشاف تطبيقات أخرى؟ تحقق من قسم [المراجعة والدراسة الذاتية](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) أدناه.

@ -13,7 +13,7 @@
2. استكشاف [كتالوج البيانات](https://planetarycomputer.microsoft.com/catalog) - لمعرفة الغرض من كل مجموعة بيانات.
3. استخدام Explorer - اختيار مجموعة بيانات تهمك، وتحديد استعلام مناسب وخيار عرض.
![واجهة Explorer للحاسوب الكوكبي](../../../../translated_images/ar/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![واجهة Explorer للحاسوب الكوكبي](../../../../translated_images/ar/planetary-computer-explorer.c1e95a9b053167d6.webp)
`مهمتك:`
الآن قم بدراسة التصور الذي يتم عرضه في المتصفح وأجب عن الأسئلة التالية:

@ -1,197 +1,207 @@
# علم البيانات للمبتدئين - منهج دراسي
[![افتح في GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![ترخيص GitHub](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![مساهمو GitHub](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![قضايا GitHub](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![طلبات سحب GitHub](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![مرحبًا بطلبات السحب](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![مشاهدو GitHub](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![مشاريع GitHub](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![نجوم GitHub](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![خادم Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![منتدى مطوري Microsoft Foundry على GitHub](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
يسعد مدافعوا أزور السحابيون في مايكروسوفت بتقديم منهج دراسي مكون من 10 أسابيع و20 درسًا كله عن علم البيانات. يشمل كل درس اختبارات قبل وبعد الدرس، تعليمات مكتوبة لإكمال الدرس، الحل، ومهمة. تسمح لك منهجيتنا القائمة على المشاريع بالتعلم أثناء البناء، وهي طريقة مثبتة لتثبيت المهارات الجديدة.
يسعد فريق دعاة سحابة أزور في مايكروسوفت أن يقدم منهجًا دراسيًا لمدة 10 أسابيع و20 درسًا حول علم البيانات. يتضمن كل درس اختبارات قبل وبعد الدرس، تعليمات مكتوبة لإتمام الدرس، الحل، ومهمة. تسمح لك منهجية التعلم القائمة على المشاريع بالتعلم أثناء البناء، وهي طريقة مثبتة لجعل المهارات الجديدة "تثبت".
**شكرًا جزيلًا لمؤلفينا:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**شكر خاص لمؤلفينا:** [Jasmine Greenaway](https://www.twitter.com/paladique)، [Dmitry Soshnikov](http://soshnikov.com)، [Nitya Narasimhan](https://twitter.com/nitya)، [Jalen McGee](https://twitter.com/JalenMcG)، [Jen Looper](https://twitter.com/jenlooper)، [Maud Levy](https://twitter.com/maudstweets)، [Tiffany Souterre](https://twitter.com/TiffanySouterre [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 شكر خاص 🙏 للمؤلفين والمراجعين والمساهمين في المحتوى من [سفراء مايكروسوفت الطلابية](https://studentambassadors.microsoft.com/)،** لا سيما Aaryan Arora، [Aditya Garg](https://github.com/AdityaGarg00)، [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/)، [Ankita Singh](https://www.linkedin.com/in/ankitasingh007)، [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/)، [Arpita Das](https://www.linkedin.com/in/arpitadas01/)، ChhailBihari Dubey، [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor)، [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb)، [Majd Safi](https://www.linkedin.com/in/majd-s/)، [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/)، [Miguel Correa](https://www.linkedin.com/in/miguelmque/)، [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119)، [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum)، [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/)، [Rohit Yadav](https://www.linkedin.com/in/rty2423)، Samridhi Sharma، [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200
**🙏 شكر خاص 🙏 لمؤلفي، مراجعينا، ومساهمي المحتوى من [سفراء طلاب مايكروسوفت](https://studentambassadors.microsoft.com/)،** وبالأخص Aaryan Arora، [Aditya Garg](https://github.com/AdityaGarg00)، [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/)، [Ankita Singh](https://www.linkedin.com/in/ankitasingh007)، [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/)، [Arpita Das](https://www.linkedin.com/in/arpitadas01/)، ChhailBihari Dubey، [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor)، [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb)، [Majd Safi](https://www.linkedin.com/in/majd-s/)، [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/)، [Miguel Correa](https://www.linkedin.com/in/miguelmque/)، [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119)، [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum)، [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/)، [Rohit Yadav](https://www.linkedin.com/in/rty2423)، Samridhi Sharma، [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/)، [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/)، Yogendrasingh Pawar ، [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/)، [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![ملاحظة مرسومة بواسطة @sketchthedocs https://sketchthedocs.dev](../../translated_images/ar/00-Title.8af36cd35da1ac55.webp)|
|![ملاحظات مرسومة بواسطة @sketchthedocs https://sketchthedocs.dev](../../translated_images/ar/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| علم البيانات للمبتدئين - _ملاحظة مرسومة بواسطة [@nitya](https://twitter.com/nitya)_ |
### 🌐 دعم متعدد اللغات
#### مدعوم عبر GitHub Action (أوتوماتيكي ومحدث دائمًا)
#### مدعوم عبر GitHub Action (آلي ودائم التحديث)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[العربية](./README.md) | [البنغالية](../bn/README.md) | [البلغارية](../bg/README.md) | [البورمية (ميانمار)](../my/README.md) | [الصينية (المبسطة)](../zh-CN/README.md) | [الصينية (التقليدية، هونغ كونغ)](../zh-HK/README.md) | [الصينية (التقليدية، ماكاو)](../zh-MO/README.md) | [الصينية (التقليدية، تايوان)](../zh-TW/README.md) | [الكرواتية](../hr/README.md) | [التشيكية](../cs/README.md) | [الدانماركية](../da/README.md) | [الهولندية](../nl/README.md) | [الإستونية](../et/README.md) | [الفنلندية](../fi/README.md) | [الفرنسية](../fr/README.md) | [الألمانية](../de/README.md) | [اليونانية](../el/README.md) | [العبرية](../he/README.md) | [الهندية](../hi/README.md) | [الهنغارية](../hu/README.md) | [الإندونيسية](../id/README.md) | [الإيطالية](../it/README.md) | [اليابانية](../ja/README.md) | [الكانادا](../kn/README.md) | [الكورية](../ko/README.md) | [الليتوانية](../lt/README.md) | [المالي](../ms/README.md) | [المالايالام](../ml/README.md) | [الماراثية](../mr/README.md) | [النيبالية](../ne/README.md) | [النيجيرية بيدجن](../pcm/README.md) | [النرويجية](../no/README.md) | [الفارسية (اللغة الفارسية)](../fa/README.md) | [البولندية](../pl/README.md) | [البرتغالية (البرازيل)](../pt-BR/README.md) | [البرتغالية (البرتغال)](../pt-PT/README.md) | [البنغالية (غورموخي)](../pa/README.md) | [الرومانية](../ro/README.md) | [الروسية](../ru/README.md) | [الصربية (السيريلية)](../sr/README.md) | [السلوفاكية](../sk/README.md) | [السلوفينية](../sl/README.md) | [الإسبانية](../es/README.md) | [السواحيلية](../sw/README.md) | [السويدية](../sv/README.md) | [التاغالوغ (الفلبينية)](../tl/README.md) | [التاميلية](../ta/README.md) | [التيلجو](../te/README.md) | [التايلاندية](../th/README.md) | [التركية](../tr/README.md) | [الأوكرانية](../uk/README.md) | [الأردية](../ur/README.md) | [الفيتنامية](../vi/README.md)
> **هل تفضل الاستنساخ محليًا؟**
[Arabic](./README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> يحتوي هذا المستودع على أكثر من 50 ترجمة لغة مما يزيد بشكل كبير من حجم التنزيل. للاستنساخ بدون الترجمات، استخدم السحب الانتقائي:
> **تفضل الاستنساخ محليًا؟**
>
> يتضمن هذا المستودع أكثر من 50 ترجمة للغات مما يزيد بشكل كبير من حجم التنزيل. للاستنساخ بدون الترجمات، استخدم sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> يعطيك هذا كل ما تحتاجه لإكمال الدورة بتنزيل أسرع بكثير.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> هذا يمنحك كل ما تحتاجه لإكمال الدورة مع تنزيل أسرع بكثير.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**إذا كنت ترغب في دعم لغات ترجمة إضافية، فهي مدرجة [هنا](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**إذا كنت ترغب بدعم لغات ترجمة إضافية، فهي مدرجة [هنا](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### انضم إلى مجتمعنا
[![خادم Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
#### انضم إلى مجتمعنا
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
لدينا سلسلة تعلم عبر Discord مع الذكاء الاصطناعي مستمرة، تعرّف على المزيد وانضم إلينا في [سلسلة تعلم مع AI](https://aka.ms/learnwithai/discord) من 18 إلى 30 سبتمبر 2025. ستحصل على نصائح وحيل حول استخدام GitHub Copilot لعلم البيانات.
لدينا سلسلة تعلم على ديسكورد مع الذكاء الاصطناعي مستمرة، تعرف أكثر وانضم إلينا في [سلسلة التعلم مع الذكاء الاصطناعي](https://aka.ms/learnwithai/discord) من 18 إلى 30 سبتمبر 2025. ستحصل على نصائح وحيل لاستخدام GitHub Copilot في علم البيانات.
![سلسلة تعلم مع AI](../../translated_images/ar/1.2b28cdc6205e26fe.webp)
![Learn with AI series](../../translated_images/ar/1.2b28cdc6205e26fe.webp)
# هل أنت طالب؟
ابدأ بالموارد التالية:
- [صفحة مركز الطلاب](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) في هذه الصفحة، ستجد موارد للمبتدئين، حزم الطلاب وحتى طرق للحصول على قسيمة شهادة مجانية. هذه صفحة تريد وضع إشارة مرجعية عليها والتحقق منها من وقت لآخر حيث نقوم بتغيير المحتوى شهريًا على الأقل.
- [سفراء مايكروسوفت الطلابية](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) انضم إلى مجتمع عالمي من سفراء الطلاب، قد يكون هذا طريقك إلى مايكروسوفت.
- [صفحة مركز الطلاب](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) في هذه الصفحة، ستجد موارد للمبتدئين، حزم الطلاب وحتى طرق للحصول على قسيمة شهادة مجانية. هذه صفحة تريد إضافتها إلى المفضلة والتحقق منها من وقت لآخر حيث نغير المحتوى على الأقل مرة كل شهر.
- [سفراء طلاب مايكروسوفت](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) انضم إلى مجتمع عالمي من سفراء الطلاب، قد تكون هذه هي طريقك إلى مايكروسوفت.
# بدء الاستخدام
## 📚 الوثائق
## 📚 التوثيق
- **[دليل التثبيت](INSTALLATION.md)** - تعليمات إعداد خطوة بخطوة للمبتدئين
- **[دليل التثبيت](INSTALLATION.md)** - تعليمات الإعداد خطوة بخطوة للمبتدئين
- **[دليل الاستخدام](USAGE.md)** - أمثلة وتدفقات عمل شائعة
- **[حل المشكلات](TROUBLESHOOTING.md)** - حلول للمشاكل الشائعة
- **[دليل المساهمة](CONTRIBUTING.md)** - كيفية المساهمة في هذا المشروع
- **[للمعلمين](for-teachers.md)** - إرشادات التدريس وموارد الفصل الدراسي
- **[للمعلمين](for-teachers.md)** - إرشادات التدريس وموارد الصف الدراسي
## 👨‍🎓 للطلاب
> **للمبتدئين التامّين**: هل أنت جديد في علم البيانات؟ ابدأ بأمثلتنا [الصديقة للمبتدئين](examples/README.md)! تساعدك هذه الأمثلة البسيطة والمشروحة جيدًا على فهم الأساسيات قبل الدخول في المنهج الكامل.
> **[الطلاب](https://aka.ms/student-page)**: لاستخدام هذا المنهج بمفردك، قم بتفرع المستودع بالكامل وأكمل التمرينات بنفسك، بدءًا باختبار قبل المحاضرة. ثم اقرأ المحاضرة وأكمل بقية الأنشطة. حاول إنشاء المشاريع بفهم الدروس بدلاً من نسخ كود الحل؛ ومع ذلك، يتوفر هذا الكود في مجلد /solutions في كل درس موجه نحو المشروع. فكرة أخرى هي تشكيل مجموعة دراسة مع الأصدقاء ومراجعة المحتوى معًا. لمزيد من الدراسة، نوصي بـ [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **المبتدئين تمامًا**: جديد في علم البيانات؟ ابدأ بأمثلتنا السهلة والمناسبة للمبتدئين [beginner-friendly examples](examples/README.md)! هذه الأمثلة البسيطة والمفصلة بالتعليقات ستساعدك على فهم الأساسيات قبل الغوص في المنهج الكامل.
> **[الطلاب](https://aka.ms/student-page)**: لاستخدام هذا المنهج بمفردك، يمكنك عمل فورك للكود كاملاً وإكمال التمارين بنفسك، بدءًا باختبار تمهيدي قبل المحاضرة. ثم اقرأ المحاضرة وأكمل بقية الأنشطة. حاول إنشاء المشاريع من خلال فهم الدروس بدلاً من نسخ شفرة الحل؛ مع ذلك، تتوفر الشفرة في مجلدات /solutions في كل درس موجه للمشروع. فكرة أخرى هي تشكيل مجموعة دراسة مع الأصدقاء ومراجعة المحتوى معًا. للدراسة المتقدمة، نوصي بـ [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**بدء سريع:**
1. تحقق من [دليل التثبيت](INSTALLATION.md) لإعداد بيئتك
2. راجع [دليل الاستخدام](USAGE.md) لتتعلم كيفية العمل مع المنهج
3. ابدأ بالدرس 1 واعمل بالتتابع
4. انضم إلى [مجتمعنا في Discord](https://aka.ms/ds4beginners/discord) للدعم
**البدء السريع:**
1. راجع [دليل التثبيت](INSTALLATION.md) لإعداد بيئتك
2. استعرض [دليل الاستخدام](USAGE.md) لتعلم كيفية العمل مع المنهج
3. ابدأ بالدرس 1 وواصل بالدروس بالترتيب
4. انضم إلى [مجتمعنا على Discord](https://aka.ms/ds4beginners/discord) للحصول على الدعم
## 👩‍🏫 للمعلمين
> **المعلمون**: لقد قمنا بـ[تضمين بعض الاقتراحات](for-teachers.md) حول كيفية استخدام هذا المنهج الدراسي. ونسعد بتلقي ملاحظاتكم [في منتدى النقاش الخاص بنا](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **للمعلمين**: لقد قمنا [بتضمين بعض الاقتراحات](for-teachers.md) حول كيفية استخدام هذا المنهج. نود الحصول على ملاحظاتك [في منتدى المناقشات الخاص بنا](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## تعرف على الفريق
## تعرّف على الفريق
[![فيديو ترويجي](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "فيديو ترويجي")
**صنع الصور المتحركة من قبل** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
**صُنع الـGif بواسطة** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 اضغط على الصورة أعلاه لمشاهدة فيديو عن المشروع والأشخاص الذين أنشأوه!
> 🎥 انقر على الصورة أعلاه لفيديو عن المشروع والأشخاص الذين أنشأوه!
## منهجية التعليم
## المنهجية التعليمية
اخترنا مبدأين تربويين أثناء بناء هذا المنهج الدراسي: التأكد من أنه قائم على المشاريع ويتضمن اختبارات متكررة. بحلول نهاية هذه السلسلة، سيكون الطلاب قد تعلموا المبادئ الأساسية لعلم البيانات، بما في ذلك المفاهيم الأخلاقية، تحضير البيانات، الطرق المختلفة للعمل مع البيانات، تصور البيانات، تحليل البيانات، حالات استخدام واقعية لعلم البيانات، وأكثر.
اخترنا مبدئين تربويين أثناء بناء هذا المنهج: ضمان كونه قائمًا على المشاريع وأن يتضمن اختبارات متكررة. بنهاية هذه السلسلة، سيكون الطلاب قد تعلموا مبادئ أساسية في علم البيانات، بما في ذلك المفاهيم الأخلاقية، تحضير البيانات، طرق مختلفة للعمل مع البيانات، تصور البيانات، تحليل البيانات، حالات الاستخدام الواقعية لعلم البيانات، وأكثر.
بالإضافة إلى ذلك، يحدد اختبار منخفض المخاطر قبل الحصة نية الطالب نحو تعلم الموضوع، في حين يضمن اختبار آخر بعد الحصة المزيد من الاحتفاظ بالمعلومات. تم تصميم هذا المنهج لكونه مرنًا وممتعًا ويمكن أخذه بالكامل أو جزئيًا. تبدأ المشاريع صغيرة وتزداد تعقيدًا مع نهاية دورة العشرة أسابيع.
بالإضافة إلى ذلك، اختبار منخفض المخاطر قبل الدرس يهيئ النية لدى الطالب لتعلم الموضوع، بينما يضمن اختبار ثانٍ بعد الدرس الاحتفاظ بالمعلومات بشكل أكبر. تم تصميم هذا المنهج ليكون مرنًا وممتعًا ويمكن دراسته كاملاً أو جزئيًا. تبدأ المشاريع صغيرة وتزداد تعقيدًا بالتدريج حتى نهاية دورة الأسابيع العشرة.
> تعرف على [مدونة السلوك](CODE_OF_CONDUCT.md)، [المساهمة](CONTRIBUTING.md)، وإرشادات [الترجمة](TRANSLATIONS.md). نرحب بملاحظاتك البناءة!
> تجد [مدونة السلوك الخاصة بنا](CODE_OF_CONDUCT.md)، و[إرشادات المساهمة](CONTRIBUTING.md)، و[إرشادات الترجمة](TRANSLATIONS.md). نرحب بملاحظاتكم البناءة!
## تتضمن كل درس:
## يحتوي كل درس على:
- ملاحظات تخطيطية اختيارية
- ملاحظات رسم تخطيطي اختيارية
- فيديو تكميلي اختياري
- اختبار تسخين قبل الدرس
- اختبار تمهيدي قبل الدرس
- درس مكتوب
- لدروس المشاريع، دلائل خطوة بخطوة لبناء المشروع
- اختبارات المعرفة
- دروس إرشادية خطوة بخطوة للمشاريع المعتمدة على المشاريع
- اختبارات معرفة
- تحدي
- قراءة تكاملية
- قراءة إضافية
- واجب
- [اختبار ما بعد الدرس](https://ff-quizzes.netlify.app/en/)
- [اختبار بعد الدرس](https://ff-quizzes.netlify.app/en/)
> **ملاحظة عن الاختبارات**: جميع الاختبارات موجودة في مجلد Quiz-App، بإجمالي 40 اختبارًا كل منها يتضمن ثلاثة أسئلة. ترتبط من داخل الدروس، لكن يمكن تشغيل تطبيق الاختبارات محليًا أو نشره على Azure؛ اتبع التعليمات في مجلد `quiz-app`. يتم تعريبها تدريجيًا.
> **ملاحظة حول الاختبارات**: كل الاختبارات موجودة في مجلد Quiz-App، بمجموع 40 اختبارًا يحتوي كل منها على ثلاثة أسئلة. ترتبط من داخل الدروس، لكن تطبيق الاختبارات يمكن تشغيله محليًا أو نشره على Azure؛ اتبع التعليمات في مجلد `quiz-app`. يتم تعريبها تدريجياً.
## 🎓 أمثلة مناسبة للمبتدئين
## 🎓 أمثلة ميسرة للمبتدئين
**جديد في علم البيانات؟** أنشأنا دليلًا خاصًا للأمثلة [examples directory](examples/README.md) مع أكواد بسيطة ومشروحة جيدًا لمساعدتك على البدء:
**جديد في علم البيانات؟** لقد أنشأنا مجلد خاص [للأمثلة](examples/README.md) يحتوي على أكواد بسيطة ومشروحة جيدًا لمساعدتك على البدء:
- 🌟 **مرحبا بالعالم** - أول برنامج علم بيانات لك
- 📂 **تحميل البيانات** - تعلّم قراءة واستكشاف مجموعات البيانات
- 🌟 **مرحبًا بالعالم** - برنامجك الأول في علم البيانات
- 📂 **تحميل البيانات** - تعلم كيفية قراءة واستكشاف مجموعات البيانات
- 📊 **تحليل بسيط** - حساب الإحصائيات واكتشاف الأنماط
- 📈 **التصور الأساسي** - إنشاء مخططات ورسوم بيانية
- 🔬 **مشروع واقعي** - سير العمل كاملًا من البداية للنهاية
- 📈 **تصور أساسي** - إنشاء المخططات والرسوم البيانية
- 🔬 **مشروع واقعي** - سير عمل مكتمل من البداية للنهاية
تتضمن كل مثال تعليقات تفصيلية تشرح كل خطوة، مما يجعله مثاليًا للمبتدئين تمامًا!
كل مثال يحتوي على تعليقات مفصلة تشرح كل خطوة، مما يجعله مثاليًا للمبتدئين تمامًا!
👉 **[ابدأ بالأمثلة](examples/README.md)** 👈
## الدروس
|![ ملاحظة تخطيطية بواسطة @sketchthedocs https://sketchthedocs.dev](../../translated_images/ar/00-Roadmap.4905d6567dff4753.webp)|
|![ رسم تخطيطي بواسطة @sketchthedocs https://sketchthedocs.dev](../../translated_images/ar/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| خارطة طريق علم البيانات للمبتدئين - _ملاحظة تخطيطية بواسطة [@nitya](https://twitter.com/nitya)_ |
| علم البيانات للمبتدئين: خارطة الطريق - _رسم تخطيطي بواسطة [@nitya](https://twitter.com/nitya)_ |
| رقم الدرس | الموضوع | مجموعة الدرس | أهداف التعلم | الدرس المرتبط | المؤلف |
| رقم الدرس | الموضوع | مجموعة الدروس | أهداف التعلم | الدرس المرتبط | المؤلف |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | تعريف علم البيانات | [مقدمة](1-Introduction/README.md) | تعلّم المفاهيم الأساسية وراء علم البيانات وكيف يرتبط بالذكاء الاصطناعي، التعلم الآلي، والبيانات الضخمة. | [درس](1-Introduction/01-defining-data-science/README.md) [فيديو](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | أخلاقيات علم البيانات | [مقدمة](1-Introduction/README.md) | مفاهيم أخلاقيات البيانات، التحديات، والأطر. | [درس](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 02 | أخلاقيات علم البيانات | [مقدمة](1-Introduction/README.md) | مفاهيم وتحديات وأطر عمل أخلاقيات البيانات. | [درس](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | تعريف البيانات | [مقدمة](1-Introduction/README.md) | كيفية تصنيف البيانات ومصادرها الشائعة. | [درس](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | مقدمة في الإحصاء والاحتمالات | [مقدمة](1-Introduction/README.md) | التقنيات الرياضية للاحتمالات والإحصاء لفهم البيانات. | [درس](1-Introduction/04-stats-and-probability/README.md) [فيديو](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | العمل مع البيانات العلائقية | [العمل مع البيانات](2-Working-With-Data/README.md) | مقدمة عن البيانات العلائقية والأساسيات لاستكشاف وتحليل البيانات العلائقية باستخدام لغة الاستعلام البنائية، المعروفة أيضًا بـ SQL (تنطق "سي-كول"). | [درس](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | العمل مع بيانات NoSQL | [العمل مع البيانات](2-Working-With-Data/README.md) | مقدمة عن البيانات غير العلائقية، أنواعه المختلفة، والأساسيات لاستكشاف وتحليل قواعد بيانات المستندات. | [درس](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | العمل مع بايثون | [العمل مع البيانات](2-Working-With-Data/README.md) | أساسيات استخدام بايثون لاستكشاف البيانات مع مكتبات مثل Pandas. من المفضل فهم برمجة بايثون أساسيًا. | [درس](2-Working-With-Data/07-python/README.md) [فيديو](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | تحضير البيانات | [العمل مع البيانات](2-Working-With-Data/README.md) | مواضيع تقنيات تنظيف وتحويل البيانات لمعالجة تحديات البيانات المفقودة أو غير الدقيقة أو غير المكتملة. | [درس](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | تصور الكميات | [تصور البيانات](3-Data-Visualization/README.md) | تعلم كيفية استخدام Matplotlib لتصوير بيانات الطيور 🦆 | [درس](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | تصور توزيع البيانات | [تصور البيانات](3-Data-Visualization/README.md) | تصور الملاحظات والاتجاهات ضمن فترة زمنية. | [درس](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | تصور النسب | [تصور البيانات](3-Data-Visualization/README.md) | تصور النسب المئوية المجمعة والمنفصلة. | [درس](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | تصور العلاقات | [تصور البيانات](3-Data-Visualization/README.md) | تصور الروابط والترابطات بين مجموعات البيانات ومتغيراتها. | [درس](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | تصورات ذات معنى | [تصور البيانات](3-Data-Visualization/README.md) | تقنيات وإرشادات لجعل تصوراتك قيمة وفعالة في حل المشكلات واستخلاص الرؤى. | [درس](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | مقدمة في دورة حياة علم البيانات | [دورة الحياة](4-Data-Science-Lifecycle/README.md) | مقدمة في دورة حياة علم البيانات وخطوتها الأولى اكتساب واستخلاص البيانات. | [درس](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | التحليل | [دورة الحياة](4-Data-Science-Lifecycle/README.md) | تركز هذه المرحلة من دورة الحياة على تقنيات تحليل البيانات. | [درس](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | التواصل | [دورة الحياة](4-Data-Science-Lifecycle/README.md) | تركز هذه المرحلة على تقديم الرؤى المستخلصة من البيانات بطريقة تسهل فهمها لصناع القرار. | [درس](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | علم البيانات في السحابة | [بيانات السحابة](5-Data-Science-In-Cloud/README.md) | سلسلة دروس تعرّف علم البيانات في السحابة وفوائده. | [درس](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) و [Maud](https://twitter.com/maudstweets) |
| 18 | علم البيانات في السحابة | [بيانات السحابة](5-Data-Science-In-Cloud/README.md) | تدريب النماذج باستخدام أدوات الكود المنخفض. |[درس](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) و [Maud](https://twitter.com/maudstweets) |
| 19 | علم البيانات في السحابة | [بيانات السحابة](5-Data-Science-In-Cloud/README.md) | نشر النماذج باستخدام Azure Machine Learning Studio. | [درس](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) و [Maud](https://twitter.com/maudstweets) |
| 20 | علم البيانات في العالم الحقيقي | [في العالم الحقيقي](6-Data-Science-In-Wild/README.md) | مشاريع مدفوعة بواسطة علم البيانات في الواقع. | [درس](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## مساحات كود جيت هاب
اتبع هذه الخطوات لفتح هذا العينة في مساحة أكواد:
1. اضغط على قائمة الشيفرة المنسدلة واختر خيار "الفتح مع مساحات الكود".
2. اختر + مساحة جديدة في أسفل اللوحة.
لمزيد من المعلومات، راجع [وثائق GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode عن بعد - الحاويات
اتبع هذه الخطوات لفتح هذا المستودع في حاوية باستخدام جهازك المحلي و VSCode مع امتداد Remote - Containers:
1. إذا كانت هذه أول مرة تستخدم فيها حاوية تطوير، فتأكد من أن نظامك يلبي المتطلبات الأساسية (أي وجود Docker مثبت) في [وثائق البدء](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
لاستخدام هذا المستودع، يمكنك فتح المستودع في حجم Docker معزول:
**ملاحظة**: تحت الغطاء، يستخدم هذا الأمر Remote-Containers: **Clone Repository in Container Volume...** لاستنساخ الشفرة المصدرية في حجم Docker بدلاً من نظام الملفات المحلي. [الأحجام](https://docs.docker.com/storage/volumes/) هي الآلية المفضلة للاحتفاظ ببيانات الحاوية.
أو افتح نسخة من المستودع مستنسخة محليًا أو محملة:
- استنسخ هذا المستودع إلى نظام الملفات المحلي.
| 04 | مقدمة في الإحصاء والاحتمالات | [مقدمة](1-Introduction/README.md) | التقنيات الرياضية في الاحتمالات والإحصاء لفهم البيانات. | [درس](1-Introduction/04-stats-and-probability/README.md) [فيديو](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | العمل مع البيانات العلائقية | [العمل مع البيانات](2-Working-With-Data/README.md) | مقدمة للبيانات العلائقية وأساسيات استكشاف وتحليل البيانات العلائقية باستخدام لغة الاستعلام البنيوية، المعروفة باسم SQL (تنطق "سي-كويل"). | [درس](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | العمل مع بيانات NoSQL | [العمل مع البيانات](2-Working-With-Data/README.md) | مقدمة للبيانات غير العلائقية، أنواعها المختلفة وأساسيات استكشاف وتحليل قواعد بيانات المستندات. | [درس](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | العمل مع بايثون | [العمل مع البيانات](2-Working-With-Data/README.md) | أساسيات استخدام بايثون لاستكشاف البيانات باستخدام مكتبات مثل Pandas. يُنصح بفهم أساسي لبرمجة بايثون. | [درس](2-Working-With-Data/07-python/README.md) [فيديو](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | تحضير البيانات | [العمل مع البيانات](2-Working-With-Data/README.md) | موضوعات حول تقنيات تنظيف وتحويل البيانات لمعالجة تحديات البيانات الناقصة أو غير الدقيقة أو غير المكتملة. | [درس](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | تصور الكميات | [تصور البيانات](3-Data-Visualization/README.md) | تعلم استخدام Matplotlib لتصوير بيانات الطيور 🦆 | [درس](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | تصور توزيعات البيانات | [تصور البيانات](3-Data-Visualization/README.md) | تصور الملاحظات والاتجاهات ضمن فترة زمنية. | [درس](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | تصور النسب | [تصور البيانات](3-Data-Visualization/README.md) | تصور النسب المئوية المتقطعة والمجمعة. | [درس](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | تصور العلاقات | [تصور البيانات](3-Data-Visualization/README.md) | تصور الروابط والارتباطات بين مجموعات البيانات ومتغيراتها. | [درس](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | التصورات ذات المعنى | [تصور البيانات](3-Data-Visualization/README.md) | تقنيات وتوجيهات لجعل تصورك قيماً لحل المشكلات بفعالية واستخلاص الرؤى. | [درس](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | مقدمة إلى دورة حياة علم البيانات | [دورة الحياة](4-Data-Science-Lifecycle/README.md) | مقدمة لدورة حياة علم البيانات وخطوتها الأولى في جمع واستخلاص البيانات. | [درس](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | التحليل | [دورة الحياة](4-Data-Science-Lifecycle/README.md) | تركيز هذه المرحلة من دورة حياة علم البيانات على تقنيات تحليل البيانات. | [درس](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | التواصل | [دورة الحياة](4-Data-Science-Lifecycle/README.md) | تركيز هذه المرحلة من دورة حياة علم البيانات على عرض الرؤى المستخلصة من البيانات بطريقة تسهل على متخذي القرار الفهم. | [درس](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | علم البيانات في السحابة | [بيانات السحابة](5-Data-Science-In-Cloud/README.md) | سلسلة من الدروس تعرف علم البيانات في السحابة وفوائده. | [درس](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) و [Maud](https://twitter.com/maudstweets) |
| 18 | علم البيانات في السحابة | [بيانات السحابة](5-Data-Science-In-Cloud/README.md) | تدريب النماذج باستخدام أدوات التعليم منخفضة الكود. |[درس](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) و [Maud](https://twitter.com/maudstweets) |
| 19 | علم البيانات في السحابة | [بيانات السحابة](5-Data-Science-In-Cloud/README.md) | نشر النماذج باستخدام استوديو Azure Machine Learning. | [درس](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) و [Maud](https://twitter.com/maudstweets) |
| 20 | علم البيانات الميداني | [في الميدان](6-Data-Science-In-Wild/README.md) | مشاريع علم بيانات مدفوعة في العالم الحقيقي. | [درس](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
اتبع هذه الخطوات لفتح هذا المثال في Codespace:
1. انقر على قائمة تنزيل الكود واختر خيار Open with Codespaces.
2. حدد + New codespace في أسفل اللوحة.
لمزيد من المعلومات، اطلع على [توثيق GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
اتبع هذه الخطوات لفتح هذا المستودع في حاوية باستخدام جهازك المحلي وVSCode باستخدام امتداد VS Code Remote - Containers:
1. إذا كانت هذه هي المرة الأولى التي تستخدم فيها حاوية تطوير، يرجى التأكد من تلبية النظام للمتطلبات المسبقة (مثل تثبيت Docker) في [توثيق البدء](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
لاستخدام هذا المستودع، يمكنك إما فتح المستودع في حجم حاوية Docker معزول:
**ملاحظة**: تحت الغطاء، سيستخدم هذا الأمر Remote-Containers: **Clone Repository in Container Volume...** لاستنساخ الشفرة المصدرية في حجم Docker بدلاً من نظام الملفات المحلي. [الأحجام](https://docs.docker.com/storage/volumes/) هي الآلية المفضلة للحفاظ على بيانات الحاوية.
أو فتح نسخة استنساخ محليًا أو نسخة تم تنزيلها من المستودع:
- استنسخ هذا المستودع إلى نظام الملفات المحلي لديك.
- اضغط F1 واختر أمر **Remote-Containers: Open Folder in Container...**.
- اختر النسخة المستنسخة من هذا المجلد، انتظر بدء الحاوية، وجرب الأمور.
- اختر النسخة المستنسخة من هذا المجلد، انتظر حتى تبدأ الحاوية، وجرب الأمور.
## الوصول دون اتصال
يمكنك تشغيل هذا التوثيق دون اتصال باستخدام [Docsify](https://docsify.js.org/#/). انسخ هذا الريبو، [ثبت Docsify](https://docsify.js.org/#/quickstart) على جهازك المحلي، ثم في المجلد الجذري لهذا الريبو، اكتب `docsify serve`. سيُخدم الموقع على المنفذ 3000 على المضيف المحلي: `localhost:3000`.
يمكنك تشغيل هذه الوثائق دون اتصال باستخدام [Docsify](https://docsify.js.org/#/). قم بتفريع هذا المستودع، و[تثبيت Docsify](https://docsify.js.org/#/quickstart) على جهازك المحلي، ثم في المجلد الجذري لهذا المستودع، اكتب `docsify serve`. سيتم تقديم الموقع على المنفذ 3000 على جهازك المحلي: `localhost:3000`.
> ملاحظة، لن تُعرض دفاتر الملاحظات عبر Docsify، لذا عندما تحتاج إلى تشغيل دفتر ملاحظات، افعل ذلك بشكل منفصل في VS Code مع تشغيل نواة بايثون.
> ملاحظة، الدفاتر لن تُعرض عبر Docsify، لذا عندما تحتاج إلى تشغيل دفتر، قم بذلك بشكل منفصل في VS Code باستخدام نواة Python.
## مناهج أخرى
فريقنا ينتج مناهج أخرى! اطلع على:
ينتج فريقنا مناهج أخرى! اكتشف:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
@ -200,54 +210,54 @@
[![LangChain للمبتدئين](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### أزور / إيدج / MCP / الوكلاء
### أزور / الحافة / MCP / الوكلاء
[![AZD للمبتدئين](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![الذكاء الاصطناعي عند الحافة للمبتدئين](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![الذكاء الاصطناعي للحافة للمبتدئين](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP للمبتدئين](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![الوكلاء الذكيون للمبتدئين](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[![وكلاء الذكاء الاصطناعي للمبتدئين](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### سلسلة الذكاء الاصطناعي التوليدي
[![الذكاء الاصطناعي التوليدي للمبتدئين](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![الذكاء الاصطناعي التوليدي (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![الذكاء الاصطناعي التوليدي (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![الذكاء الاصطناعي التوليدي (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
[![الذكاء الاصطناعي التوليدي (جافا)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![الذكاء الاصطناعي التوليدي (جافاسكريبت)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### التعلم الأساسي
[![تعلم الآلة للمبتدئين](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![علم البيانات للمبتدئين](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![الذكاء الاصطناعي للمبتدئين](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![الأمن السيبراني للمبتدئين](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![تطوير الويب للمبتدئين](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![إنترنت الأشياء للمبتدئين](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![تطوير XR للمبتدئين](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
[![الإنترنت للأشياء للمبتدئين](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![تطوير الواقع الممتد للمبتدئين](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### سلسلة كوبيلوت
[![كوبيلوت للبرمجة المرتبطة بالذكاء الاصطناعي](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![كوبيلوت للبرمجة الزوجية بالذكاء الاصطناعي](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![كوبيلوت لـ C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![مغامرة كوبيلوت](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## الحصول على المساعدة
**هل تواجه مشكلات؟** تحقق من [دليل استكشاف الأخطاء وإصلاحها](TROUBLESHOOTING.md) للعثور على حلول للمشاكل الشائعة.
**تواجه مشاكل؟** تحقق من [دليل استكشاف الأخطاء وإصلاحها](TROUBLESHOOTING.md) للحصول على حلول للمشاكل الشائعة.
إذا واجهت صعوبة أو كان لديك أي أسئلة حول بناء تطبيقات الذكاء الاصطناعي. انضم إلى المتعلمين الآخرين والمطورين ذوي الخبرة في مناقشات حول MCP. إنها مجتمع داعم حيث تُرحب بالأسئلة ويُشارك المعرفة بحرية.
إذا علقت أو كانت لديك أي أسئلة حول بناء تطبيقات الذكاء الاصطناعي. انضم إلى المتعلمين الآخرين والمطورين ذوي الخبرة في مناقشات حول MCP. إنها مجتمع داعم حيث تُرحب بالأسئلة ويُشارك المعرفة بحرية.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![خادم ديسكورد Microsoft Foundry](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
إذا كان لديك ملاحظات عن المنتج أو أخطاء أثناء البناء، يمكنك زيارة:
إذا كان لديك ملاحظات عن المنتج أو أخطاء أثناء البناء، قم بزيارة:
[![منتدى مطوري Microsoft Foundry](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
[![منتدى مطوري Microsoft Foundry على GitHub](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**إخلاء المسؤولية**:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يُرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. ينبغي اعتبار المستند الأصلي بلغته الأصلية المصدر الرسمي والمعتمد. للحصول على معلومات هامة، يُنصح بالاعتماد على الترجمة البشرية المهنية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة قد تنشأ عن استخدام هذه الترجمة.
**إخلاء مسؤولية**:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر المعتمد. للمعلومات الحرجة، يُوصى بالترجمة المهنية البشرية. نحن غير مسؤولين عن أي سوء فهم أو تفسير ناتج عن استخدام هذه الترجمة.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@
نيتيا ناراسيمهان، الفنانة
![رسم تخطيطي لخريطة الطريق](../../../translated_images/ar/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![رسم تخطيطي لخريطة الطريق](../../../translated_images/ar/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "bg"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T11:39:44+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "bg"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-26T15:27:07+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "bg"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T11:40:22+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "bg"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:59:02+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "bg"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T11:41:30+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "bg"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T18:41:23+00:00",
@ -360,8 +378,8 @@
"language_code": "bg"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T08:59:31+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T11:47:24+00:00",
"source_file": "README.md",
"language_code": "bg"
},

@ -6,7 +6,7 @@
---
[![Видео за определение на науката за данни](../../../../translated_images/bg/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Видео за определение на науката за данни](../../../../translated_images/bg/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Тест преди лекцията](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -142,7 +142,7 @@
В това предизвикателство ще се опитаме да намерим концепции, свързани с областта на науката за данни, като разгледаме текстове. Ще вземем статия от Wikipedia за науката за данни, ще изтеглим и обработим текста, и след това ще създадем облак от думи като този:
![Облак от думи за науката за данни](../../../../translated_images/bg/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Облак от думи за науката за данни](../../../../translated_images/bg/ds_wordcloud.664a7c07dca57de0.webp)
Посетете [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), за да разгледате кода. Можете също така да изпълните кода и да видите как той извършва всички трансформации на данни в реално време.

@ -3,15 +3,15 @@
{
"cell_type": "markdown",
"source": [
"# Предизвикателство: Анализ на текст за наука за данни\n",
"\n",
"В този пример ще направим просто упражнение, което обхваща всички стъпки на традиционния процес в науката за данни. Не е необходимо да пишете код, просто можете да кликнете върху клетките по-долу, за да ги изпълните и да наблюдавате резултата. Като предизвикателство, се насърчавате да изпробвате този код с различни данни.\n",
"\n",
"## Цел\n",
"\n",
"В този урок обсъждахме различни концепции, свързани с науката за данни. Нека се опитаме да открием още свързани концепции, като направим **текстов анализ**. Ще започнем с текст за науката за данни, ще извлечем ключови думи от него и след това ще се опитаме да визуализираме резултата.\n",
"\n",
"Като текст ще използвам страницата за науката за данни от Wikipedia:\n"
"# Предизвикателство: Анализ на текст за дата сайънс\r\n",
"\r\n",
"В този пример, нека направим просто упражнение, покриващо всички стъпки на традиционния процес на дата сайънс. Не е необходимо да пишете код, просто можете да кликнете върху клетките по-долу, за да ги изпълните и да наблюдавате резултата. Като предизвикателство, се насърчавате да опитате този код с различни данни.\r\n",
"\r\n",
"## Цел\r\n",
"\r\n",
"В този урок обсъждахме различни концепции, свързани с дата сайънс. Нека опитаме да открием още свързани концепции чрез **текстов минен анализ**. Ще започнем с текст за дата сайънс, ще извлечем ключови думи от него и после ще опитаме да визуализираме резултата.\r\n",
"\r\n",
"Като текст ще използвам страницата за Data Science от Уикипедия:\n"
],
"metadata": {}
},
@ -34,7 +34,7 @@
"source": [
"## Стъпка 1: Получаване на данните\n",
"\n",
"Първата стъпка във всеки процес на анализ на данни е получаването на данните. Ще използваме библиотеката `requests`, за да направим това:\n"
"Първата стъпка във всеки процес на наука за данните е получаването на данните. Ще използваме библиотеката `requests` за тази цел:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Стъпка 2: Преобразуване на данните\n",
"\n",
"Следващата стъпка е да преобразуваме данните във форма, подходяща за обработка. В нашия случай сме изтеглили HTML изходния код от страницата и трябва да го преобразуваме в обикновен текст.\n",
"Следващата стъпка е преобразуването на данните във формата, подходящ за обработка. В нашия случай, ние сме изтеглили HTML изходния код от страницата и трябва да го преобразуваме в обикновен текст.\n",
"\n",
"Има много начини, по които това може да се направи. Ще използваме най-простия вграден обект [HTMLParser](https://docs.python.org/3/library/html.parser.html) от Python. Трябва да наследим класа `HTMLParser` и да дефинираме код, който ще събира целия текст вътре в HTML таговете, с изключение на таговете `<script>` и `<style>`.\n"
"Има много начини, по които това може да бъде направено. Ще използваме [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), популярна Python библиотека за парсване на HTML. BeautifulSoup ни позволява да насочваме към конкретни HTML елементи, така че да се фокусираме върху основното съдържание на статията от Wikipedia и да намалим някои навигационни менюта, странични панели, футъри и друго нерелевантно съдържание (въпреки че може да остане част от шаблонен текст).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Първо, трябва да инсталираме библиотеката BeautifulSoup за парсване на HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## Стъпка 3: Получаване на прозрения\n",
"\n",
"Най-важната стъпка е да преобразуваме данните си в някаква форма, от която можем да извлечем прозрения. В нашия случай искаме да извлечем ключови думи от текста и да видим кои ключови думи са по-съществени.\n",
"Най-важната стъпка е да преобразуваме нашите данни в някаква форма, от която можем да изведем прозрения. В нашия случай искаме да извлечем ключови думи от текста и да видим кои ключови думи са по-смислени.\n",
"\n",
"Ще използваме библиотеката на Python, наречена [RAKE](https://github.com/aneesha/RAKE), за извличане на ключови думи. Първо, нека инсталираме тази библиотека, ако все още не е налична:\n"
"Ще използваме Python библиотеката, наречена [RAKE](https://github.com/aneesha/RAKE), за извличане на ключови думи. Първо, нека инсталираме тази библиотека, ако не е налична:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Основната функционалност е достъпна от обекта `Rake`, който можем да персонализираме с помощта на някои параметри. В нашия случай ще зададем минималната дължина на ключова дума на 5 символа, минималната честота на ключова дума в документа на 3 и максималния брой думи в ключова дума - на 2. Чувствайте се свободни да експериментирате с други стойности и да наблюдавате резултата.\n"
"Основната функционалност е достъпна от обекта `Rake`, който можем да персонализираме с помощта на някои параметри. В нашия случай ще зададем минималната дължина на ключова дума да бъде 5 символа, минималната честота на ключова дума в документа да бъде 3 и максималния брой думи в ключова дума - 2. Чувствайте се свободни да експериментирате с други стойности и да наблюдавате резултата.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Получихме списък с термини заедно със съответната степен на важност. Както можете да видите, най-значимите дисциплини, като машинно обучение и големи данни, са представени в списъка на водещи позиции.\n",
"Получихме списък с термини заедно със съответната степен на важност. Както виждате, най-значимите дисциплини, като машинно обучение и големи данни, присъстват в списъка на водещи позиции.\n",
"\n",
"## Стъпка 4: Визуализиране на резултата\n",
"\n",
"Хората разбират данните най-добре, когато са представени визуално. Затова често има смисъл да се визуализират данните, за да се извлекат определени прозрения. Можем да използваме библиотеката `matplotlib` в Python, за да начертаем проста дистрибуция на ключовите думи с тяхната релевантност:\n"
"Хората най-добре разбират данните във визуална форма. Поради това често има смисъл да се визуализират данните, за да се изведат някои изводи. Можем да използваме библиотеката `matplotlib` в Python, за да начертаем просто разпределение на ключовите думи с тяхната релевантност:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Има обаче още по-добър начин за визуализиране на честотата на думите - използвайки **Word Cloud**. Ще трябва да инсталираме друга библиотека, за да създадем облак от думи от нашия списък с ключови думи.\n"
"Има обаче още по-добър начин да визуализираме честотата на думите - чрез **Word Cloud**. Ще трябва да инсталираме друга библиотека, за да начертаем word cloud от нашия списък с ключови думи.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` обектът е отговорен за приемането на оригинален текст или предварително изчислен списък от думи с техните честоти и връща изображение, което след това може да бъде показано с помощта на `matplotlib`:\n"
"`WordCloud` обектът е отговорен за приемане на оригинален текст или предварително изчислен списък с думи и техните честоти и връща изображение, което след това може да бъде показано с помощта на `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Можем също да предадем оригиналния текст на `WordCloud` - нека видим дали можем да получим подобен резултат:\n"
"Можем също да подадем оригиналния текст на `WordCloud` - нека видим дали ще успеем да получим подобен резултат:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"Можете да видите, че облакът от думи сега изглежда по-впечатляващ, но също така съдържа много шум (например несвързани думи като `Retrieved on`). Освен това получаваме по-малко ключови думи, състоящи се от две думи, като *data scientist* или *computer science*. Това е така, защото алгоритъмът RAKE се справя много по-добре с избора на подходящи ключови думи от текста. Този пример илюстрира важността на предварителната обработка и почистването на данни, тъй като ясната картина в края ще ни позволи да вземаме по-добри решения.\n",
"Вече можете да видите, че облакът от думи изглежда по-впечатляващ, но той също съдържа много шум (например, несвързани думи като `Retrieved on`). Също така получаваме по-малко ключови думи, съставени от две думи, като *data scientist* или *computer science*. Това се дължи на факта, че алгоритъмът RAKE се справя много по-добре с избора на добри ключови думи от текста. Този пример илюстрира важността на предварителната обработка и почистване на данните, защото ясната картина накрая ще ни позволи да вземаме по-добри решения.\n",
"\n",
"В това упражнение преминахме през прост процес на извличане на смисъл от текст в Wikipedia, под формата на ключови думи и облак от думи. Този пример е доста прост, но добре демонстрира всички типични стъпки, които един специалист по данни предприема при работа с данни, започвайки от придобиването на данни до визуализацията.\n",
"В това упражнение преминахме през прост процес на извличане на смисъл от текста на Уикипедия, под формата на ключови думи и облак от думи. Този пример е доста прост, но добре демонстрира всички типични стъпки, които един data scientist предприема при работа с данни, започвайки от придобиването на данни и стигайки до визуализацията.\n",
"\n",
"В нашия курс ще обсъдим всички тези стъпки подробно.\n"
"В нашия курс ще обсъдим всички тези стъпки в детайли.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Отказ от отговорност**: \nТози документ е преведен с помощта на AI услуга за превод [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за каквито и да е недоразумения или погрешни интерпретации, произтичащи от използването на този превод.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Отказ от отговорност**:\nТози документ е преведен с помощта на AI преводаческа услуга [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, имайте предвид, че автоматичните преводи могат да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за всякакви недоразумения или неправилни тълкувания, произтичащи от използването на този превод.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:29:03+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "bg"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# Предизвикателство: Анализ на текст за наука за данни\n",
"# Предизвикателство: Анализ на текст за Данни Наука\n",
"\n",
"> *В тази тетрадка експериментираме с използването на различни URL адреси - статия от Уикипедия за машинно обучение. Можете да видите, че за разлика от науката за данни, тази статия съдържа много термини, което прави анализа по-проблематичен. Трябва да измислим друг начин за почистване на данните след извличането на ключови думи, за да се отървем от някои често срещани, но незначителни словосъчетания.*\n",
"> *В този бележник експериментираме с използването на различен URL - статия от Уикипедия за Машинно Обучение. Можете да видите, че за разлика от Данни Наука, тази статия съдържа много термини, което прави анализа по-проблематичен. Трябва да измислим друг начин за изчистване на данните след извличането на ключови думи, за да се отървем от някои чести, но незначими комбинации от думи.*\n",
"\n",
"В този пример ще направим просто упражнение, което обхваща всички стъпки на традиционния процес в науката за данни. Не е необходимо да пишете код, просто можете да кликнете върху клетките по-долу, за да ги изпълните и да наблюдавате резултата. Като предизвикателство, ви насърчаваме да изпробвате този код с различни данни.\n",
"В този пример нека направим просто упражнение, което обхваща всички стъпки на традиционния процес на наука за данни. Не е нужно да пишете код, можете просто да кликнете върху клетките по-долу, за да ги изпълните и да наблюдавате резултата. Като предизвикателство, насърчаваме ви да опитате този код с различни данни.\n",
"\n",
"## Цел\n",
"\n",
"В този урок обсъждахме различни концепции, свързани с науката за данни. Нека се опитаме да открием повече свързани концепции, като направим **текстов анализ**. Ще започнем с текст за науката за данни, ще извлечем ключови думи от него и след това ще се опитаме да визуализираме резултата.\n",
"В този урок обсъждахме различни концепции, свързани с Данни Наука. Нека опитаме да открием още свързани концепции чрез **текстов минен анализ**. Ще започнем с текст за Данни Наука, ще извлечем ключови думи от него и след това ще се опитаме да визуализираме резултата.\n",
"\n",
"Като текст ще използвам страницата за науката за данни от Уикипедия:\n"
"Като текст ще използвам страницата за Данни Наука от Уикипедия:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## Стъпка 1: Получаване на данните\n",
"\n",
"Първата стъпка във всеки процес на анализ на данни е получаването на данните. Ще използваме библиотеката `requests`, за да направим това:\n"
"Първата стъпка във всеки процес на анализ на данни е получаването на данните. Ще използваме библиотеката `requests` за това:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Стъпка 2: Преобразуване на данните\n",
"## Стъпка 2: Трансформиране на данните\n",
"\n",
"Следващата стъпка е да преобразуваме данните във форма, подходяща за обработка. В нашия случай сме изтеглили HTML изходния код от страницата и трябва да го преобразуваме в обикновен текст.\n",
"Следващата стъпка е да преобразуваме данните в подходяща за обработка форма. В нашия случай изтеглихме HTML изходния код от страницата и трябва да го преобразуваме в обикновен текст.\n",
"\n",
"Има много начини, по които това може да се направи. Ще използваме най-простия вграден обект [HTMLParser](https://docs.python.org/3/library/html.parser.html) от Python. Трябва да наследим класа `HTMLParser` и да дефинираме код, който ще събира целия текст вътре в HTML таговете, с изключение на `<script>` и `<style>` таговете.\n"
"Има много начини да се направи това. Ще използваме [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), популярна Python библиотека за парсване на HTML. BeautifulSoup ни позволява да насочваме определени HTML елементи, така че да се съсредоточим върху основното съдържание на статията от Wikipedia и да намалим някои навигационни менюта, странични ленти, футъри и друго неуместно съдържание (въпреки че някакъв шаблонен текст все още може да остане).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Първо, трябва да инсталираме библиотеката BeautifulSoup за парсване на HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Стъпка 3: Получаване на прозрения\n",
"## Step 3: Получаване на прозрения\n",
"\n",
"Най-важната стъпка е да превърнем нашите данни във форма, от която можем да извлечем прозрения. В нашия случай искаме да извлечем ключови думи от текста и да видим кои ключови думи са по-съществени.\n",
"Най-важната стъпка е да превърнем нашите данни в някаква форма, от която можем да изведем прозрения. В нашия случай искаме да извлечем ключови думи от текста и да видим кои ключови думи са по-съществени.\n",
"\n",
"Ще използваме Python библиотека, наречена [RAKE](https://github.com/aneesha/RAKE), за извличане на ключови думи. Първо, нека инсталираме тази библиотека, ако не е налична:\n"
"Ще използваме Python библиотека, наречена [RAKE](https://github.com/aneesha/RAKE) за извличане на ключови думи. Първо, нека инсталираме тази библиотека в случай, че не е налична: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Основната функционалност е достъпна от обекта `Rake`, който можем да персонализираме с помощта на някои параметри. В нашия случай ще зададем минималната дължина на ключова дума на 5 символа, минималната честота на ключова дума в документа на 3 и максималния брой думи в ключова дума - на 2. Чувствайте се свободни да експериментирате с други стойности и да наблюдавате резултата.\n"
"Основната функционалност е налична от обекта `Rake`, който можем да персонализираме чрез някои параметри. В нашия случай ще зададем минималната дължина на ключова дума да бъде 5 символа, минималната честота на ключова дума в документа да е 3 и максималния брой думи в ключова дума - 2. Чувствайте се свободни да експериментирате с други стойности и да наблюдавате резултата.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Получихме списък с термини заедно със свързаната степен на важност. Както можете да видите, най-важните дисциплини, като машинно обучение и големи данни, са представени в списъка на водещи позиции.\n",
"\n",
"Получихме списък с термини заедно със съответната степен на важност. Както можете да видите, най-значимите дисциплини, като машинно обучение и големи данни, присъстват в списъка на водещи позиции.\n",
"\n",
"## Стъпка 4: Визуализация на резултата\n",
"\n",
"Хората най-добре интерпретират данните в визуална форма. Затова често има смисъл да се визуализират данните, за да се извлекат някои прозрения. Можем да използваме библиотеката `matplotlib` в Python, за да начертаем проста дистрибуция на ключовите думи с тяхната релевантност:\n"
"Хората могат най-добре да интерпретират данните във визуална форма. Затова често е разумно да се визуализират данните, за да се извлекат някои изводи. Можем да използваме библиотеката `matplotlib` в Python, за да начертаем проста разпределение на ключовите думи с тяхната релевантност:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"Има обаче още по-добър начин за визуализиране на честотата на думите - използване на **Word Cloud**. Ще трябва да инсталираме друга библиотека, за да създадем облак от думи от нашия списък с ключови думи.\n"
"Има обаче още по-добър начин за визуализиране на честотата на думите - чрез **Word Cloud**. Ще трябва да инсталираме още една библиотека, за да начертаем word cloud от нашия списък с ключови думи.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` обектът е отговорен за приемането на оригинален текст или предварително изчислен списък от думи с техните честоти и връща изображение, което след това може да бъде показано с помощта на `matplotlib`:\n"
"Обектът `WordCloud` отговаря за приемане на оригинален текст или предварително изчислен списък с думи и техните честоти, и връща изображение, което след това може да бъде показано с помощта на `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"Можем също да подадем оригиналния текст на `WordCloud` - нека видим дали ще успеем да получим подобен резултат:\n"
"Можем също така да подадем оригиналния текст на `WordCloud` - нека видим дали ще успеем да получим подобен резултат:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"Можете да видите, че облакът от думи сега изглежда по-впечатляващ, но също така съдържа много шум (например несвързани думи като `Retrieved on`). Освен това получаваме по-малко ключови думи, състоящи се от две думи, като *data scientist* или *computer science*. Това е така, защото алгоритъмът RAKE се справя много по-добре с избора на подходящи ключови думи от текста. Този пример илюстрира важността на предварителната обработка и почистването на данни, защото ясната картина в края ще ни позволи да вземаме по-добри решения.\n",
"Вече можете да видите, че облакът от думи изглежда по-впечатляващ, но също така съдържа много шум (напр. нерелевантни думи като `Retrieved on`). Също така получаваме по-малко ключови думи, съставени от две думи, като *data scientist* или *computer science*. Това е защото алгоритъмът RAKE извършва много по-добра селекция на добри ключови думи от текста. Този пример илюстрира значението на предварителната обработка и почистване на данните, тъй като ясната картина накрая ще ни позволи да вземем по-добри решения.\n",
"\n",
"В това упражнение преминахме през прост процес на извличане на смисъл от текст в Уикипедия под формата на ключови думи и облак от думи. Този пример е доста опростен, но добре демонстрира всички типични стъпки, които един специалист по данни предприема при работа с данни, започвайки от придобиването на данни до визуализацията.\n",
"В това упражнение преминахме през прост процес на извличане на смисъл от текста на Уикипедия, под формата на ключови думи и облак от думи. Този пример е доста прост, но добре демонстрира всички типични стъпки, които един data scientist ще предприеме при работа с данни, започвайки от придобиването на данните до визуализацията.\n",
"\n",
"В нашия курс ще обсъдим всички тези стъпки в детайли.\n"
"В нашия курс ще обсъдим всички тези стъпки подробно. \n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Отказ от отговорност**: \nТози документ е преведен с помощта на AI услуга за превод [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи може да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Не носим отговорност за недоразумения или погрешни интерпретации, произтичащи от използването на този превод.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Отказ от отговорност**: \nТози документ е преведен с помощта на AI преводаческа услуга [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи могат да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за каквито и да е недоразумения или неправилни тълкувания, възникнали от използването на този превод.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +525,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:40:03+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "bg"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
Статистиката и теорията на вероятностите са две силно свързани области на математиката, които са изключително важни за науката за данни. Възможно е да се работи с данни без задълбочени математически познания, но все пак е добре да се знаят поне основните концепции. Тук ще представим кратко въведение, което ще ви помогне да започнете.
[![Въвеждащо видео](../../../../translated_images/bg/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Въвеждащо видео](../../../../translated_images/bg/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Тест преди лекцията](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
Можем да говорим само за вероятността променливата да попадне в даден интервал от стойности, напр. P(t<sub>1</sub>≤X<t<sub>2</sub>). В този случай разпределението на вероятностите се описва чрез **функция на плътността на вероятностите** p(x), така че
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/bg/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/bg/probability-density.a8aad29f17a14afb.webp)
Непрекъснат аналог на равномерното разпределение се нарича **непрекъснато равномерно**, което се дефинира върху краен интервал. Вероятността стойността X да попадне в интервал с дължина l е пропорционална на l и достига до 1.
@ -73,11 +73,11 @@
Ето диаграма кутия и мустаци, показваща средна стойност, медиана и квартилни стойности за нашите данни:
![Диаграма кутия и мустаци за тегло](../../../../translated_images/bg/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Диаграма кутия и мустаци за тегло](../../../../translated_images/bg/weight-boxplot.1dbab1c03af26f8a.webp)
Тъй като нашите данни съдържат информация за различни **ролите** на играчите, можем също да направим диаграма кутия и мустаци по роли - това ще ни позволи да добием представа как стойностите на параметрите се различават между ролите. Този път ще разгледаме височината:
![Диаграма кутия и мустаци по роли](../../../../translated_images/bg/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Диаграма кутия и мустаци по роли](../../../../translated_images/bg/boxplot_byrole.036b27a1c3f52d42.webp)
Тази диаграма предполага, че средно височината на първите базови играчи е по-голяма от височината на вторите базови играчи. По-късно в този урок ще научим как можем да тестваме тази хипотеза по-формално и как да демонстрираме, че нашите данни са статистически значими, за да покажем това.
@ -85,7 +85,7 @@
За да видим какво е разпределението на нашите данни, можем да начертаем графика, наречена **хистограма**. Оста X ще съдържа брой различни интервали за тегло (т.нар. **кофи**), а вертикалната ос ще показва броя на случаите, когато извадката на случайната променлива е попаднала в даден интервал.
![Хистограма на данни от реалния свят](../../../../translated_images/bg/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Хистограма на данни от реалния свят](../../../../translated_images/bg/weight-histogram.bfd00caf7fc30b14.webp)
От тази хистограма можете да видите, че всички стойности са съсредоточени около определено средно тегло, и колкото по-далеч от това тегло отиваме - толкова по-малко тегла с тази стойност се срещат. Т.е., много малко вероятно е теглото на бейзболен играч да бъде много различно от средното тегло. Дисперсията на теглата показва степента, до която теглата вероятно се различават от средното.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
Ако начертаем хистограмата на генерираните извадки, ще видим картина, много подобна на показаната по-горе. И ако увеличим броя на извадките и броя на кофите, можем да генерираме картина на нормално разпределение, която е по-близка до идеалната:
![Нормално разпределение със средна стойност=0 и стандартно отклонение=1](../../../../translated_images/bg/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Нормално разпределение със средна стойност=0 и стандартно отклонение=1](../../../../translated_images/bg/normal-histogram.dfae0d67c202137d.webp)
*Нормално разпределение със средна стойност=0 и стандартно отклонение=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
В нашия случай стойността 0.53 показва, че има известна корелация между теглото и височината на човек. Можем също да направим диаграма на разсейване на една стойност спрямо другата, за да видим връзката визуално:
![Връзка между тегло и височина](../../../../translated_images/bg/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Връзка между тегло и височина](../../../../translated_images/bg/weight-height-relationship.3f06bde4ca2aba99.webp)
> Повече примери за корелация и ковариация можете да намерите в [придружаващата тетрадка](notebook.ipynb).

@ -1,6 +1,6 @@
# Въведение в науката за данните
![данни в действие](../../../translated_images/bg/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![данни в действие](../../../translated_images/bg/data.48e22bb7617d8d92.webp)
> Снимка от <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> на <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
В тези уроци ще откриете как се дефинира науката за данните и ще научите за етичните съображения, които трябва да бъдат взети предвид от специалиста по данни. Ще научите също как се дефинират данните и ще се запознаете с основите на статистиката и вероятностите, които са основни академични области на науката за данните.

@ -4,7 +4,7 @@
| :---------------------------------------------------------------------------------------------------: |
| Работа с Python - _Скетч от [@nitya](https://twitter.com/nitya)_ |
[![Въвеждащо видео](../../../../translated_images/bg/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Въвеждащо видео](../../../../translated_images/bg/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Докато базите данни предлагат много ефективни начини за съхранение на данни и тяхното извличане чрез език за заявки, най-гъвкавият начин за обработка на данни е да напишете собствена програма за манипулиране на данните. В много случаи използването на заявка към база данни би било по-ефективно. Въпреки това, в някои случаи, когато е необходима по-сложна обработка на данни, това не може лесно да се направи с SQL.
Обработката на данни може да бъде програмирана на всеки език за програмиране, но има определени езици, които са по-високо ниво, когато става въпрос за работа с данни. Специалистите по данни обикновено предпочитат един от следните езици:
@ -66,7 +66,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Графика на времеви серии](../../../../translated_images/bg/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Графика на времеви серии](../../../../translated_images/bg/timeseries-1.80de678ab1cf727e.webp)
Сега да предположим, че всяка седмица организираме парти за приятели и вземаме допълнителни 10 опаковки сладолед за партито. Можем да създадем друга серия, индексирана по седмици, за да демонстрираме това:
```python
@ -77,7 +77,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Графика на времеви серии](../../../../translated_images/bg/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Графика на времеви серии](../../../../translated_images/bg/timeseries-2.aae51d575c55181c.webp)
> **Забележка**: Не използваме простия синтаксис `total_items+additional_items`. Ако го направим, ще получим много стойности `NaN` (*Not a Number*) в резултатната серия. Това е така, защото липсват стойности за някои точки от индекса в серията `additional_items`, и добавянето на `NaN` към нещо води до `NaN`. Затова трябва да зададем параметъра `fill_value` по време на събирането.
@ -86,7 +86,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Месечни средни стойности на времеви серии](../../../../translated_images/bg/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Месечни средни стойности на времеви серии](../../../../translated_images/bg/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -212,7 +212,7 @@ df = pd.read_csv('file.csv')
Тъй като искаме да демонстрираме как да работим с данни, ви каним да отворите [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) и да го прочетете от началото до края. Можете също така да изпълните клетките и да решите някои предизвикателства, които сме оставили за вас в края.
![COVID Spread](../../../../translated_images/bg/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/bg/covidspread.f3d131c4f1d260ab.webp)
> Ако не знаете как да изпълнявате код в Jupyter Notebook, разгледайте [тази статия](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -234,7 +234,7 @@ df = pd.read_csv('file.csv')
Отворете [`notebook-papers.ipynb`](notebook-papers.ipynb) и го прочетете от началото до края. Можете също така да изпълните клетките и да решите някои предизвикателства, които сме оставили за вас в края.
![Covid Medical Treatment](../../../../translated_images/bg/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/bg/covidtreat.b2ba59f57ca45fbc.webp)
## Обработка на данни от изображения

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# Работа с данни
![data love](../../../translated_images/bg/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/bg/data-love.a22ef29e6742c852.webp)
> Снимка от <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> на <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
В тези уроци ще научите някои от начините, по които данните могат да бъдат управлявани, манипулирани и използвани в приложения. Ще се запознаете с релационни и нерелационни бази данни и как данните могат да се съхраняват в тях. Ще научите основите на работата с Python за управление на данни и ще откриете някои от многото начини, по които можете да използвате Python за управление и анализ на данни.

@ -42,7 +42,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/bg/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/bg/scatter1.5e1aa5fd6706c5d1.webp)
Сега покажете същите данни с цветова схема, свързана с меда, за да покажете как цената се променя през годините. Можете да направите това, като добавите параметър 'hue', който показва промяната година след година:
@ -51,7 +51,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/bg/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/bg/scatter2.c0041a58621ca702.webp)
С тази промяна в цветовата схема можете да видите, че има очевидна силна прогресия през годините по отношение на цената на килограм мед. Всъщност, ако разгледате примерен набор от данни, за да проверите (например за щата Аризона), можете да видите модел на увеличение на цената година след година, с малки изключения:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Можете да видите как размерът на точките постепенно се увеличава.
![scatterplot 3](../../../../translated_images/bg/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/bg/scatter3.3c160a3d1dcb36b3.webp)
Дали това е просто случай на търсене и предлагане? Поради фактори като климатични промени и колапс на колониите, има ли по-малко наличен мед за покупка година след година, което води до увеличение на цената?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Отговор: Да, с някои изключения около 2003 година:
![line chart 1](../../../../translated_images/bg/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/bg/line1.f36eb465229a3b1f.webp)
✅ Тъй като Seaborn агрегира данните около една линия, той показва „многобройните измервания за всяка стойност на x, като изобразява средната стойност и 95% доверителен интервал около средната стойност“. [Източник](https://seaborn.pydata.org/tutorial/relational.html). Това поведение, което отнема време, може да бъде изключено, като добавите `ci=None`.
@ -105,7 +105,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/bg/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/bg/line2.a5b3493dc01058af.webp)
Отговор: Не съвсем. Ако разгледате общото производство, то всъщност изглежда, че се е увеличило през тази конкретна година, въпреки че като цяло количеството произведен мед намалява през тези години.
@ -130,7 +130,7 @@ sns.relplot(
```
В тази визуализация можете да сравните добива на колония и броя на колониите година след година, една до друга, с настройка на wrap на 3 за колоните:
![facet grid](../../../../translated_images/bg/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/bg/facet.6a34851dcd540050.webp)
За този набор от данни нищо особено не изпъква по отношение на броя на колониите и техния добив, година след година и щат след щат. Има ли друг начин да се намери корелация между тези две променливи?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/bg/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/bg/dual-line.a4c28ce659603fab.webp)
Докато нищо не изпъква около 2003 година, това ни позволява да завършим урока с малко по-оптимистична нотка: въпреки че като цяло броят на колониите намалява, броят на колониите се стабилизира, дори ако техният добив на колония намалява.

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Тук инсталирате пакета `ggplot2` и след това го импортирате в работната среда с командата `library("ggplot2")`. За да създадете графика в ggplot, използвате функцията `ggplot()` и задавате набора от данни, x и y променливите като атрибути. В този случай използваме функцията `geom_line()`, тъй като целим да създадем линейна графика.
![MaxWingspan-lineplot](../../../../../translated_images/bg/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/bg/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
Какво забелязвате веднага? Изглежда, че има поне един аутлайър това е доста голям размах на крилата! Размах от над 2000 сантиметра е повече от 20 метра дали в Минесота се разхождат птеродактили? Нека разследваме.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Задаваме ъгъла в `theme` и задаваме етикетите на x и y осите с `xlab()` и `ylab()` съответно. `ggtitle()` дава име на графиката.
![MaxWingspan-lineplot-improved](../../../../../translated_images/bg/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/bg/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
Дори с ротацията на етикетите, зададена на 45 градуса, те са твърде много, за да се четат. Нека опитаме различна стратегия: да етикетираме само аутлайърите и да поставим етикетите вътре в графиката. Можете да използвате точкова диаграма, за да освободите повече място за етикетиране:
@ -91,7 +91,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
Какво откривате?
![MaxWingspan-scatterplot](../../../../../translated_images/bg/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/bg/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## Филтрирайте данните си
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Създадохме нов датафрейм `birds_filtered` и след това начертахме точкова диаграма. Чрез филтриране на аутлайърите, данните ви сега са по-цялостни и разбираеми.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/bg/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/bg/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
Сега, когато имаме по-чист набор от данни поне по отношение на размаха на крилата, нека открием повече за тези птици.
@ -151,7 +151,7 @@ birds_filtered %>% group_by(Category) %>%
```
В следващия кодов фрагмент инсталираме пакетите [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) и [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0), за да помогнем при манипулирането и групирането на данни с цел начертаване на стълбовидна диаграма. Първо, групирате данните по `Category` на птиците и след това обобщавате колоните `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. След това начертавате стълбовидната диаграма, използвайки пакета `ggplot2`, и задавате цветовете за различните категории и етикетите.
![Stacked bar chart](../../../../../translated_images/bg/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/bg/stacked-bar-chart.0c92264e89da7b39.webp)
Тази стълбовидна диаграма обаче е нечетлива, защото има твърде много негрупирани данни. Трябва да изберете само данните, които искате да визуализирате, така че нека разгледаме дължината на птиците въз основа на тяхната категория.
@ -166,7 +166,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Първо преброявате уникалните стойности в колоната `Category` и след това ги сортирате в нов датафрейм `birds_count`. Тези сортирани данни след това се подреждат на същото ниво, за да бъдат начертани в сортиран вид. Използвайки `ggplot2`, след това начертавате данните в стълбовидна диаграма. `coord_flip()` начертава хоризонтални стълбове.
![category-length](../../../../../translated_images/bg/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/bg/category-length.7e34c296690e85d6.webp)
Тази стълбовидна диаграма показва добър изглед на броя на птиците във всяка категория. С един поглед виждате, че най-големият брой птици в този регион са в категорията Патици/Гъски/Водоплаващи. Минесота е "земята на 10 000 езера", така че това не е изненадващо!
@ -189,7 +189,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
Групираме данните `birds_filtered` по `Category` и след това начертаваме стълбовидна диаграма.
![comparing data](../../../../../translated_images/bg/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/bg/comparingdata.f486a450d61c7ca5.webp)
Тук няма нищо изненадващо: колибритата имат най-малка максимална дължина в сравнение с пеликаните или гъските. Добре е, когато данните имат логически смисъл!
@ -201,7 +201,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/bg/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/bg/superimposed-values.5363f0705a1da416.webp)
## 🚀 Предизвикателство

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![макс дължина по разред](../../../../../translated_images/bg/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![макс дължина по разред](../../../../../translated_images/bg/max-length-per-order.e5b283d952c78c12.webp)
Това дава общ преглед на разпределението на дължината на тялото по разред на птиците, но не е най-добрият начин за показване на истински разпределения. Тази задача обикновено се изпълнява чрез създаване на хистограма.
## Работа с хистограми
@ -47,7 +47,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![разпределение за целия набор от данни](../../../../../translated_images/bg/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![разпределение за целия набор от данни](../../../../../translated_images/bg/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
Както виждате, повечето от 400+ птици в този набор от данни попадат в диапазона под 2000 за тяхната максимална телесна маса. Получете повече информация за данните, като промените параметъра `bins` на по-голямо число, например 30:
@ -55,7 +55,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![разпределение-30групи](../../../../../translated_images/bg/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![разпределение-30групи](../../../../../translated_images/bg/distribution-30bins.6a3921ea7a421bf7.webp)
Тази диаграма показва разпределението по малко по-гранулиран начин. Диаграма, която е по-малко изкривена наляво, може да бъде създадена, като се уверите, че избирате само данни в даден диапазон:
@ -67,7 +67,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![филтрирана хистограма](../../../../../translated_images/bg/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![филтрирана хистограма](../../../../../translated_images/bg/filtered-histogram.6bf5d2bfd8253322.webp)
✅ Опитайте някои други филтри и точки от данни. За да видите пълното разпределение на данните, премахнете филтъра `['MaxBodyMass']`, за да покажете етикетирани разпределения.
@ -81,7 +81,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Изглежда, че има очаквана корелация между тези два елемента по очаквана ос, с една особено силна точка на сближаване:
![2d диаграма](../../../../../translated_images/bg/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2d диаграма](../../../../../translated_images/bg/2d-plot.c504786f439bd7eb.webp)
Хистограмите работят добре по подразбиране за числови данни. Ами ако трябва да видите разпределения според текстови данни?
## Изследване на набора от данни за разпределения с текстови данни
@ -112,7 +112,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![размах на крилата и статус на опазване](../../../../../translated_images/bg/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![размах на крилата и статус на опазване](../../../../../translated_images/bg/wingspan-conservation-collation.4024e9aa6910866a.webp)
Не изглежда да има добра корелация между минималния размах на крилата и статуса на опазване. Тествайте други елементи от набора от данни, използвайки този метод. Можете да опитате различни филтри. Откривате ли някаква корелация?
@ -126,7 +126,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![плот на плътност](../../../../../translated_images/bg/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![плот на плътност](../../../../../translated_images/bg/density-plot.675ccf865b76c690.webp)
Можете да видите как плотът отразява предишния за данните за минималния размах на крилата; той е просто малко по-гладък. Ако искате да преразгледате тази назъбена линия на MaxBodyMass във втората диаграма, която създадохте, можете да я изгладите много добре, като я пресъздадете, използвайки този метод:
@ -134,7 +134,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![плътност на телесната маса](../../../../../translated_images/bg/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![плътност на телесната маса](../../../../../translated_images/bg/bodymass-smooth.d31ce526d82b0a1f.webp)
Ако искате гладка, но не прекалено гладка линия, редактирайте параметъра `adjust`:
@ -142,7 +142,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![по-малко гладка телесна маса](../../../../../translated_images/bg/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![по-малко гладка телесна маса](../../../../../translated_images/bg/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ Прочетете за наличните параметри за този тип плот и експериментирайте!
@ -152,7 +152,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![телесна маса по разред](../../../../../translated_images/bg/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![телесна маса по разред](../../../../../translated_images/bg/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 Предизвикателство

@ -88,7 +88,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Voilà, кръгова диаграма, показваща пропорциите на тези данни според двата класа гъби. Много е важно да се уверите, че редът на етикетите е правилен, особено тук, така че проверете реда, с който е изградена масивът от етикети!
![кръгова диаграма](../../../../../translated_images/bg/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![кръгова диаграма](../../../../../translated_images/bg/pie1-wb.685df063673751f4.webp)
## Пръстени!
@ -123,7 +123,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![пръстеновидна диаграма](../../../../../translated_images/bg/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![пръстеновидна диаграма](../../../../../translated_images/bg/donut-wb.34e6fb275da9d834.webp)
Този код използва две библиотеки - ggplot2 и webr. Използвайки функцията PieDonut от библиотеката webr, можем лесно да създадем пръстеновидна диаграма!
@ -160,7 +160,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
С помощта на вафлена диаграма можете ясно да видите пропорциите на цветовете на шапките в този набор от данни за гъби. Интересно е, че има много гъби със зелени шапки!
![вафлена диаграма](../../../../../translated_images/bg/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![вафлена диаграма](../../../../../translated_images/bg/waffle.aaa75c5337735a6e.webp)
В този урок научихте три начина за визуализиране на пропорции. Първо, трябва да групирате данните си в категории и след това да решите кой е най-добрият начин за показване на данните - кръгова, пръстеновидна или вафлена диаграма. Всички са вкусни и предоставят на потребителя моментална снимка на набора от данни.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/bg/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/bg/scatter1.86b8900674d88b26.webp)
Сега покажете същите данни с цветова схема, вдъхновена от мед, за да покажете как цената се развива през годините. Можете да направите това, като добавите параметър 'scale_color_gradientn', който показва промяната година след година:
@ -52,7 +52,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/bg/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/bg/scatter2.4d1cbc693bad20e2.webp)
С тази промяна в цветовата схема можете да видите, че има очевидна прогресия през годините по отношение на цената на килограм мед. Всъщност, ако разгледате примерен набор от данни, за да проверите (например щат Аризона), можете да видите модел на увеличение на цената година след година, с малко изключения:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Можете да видите как размерът на точките постепенно се увеличава.
![scatterplot 3](../../../../../translated_images/bg/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/bg/scatter3.722d21e6f20b3ea2.webp)
Дали това е просто случай на търсене и предлагане? Поради фактори като климатични промени и колапс на колониите, има ли по-малко мед за покупка година след година, и затова цената се увеличава?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Отговор: Да, с някои изключения около 2003 година:
![line chart 1](../../../../../translated_images/bg/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/bg/line1.299b576fbb2a59e6.webp)
Въпрос: Е, през 2003 година можем ли да видим и скок в предлагането на мед? Какво ще стане, ако разгледате общото производство година след година?
@ -106,7 +106,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/bg/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/bg/line2.3b18fcda7176ceba.webp)
Отговор: Не съвсем. Ако разгледате общото производство, всъщност изглежда, че то се е увеличило през тази конкретна година, въпреки че като цяло количеството произведен мед намалява през тези години.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
В тази визуализация можете да сравните добива на колония и броя на колониите година след година, една до друга, с настройка на wrap на 3 за колоните:
![facet grid](../../../../../translated_images/bg/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/bg/facet.491ad90d61c2a7cc.webp)
За този набор от данни нищо особено не изпъква по отношение на броя на колониите и техния добив, година след година и щат след щат. Има ли различен начин за откриване на корелация между тези две променливи?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/bg/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/bg/dual-line.fc4665f360a54018.webp)
Докато нищо не изпъква около 2003 година, това ни позволява да завършим урока с малко по-щастлива нотка: въпреки че броят на колониите като цяло намалява, той се стабилизира, дори ако техният добив на колония намалява.

@ -38,25 +38,25 @@
Дори ако специалистът по данни внимателно избере правилната диаграма за правилните данни, има много начини, по които данните могат да бъдат представени, за да докажат дадена теза, често за сметка на самите данни. Има много примери за подвеждащи диаграми и инфографики!
[![Как диаграмите лъжат от Алберто Кайро](../../../../../translated_images/bg/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Как диаграмите лъжат")
[![Как диаграмите лъжат от Алберто Кайро](../../../../../translated_images/bg/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Как диаграмите лъжат")
> 🎥 Кликнете върху изображението по-горе за конференция относно подвеждащи диаграми
Тази диаграма обръща оста X, за да покаже обратното на истината, базирано на дата:
![лоша диаграма 1](../../../../../translated_images/bg/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![лоша диаграма 1](../../../../../translated_images/bg/bad-chart-1.596bc93425a8ac30.webp)
[Тази диаграма](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) е още по-подвеждаща, тъй като окото се насочва към заключението, че с времето случаите на COVID са намалели в различните окръзи. Всъщност, ако погледнете внимателно датите, ще откриете, че те са пренаредени, за да създадат този подвеждащ низходящ тренд.
![лоша диаграма 2](../../../../../translated_images/bg/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![лоша диаграма 2](../../../../../translated_images/bg/bad-chart-2.62edf4d2f30f4e51.webp)
Този известен пример използва цветове И обърната ос Y, за да заблуди: вместо да заключите, че смъртните случаи от огнестрелни оръжия са се увеличили след приемането на законодателство, благоприятстващо оръжията, окото е заблудено да мисли, че обратното е вярно:
![лоша диаграма 3](../../../../../translated_images/bg/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![лоша диаграма 3](../../../../../translated_images/bg/bad-chart-3.e201e2e915a230bc.webp)
Тази странна диаграма показва как пропорциите могат да бъдат манипулирани, с комичен ефект:
![лоша диаграма 4](../../../../../translated_images/bg/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![лоша диаграма 4](../../../../../translated_images/bg/bad-chart-4.8872b2b881ffa96c.webp)
Сравняването на несравними неща е още един съмнителен трик. Има [чудесен уебсайт](https://tylervigen.com/spurious-correlations), посветен на 'фалшиви корелации', показващ 'факти', които корелират неща като процента на разводите в Мейн и консумацията на маргарин. Група в Reddit също събира [грозни примери](https://www.reddit.com/r/dataisugly/top/?t=all) за използване на данни.
@ -91,13 +91,13 @@
Ако вашите данни са текстови и подробни на оста X, можете да наклоните текста за по-добра четливост. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) предлага 3D графики, ако вашите данни го поддържат. Сложни визуализации на данни могат да бъдат създадени с него.
![3D диаграми](../../../../../translated_images/bg/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3D диаграми](../../../../../translated_images/bg/3d.db1734c151eee87d.webp)
## Анимация и 3D визуализация
Някои от най-добрите визуализации на данни днес са анимирани. Шърли Ву има невероятни примери, направени с D3, като '[цветя от филми](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', където всяко цвете е визуализация на филм. Друг пример за Guardian е 'bussed out', интерактивно преживяване, комбиниращо визуализации с Greensock и D3 плюс формат на статия с разказ, за да покаже как Ню Йорк се справя с проблема с бездомните, като ги изпраща извън града.
![busing](../../../../../translated_images/bg/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/bg/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: Как Америка премества своите бездомни" от [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Визуализации от Надие Бремер и Шърли Ву
@ -107,7 +107,7 @@
Ще завършите уеб приложение, което ще показва анимиран изглед на тази социална мрежа. То използва библиотека, създадена за [визуализация на мрежа](https://github.com/emiliorizzo/vue-d3-network) с Vue.js и D3. Когато приложението работи, можете да местите възлите на екрана, за да пренареждате данните.
![liaisons](../../../../../translated_images/bg/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/bg/liaisons.90ce7360bcf84765.webp)
## Проект: Създаване на диаграма за показване на мрежа с D3.js

@ -1,6 +1,6 @@
# Визуализации
![пчела върху цвете лавандула](../../../translated_images/bg/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![пчела върху цвете лавандула](../../../translated_images/bg/bee.0aa1d91132b12e3a.webp)
> Снимка от <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> на <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Визуализирането на данни е една от най-важните задачи на специалиста по данни. Една картина казва повече от хиляда думи, а визуализацията може да ви помогне да идентифицирате всякакви интересни аспекти на вашите данни, като пикове, отклонения, групирания, тенденции и други, които могат да ви помогнат да разберете историята, която вашите данни се опитват да разкажат.

@ -16,7 +16,7 @@
Тази лекция се фокусира върху 3 части от жизнения цикъл: събиране, обработка и поддръжка.
![Диаграма на жизнения цикъл на науката за данни](../../../../translated_images/bg/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Диаграма на жизнения цикъл на науката за данни](../../../../translated_images/bg/data-science-lifecycle.a1e362637503c4fb.webp)
> Снимка от [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Събиране
@ -92,7 +92,7 @@
|Процес за екипна наука за данни (TDSP)|Стандарт за процеса на извличане на данни в различни индустрии (CRISP-DM)|
|--|--|
|![Жизнен цикъл на екипната наука за данни](../../../../translated_images/bg/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Изображение на алианса за процеса на извличане на данни](../../../../translated_images/bg/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Жизнен цикъл на екипната наука за данни](../../../../translated_images/bg/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Изображение на алианса за процеса на извличане на данни](../../../../translated_images/bg/CRISP-DM.8bad2b4c66e62aa7.webp) |
| Изображение от [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Изображение от [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Тест след лекцията](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# Жизненият цикъл на науката за данни
![communication](../../../translated_images/bg/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/bg/communication.06d8e2a88d30d168.webp)
> Снимка от <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> на <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
В тези уроци ще разгледате някои аспекти на жизнения цикъл на науката за данни, включително анализ и комуникация, свързани с данните.

@ -1,12 +1,12 @@
# Наука за данни в облака
![cloud-picture](../../../translated_images/bg/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/bg/cloud-picture.f5526de3c6c6387b.webp)
> Снимка от [Jelleke Vanooteghem](https://unsplash.com/@ilumire) от [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Когато става въпрос за работа с големи данни в науката за данни, облакът може да бъде истинска промяна. В следващите три урока ще разгледаме какво представлява облакът и защо може да бъде много полезен. Ще изследваме набор от данни за сърдечна недостатъчност и ще изградим модел, който да помогне за оценка на вероятността някой да има сърдечна недостатъчност. Ще използваме силата на облака, за да обучим, внедрим и използваме модел по два различни начина. Единият начин е чрез потребителския интерфейс в стил "Low code/No code", а другият - чрез Azure Machine Learning Software Developer Kit (Azure ML SDK).
![project-schema](../../../translated_images/bg/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/bg/project-schema.420e56d495624541.webp)
### Теми

@ -32,7 +32,7 @@
* [Наука за данни в здравеопазването](https://data-flair.training/blogs/data-science-in-healthcare/) - подчертава приложения като медицинско изображение (напр. MRI, рентген, CT-сканиране), геномика (секвениране на ДНК), разработка на лекарства (оценка на риска, прогноза за успех), предсказателен анализ (грижа за пациенти и логистика на доставки), проследяване и предотвратяване на заболявания и др.
![Приложения на науката за данни в реалния свят](../../../../translated_images/bg/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Кредит за изображението: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Приложения на науката за данни в реалния свят](../../../../translated_images/bg/data-science-applications.4e5019cd8790ebac.webp) Кредит за изображението: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Фигурата показва други области и примери за прилагане на техники за наука за данни. Искате ли да разгледате други приложения? Вижте секцията [Преглед и самостоятелно обучение](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) по-долу.

@ -13,7 +13,7 @@
2. Разгледайте [Каталога](https://planetarycomputer.microsoft.com/catalog) на наборите от данни - научете за целта на всеки.
3. Използвайте Explorer - изберете набор от данни, който ви интересува, изберете подходящо запитване и опция за визуализация.
![The Planetary Computer Explorer](../../../../translated_images/bg/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![The Planetary Computer Explorer](../../../../translated_images/bg/planetary-computer-explorer.c1e95a9b053167d6.webp)
`Вашата задача:`
Сега изучете визуализацията, която се генерира в браузъра, и отговорете на следните въпроси:

@ -1,4 +1,4 @@
# Наука за данни за начинаещи - Учебна програма
# Data Science за начинаещи - Учебна програма
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
@ -17,177 +17,187 @@
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Azure Cloud Advocates в Microsoft с удоволствие предлагат 10-седмична, 20-урочна учебна програма, изцяло посветена на науката за данни. Всеки урок включва изпити преди и след урока, писмени инструкции за изпълнение на урока, решение и задача. Нашата проектно-ориентирана педагогика ви позволява да учите, докато изграждате, което е доказан начин новите умения да "закрепят".
Адвокатите на Azure Cloud в Microsoft с удоволствие предлагат 10-седмична учебна програма с 20 урока, изцяло посветена на Data Science. Всеки урок включва тест преди и след урока, писмени инструкции за изпълнение на урока, решение и задача. Нашата педагогика, базирана на проекти, ви позволява да учите, докато строите, което е доказан начин новите умения да "залепнат".
**Сърдечни благодарности на нашите автори:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Специални благодарности 🙏 на нашите автори, прегледачи и сътрудници по съдържанието от [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** особено на Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Специални благодарности 🙏 на нашите [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) автори, рецензенти и съдържателни сътрудници,** в частност Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/bg/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Наука за данни за начинаещи - _Sketchnote от [@nitya](https://twitter.com/nitya)_ |
| Data Science за начинаещи - _Sketchnote от [@nitya](https://twitter.com/nitya)_ |
### 🌐 Многоезична поддръжка
### 🌐 Поддръжка на множество езици
#### Поддържа се чрез GitHub Action (автоматизирано и винаги актуално)
#### Поддържа се чрез GitHub Action (Автоматизирано и винаги актуално)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](./README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **Предпочитате да клонирате локално?**
> Този репозиторий включва над 50 езикови превода, което значително увеличава размера за сваляне. За да клонирате без преводи, използвайте sparse checkout:
> **Предпочитате локално клониране?**
>
> Това хранилище включва над 50 езикови превода, което значително увеличава размера за изтегляне. За да клонирате без преводи, използвайте sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> Това ви дава всичко необходимо, за да завършите курса с много по-бързо сваляне.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Това ви дава всичко необходимо за завършване на курса с много по-бързо изтегляне.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Ако желаете да има поддръжка на допълнителни езици за превод, те са изброени [тук](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Ако искате допълнителни преводи, поддържаните езици са изброени [тук](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Присъединете се към нашата общност
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Имаме текуща Discord серия за учене с AI, научете повече и се присъединете към нас в [Learn with AI Series](https://aka.ms/learnwithai/discord) от 18 до 30 септември 2025 г. Ще получите съвети и трикове за използване на GitHub Copilot за науката за данни.
Имаме текуща Discord серия „учене с AI“, научете повече и се присъединете към нас на [Learn with AI Series](https://aka.ms/learnwithai/discord) от 18 до 30 септември, 2025 г. Ще получите съвети и трикове за използване на GitHub Copilot за Data Science.
![Learn with AI series](../../translated_images/bg/1.2b28cdc6205e26fe.webp)
# Студент ли сте?
# Вие студент ли сте?
Започнете с следните ресурси:
- [Страница на Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) На тази страница ще намерите ресурси за начинаещи, студентски пакети и дори начини за получаване на безплатен сертификат. Това е страница, която искате да маркирате и да проверявате от време на време, тъй като съдържанието се обновява поне веднъж месечно.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Присъединете се към глобална общност от студентски посланици, това може да е вашият път към Microsoft.
- [Student Hub страница](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Тук ще намерите ресурси за начинаещи, студентски пакети и дори начини да получите безплатен сертификатен ваучер. Това е страница, която искате да запазите и да проверявате от време на време, тъй като съдържанието се обновява поне веднъж месечно.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Присъединете се към глобална общност от студенти посланици, това може да е вашият път към Microsoft.
# Запознаване с курса
# Започване
## 📚 Документация
- **[Ръководство за инсталация](INSTALLATION.md)** - Стъпка по стъпка инструкции за начинаещи
- **[Ръководство за употреба](USAGE.md)** - Примери и често срещани работни потоци
- **[Ръководство за инсталиране](INSTALLATION.md)** - Стъпка по стъпка инструкции за настройка за начинаещи
- **[Ръководство за използване](USAGE.md)** - Примери и често използвани работни потоци
- **[Отстраняване на проблеми](TROUBLESHOOTING.md)** - Решения на често срещани проблеми
- **[Ръководство за принос](CONTRIBUTING.md)** - Как да се включите в този проект
- **[За учители](for-teachers.md)** - Насоки за преподаване и ресурси за класната стая
- **[Ръководство за принос](CONTRIBUTING.md)** - Как да допринесете за този проект
- **[За учители](for-teachers.md)** - Препоръки за преподаване и материали за класната стая
## 👨‍🎓 За студенти
> **Напълно начинаещи**: Нови сте в науката за данни? Започнете с нашите [примери за начинаещи](examples/README.md)! Тези прости, добре коментирани примери ще ви помогнат да разберете основите преди да се потопите в цялата учебна програма.
> **[Студенти](https://aka.ms/student-page)**: за да използвате тази учебна програма самостоятелно, форкнете целия репозиторий и изпълнете задачите самостоятелно, започвайки с предварителен тест преди лекцията. След това прочетете лекцията и завършете останалите активности. Опитайте да създадете проектите, като разбирате уроците, а не копирате кода на решенията; все пак този код е наличен в папките /solutions във всеки проектно-ориентиран урок. Друга идея е да сформирате учебна група с приятели и да преминете през съдържанието заедно. За по-нататъшно обучение препоръчваме [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Пълни начинаещи**: Нови ли сте в data science? Започнете с нашите [примери за начинаещи](examples/README.md)! Тези прости, добре коментирани примери ще ви помогнат да разберете основите преди да се потопите в цялата учебна програма.
> **[Студенти](https://aka.ms/student-page)**: за да използвате тази учебна програма самостоятелно, направете форк на цялото хранилище и направете упражненията сами, започвайки с тест преди лекцията. После прочетете лекцията и завършете останалите дейности. Опитайте се да създавате проектите, като разбирате уроците вместо да копирате кода за решения; въпреки това този код е наличен в папките /solutions във всеки урок, ориентиран към проект. Друга идея е да създадете учебна група с приятели и да преминете съдържанието заедно. За по-нататъшно учене препоръчваме [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Бърз старт:**
1. Прегледайте [Ръководството за инсталация](INSTALLATION.md), за да настроите средата си
2. Разгледайте [Ръководството за употреба](USAGE.md), за да научите как да работите с учебната програма
3. Започнете с Урок 1 и следвайте поредно
2. Прегледайте [Ръководството за използване](USAGE.md), за да научите как да работите с учебната програма
3. Започнете с урок 1 и продължете последователно
4. Присъединете се към нашата [Discord общност](https://aka.ms/ds4beginners/discord) за подкрепа
## 👩‍🏫 За учители
> **Учители**: ние сме [включили някои предложения](for-teachers.md) за това как да използвате тази учебна програма. Ще се радваме на вашата обратна връзка [в нашия дискусионен форум](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Учители**: включили сме [някои предложения](for-teachers.md) как да използвате тази учебна програма. Ще се радваме да чуем мнението ви [в нашия дискусионен форум](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Запознайте се с екипа
[![Промо видео](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Промо видео")
**Gif от** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Кликнете върху изображението по-горе за видео за проекта и хората, които го създадоха!
> 🎥 Кликнете на изображението по-горе за видео за проекта и хората, които са го създали!
## Педагогика
Избрахме две педагогически основи при изграждането на тази учебна програма: да бъде базирана на проекти и да включва чести викторини. Към края на тази серия, студентите ще са научили основните принципи на науката за данни, включително етични концепции, подготовка на данни, различни начини за работа с данни, визуализация на данни, анализ на данни, реални случаи на използване на науката за данни и още.
Избрахме два педагогически принципа при създаването на тази учебна програма: да бъде базирана на проект и да включва често повтарящи се тестове. В края на този курс студентите ще са научили основните принципи на науката за данните, включително етични концепции, подготовка на данни, различни начини за работа с данни, визуализация на данни, анализ на данни, реални случаи на използване на науката за данните и още.
Освен това ниско-рисковата викторина преди час задава намерението на студента към изучаване на темата, докато втора викторина след часа осигурява по-нататъшно задържане на знанията. Тази учебна програма е проектирана да бъде гъвкава и забавна и може да се изучава цялостно или частично. Проектите започват малки и стават все по-сложни към края на 10-седмичния цикъл.
Освен това, тест с нисък залог преди урок задава намерението на студента да изучава дадена тема, докато втори тест след урок осигурява по-нататъшна запаметяемост. Тази учебна програма е проектирана да бъде гъвкава и забавна и може да се премине изцяло или частично. Проектите започват малки и стават все по-сложни до края на 10-седмичния цикъл.
> Вижте нашите [Правила за поведение](CODE_OF_CONDUCT.md), [Указания за принос](CONTRIBUTING.md), [Превод](TRANSLATIONS.md). Очакваме вашата конструктивна обратна връзка!
> Намерете нашите [Правила за поведение](CODE_OF_CONDUCT.md), [Принос](CONTRIBUTING.md), [Превод](TRANSLATIONS.md) указания. Очакваме вашата конструктивна обратна връзка!
## Всяко занятие включва:
## Всеки урок включва:
- По желание скичноут
- По желание допълнително видео
- Предварителна викторина за затопляне преди урока
- Допълнителна скица (по желание)
- Допълнително видео (по желание)
- Предварителен тест за загряване преди урока
- Писмен урок
- За уроци на базата на проекти — стъпка по стъпка насоки за изграждане на проекта
- За уроци базирани на проекти стъпка по стъпка ръководства за изграждане на проекта
- Проверки на знанията
- Предизвикателство
- Допълнително четиво
- Задача
- [Викторина след урока](https://ff-quizzes.netlify.app/en/)
- [Тест след урока](https://ff-quizzes.netlify.app/en/)
> **Забележка относно викторините**: Всички викторини се намират в папката Quiz-App, общо 40 викторини с по три въпроса всяка. Те са свързани от уроците, но приложението за викторини може да се изпълнява локално или да се разполага в Azure; следвайте инструкциите в папката `quiz-app`. Постепенно се локализират.
> **Забележка относно тестовете**: Всички тестове се съдържат в папката Quiz-App, общо 40 теста с по три въпроса всеки. Те са свързани от уроците, но приложението за тестове може да се изпълнява локално или да се деплойва в Azure; следвайте инструкциите в папката `quiz-app`. Те постепенно се локализират.
## 🎓 Примери, подходящи за начинаещи
## 🎓 Примери за начинаещи
**Новак в науката за данни?** Създадохме специална [директория с примери](examples/README.md) с прост, добре коментиран код, за да ви помогнем да започнете:
**Нов в науката за данните?** Създадохме специална [директория с примери](examples/README.md) с прост и добре коментиран код, който да ви помогне да започнете:
- 🌟 **Hello World** - Вашата първа програма за наука за данни
- 📂 **Зареждане на данни** - Научете се как да четете и разглеждате набори от данни
- 🌟 **Hello World** - Вашата първа програма по наука за данните
- 📂 **Зареждане на данни** - Научете как да четете и изследвате набори от данни
- 📊 **Прост анализ** - Изчисляване на статистики и намиране на модели
- 📈 **Базова визуализация** - Създаване на диаграми и графики
- 🔬 **Реален проект** - Пълен работен процес от начало до край
- 📈 **Основна визуализация** - Създаване на диаграми и графики
- 🔬 **Реален проект** - Цялостен работен процес от начало до край
Всеки пример включва подробни коментари, които обясняват всяка стъпка, което го прави перфектен за абсолютни начинаещи!
Всеки пример включва подробни коментари, обясняващи всяка стъпка, което го прави перфектен за абсолютни начинаещи!
👉 **[Започнете с примерите](examples/README.md)** 👈
## Уроци
|![ Скичноут от @sketchthedocs https://sketchthedocs.dev](../../translated_images/bg/00-Roadmap.4905d6567dff4753.webp)|
|![ Скицата от @sketchthedocs https://sketchthedocs.dev](../../translated_images/bg/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Наука за данни за начинаещи: Пътна карта - _Скичноут от [@nitya](https://twitter.com/nitya)_ |
| Наука за данни за начинаещи: План за обучение - _Скица от [@nitya](https://twitter.com/nitya)_ |
| Номер на урок | Тема | Група уроци | Учебни цели | Връзка към урок | Автор |
| Номер на урок | Тема | Групиране на урока | Учебни цели | Свързан урок | Автор |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Определяне на науката за данни | [Въведение](1-Introduction/README.md) | Научете основните концепции зад науката за данни и как тя е свързана с изкуствения интелект, машинното обучение и големите данни. | [урок](1-Introduction/01-defining-data-science/README.md) [видео](https://youtu.be/beZ7Mb_oz9I) | [Дмитрий](http://soshnikov.com) |
| 02 | Етика в науката за данни | [Въведение](1-Introduction/README.md) | Концепции, предизвикателства и рамки за етиката на данните. | [урок](1-Introduction/02-ethics/README.md) | [Нитя](https://twitter.com/nitya) |
| 03 | Определяне на данни | [Въведение](1-Introduction/README.md) | Как се класифицират данните и техните често срещани източници. | [урок](1-Introduction/03-defining-data/README.md) | [Жасмин](https://www.twitter.com/paladique) |
| 04 | Въведение в статистиката и вероятностите | [Въведение](1-Introduction/README.md) | Математическите техники по вероятности и статистика за разбиране на данни. | [урок](1-Introduction/04-stats-and-probability/README.md) [видео](https://youtu.be/Z5Zy85g4Yjw) | [Дмитрий](http://soshnikov.com) |
| 05 | Работа с релационни данни | [Работа с данни](2-Working-With-Data/README.md) | Въведение в релационните данни и основи на изследване и анализ на релационни данни с езика за структурирани заявки, известен и като SQL (произнася се "си-квел"). | [урок](2-Working-With-Data/05-relational-databases/README.md) | [Кристофър](https://www.twitter.com/geektrainer) | | |
| 06 | Работа с NoSQL данни | [Работа с данни](2-Working-With-Data/README.md) | Въведение в нерелационните данни, различните им типове и основи на изследване и анализ на документирани бази данни. | [урок](2-Working-With-Data/06-non-relational/README.md) | [Жасмин](https://twitter.com/paladique)|
| 07 | Работа с Python | [Работа с данни](2-Working-With-Data/README.md) | Основи на използването на Python за изследване на данни с библиотеки като Pandas. Препоръчително е основно разбиране на програмирането с Python. | [урок](2-Working-With-Data/07-python/README.md) [видео](https://youtu.be/dZjWOGbsN4Y) | [Дмитрий](http://soshnikov.com) |
| 08 | Подготовка на данни | [Работа с данни](2-Working-With-Data/README.md) | Теми върху техники за почистване и трансформация на данни за справяне с предизвикателства като липсващи, неточни или непълни данни. | [урок](2-Working-With-Data/08-data-preparation/README.md) | [Жасмин](https://www.twitter.com/paladique) |
| 09 | Визуализация на количества | [Визуализация на данни](3-Data-Visualization/README.md) | Научете как да използвате Matplotlib за визуализация на данни за птици 🦆 | [урок](3-Data-Visualization/09-visualization-quantities/README.md) | [Джен](https://twitter.com/jenlooper) |
| 10 | Визуализация на разпределения на данни | [Визуализация на данни](3-Data-Visualization/README.md) | Визуализиране на наблюдения и тенденции в интервал. | [урок](3-Data-Visualization/10-visualization-distributions/README.md) | [Джен](https://twitter.com/jenlooper) |
| 01 | Дефиниране на науката за данни | [Въведение](1-Introduction/README.md) | Научете основните концепции зад науката за данни и как тя се свързва с изкуствения интелект, машинното обучение и големите данни. | [урок](1-Introduction/01-defining-data-science/README.md) [видео](https://youtu.be/beZ7Mb_oz9I) | [Дмитрий](http://soshnikov.com) |
| 02 | Етика в науката за данни | [Въведение](1-Introduction/README.md) | Концепции, предизвикателства и рамки на етиката в данните. | [урок](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Дефиниране на данни | [Въведение](1-Introduction/README.md) | Как се класифицират данните и техните чести източници. | [урок](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Въведение в статистиката и вероятността | [Въведение](1-Introduction/README.md) | Математическите техники на вероятността и статистиката за разбиране на данните. | [урок](1-Introduction/04-stats-and-probability/README.md) [видео](https://youtu.be/Z5Zy85g4Yjw) | [Дмитрий](http://soshnikov.com) |
| 05 | Работа с релационни данни | [Работа с данни](2-Working-With-Data/README.md) | Въведение в релационните данни и основите на изследване и анализ на релационни данни със структуриран език за заявки, известен като SQL (произнася се “си-куел”). | [урок](2-Working-With-Data/05-relational-databases/README.md) | [Кристофър](https://www.twitter.com/geektrainer) | | |
| 06 | Работа с NoSQL данни | [Работа с данни](2-Working-With-Data/README.md) | Въведение в нерелационните данни, техните различни типове и основите на изследване и анализ на документ-ориентирани бази данни. | [урок](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Работа с Python | [Работа с данни](2-Working-With-Data/README.md) | Основи на използване на Python за изследване на данни с библиотеки като Pandas. Препоръчва се основно разбиране на Python програмирането. | [урок](2-Working-With-Data/07-python/README.md) [видео](https://youtu.be/dZjWOGbsN4Y) | [Дмитрий](http://soshnikov.com) |
| 08 | Подготовка на данни | [Работа с данни](2-Working-With-Data/README.md) | Теми за техники за почистване и трансформиране на данните за справяне с проблемите на липсващи, неточни или непълни данни. | [урок](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Визуализация на количества | [Визуализация на данни](3-Data-Visualization/README.md) | Научете как да използвате Matplotlib за визуализиране на данни за птици 🦆 | [урок](3-Data-Visualization/09-visualization-quantities/README.md) | [Джен](https://twitter.com/jenlooper) |
| 10 | Визуализация на разпределение на данните | [Визуализация на данни](3-Data-Visualization/README.md) | Визуализиране на наблюдения и тенденции в интервал. | [урок](3-Data-Visualization/10-visualization-distributions/README.md) | [Джен](https://twitter.com/jenlooper) |
| 11 | Визуализация на пропорции | [Визуализация на данни](3-Data-Visualization/README.md) | Визуализиране на дискретни и групирани проценти. | [урок](3-Data-Visualization/11-visualization-proportions/README.md) | [Джен](https://twitter.com/jenlooper) |
| 12 | Визуализация на връзки | [Визуализация на данни](3-Data-Visualization/README.md) | Визуализиране на връзки и корелации между набори от данни и техните променливи. | [урок](3-Data-Visualization/12-visualization-relationships/README.md) | [Джен](https://twitter.com/jenlooper) |
| 13 | Значими визуализации | [Визуализация на данни](3-Data-Visualization/README.md) | Техники и насоки за създаване на визуализации, ценни за ефективно решаване на проблеми и извличане на прозрения. | [урок](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Джен](https://twitter.com/jenlooper) |
| 14 | Въведение в жизнения цикъл на науката за данни | [Жизнен цикъл](4-Data-Science-Lifecycle/README.md) | Въведение в жизнения цикъл на науката за данни и първата му стъпка - придобиване и извличане на данни. | [урок](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Жасмин](https://twitter.com/paladique) |
| 15 | Анализ | [Жизнен цикъл](4-Data-Science-Lifecycle/README.md) | Този етап от жизнения цикъл на науката за данни се фокусира върху техники за анализ на данни. | [урок](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Жасмин](https://twitter.com/paladique) | | |
| 16 | Комуникация | [Жизнен цикъл](4-Data-Science-Lifecycle/README.md) | Този етап от жизнения цикъл на науката за данни се фокусира върху представянето на извлечените прозрения от данните по начин, който го прави по-лесен за разбиране от вземащите решения. | [урок](4-Data-Science-Lifecycle/16-communication/README.md) | [Джален](https://twitter.com/JalenMcG) | | |
| 17 | Наука за данни в облака | [Облачни данни](5-Data-Science-In-Cloud/README.md) | Тази серия от уроци въвежда науката за данни в облака и нейните предимства. | [урок](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Тифани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 18 | Наука за данни в облака | [Облачни данни](5-Data-Science-In-Cloud/README.md) | Обучение на модели с инструменти Low Code. |[урок](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Тифани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 19 | Наука за данни в облака | [Облачни данни](5-Data-Science-In-Cloud/README.md) | Разгръщане на модели с Azure Machine Learning Studio. | [урок](5-Data-Science-In-Cloud/19-Azure/README.md)| [Тифани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 20 | Наука за данни в реалния свят | [В дивата природа](6-Data-Science-In-Wild/README.md) | Проекти, базирани на науката за данни, в реалния свят. | [урок](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Нитя](https://twitter.com/nitya) |
| 12 | Визуализация на взаимоотношения | [Визуализация на данни](3-Data-Visualization/README.md) | Визуализиране на връзки и корелации между набори от данни и техните променливи. | [урок](3-Data-Visualization/12-visualization-relationships/README.md) | [Джен](https://twitter.com/jenlooper) |
| 13 | Смислени визуализации | [Визуализация на данни](3-Data-Visualization/README.md) | Техники и насоки за правене на визуализациите стойностни за ефективно решаване на проблеми и изводи. | [урок](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Джен](https://twitter.com/jenlooper) |
| 14 | Въведение в жизнения цикъл на науката за данни | [Жизнен цикъл](4-Data-Science-Lifecycle/README.md) | Въведение в жизнения цикъл на науката за данни и първата му стъпка придобиване и извличане на данни. | [урок](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Анализиране | [Жизнен цикъл](4-Data-Science-Lifecycle/README.md) | Тази фаза от жизнения цикъл на науката за данни се фокусира върху техники за анализ на данни. | [урок](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Комуникация | [Жизнен цикъл](4-Data-Science-Lifecycle/README.md) | Тази фаза от жизнения цикъл на науката за данни се фокусира върху представянето на изводите от данните по начин, който улеснява разбирането им от вземащите решения. | [урок](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Наука за данни в облака | [Облачни данни](5-Data-Science-In-Cloud/README.md) | Тази серия от уроци представя науката за данни в облака и нейните предимства. | [урок](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Тифани](https://twitter.com/TiffanySouterre) и [Мауд](https://twitter.com/maudstweets) |
| 18 | Наука за данни в облака | [Облачни данни](5-Data-Science-In-Cloud/README.md) | Обучение на модели с използване на Low Code инструменти. |[урок](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Тифани](https://twitter.com/TiffanySouterre) и [Мауд](https://twitter.com/maudstweets) |
| 19 | Наука за данни в облака | [Облачни данни](5-Data-Science-In-Cloud/README.md) | Деплойване на модели с Azure Machine Learning Studio. | [урок](5-Data-Science-In-Cloud/19-Azure/README.md)| [Тифани](https://twitter.com/TiffanySouterre) и [Мауд](https://twitter.com/maudstweets) |
| 20 | Наука за данни в реалния свят | [В дивата природа](6-Data-Science-In-Wild/README.md) | Проекти, базирани на науката за данните, в реалния свят. | [урок](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Следвайте тези стъпки, за да отворите този пример в Codespace:
1. Кликнете на падащото меню Code и изберете опцията Open with Codespaces.
2. Изберете + New codespace в долната част на панела.
За повече информация вижте [документацията на GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
За повече информация вижте [GitHub документацията](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Контейнери
Следвайте тези стъпки, за да отворите това хранилище в контейнер, използвайки локалния си компютър и VSCode чрез разширението VS Code Remote - Containers:
Следвайте тези стъпки, за да отворите това репо в контейнер, използвайки локалната си машина и VSCode чрез разширението VS Code Remote - Containers:
1. Ако това е първият ви път с development контейнер, уверете се, че системата ви отговаря на изискванията (например, че Docker е инсталиран) в [ръководството за започване](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Ако използвате контейнер за разработка за първи път, моля уверете се, че системата ви отговаря на изискванията (т.е. имате инсталиран Docker) в [документацията за начало](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
За да използвате това хранилище, можете да отворите хранилището в изолиран Docker обем:
За да използвате това репо, можете или да го отворите в изолиран Docker volume:
**Забележка**: Под капака, това използва командата Remote-Containers: **Clone Repository in Container Volume...**, за да клонира изходния код в Docker обем вместо в локалната файлова система. [Обемите](https://docs.docker.com/storage/volumes/) са предпочитаният механизъм за съхранение на данни на контейнер.
**Забележка**: Под капака това ще използва командата Remote-Containers: **Clone Repository in Container Volume...**, за да клонира изходния код в Docker volume вместо в локалната файлова система. [Volumes](https://docs.docker.com/storage/volumes/) са предпочитаният механизъм за съхранение на данни на контейнера.
Или отворете локално клонирана или изтеглена версия на хранилището:
Или да отворите локално клонирано или изтеглено копие на репото:
- Клонирайте това хранилище на локалната файлова система.
- Натиснете F1 и изберете командата **Remote-Containers: Open Folder in Container...**.
- Изберете клонираното копие на тази папка, изчакайте контейнерът да стартира и тествате.
- Клонирайте това репо на локалната файлова система.
- Натиснете F1 и изберете команда **Remote-Containers: Open Folder in Container...**.
- Изберете клонираното копие на тази папка, изчакайте да стартира контейнера и пробвайте.
## Офлайн достъп
Можете да използвате тази документация офлайн чрез [Docsify](https://docsify.js.org/#/). Форкнете това хранилище, [инсталирайте Docsify](https://docsify.js.org/#/quickstart) на локалната си машина и след това в основната папка на това хранилище въведете `docsify serve`. Уебсайтът ще се обслужва на порт 3000 на вашия локален хост: `localhost:3000`.
Можете да изпълнявате тази документация офлайн чрез [Docsify](https://docsify.js.org/#/). Форкнете това репо, [инсталирайте Docsify](https://docsify.js.org/#/quickstart) на локалната си машина, след това в основната папка на това репо, изпълнете `docsify serve`. Уебсайтът ще бъде обслужван на порт 3000 на localhost: `localhost:3000`.
> Забележка: бележниците няма да се рендерират чрез Docsify, затова ако трябва да стартирате бележник, направете го отделно във VS Code с изпълняващ се Python kernel.
> Забележка: бележниците няма да се визуализират с Docsify, така че когато трябва да изпълните бележник, направете го отделно в VS Code, използвайки Python kernel.
## Други учебни програми
@ -200,54 +210,54 @@ Azure Cloud Advocates в Microsoft с удоволствие предлагат
[![LangChain за начинаещи](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Агентии
### Azure / Edge / MCP / Агентите
[![AZD за начинаещи](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI за начинаещи](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP за начинаещи](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI агенти за начинаещи](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Серия за Генеративен AI
### Поредицата за генеративен AI
[![Генеративен AI за начинаещи](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Генеративен AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Генеративен AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![Генеративен AI (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### Основно обучение
[![Машинно обучение за начинаещи](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Наука за данни за начинаещи](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![Изкуствен интелект за начинаещи](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Данни науки за начинаещи](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI за начинаещи](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Киберсигурност за начинаещи](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Уеб разработка за начинаещи](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT за начинаещи](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![XR разработка за начинаещи](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
[![XR Разработка за начинаещи](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Серия Copilot
[![Copilot за съвместно програмиране с AI](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
### Поредицата Copilot
[![Copilot за AI съвместно програмиране](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot за C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Приключение с Copilot](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
[![Copilot приключение](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## Получаване на помощ
## Помощ
**Имате проблеми?** Разгледайте нашето [Ръководство за отстраняване на проблеми](TROUBLESHOOTING.md) за решения на често срещани проблеми.
**Срещате проблеми?** Вижте нашето [Ръководство за отстраняване на проблеми](TROUBLESHOOTING.md) за решения на често срещани проблеми.
Ако се затруднявате или имате въпроси относно създаването на AI приложения, присъединете се към други учащи и опитни разработчици в дискусии за MCP. Това е подкрепяща общност, където въпросите са добре дошли и знанията се споделят свободно.
Ако забиете или имате въпроси относно създаването на AI приложения, присъединете се към други учащи и опитни разработчици в дискусиите за MCP. Това е подкрепяща общност, където въпросите са добре дошли и знанието се споделя свободно.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Ако имате обратна връзка за продукта или намерите грешки при разработка, посетете:
Ако имате обратна връзка за продукта или грешки по време на изграждането, посетете:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Отказ от отговорност**:
Този документ е преведен с помощта на AI преводаческа услуга [Co-op Translator](https://github.com/Azure/co-op-translator). Докато се стремим към точност, моля, имайте предвид, че автоматизираните преводи могат да съдържат грешки или неточности. Оригиналният документ на неговия оригинален език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Не носим отговорност за никакви недоразумения или неправилни тълкувания, възникнали при използването на този превод.
**Отказ от отговорност**:
Този документ е преведен с помощта на автоматизирана услуга за превод [Co-op Translator](https://github.com/Azure/co-op-translator). Въпреки че се стремим към точност, имайте предвид, че автоматизираните преводи могат да съдържат грешки или неточности. Оригиналният документ на неговия първоначален език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Не носим отговорност за възникнали недоразумения или неправилни тълкувания вследствие на използването на този превод.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@
Нитя Нарасимхан, художник
![скицнота на пътна карта](../../../translated_images/bg/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![скицнота на пътна карта](../../../translated_images/bg/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "bn"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-28T08:23:16+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "bn"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-27T09:05:06+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "bn"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-28T08:23:48+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "bn"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:17:29+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "bn"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-28T08:24:39+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "bn"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-06T07:10:37+00:00",
@ -360,8 +378,8 @@
"language_code": "bn"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T07:52:14+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-28T08:30:21+00:00",
"source_file": "README.md",
"language_code": "bn"
},

@ -6,7 +6,7 @@
---
[![ডেটা সায়েন্স সংজ্ঞায়িত করার ভিডিও](../../../../translated_images/bn/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![ডেটা সায়েন্স সংজ্ঞায়িত করার ভিডিও](../../../../translated_images/bn/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [পূর্ব-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -140,7 +140,7 @@
এই চ্যালেঞ্জে, আমরা ডেটা সায়েন্স ক্ষেত্রের সাথে সম্পর্কিত ধারণাগুলো খুঁজে বের করার চেষ্টা করব টেক্সট বিশ্লেষণ করে। আমরা ডেটা সায়েন্স সম্পর্কিত একটি উইকিপিডিয়া নিবন্ধ নেব, টেক্সট ডাউনলোড এবং প্রক্রিয়া করব, এবং তারপর একটি ওয়ার্ড ক্লাউড তৈরি করব যা এরকম দেখতে হবে:
![ডেটা সায়েন্সের জন্য ওয়ার্ড ক্লাউড](../../../../translated_images/bn/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![ডেটা সায়েন্সের জন্য ওয়ার্ড ক্লাউড](../../../../translated_images/bn/ds_wordcloud.664a7c07dca57de0.webp)
[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') পরিদর্শন করুন কোডটি পড়ার জন্য। আপনি কোডটি চালাতে পারেন এবং দেখতে পারেন এটি কীভাবে রিয়েল টাইমে সমস্ত ডেটা রূপান্তর সম্পন্ন করে।

@ -3,15 +3,15 @@
{
"cell_type": "markdown",
"source": [
"# চ্যালেঞ্জ: ডেটা সায়েন্স সম্পর্কিত টেক্সট বিশ্লেষণ\n",
"# চ্যালেঞ্জ: ডেটা সায়েন্স সম্পর্ক টেক্সট বিশ্লেষণ\n",
"\n",
"এই উদাহরণে, চলুন একটি সহজ অনুশীলন করি যা একটি প্রচলিত ডেটা সায়েন্স প্রক্রিয়ার সমস্ত ধাপকে অন্তর্ভুক্ত করে। আপনাকে কোনো কোড লিখতে হবে না, আপনি শুধু নিচের সেলগুলোতে ক্লিক করে সেগুলো চালাতে পারেন এবং ফলাফল পর্যবেক্ষণ করতে পারেন। একটি চ্যালেঞ্জ হিসেবে, আপনাকে উৎসাহিত করা হচ্ছে এই কোডটি বিভিন্ন ডেটার সাথে চেষ্টা করার জন্য।\n",
"এই উদাহরণে, আসুন একটি সহজ ব্যায়াম করি যা ঐতিহ্যগত ডেটা সায়েন্স প্রক্রিয়ার সমস্ত ধাপ কভার করে। আপনাকে কোন কোড লিখতে হবে না, আপনি কেবল নিচের সেলগুলোতে ক্লিক করে সেগুলো চালাতে পারেন এবং ফলাফল পর্যবেক্ষণ করতে পারেন। একটি চ্যালেঞ্জ হিসাবে, আপনাকে উত্সাহিত করা হচ্ছে এই কোডটি বিভিন্ন ডেটা দিয়ে চেষ্টা করতে।\n",
"\n",
"## লক্ষ্য\n",
"\n",
"এই পাঠে, আমরা ডেটা সায়েন্স সম্পর্কিত বিভিন্ন ধারণা নিয়ে আলোচনা করেছি। চলুন কিছু **টেক্সট মাইনিং** করে আর সম্পর্কিত ধারণা আবিষ্কার করার চেষ্টা করি। আমরা ডেটা সায়েন্স সম্পর্কিত একটি টেক্সট দিয়ে শুরু করব, সেখান থেকে কীওয়ার্ড বের করব এবং তারপর ফলাফলটি ভিজুয়ালাইজ করার চেষ্টা করব।\n",
"এই পাঠে, আমরা ডেটা সায়েন্স সম্পর্কিত বিভিন্ন ধারণা আলোচনা করেছি। চলুন কিছু **টেক্সট মাইনিং** করে আর সম্পর্কিত ধারণা আবিষ্কার করার চেষ্টা করি। আমরা ডেটা সায়েন্স সম্পর্কে একটি টেক্সট থেকে কীওয়ার্ড বের করব, এবং তারপর ফলাফলটি ভিজ্যুয়ালাইজ করার চেষ্টা করব।\n",
"\n",
"টেক্সট হিসেবে, আমি উইকিপিডিয়ার ডেটা সায়েন্স পৃষ্ঠাটি ব্যবহার করব:\n"
"একটি টেক্সট হিসাবে, আমি উইকিপিডিয়া থেকে ডেটা সায়েন্স পৃষ্ঠা ব্যবহার করব:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## ধাপ ১: ডেটা সংগ্রহ করা\n",
"## Step 1: ডেটা সংগ্রহ করা\n",
"\n",
"প্রতিটি ডেটা সায়েন্স প্রক্রিয়ার প্রথম ধাপ হলো ডেটা সংগ্রহ করা। আমরা এটি করার জন্য `requests` লাইব্রেরি ব্যবহার করব:\n"
"প্রতিটি ডেটা সায়েন্স প্রক্রিয়ার প্রথম পদক্ষেপ হল ডেটা সংগ্রহ করা। আমরা এটি করার জন্য `requests` লাইব্রেরি ব্যবহার করব:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## ধাপ ২: ডেটা রূপান্তর করা\n",
"## Step 2: ডেটা রূপান্তর করা\n",
"\n",
"পরবর্তী ধাপ হলো ডেটাকে এমন একটি ফর্মে রূপান্তর করা যা প্রক্রিয়াকরণের জন্য উপযুক্ত। আমাদের ক্ষেত্রে, আমরা পৃষ্ঠার HTML সোর্স কোড ডাউনলোড করেছি, এবং এটি সাধারণ টেক্সটে রূপান্তর করতে হবে।\n",
"পরবর্তী ধাপ হল প্রক্রিয়াকরণের জন্য উপযুক্ত আকারে ডেটা রূপান্তর করা। আমাদের ক্ষেত্রে, আমরা পৃষ্ঠা থেকে HTML সোর্স কোড ডাউনলোড করেছি, এবং আমাদের এটি প্লেইন টেক্সটে রূপান্তর করতে হবে।\n",
"\n",
"এটি করার অনেক পদ্ধতি রয়েছে। আমরা Python-এর সহজতম বিল্ট-ইন [HTMLParser](https://docs.python.org/3/library/html.parser.html) অবজেক্ট ব্যবহার করব। আমাদের `HTMLParser` ক্লাসটি সাবক্লাস করতে হবে এবং এমন কোড সংজ্ঞায়িত করতে হবে যা HTML ট্যাগগুলোর ভিতরের সমস্ত টেক্সট সংগ্রহ করবে, তবে `<script>` এবং `<style>` ট্যাগগুলো বাদ দিয়ে।\n"
"এটি করার অনেক উপায় রয়েছে। আমরা ব্যবহার করব [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), যা HTML পার্স করার জন্য জনপ্রিয় একটি পাইথন লাইব্রেরি। BeautifulSoup আমাদের নির্দিষ্ট HTML উপাদানগুলিকে লক্ষ্য করতে দেয়, তাই আমরা উইকিপিডিয়ার প্রধান প্রবন্ধ বিষয়বস্তুতে মনোনিবেশ করতে পারি এবং কিছু নেভিগেশন মেনু, সাইডবার, ফুটার এবং অন্য অনাবশ্যক বিষয়বস্তু হ্রাস করতে পারি (যদিও কিছু বোর্ডারপ্লেট টেক্সট এখনও থাকতে পারে)।\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"প্রথমে, আমাদের HTML পার্সিংয়ের জন্য BeautifulSoup লাইব্রেরি ইনস্টল করতে হবে:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## ধাপ ৩: অন্তর্দৃষ্টি অর্জন করা\n",
"\n",
"সবচেয়ে গুরুত্বপূর্ণ ধাপ হল আমাদের ডেটাকে এমন একটি রূপে রূপান্তর করা, যেখান থেকে আমরা অন্তর্দৃষ্টি অর্জন করতে পারি। আমাদের ক্ষেত্রে, আমরা টেক্সট থেকে কীওয়ার্ড বের করতে চাই এবং দেখতে চাই কোন কীওয়ার্ডগুলো বেশি অর্থবহ।\n",
"\n",
"আমরা কীওয়ার্ড বের করার জন্য [RAKE](https://github.com/aneesha/RAKE) নামক একটি পাইথন লাইব্রেরি ব্যবহার করব। প্রথমে, যদি এই লাইব্রেরি ইনস্টল না থাকে, তাহলে এটি ইনস্টল করি:\n"
"## Step 3: অন্তর্দৃষ্টি অর্জন করা\r\n",
"\r\n",
"সবচেয়ে গুরুত্বপূর্ণ ধাপ হল আমাদের ডেটা এমন একটি রূপে রূপান্তর করা যেখান থেকে আমরা অন্তর্দৃষ্টি অর্জন করতে পারি। আমাদের ক্ষেত্রে, আমরা পাঠ্য থেকে কীওয়ার্ড বের করতে চাই, এবং দেখতে চাই কোন কোন কীওয়ার্ড বেশি অর্থপূর্ণ।\r\n",
"\r\n",
"আমরা কীওয়ার্ড বের করার জন্য Python লাইব্রেরি [RAKE](https://github.com/aneesha/RAKE) ব্যবহার করব। প্রথমে, যদি এই লাইব্রেরিটি উপস্থিত না থাকে তবে এটি ইনস্টল করি: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"মূল কার্যকারিতা `Rake` অবজেক্ট থেকে পাওয়া যায়, যা আমরা কিছু প্যারামিটার ব্যবহার করে কাস্টমাইজ করতে পারি। আমাদের ক্ষেত্রে, আমরা একটি কীওয়ার্ডের ন্যূনতম দৈর্ঘ্য ৫ অক্ষর, ডকুমেন্টে একটি কীওয়ার্ডের ন্যূনতম ফ্রিকোয়েন্সি ৩, এবং একটি কীওয়ার্ডে সর্বাধিক শব্দের সংখ্যা ২ সেট করব। অন্যান্য মান নিয়ে পরীক্ষা-নিরীক্ষা করতে এবং ফলাফল পর্যবেক্ষণ করতে পারেন।\n"
"মূল কার্যকারিতা `Rake` অবজেক্ট থেকে পাওয়া যায়, যাকে আমরা কিছু প্যারামিটার ব্যবহার করে কাস্টমাইজ করতে পারি। আমাদের ক্ষেত্রে, আমরা একটি কীওয়ার্ডের সর্বনিম্ন দৈর্ঘ্য ৫ অক্ষর, ডকুমেন্টে একটি কীওয়ার্ডের সর্বনিম্ন ফ্রিকোয়েন্সি ৩, এবং একটি কীওয়ার্ডে সর্বোচ্চ শব্দের সংখ্যা ২ সেট করব। অন্যান্য মানগুলির সাথে খেলাধুলা করতে পারেন এবং ফলাফল পরিদর্শন করতে পারেন।\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"আমরা একটি তালিকা সংগ্রহ করেছি যেখানে শর্তসমূহ এবং তাদের সাথে সম্পর্কিত গুরুত্বের মাত্রা উল্লেখ করা হয়েছে। যেমনটি আপনি দেখতে পাচ্ছেন, সবচেয়ে প্রাসঙ্গিক বিষয়গুলো, যেমন মেশিন লার্নিং এবং বিগ ডেটা, তালিকার শীর্ষস্থানে রয়েছে।\n",
"আমরা একটি শব্দের তালিকা এবং সংশ্লিষ্ট গুরুত্বের ডিগ্রি পেয়েছি। যেমন আপনি দেখতে পাচ্ছেন, সবচেয়ে প্রাসঙ্গিক ডিসিপ্লিনগুলি, যেমন মেশিন লার্নিং এবং বড় ডেটা, তালিকার শীর্ষ স্থানে উপস্থিত রয়েছে।\n",
"\n",
"## ধাপ : ফলাফল ভিজুয়ালাইজ করা\n",
"## ধাপ : ফলাফল ভিজ্যুয়ালাইজেশন\n",
"\n",
"মানুষ সাধারণত ভিজুয়াল ফর্মে ডেটা সবচেয়ে ভালোভাবে বুঝতে পারে। তাই কিছু অন্তর্দৃষ্টি পাওয়ার জন্য ডেটা ভিজুয়ালাইজ করা প্রায়ই যৌক্তিক হয়। আমরা পাইথনের `matplotlib` লাইব্রেরি ব্যবহার করে কীওয়ার্ডগুলোর সরল বণ্টন এবং তাদের প্রাসঙ্গিকতা প্লট করতে পারি:\n"
"মানুষেরা ডেটা সর্বোত্তমভাবে ভিজ্যুয়াল আকারে ব্যাখ্যা করতে পারে। তাই প্রায়শই কিছু অন্তর্দৃষ্টি অর্জনের জন্য ডেটা ভিজ্যুয়ালাইজ করা যুক্তিযুক্ত। আমরা অবশ্যই পাইথনের `matplotlib` লাইব্রেরি ব্যবহার করে কীওয়ার্ডগুলির প্রাসঙ্গিকতার সঙ্গে সহজ বন্টন প্লট করতে পারি:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"শব্দের ঘনত্ব চিত্রিত করার আরও ভালো উপায় রয়েছে - **ওয়ার্ড ক্লাউড** ব্যবহার করে। আমাদের কীওয়ার্ড তালিকা থেকে ওয়ার্ড ক্লাউড আঁকার জন্য আরেকটি লাইব্রেরি ইনস্টল করতে হবে।\n"
"তবে, শব্দের ঘনত্ব ভিজ্যুয়ালাইজ করার আরও একটি ভাল উপায় আছে - **ওয়ার্ড ক্লাউড** ব্যবহার করে। আমাদের কীওয়ার্ড তালিকা থেকে ওয়ার্ড ক্লাউড আঁকার জন্য আরেকটি লাইব্রেরি ইনস্টল করতে হবে।\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` অবজেক্ট মূল পাঠ্য বা পূর্ব-গণনা করা শব্দের তালিকা তাদের ফ্রিকোয়েন্সি সহ গ্রহণ করার জন্য দায়ী, এবং একটি চিত্র প্রদান করে, যা পরে `matplotlib` ব্যবহার করে প্রদর্শিত হতে পারে:\n"
"`WordCloud` অবজেক্ট মূল পাঠ, অথবা শব্দগুলির ফ্রিকোয়েন্সিসহ পূর্বগণিত শব্দের তালিকা গ্রহণ করার জন্য দায়িত্বশীল, এবং একটি ছবি রিটার্ন করে, যা পরে `matplotlib` ব্যবহার করে প্রদর্শন করা যেতে পারে:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"আমরা মূল পাঠ্যটিও `WordCloud`-এ পাস করতে পারি - চলুন দেখি আমরা কি একই রকম ফলাফল পেতে সক্ষম:\n"
"আমরা মূল টেক্সটও `WordCloud`-এ দিতে পারি - চল দেখি আমরা কি একইরকম ফলাফল পেতে পারি কি না:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"আপনি দেখতে পাচ্ছেন যে শব্দ মেঘ (word cloud) এখন আরও আকর্ষণীয় দেখাচ্ছে, তবে এটি অনেক অপ্রাসঙ্গিক শব্দও অন্তর্ভুক্ত করছে (যেমন `Retrieved on` এর মতো সম্পর্কহীন শব্দ)। এছাড়াও, আমরা কম সংখ্যক দুই-শব্দের কীওয়ার্ড পাচ্ছি, যেমন *data scientist* বা *computer science*। এর কারণ হলো RAKE অ্যালগরিদম পাঠ্য থেকে ভালো কীওয়ার্ড বাছাই করার ক্ষেত্রে অনেক ভালো কাজ করে। এই উদাহরণটি ডেটা প্রি-প্রসেসিং এবং পরিষ্কারের গুরুত্বকে তুলে ধরে, কারণ শেষ পর্যন্ত একটি পরিষ্কার চিত্র আমাদের আরও ভালো সিদ্ধান্ত নিতে সাহায্য করবে।\n",
"আপনি দেখতে পারেন যে ওয়ার্ড ক্লাউডটি এখন আরও আকর্ষণীয় দেখাচ্ছে, তবে এতে অনেক شورও রয়েছে (যেমন `Retrieved on` এর মতো সম্পর্কহীন শব্দ)। পাশাপাশি, আমরা কম কীওয়ার্ড পাই যা দুইটি শব্দের সমন্বয়ে গঠিত, যেমন *data scientist*, অথবা *computer science*। এর কারণ হল RAKE অ্যালগরিদম টেক্সট থেকে ভাল কীওয়ার্ড বেছে নেওয়ায় অনেক বেশী কার্যকর। এই উদাহরণটি ডেটা প্রিপ্রসেসিং এবং ক্লিনিংয়ের গুরুত্ব তুলে ধরে, কারণ শেষের দিকে স্পষ্ট ছবি আমাদের আরও ভাল সিদ্ধান্ত গ্রহণের সুযোগ দেবে।\n",
"\n",
"এই অনুশীলনে আমরা একটি সহজ প্রক্রিয়ার মধ্য দিয়ে গিয়েছি, যেখানে উইকিপিডিয়া পাঠ্য থেকে কীওয়ার্ড এবং শব্দ মেঘের আকারে কিছু অর্থ বের করার চেষ্টা করেছি। এই উদাহরণটি বেশ সহজ, তবে এটি একটি ডেটা সায়েন্টিস্ট সাধারণত ডেটা নিয়ে কাজ করার সময় যে ধাপগুলো অনুসরণ করেন, তা ভালোভাবে প্রদর্শন করে। এটি ডেটা সংগ্রহ থেকে শুরু করে ভিজ্যুয়ালাইজেশন পর্যন্ত সমস্ত ধাপকে অন্তর্ভুক্ত করে।\n",
"এই অনুশীলনে আমরা উইকিপিডিয়া পাঠ থেকে কীওয়ার্ড এবং ওয়ার্ড ক্লাউড আকারে কিছু অর্থ আহরণের একটি সরল প্রক্রিয়া পার করেছি। এই উদাহরণটি খুবই সহজ, কিন্তু এটি একটি ডেটা সায়েন্টিস্ট যেভাবে ডেটার সাথে কাজ করেন সেই সমস্ত সাধারণ ধাপগুলো ভালভাবে প্রদর্শন করে, যা ডেটা অর্জন থেকে শুরু করে ভিজ্যুয়ালাইজেশনের পর্যায় পর্যন্ত বিস্তৃত।\n",
"\n",
"আমাদের কোর্সে আমরা এই সমস্ত ধাপগুলো বিস্তারিতভাবে আলোচনা করব।\n"
"আমাদের কোর্সে আমরা এই সমস্ত ধাপ বিস্তারিতভাবে আলোচনা করব।\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**অস্বীকৃতি**: \nএই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদ প্রদানের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়বদ্ধ থাকব না।\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**অস্বীকৃতি**: \nএই নথিটি AI অনুবাদ েবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনূদিত হয়েছে। আমরা সঠিকতার জন্য যথাসাধ্য চেষ্টা করি, তবে দয়া করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ভুল বা অমিল থাকতে পারে। মূল নথিটি যা তার নিজ ভাষায় রয়েছে তা আনুষ্ঠানিক ও নির্ভরযোগ্য উৎস হিসাবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানের মানব অনুবাদ প্রয়োজন। এই অনুবাদের ব্যবহার থেকে সৃষ্ট কোনো ভুল বোঝাবুঝি বা ব্যাখ্যাগত বিভ্রাটের জন্য আমরা দায়বদ্ধ নই।\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:28:36+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "bn"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# চ্যালেঞ্জ: ডেটা সায়েন্স সম্পর্কিত টেক্সট বিশ্লেষণ\n",
"# চ্যালেঞ্জ: ডাটা সায়েন্স সম্পর্কে টেক্সট বিশ্লেষণ\n",
"\n",
"> *এই নোটবুকে, আমরা মেশিন লার্নিং সম্পর্কিত উইকিপিডিয়া নিবন্ধ ব্যবহার করে বিভিন্ন URL নিয়ে পরীক্ষা-নিরীক্ষা করি। আপনি দেখতে পাবেন যে, ডেটা সায়েন্সের তুলনায় এই নিবন্ধে অনেক বেশি পরিভাষা রয়েছে, যা বিশ্লেষণকে আরও জটিল করে তোলে। কীওয়ার্ড এক্সট্রাকশনের পরে কিছু সাধারণ কিন্তু অর্থহীন শব্দগুচ্ছ বাদ দেওয়ার জন্য আমাদের ডেটা পরিষ্কার করার আরেকটি পদ্ধতি বের করতে হবে।*\n",
"> *এই নোটবুকে, আমরা বিভিন্ন URL - মেশিন লার্নিং সম্পর্কিত উইকিপিডিয়া নিবন্ধ ব্যবহার করার সঙ্গে পরীক্ষামূলক কাজ করছি। আপনি দেখতে পারবেন যে, ডাটা সায়েন্সের তুলনায়, এই নিবন্ধে অনেক শব্দ থাকে, যা বিশ্লেষণকে আরও সমস্যাজনক করে তোলে। কিওয়ার্ড নিষ্কাশনের পর, ডেটা পরিষ্কারের জন্য অন্য একটি উপায় বের করতে হবে, যাতে কিছু প্রায়শই ব্যবহৃত, কিন্তু অর্থবহ নয় এমন শব্দসমূহ থেকে মুক্তি পাওয়া যায়।*\n",
"\n",
"এই উদাহরণে, আসুন একটি সহজ অনুশীলন করি যা ঐতিহ্যবাহী ডেটা সায়েন্স প্রক্রিয়ার সমস্ত ধাপ কভার করে। আপনাকে কোনো কোড লিখতে হবে না, আপনি শুধু নিচের সেলগুলতে ক্লিক করে সেগুলো চালাতে পারেন এবং ফলাফল পর্যবেক্ষণ করতে পারেন। একটি চ্যালেঞ্জ হিসেবে, আপনাকে উৎসাহিত করা হচ্ছে যে আপনি এই কোডটি বিভিন্ন ডেটার সাথে চেষ্টা করুন। \n",
"এই উদাহরণে, চলুন একটি সহজ অনুশীলন করি যা একটি প্রচলিত ডাটা সায়েন্স প্রক্রিয়ার সমস্ত ধাপ জুড়ে। আপনাকে কোনো কোড লিখতে হবে না, আপনি শুধু নিচের সেলগুলিতে ক্লিক করে সেগুলো চালাতে পারেন এবং ফলাফল পর্যবেক্ষণ করতে পারেন। একটি চ্যালেঞ্জ হিসেবে, আপনি এই কোডটি বিভিন্ন ডাটার সঙ্গে চেষ্টা করতে উৎসাহিত হবেন।\n",
"\n",
"## লক্ষ্য\n",
"\n",
"এই পাঠে, আমরা ডেটা সায়েন্স সম্পর্কিত বিভিন্ন ধারণা নিয়ে আলোচনা করেছি। আসুন কিছু **টেক্সট মাইনিং** করে আরও সম্পর্কিত ধারণা আবিষ্কার করার চেষ্টা করি। আমরা ডটা সায়েন্স সম্পর্কিত একটি টেক্সট দিয়ে শুরু করব, সেখান থেকে কীওয়ার্ড বের করব এবং তারপর ফলাফলটি ভিজুয়ালাইজ করার চেষ্টা করব।\n",
"এই পাঠে, আমরা ডাটা সায়েন্স সম্পর্কিত বিভিন্ন ধারণা আলোচনা করেছি। চলুন কিছু **টেক্সট মাইনিং** করে আরও সম্পর্কিত ধারণা আবিষ্কার করার চেষ্টা করি। আমরা ডটা সায়েন্স সম্পর্কিত একটি টেক্সট দিয়ে শুরু করব, তা থেকে কিওয়ার্ড বের করব, এবং তারপর ফলাফল ভিজ্যুয়ালাইজ করার চেষ্টা করব।\n",
"\n",
"টেক্সট হিসেবে, আমি উইকিপিডিয়ার ডটা সায়েন্স পৃষ্ঠাটি ব্যবহার করব:\n"
"একটি টেক্সট হিসেবে, আমি উইকিপিডিয়ার ডটা সায়েন্স পৃষ্ঠাটি ব্যবহার করব:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## ধাপ ১: ডেটা সংগ্রহ করা\n",
"## Step 1: ডেটা আনা\n",
"\n",
"প্রতিটি ডেটা সায়েন্স প্রক্রিয়ার প্রথম ধাপ হলো ডেটা সংগ্রহ করা। আমরা এটি করার জন্য `requests` লাইব্রেরি ব্যবহার করব:\n"
"প্র প্রতিটি ডেটা সায়েন্স প্রক্রিয়ার প্রথম ধাপ হল ডেটা আনা। আমরা এটি করার জন্য `requests` লাইব্রেরি ব্যবহার করব:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## ধাপ ২: ডেটা রূপান্তর করা\n",
"## পদক্ষেপ ২: ডেটা রূপান্তর করা\n",
"\n",
"পরবর্তী ধাপ হলো ডেটাকে এমন একটি ফর্মে রূপান্তর করা যা প্রক্রিয়াকরণের জন্য উপযুক্ত। আমাদের ক্ষেত্রে, আমরা পৃষ্ঠার HTML সোর্স কোড ডাউনলোড করেছি এবং এটি সাধারণ টেক্সটে রূপান্তর করতে হবে।\n",
"পরবর্তী পদক্ষেপটি হল ডেটাকে প্রক্রিয়াকরণের উপযোগী রূপে রূপান্তর করা। আমাদের ক্ষেত্রে, আমরা পৃষ্ঠার HTML সোর্স কোড ডাউনলোড করেছি এবং এটিকে সাধারণ টেক্সটে রূপান্তর করতে হবে।\n",
"\n",
"এটি করার অনেক পদ্ধতি রয়েছে। আমরা Python-এর সহজতম বিল্ট-ইন [HTMLParser](https://docs.python.org/3/library/html.parser.html) অবজেক্ট ব্যবহার করব। আমাদের `HTMLParser` ক্লাসটি সাবক্লাস করতে হবে এবং এমন কোড সংজ্ঞায়িত করতে হবে যা HTML ট্যাগগুলোর ভিতরের সমস্ত টেক্সট সংগ্রহ করবে, তবে `<script>` এবং `<style>` ট্যাগগুলো বাদ দিয়ে।\n"
"এটি করার অনেক উপায় রয়েছে। আমরা [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), একটি জনপ্রিয় পাইথন লাইব্রেরি যা HTML পার্সিংয়ের জন্য ব্যবহৃত হয়, ব্যবহার করব। BeautifulSoup আমাদের নির্দিষ্ট HTML উপাদানগুলো লক্ষ্য করার সুযোগ দেয়, তাই আমরা উইকিপিডিয়ার মূল প্রবন্ধের বিষয়বস্তুতে ফোকাস করতে পারি এবং কিছু নেভিগেশন মেনু, সাইডবার, ফুটার এবং অন্যান্য অপ্রাসঙ্গিক বিষয়বস্তু কমাতে পারি (যদিও কিছু বোর্তিলেট টেক্সট এখনও থাকতে পারে)।\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"প্রথমে, আমাদের HTML পার্সিং-এর জন্য BeautifulSoup লাইব্রেরি ইনস্টল করতে হবে:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## ধাপ ৩: অন্তর্দৃষ্টি অর্জন করা\n",
"## Step 3: অন্তর্দৃষ্টি অর্জন\n",
"\n",
"সবচেয়ে গুরুত্বপূর্ণ ধাপ হল আমাদের ডেটাকে এমন একটি রূপে রূপান্তর করা, যেখান থেকে আমরা অন্তর্দৃষ্টি পেতে পারি। আমাদের ক্ষেত্রে, আমরা টেক্সট থেকে কীওয়ার্ড বের করতে চাই এবং দেখতে চাই কোন কীওয়ার্ডগুলো বেশি অর্থবহ।\n",
"সবচেয়ে গুরুত্বপূর্ণ পদক্ষেপ হলো আমাদের ডেটাকে এমন একটি আকারে রূপান্তর করা যার মাধ্যমে আমরা অন্তর্দৃষ্টি আহরণ করতে পারি। আমাদের ক্ষেত্রে, আমরা টেক্সট থেকে কীওয়ার্ড বের করতে চাই, এবং দেখতে চাই কোন কীওয়ার্ডগুলো বেশি অর্থবহ।\n",
"\n",
"আমরা কীওয়ার্ড বের করার জন্য [RAKE](https://github.com/aneesha/RAKE) নামক একটি পাইথন লাইব্রেরি ব্যবহার করব। প্রথমে, যদি এই লাইব্রেরি ইনস্টল না করা থাকে, তাহলে এটি ইনস্টল করি:\n"
"আমরা কীওয়ার্ড নিষ্কাশনের জন্য Python লাইব্রেরি [RAKE](https://github.com/aneesha/RAKE) ব্যবহার করব। প্রথমে, যদি এই লাইব্রেরিটি উপস্থিত না থাকে তবে এটি ইনস্টল করি:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"মূল কার্যকারিতা `Rake` অবজেক্ট থেকে পাওয়া যায়, য আমরা কিছু প্যারামিটার ব্যবহার করে কাস্টমাইজ করতে পারি। আমাদের ক্ষেত্রে, আমরা একটি কীওয়ার্ডের ন্যূনতম দৈর্ঘ্য ৫ অক্ষর, ডকুমেন্টে একটি কীওয়ার্ডের ন্যূনতম ফ্রিকোয়েন্সি ৩, এবং একটি কীওয়ার্ডে সর্বাধিক শব্দের সংখ্যা ২ নির্ধারণ করব। অন্যান্য মান নিয়ে পরীক্ষা-নিরীক্ষা করতে এবং ফলাফল পর্যবেক্ষণ করতে স্বাধীন অনুভব করুন।\n"
"মূল কার্যকারিতা `Rake` অবজেক্ট থেকে পাওয়া যায়, যেটি আমরা কিছু প্যারামিটার ব্যবহার করে কাস্টমাইজ করতে পারি। আমাদের ক্ষেত্রে, আমরা একটি কিওয়ার্ডের সর্বনিম্ন দৈর্ঘ্য ৫ অক্ষর, একটি কিওয়ার্ডের নথিতে সর্বনিম্ন ফ্রিকোয়েন্সি ৩ এবং একটি কিওয়ার্ডে সর্বোচ্চ শব্দের সংখ্যা ২ সেট করব। অন্যান্য মান নিয়ে পরীক্ষা-নিরীক্ষা করতে স্বাচ্ছন্দ্য বোধ করুন এবং ফলাফলটি পর্যবেক্ষণ করুন।\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"আমরা একটি তালিকা সংগ্রহ করেছি যেখানে শর্তসমূহ এবং তাদের সাথে সম্পর্কিত গুরুত্বের মাত্রা উল্লেখ করা হয়েছে। যেমনটি আপনি দেখতে পাচ্ছেন, সবচেয়ে প্রাসঙ্গিক বিষয়গুলো, যেমন মেশিন লার্নিং এবং বিগ ডেটা, তালিকার শীর্ষস্থানে রয়েছে।\n",
"আমরা একটি শব্দের তালিকা প্রাপ্ত করেছি যা সংশ্লিষ্ট গুরুত্বের ডিগ্রির সাথে রয়েছে। আপনি দেখতে পারেন, সবচেয়ে সম্পর্কিত বিষয়গুলি, যেমন মেশিন লার্নিং এবং বিগ ডেটা, তালিকার শীর্ষস্থানে উপস্থিত রয়েছে।\n",
"\n",
"## ধাপ : ফলাফল ভিজুয়ালাইজ করা\n",
"## Step 4: ফলাফল ভিজুয়ালাইজ করা\n",
"\n",
"মানুষ সাধারণত ভিজুয়াল ফর্মে ডেটা সবচেয়ে ভালোভাবে বুঝতে পারে। তাই কিছু অন্তর্দৃষ্টি পাওয়ার জন্য ডেটা ভিজুয়ালাইজ করা প্রায়ই যৌক্তিক হয়। আমরা পাইথনের `matplotlib` লাইব্রেরি ব্যবহার করে কীওয়ার্ডগুলোর সরল বণ্টন এবং তাদের প্রাসঙ্গিকতা প্লট করতে পারি:\n"
"মানুষেরা সর্বোত্তমভাবে তথ্যকে ভিজুয়াল ফর্মে ব্যাখ্যা করতে পারে। তাই প্রায়ই কিছু অন্তর্দৃষ্টি আঁকতে তথ্যকে ভিজুয়ালাইজ করা অর্থপূর্ণ হয়। আমরা পাইথনে `matplotlib` লাইব্রেরি ব্যবহার করে কীওয়ার্ডগুলির প্রাসঙ্গিকতার সাথে সহজ ডিস্ট্রিবিউশন প্লট করতে পারি:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"তবে, শব্দের ঘনত্ব কল্পনা করার আরও ভালো উপায় রয়েছে - **ওয়ার্ড ক্লাউড** ব্যবহার করা। আমাদের কীওয়ার্ড তালিকা থেকে ওয়ার্ড ক্লাউড আঁকতে আরেকটি লাইব্রেরি ইনস্টল করতে হবে।\n"
"তবে শব্দের ঘনত্ব দেখানোর জন্য আরও একটা ভালো উপায় আছে - **ওয়ার্ড ক্লাউড** ব্যবহার করে। আমাদের কীওয়ার্ড তালিকা থেকে ওয়ার্ড ক্লাউড আঁকার জন্য আরেকটা লাইব্রেরি ইনস্টল করতে হবে।\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` অবজেক্ট মূল পাঠ্য বা পূর্ব-গণনা করা শব্দের তালিকা তাদের ফ্রিকোয়েন্সি সহ গ্রহণ করার জন্য দায়ী, এবং একটি চিত্র প্রদান করে, যা পরে `matplotlib` ব্যবহার করে প্রদর্শিত হতে পারে:\n"
"`WordCloud` অবজেক্ট মূল টেক্সট অথবা শব্দ এবং তাদের ফ্রিকোয়েন্সির পূর্বগণিত তালিকা গ্রহণ করার জন্য দায়ী, এবং একটি ইমেজ রিটার্ন করে, যা পরে `matplotlib` ব্যবহার করে প্রদর্শন করা যেতে পারে:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"আমরা মূল পাঠ্যটিও `WordCloud`-এ পাস করতে পারি - চলুন দেখি আমরা কি একই রকম ফলাফল পেতে সক্ষম:\n"
"আমরা মূল টেক্সটটি `WordCloud` এ পাসও করতে পারি - আসুন দেখি আমরা কি অনুরূপ ফলাফল পেতে পারি:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"আপনি দেখতে পাচ্ছেন যে শব্দ মেঘ (word cloud) এখন আরও আকর্ষণীয় দেখাচ্ছে, তবে এটি অনেক অপ্রাসঙ্গিক শব্দও ধারণ করছে (যেমন `Retrieved on` এর মতো শব্দ)। এছাড়াও, আমরা কম সংখ্যক দুই-শব্দের কীওয়ার্ড পাচ্ছি, যেমন *data scientist* বা *computer science*। এর কারণ হলো RAKE অ্যালগরিদম পাঠ্য থেকে ভালো কীওয়ার্ড বাছাই করার ক্ষেত্রে অনেক বেশি কার্যকর। এই উদাহরণটি ডেটা প্রি-প্রসেসিং এবং পরিষ্কারের গুরুত্বকে তুলে ধরে, কারণ শেষ পর্যন্ত একটি পরিষ্কার চিত্র আমাদের আরও ভালো সিদ্ধান্ত নিতে সাহায্য করবে।\n",
"আপনি দেখতে পাচ্ছেন যে ওয়ার্ড ক্লাউড বর্তমানে আরও প্রভাবশালী দেখাচ্ছে, তবে এতে অনেক শব্দের গোলযোগও রয়েছে (যেমন `Retrieved on` এর মতো অপ্রাসঙ্গিক শব্দ)। এছাড়াও, আমরা কম কীওয়ার্ড পাই যা দুটি শব্দ নিয়ে গঠিত, যেমন *data scientist* বা *computer science*। এর কারণ হলো RAKE অ্যালগরিদম টেক্সট থেকে ভাল কীওয়ার্ড বাছাই করার ক্ষেত্রে অনেক ভালো কাজ করে। এই উদাহরণটি ডেটা প্রি-প্রসেসিং এবং পরিষ্কারের গুরুত্ব প্রকাশ করে, কারণ শেষ পারিশ্লেষিক ছবি আমাদের ভাল সিদ্ধান্ত নিতে সাহায্য করবে।\n",
"\n",
"এই অনুশীলনে আমরা একটি সহজ প্রক্রিয়ার মধ্য দিয়ে গিয়েছি, যেখানে উইকিপিডিয়া পাঠ্য থেকে কীওয়ার্ড এবং শব্দ মেঘের আকারে কিছু অর্থ বের করার চেষ্টা করেছি। এই উদাহরণটি বেশ সহজ, তবে এটি খুব ভালোভাবে দেখায় যে ডেটা নিয়ে কাজ করার সময় একজন ডেটা বিজ্ঞানী সাধারণত যেসব ধাপ অনুসরণ করেন, সেগুলো কীভাবে শুরু থেকে (ডেটা সংগ্রহ) শেষ পর্যন্ত (ভিজুয়ালাইজেশন) সম্পন্ন হয়।\n",
"এই ব্যায়ামে আমরা উইকিপিডিয়া টেক্সট থেকে কিছু অর্থ বের করার একটি সহজ প্রক্রিয়ার মধ্য দিয়ে গিয়েছি, কীওয়ার্ড এবং ওয়ার্ড ক্লাউডের আকারে। এই উদাহরণটি বেশ সহজ, তবে এটি একটি ডেটা সায়েন্টিস্ট যখন ডেটা নিয়ে কাজ করেন তখন নেওয়া সমস্ত সাধারণ ধাপগুলি ভালভাবে প্রদর্শন করে, ডেটা সংগ্রহ থেকে শুরু করে ভিজ্যুয়ালাইজেশন পর্যন্ত।\n",
"\n",
"আমাদের কোর্সে আমরা এই সমস্ত ধাপগুলো বিস্তারিতভাবে আলোচনা করব।\n"
"আমাদের কোর্সে আমরা এই সমস্ত ধাপ বিস্তারিতভাবে আলোচনা করব।\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**অস্বীকৃতি**: \nএই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিকতার জন্য চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা তার জন্য দায়ী থাকব না।\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**দুদ্র্পিনীতি**:\nএই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনূদিত হয়েছে। আমরা যথাসাধ্য সঠিকতার চেষ্টা করি, তবে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অমিল থাকতে পারে। মূল নথিটি তার নিজ ভাষায় অবশ্যই কর্তৃপক্ষপূর্ণ উৎস হিসেবে বিবেচিত হওয়া উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদের পরামর্শ দেওয়া হয়। এই অনুবাদের ব্যবহার থেকে সৃষ্ট যেকোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়বদ্ধ নই।\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:39:31+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "bn"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
পরিসংখ্যান এবং সম্ভাবনা তত্ত্ব হল গণিতের দুটি ঘনিষ্ঠভাবে সম্পর্কিত শাখা, যা ডেটা সায়েন্সের জন্য অত্যন্ত গুরুত্বপূর্ণ। গভীর গণিত জ্ঞান ছাড়াও ডেটা নিয়ে কাজ করা সম্ভব, তবে কিছু মৌলিক ধারণা জানা সবসময়ই ভালো। এখানে আমরা একটি সংক্ষিপ্ত পরিচিতি উপস্থাপন করব যা আপনাকে শুরু করতে সাহায্য করবে।
[![পরিচিতি ভিডিও](../../../../translated_images/bn/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![পরিচিতি ভিডিও](../../../../translated_images/bn/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [পূর্ব-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
আমরা কেবল একটি ভেরিয়েবলের নির্দিষ্ট মানের পরিসরে পড়ার সম্ভাবনা নিয়ে কথা বলতে পারি, যেমন P(t<sub>1</sub>≤X<t<sub>2</sub>)। এই ক্ষেত্রে, সম্ভাবনা বণ্টন একটি **সম্ভাবনা ঘনত্ব ফাংশন** p(x) দ্বারা বর্ণিত হয়, যাতে
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/bn/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/bn/probability-density.a8aad29f17a14afb.webp)
সমবণ্টনের একটি অবিচ্ছিন্ন রূপকে **অবিচ্ছিন্ন সমবণ্টন** বলা হয়, যা একটি সসীম পরিসরে সংজ্ঞায়িত। একটি মান X একটি দৈর্ঘ্য l এর পরিসরে পড়ার সম্ভাবনা l এর সমানুপাতিক, এবং ১ পর্যন্ত বৃদ্ধি পায়।
@ -73,11 +73,11 @@
এখানে আমাদের ডেটার গড়, মধ্যক এবং চতুর্ভাগ দেখানো একটি বক্স প্লট রয়েছে:
![ওজন বক্স প্লট](../../../../translated_images/bn/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![ওজন বক্স প্লট](../../../../translated_images/bn/weight-boxplot.1dbab1c03af26f8a.webp)
আমাদের ডেটায় বিভিন্ন খেলোয়াড়ের **ভূমিকা** সম্পর্কিত তথ্য রয়েছে, তাই আমরা ভূমিকা অনুযায়ী বক্স প্লটও করতে পারি - এটি আমাদের দেখাবে কীভাবে প্যারামিটার মানগুলি ভূমিকা অনুযায়ী ভিন্ন হয়। এবার আমরা উচ্চতা বিবেচনা করব:
![ভূমিকা অনুযায়ী বক্স প্লট](../../../../translated_images/bn/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![ভূমিকা অনুযায়ী বক্স প্লট](../../../../translated_images/bn/boxplot_byrole.036b27a1c3f52d42.webp)
এই চিত্রটি নির্দেশ করে যে, গড়ে, প্রথম বেসম্যানদের উচ্চতা দ্বিতীয় বেসম্যানদের উচ্চতার চেয়ে বেশি। এই পাঠে আমরা শিখব কীভাবে আমরা এই অনুমানটি আরও আনুষ্ঠানিকভাবে পরীক্ষা করতে পারি এবং কীভাবে আমাদের ডেটা পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ তা প্রদর্শন করতে পারি।
@ -85,7 +85,7 @@
আমাদের ডেটার বণ্টন দেখতে, আমরা **হিস্টোগ্রাম** নামে একটি গ্রাফ আঁকতে পারি। X-অক্ষ বিভিন্ন ওজনের পরিসর (তথাকথিত **বিন**) ধারণ করবে, এবং উল্লম্ব অক্ষ দেখাবে আমাদের র‍্যান্ডম ভেরিয়েবল নমুনা একটি নির্দিষ্ট পরিসরে কতবার ছিল।
![বাস্তব জীবনের ডেটার হিস্টোগ্রাম](../../../../translated_images/bn/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![বাস্তব জীবনের ডেটার হিস্টোগ্রাম](../../../../translated_images/bn/weight-histogram.bfd00caf7fc30b14.webp)
এই হিস্টোগ্রাম থেকে আপনি দেখতে পারেন যে সমস্ত মান একটি নির্দিষ্ট গড় ওজনের চারপাশে কেন্দ্রীভূত, এবং আমরা সেই ওজন থেকে যত দূরে যাই - সেই মানের ওজন তত কম পাওয়া যায়। অর্থাৎ, একটি বেসবল খেলোয়াড়ের ওজন গড় ওজন থেকে খুব আলাদা হওয়া খুবই অসম্ভাব্য। ওজনের বৈচিত্র্য দেখায় যে ওজনগুলি গড় থেকে কতটা ভিন্ন হতে পারে।
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
যদি আমরা তৈরি করা নমুনাগুলির হিস্টোগ্রাম আঁকি, আমরা উপরের ছবির মতো একটি চিত্র দেখতে পাব। এবং যদি আমরা নমুনার সংখ্যা এবং বিনের সংখ্যা বাড়াই, আমরা একটি আদর্শ স্বাভাবিক বণ্টনের আরও কাছাকাছি একটি চিত্র তৈরি করতে পারি:
![গড়=0 এবং মান বিচ্যুতি=1 সহ স্বাভাবিক বণ্টন](../../../../translated_images/bn/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![গড়=0 এবং মান বিচ্যুতি=1 সহ স্বাভাবিক বণ্টন](../../../../translated_images/bn/normal-histogram.dfae0d67c202137d.webp)
*গড়=0 এবং মান বিচ্যুতি=1 সহ স্বাভাবিক বণ্টন*
@ -222,7 +222,7 @@ array([[1. , 0.52959196],
আমাদের ক্ষেত্রে, মান 0.53 নির্দেশ করে যে একজন ব্যক্তির ওজন এবং উচ্চতার মধ্যে কিছু করেলেশন রয়েছে। আমরা একটি স্ক্যাটার প্লটও তৈরি করতে পারি একটি মানের বিপরীতে অন্যটি সম্পর্কটি ভিজ্যুয়ালি দেখতে:
![ওজন এবং উচ্চতার মধ্যে সম্পর্ক](../../../../translated_images/bn/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![ওজন এবং উচ্চতার মধ্যে সম্পর্ক](../../../../translated_images/bn/weight-height-relationship.3f06bde4ca2aba99.webp)
> করেলেশন এবং কোভেরিয়েন্সের আরও উদাহরণ [সংযুক্ত নোটবুকে](notebook.ipynb) পাওয়া যাবে।

@ -1,6 +1,6 @@
# ডেটা সায়েন্সের পরিচিতি
![ডেটা কার্যক্রমে](../../../translated_images/bn/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![ডেটা কার্যক্রমে](../../../translated_images/bn/data.48e22bb7617d8d92.webp)
> ছবি: <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">স্টিফেন ডসন</a> এর তোলা <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">আনস্প্ল্যাশ</a>
এই পাঠগুলোতে, আপনি শিখবেন কীভাবে ডেটা সায়েন্স সংজ্ঞায়িত হয় এবং একজন ডেটা বিজ্ঞানীর জন্য বিবেচনা করতে হবে এমন নৈতিক বিষয়গুলো সম্পর্কে জানবেন। আপনি ডেটা কীভাবে সংজ্ঞায়িত হয় তা শিখবেন এবং পরিসংখ্যান ও সম্ভাবনার বিষয়ে কিছুটা ধারণা পাবেন, যা ডেটা সায়েন্সের মূল একাডেমিক ক্ষেত্র।

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| পাইথনের সাথে কাজ করা - _[@nitya](https://twitter.com/nitya) এর স্কেচনোট_ |
[![পরিচিতি ভিডিও](../../../../translated_images/bn/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![পরিচিতি ভিডিও](../../../../translated_images/bn/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
ডেটাবেস ডেটা সংরক্ষণ এবং কুয়েরি করার জন্য খুবই কার্যকর পদ্ধতি প্রদান করে, তবে ডেটা প্রক্রিয়াকরণের সবচেয়ে নমনীয় উপায় হল আপনার নিজের প্রোগ্রাম লিখে ডেটা ম্যানিপুলেট করা। অনেক ক্ষেত্রে, ডেটাবেস কুয়েরি করা আরও কার্যকর হতে পারে। তবে, কিছু ক্ষেত্রে যখন আরও জটিল ডেটা প্রক্রিয়াকরণের প্রয়োজন হয়, তখন এটি সহজে SQL ব্যবহার করে করা সম্ভব হয় না।
ডেটা প্রক্রিয়াকরণ যেকোনো প্রোগ্রামিং ভাষায় করা যেতে পারে, তবে কিছু ভাষা ডেটার সাথে কাজ করার জন্য উচ্চতর স্তরের সুবিধা প্রদান করে। ডেটা বিজ্ঞানীরা সাধারণত নিম্নলিখিত ভাষাগুলোর একটি পছন্দ করেন:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![টাইম সিরিজ প্লট](../../../../translated_images/bn/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![টাইম সিরিজ প্লট](../../../../translated_images/bn/timeseries-1.80de678ab1cf727e.webp)
এখন ধরুন প্রতি সপ্তাহে আমরা বন্ধুদের জন্য একটি পার্টি আয়োজন করি এবং পার্টির জন্য অতিরিক্ত ১০ প্যাক আইসক্রিম নিই। আমরা এটি দেখানোর জন্য সপ্তাহ অনুযায়ী ইনডেক্স করা আরেকটি সিরিজ তৈরি করতে পারি:
```python
@ -75,7 +75,7 @@ additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![টাইম সিরিজ প্লট](../../../../translated_images/bn/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![টাইম সিরিজ প্লট](../../../../translated_images/bn/timeseries-2.aae51d575c55181c.webp)
> **নোট** যে আমরা সাধারণ সিনট্যাক্স `total_items+additional_items` ব্যবহার করছি না। যদি করতাম, তাহলে আমরা অনেক `NaN` (*Not a Number*) মান পেতাম। এর কারণ হল `additional_items` সিরিজের কিছু ইনডেক্স পয়েন্টে মান অনুপস্থিত, এবং `NaN`-এর সাথে কিছু যোগ করলে ফলাফল `NaN` হয়। তাই যোগ করার সময় আমাদের `fill_value` প্যারামিটার নির্দিষ্ট করতে হয়।
@ -84,7 +84,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![মাসিক টাইম সিরিজ গড়](../../../../translated_images/bn/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![মাসিক টাইম সিরিজ গড়](../../../../translated_images/bn/timeseries-3.f3147cbc8c624881.webp)
### ডেটাফ্রেম (DataFrame)
@ -210,7 +210,7 @@ df = pd.read_csv('file.csv')
যেহেতু আমরা ডেটা নিয়ে কাজ করার পদ্ধতি প্রদর্শন করতে চাই, আমরা আপনাকে [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) খুলে শুরু থেকে শেষ পর্যন্ত পড়ার আমন্ত্রণ জানাই। আপনি সেলগুলো চালাতে পারেন এবং শেষে আমাদের দেওয়া কিছু চ্যালেঞ্জ সম্পন্ন করতে পারেন।
![COVID ছড়ানো](../../../../translated_images/bn/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID ছড়ানো](../../../../translated_images/bn/covidspread.f3d131c4f1d260ab.webp)
> যদি আপনি Jupyter Notebook-এ কোড চালানোর পদ্ধতি না জানেন, [এই আর্টিকেলটি](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) দেখুন।
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
[`notebook-papers.ipynb`](notebook-papers.ipynb) খুলুন এবং শুরু থেকে শেষ পর্যন্ত পড়ুন। আপনি সেলগুলো চালাতে পারেন এবং শেষে আমাদের দেওয়া কিছু চ্যালেঞ্জ সম্পন্ন করতে পারেন।
![Covid মেডিকেল ট্রিটমেন্ট](../../../../translated_images/bn/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid মেডিকেল ট্রিটমেন্ট](../../../../translated_images/bn/covidtreat.b2ba59f57ca45fbc.webp)
## ইমেজ ডেটা প্রসেসিং

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# ডেটা নিয়ে কাজ করা
![ডেটার প্রতি ভালোবাসা](../../../translated_images/bn/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![ডেটার প্রতি ভালোবাসা](../../../translated_images/bn/data-love.a22ef29e6742c852.webp)
> ছবি <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">আলেকজান্ডার সিন</a> এর তোলা, <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">আনস্প্ল্যাশ</a> থেকে
এই পাঠগুলোতে, আপনি শিখবেন কীভাবে ডেটা পরিচালনা, পরিবর্তন এবং অ্যাপ্লিকেশনে ব্যবহার করা যায়। আপনি সম্পর্কিত এবং অ-সম্পর্কিত ডেটাবেস সম্পর্কে শিখবেন এবং কীভাবে ডেটা সেখানে সংরক্ষণ করা যায়। আপনি পাইথন ব্যবহার করে ডেটা পরিচালনার মৌলিক বিষয়গুলো শিখবেন এবং পাইথন ব্যবহার করে ডেটা পরিচালনা ও বিশ্লেষণের বিভিন্ন উপায় আবিষ্কার করবেন।

@ -42,7 +42,7 @@ honey.head()
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![স্ক্যাটারপ্লট ১](../../../../translated_images/bn/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![স্ক্যাটারপ্লট ১](../../../../translated_images/bn/scatter1.5e1aa5fd6706c5d1.webp)
এখন, একই ডেটা একটি মধু রঙের স্কিম দিয়ে দেখান যাতে বছরের পর বছর ধরে দাম কীভাবে পরিবর্তিত হয়েছে তা বোঝা যায়। আপনি এটি 'hue' প্যারামিটার যোগ করে করতে পারেন, যা পরিবর্তন দেখায়:
@ -51,7 +51,7 @@ sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![স্ক্যাটারপ্লট ২](../../../../translated_images/bn/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![স্ক্যাটারপ্লট ২](../../../../translated_images/bn/scatter2.c0041a58621ca702.webp)
এই রঙের স্কিম পরিবর্তনের মাধ্যমে, আপনি স্পষ্টভাবে দেখতে পারেন যে বছরের পর বছর মধুর প্রতি পাউন্ডের দামে একটি শক্তিশালী অগ্রগতি রয়েছে। আসলে, যদি আপনি ডেটার একটি নমুনা সেট পরীক্ষা করেন (উদাহরণস্বরূপ, একটি নির্দিষ্ট রাজ্য, অ্যারিজোনা), আপনি দেখতে পাবেন যে বছরের পর বছর দামের বৃদ্ধির একটি প্যাটার্ন রয়েছে, কয়েকটি ব্যতিক্রম সহ:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
আপনি দেখতে পাবেন ডটগুলির আকার ধীরে ধীরে বৃদ্ধি পাচ্ছে।
![স্ক্যাটারপ্লট ৩](../../../../translated_images/bn/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![স্ক্যাটারপ্লট ৩](../../../../translated_images/bn/scatter3.3c160a3d1dcb36b3.webp)
এটি কি সরবরাহ এবং চাহিদার একটি সাধারণ ঘটনা? জলবায়ু পরিবর্তন এবং কলোনি ধসের মতো কারণগুলির কারণে, প্রতি বছর কেনার জন্য কম মধু পাওয়া যাচ্ছে, এবং তাই দাম বাড়ছে?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
উত্তর: হ্যাঁ, তবে ২০০৩ সালের আশেপাশে কিছু ব্যতিক্রম রয়েছে:
![লাইন চার্ট ১](../../../../translated_images/bn/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![লাইন চার্ট ১](../../../../translated_images/bn/line1.f36eb465229a3b1f.webp)
✅ যেহেতু Seaborn একটি লাইন চার্টে ডেটা একত্রিত করছে, এটি "প্রতিটি x মানে একাধিক পরিমাপ প্রদর্শন করে গড় এবং গড়ের চারপাশে ৯৫% আত্মবিশ্বাসের ব্যবধান প্লট করে"। [সূত্র](https://seaborn.pydata.org/tutorial/relational.html)। এই সময়সাপেক্ষ আচরণটি `ci=None` যোগ করে নিষ্ক্রিয় করা যেতে পারে।
@ -105,7 +105,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![লাইন চার্ট ২](../../../../translated_images/bn/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![লাইন চার্ট ২](../../../../translated_images/bn/line2.a5b3493dc01058af.webp)
উত্তর: আসলে না। যদি আপনি মোট উৎপাদন দেখেন, এটি সেই নির্দিষ্ট বছরে বৃদ্ধি পেয়েছে বলে মনে হয়, যদিও সাধারণভাবে এই বছরগুলিতে উৎপাদিত মধুর পরিমাণ হ্রাস পাচ্ছে।
@ -130,7 +130,7 @@ sns.relplot(
```
এই ভিজ্যুয়ালাইজেশনে, আপনি প্রতি উপনিবেশের উৎপাদন এবং উপনিবেশের সংখ্যা বছর বছর, রাজ্য রাজ্য তুলনা করতে পারেন, যেখানে কলামের জন্য wrap ৩ সেট করা হয়েছে:
![ফ্যাসেট গ্রিড](../../../../translated_images/bn/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![ফ্যাসেট গ্রিড](../../../../translated_images/bn/facet.6a34851dcd540050.webp)
এই ডেটাসেটের জন্য, রাজ্য এবং বছর অনুযায়ী উপনিবেশের সংখ্যা এবং তাদের উৎপাদনের ক্ষেত্রে কিছুই বিশেষভাবে আলাদা করে দাঁড়ায় না। এই দুটি ভেরিয়েবলের মধ্যে সম্পর্ক খুঁজে বের করার জন্য কি দেখার অন্য কোনো উপায় আছে?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![সুপারইম্পোজড প্লট](../../../../translated_images/bn/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![সুপারইম্পোজড প্লট](../../../../translated_images/bn/dual-line.a4c28ce659603fab.webp)
যদিও ২০০৩ সালের আশেপাশে চোখে কিছুই ধরা পড়ে না, এটি আমাদের এই পাঠটি একটি সামান্য সুখী নোটে শেষ করার অনুমতি দেয়: যদিও উপনিবেশের সংখ্যা সামগ্রিকভাবে হ্রাস পাচ্ছে, উপনিবেশের সংখ্যা স্থিতিশীল হচ্ছে, যদিও তাদের প্রতি উপনিবেশের উৎপাদন হ্রাস পাচ্ছে।

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
এখানে, আপনি `ggplot2` প্যাকেজটি ইনস্টল করেছেন এবং তারপর `library("ggplot2")` কমান্ড ব্যবহার করে এটি ওয়ার্কস্পেসে আমদানি করেছেন। ggplot-এ কোনো প্লট তৈরি করতে `ggplot()` ফাংশন ব্যবহার করা হয় এবং আপনি ডেটাসেট, x এবং y ভেরিয়েবলগুলোকে অ্যাট্রিবিউট হিসেবে নির্দিষ্ট করেন। এই ক্ষেত্রে, আমরা `geom_line()` ফাংশন ব্যবহার করি কারণ আমরা একটি লাইন প্লট তৈরি করতে চাই।
![MaxWingspan-lineplot](../../../../../translated_images/bn/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/bn/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
আপনি প্রথমেই কী লক্ষ্য করেন? অন্তত একটি আউটলাইয়ার রয়েছে - এটি বেশ বড় উইংসপ্যান! ২০০০+ সেন্টিমিটার উইংসপ্যান মানে ২০ মিটারের বেশি - মিনেসোটায় কি প্টেরোড্যাকটিল ঘুরে বেড়াচ্ছে? চলুন তদন্ত করি।
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
আমরা `theme`-এ কোণ নির্ধারণ করি এবং `xlab()` এবং `ylab()`-এ x এবং y অক্ষের লেবেল নির্ধারণ করি। `ggtitle()` গ্রাফ/প্লটের একটি নাম দেয়।
![MaxWingspan-lineplot-improved](../../../../../translated_images/bn/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/bn/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
লেবেলগুলোকে ৪৫ ডিগ্রি কোণে ঘোরানোর পরেও, পড়ার জন্য খুব বেশি লেবেল রয়েছে। চলুন একটি ভিন্ন কৌশল চেষ্টা করি: শুধুমাত্র আউটলাইয়ারগুলো লেবেল করি এবং লেবেলগুলো চার্টের মধ্যে সেট করি। আপনি একটি স্ক্যাটার চার্ট ব্যবহার করতে পারেন যাতে লেবেলিংয়ের জন্য আরও জায়গা তৈরি হয়:
@ -91,7 +91,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
আপনি কী আবিষ্কার করেন?
![MaxWingspan-scatterplot](../../../../../translated_images/bn/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/bn/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## আপনার ডেটা ফিল্টার করুন
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
আমরা একটি নতুন ডেটাফ্রেম `birds_filtered` তৈরি করেছি এবং তারপর একটি স্ক্যাটার প্লট তৈরি করেছি। আউটলাইয়ারগুলো ফিল্টার করার মাধ্যমে, আপনার ডেটা এখন আরও সংহত এবং বোধগম্য।
![MaxWingspan-scatterplot-improved](../../../../../translated_images/bn/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/bn/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
এখন যেহেতু আমাদের ডেটাসেট উইংসপ্যানের ক্ষেত্রে অন্তত পরিষ্কার, চলুন এই পাখিদের সম্পর্কে আরও কিছু আবিষ্কার করি।
@ -151,7 +151,7 @@ birds_filtered %>% group_by(Category) %>%
```
নিম্নলিখিত স্নিপেটে, আমরা [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) এবং [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) প্যাকেজগুলো ইনস্টল করি যা ডেটা ম্যানিপুলেট এবং গ্রুপ করতে সাহায্য করে যাতে একটি স্ট্যাকড বার চার্ট প্লট করা যায়। প্রথমে, আপনি পাখির `Category` অনুযায়ী ডেটা গ্রুপ করেন এবং তারপর `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` কলামগুলো সারসংক্ষেপ করেন। তারপর, `ggplot2` প্যাকেজ ব্যবহার করে বার চার্ট প্লট করেন এবং বিভিন্ন বিভাগের জন্য রঙ এবং লেবেল নির্ধারণ করেন।
![Stacked bar chart](../../../../../translated_images/bn/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/bn/stacked-bar-chart.0c92264e89da7b39.webp)
তবে এই বার চার্টটি পড়া কঠিন কারণ এখানে খুব বেশি অ-গ্রুপ করা ডেটা রয়েছে। আপনি শুধুমাত্র সেই ডেটা নির্বাচন করতে পারেন যা আপনি প্লট করতে চান, তাই চলুন পাখির বিভাগ অনুযায়ী দৈর্ঘ্য দেখার চেষ্টা করি।
@ -166,7 +166,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
প্রথমে আপনি `Category` কলামে অনন্য মানগুলো গণনা করেন এবং তারপর সেগুলোকে একটি নতুন ডেটাফ্রেম `birds_count`-এ সাজান। এই সাজানো ডেটা একই স্তরে ফ্যাক্টর করা হয় যাতে এটি সাজানোভাবে প্লট করা যায়। তারপর, `ggplot2` ব্যবহার করে আপনি ডেটা একটি বার চার্টে প্লট করেন। `coord_flip()` অনুভূমিক বার প্লট করে।
![category-length](../../../../../translated_images/bn/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/bn/category-length.7e34c296690e85d6.webp)
এই বার চার্টটি পাখির প্রতিটি বিভাগের সংখ্যার একটি ভালো দৃশ্য দেখায়। এক নজরে, আপনি দেখতে পারেন যে এই অঞ্চলে সবচেয়ে বেশি সংখ্যক পাখি হাঁস/গিজ/জলপাখি বিভাগে রয়েছে। মিনেসোটা '১০, হ্রদের ভূমি', তাই এটি আশ্চর্যজনক নয়!
@ -189,7 +189,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
আমরা `birds_filtered` ডেটাকে `Category` অনুযায়ী গ্রুপ করি এবং তারপর একটি বার গ্রাফ প্লট করি।
![comparing data](../../../../../translated_images/bn/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/bn/comparingdata.f486a450d61c7ca5.webp)
এখানে কিছুই আশ্চর্যজনক নয়: হামিংবার্ডের MaxLength পেলিকান বা গিজের তুলনায় সবচেয়ে কম। যখন ডেটা যৌক্তিক অর্থ তৈরি করে, তখন এটি ভালো!
@ -201,7 +201,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/bn/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/bn/superimposed-values.5363f0705a1da416.webp)
## 🚀 চ্যালেঞ্জ

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![অর্ডার অনুযায়ী সর্বোচ্চ দৈর্ঘ্য](../../../../../translated_images/bn/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![অর্ডার অনুযায়ী সর্বোচ্চ দৈর্ঘ্য](../../../../../translated_images/bn/max-length-per-order.e5b283d952c78c12.webp)
এটি পাখির অর্ডার অনুযায়ী শরীরের দৈর্ঘ্যের সাধারণ ডিস্ট্রিবিউশন সম্পর্কে একটি ওভারভিউ দেয়, তবে এটি প্রকৃত ডিস্ট্রিবিউশন প্রদর্শনের জন্য সর্বোত্তম উপায় নয়। এই কাজটি সাধারণত একটি হিস্টোগ্রাম তৈরি করে করা হয়।
@ -48,7 +48,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![পুরো ডেটাসেটের উপর ডিস্ট্রিবিউশন](../../../../../translated_images/bn/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![পুরো ডেটাসেটের উপর ডিস্ট্রিবিউশন](../../../../../translated_images/bn/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
যেমনটি আপনি দেখতে পাচ্ছেন, এই ডেটাসেটের + পাখির বেশিরভাগই তাদের Max Body Mass এর ক্ষেত্রে ২০০০ এর নিচে পড়ে। ডেটা সম্পর্কে আরও অন্তর্দৃষ্টি অর্জন করতে `bins` প্যারামিটারটি একটি বড় সংখ্যায় পরিবর্তন করুন, যেমন ৩০:
@ -56,7 +56,7 @@ ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![ডিস্ট্রিবিউশন-৩bins](../../../../../translated_images/bn/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![ডিস্ট্রিবিউশন-৩bins](../../../../../translated_images/bn/distribution-30bins.6a3921ea7a421bf7.webp)
এই চার্টটি আরও বিস্তারিতভাবে ডিস্ট্রিবিউশন দেখায়। একটি কম বাঁ দিকে ঝুঁকানো চার্ট তৈরি করা যেতে পারে নিশ্চিত করে যে আপনি শুধুমাত্র একটি নির্দিষ্ট পরিসরের মধ্যে ডেটা নির্বাচন করেছেন:
@ -68,7 +68,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![ফিল্টার করা হিস্টোগ্রাম](../../../../../translated_images/bn/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![ফিল্টার করা হিস্টোগ্রাম](../../../../../translated_images/bn/filtered-histogram.6bf5d2bfd8253322.webp)
✅ কিছু অন্যান্য ফিল্টার এবং ডেটা পয়েন্ট চেষ্টা করুন। ডেটার সম্পূর্ণ ডিস্ট্রিবিউশন দেখতে, `['MaxBodyMass']` ফিল্টার সরিয়ে লেবেলযুক্ত ডিস্ট্রিবিউশন দেখান।
@ -82,7 +82,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
এখানে একটি প্রত্যাশিত অক্ষ বরাবর এই দুটি উপাদানের মধ্যে একটি প্রত্যাশিত সম্পর্ক দেখা যাচ্ছে, একটি বিশেষভাবে শক্তিশালী কনভারজেন্স পয়েন্ট সহ:
![2d প্লট](../../../../../translated_images/bn/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2d প্লট](../../../../../translated_images/bn/2d-plot.c504786f439bd7eb.webp)
হিস্টোগ্রাম ডিফল্টভাবে সংখ্যাসূচক ডেটার জন্য ভালো কাজ করে। যদি আপনি টেক্সট ডেটা অনুযায়ী ডিস্ট্রিবিউশন দেখতে চান তাহলে কী করবেন?
## টেক্সট ডেটা ব্যবহার করে ডেটাসেটের ডিস্ট্রিবিউশন অন্বেষণ করুন
@ -113,7 +113,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![উইংসপ্যান এবং সংরক্ষণ সংকলন](../../../../../translated_images/bn/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![উইংসপ্যান এবং সংরক্ষণ সংকলন](../../../../../translated_images/bn/wingspan-conservation-collation.4024e9aa6910866a.webp)
সর্বনিম্ন উইংসপ্যান এবং সংরক্ষণ অবস্থার মধ্যে ভালো সম্পর্ক দেখা যাচ্ছে না। এই পদ্ধতি ব্যবহার করে ডেটাসেটের অন্যান্য উপাদান পরীক্ষা করুন। আপনি বিভিন্ন ফিল্টারও চেষ্টা করতে পারেন। কোনো সম্পর্ক খুঁজে পাচ্ছেন কি?
@ -127,7 +127,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![ডেনসিটি প্লট](../../../../../translated_images/bn/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![ডেনসিটি প্লট](../../../../../translated_images/bn/density-plot.675ccf865b76c690.webp)
আপনি দেখতে পাচ্ছেন যে প্লটটি পূর্বের সর্বনিম্ন উইংসপ্যান ডেটার মতোই প্রতিধ্বনিত করছে; এটি শুধু একটু মসৃণ। যদি আপনি দ্বিতীয় চার্টে তৈরি করা সেই খাঁজযুক্ত MaxBodyMass লাইনটি পুনরায় দেখতে চান, আপনি এটি এই পদ্ধতি ব্যবহার করে খুব ভালোভাবে মসৃণ করতে পারেন:
@ -135,7 +135,7 @@ ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![শরীরের ভরের ডেনসিটি](../../../../../translated_images/bn/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![শরীরের ভরের ডেনসিটি](../../../../../translated_images/bn/bodymass-smooth.d31ce526d82b0a1f.webp)
যদি আপনি একটি মসৃণ, তবে খুব বেশি মসৃণ না হওয়া লাইন চান, তাহলে `adjust` প্যারামিটার সম্পাদনা করুন:
@ -143,7 +143,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![কম মসৃণ শরীরের ভর](../../../../../translated_images/bn/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![কম মসৃণ শরীরের ভর](../../../../../translated_images/bn/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ এই ধরনের প্লটের জন্য উপলব্ধ প্যারামিটার সম্পর্কে পড়ুন এবং পরীক্ষা করুন!
@ -153,7 +153,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![অর্ডার অনুযায়ী শরীরের ভর](../../../../../translated_images/bn/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![অর্ডার অনুযায়ী শরীরের ভর](../../../../../translated_images/bn/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 চ্যালেঞ্জ

@ -88,7 +88,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
দেখুন, একটি পাই চার্ট যা এই ডেটার অনুপাত দেখাচ্ছে এই দুই শ্রেণীর মাশরুম অনুযায়ী। এখানে লেবেলের ক্রম সঠিকভাবে পাওয়া খুবই গুরুত্বপূর্ণ, তাই নিশ্চিত করুন যে লেবেল অ্যারে তৈরি করার সময় ক্রমটি যাচাই করেছেন!
![pie chart](../../../../../translated_images/bn/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![pie chart](../../../../../translated_images/bn/pie1-wb.685df063673751f4.webp)
## ডোনাট!
@ -123,7 +123,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![donut chart](../../../../../translated_images/bn/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![donut chart](../../../../../translated_images/bn/donut-wb.34e6fb275da9d834.webp)
এই কোডটি দুটি লাইব্রেরি ব্যবহার করে - ggplot2 এবং webr। webr লাইব্রেরির PieDonut ফাংশন ব্যবহার করে আমরা সহজেই একটি ডোনাট চার্ট তৈরি করতে পারি!
@ -161,7 +161,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
ওয়াফল চার্ট ব্যবহার করে, আপনি স্পষ্টভাবে এই মাশরুম ডেটাসেটের ক্যাপ রঙের অনুপাত দেখতে পারেন। মজার বিষয় হলো, অনেক সবুজ ক্যাপযুক্ত মাশরুম রয়েছে!
![waffle chart](../../../../../translated_images/bn/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![waffle chart](../../../../../translated_images/bn/waffle.aaa75c5337735a6e.webp)
এই পাঠে, আপনি অনুপাত ভিজ্যুয়ালাইজ করার তিনটি উপায় শিখেছেন। প্রথমে, আপনাকে আপনার ডেটাকে ক্যাটাগরিতে গ্রুপ করতে হবে এবং তারপর সিদ্ধান্ত নিতে হবে কোনটি ডেটা প্রদর্শনের সেরা উপায় - পাই, ডোনাট, বা ওয়াফল। সবগুলোই মজাদার এবং ব্যবহারকারীকে একটি ডেটাসেটের তাৎক্ষণিক স্ন্যাপশট প্রদান করে।

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/bn/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/bn/scatter1.86b8900674d88b26.webp)
এখন, একই ডেটা একটি মধু রঙের স্কিম দিয়ে দেখান যাতে বছরের পর বছর দাম কীভাবে পরিবর্তিত হয়েছে তা প্রদর্শিত হয়। এটি করতে, 'scale_color_gradientn' প্যারামিটার যোগ করুন যা পরিবর্তন দেখায়:
@ -52,7 +52,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/bn/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/bn/scatter2.4d1cbc693bad20e2.webp)
এই রঙের স্কিম পরিবর্তনের মাধ্যমে, আপনি দেখতে পারেন যে প্রতি পাউন্ড মধুর দামের ক্ষেত্রে বছরের পর বছর একটি শক্তিশালী অগ্রগতি রয়েছে। আসলে, যদি আপনি ডেটার একটি নমুনা সেট পরীক্ষা করেন (উদাহরণস্বরূপ, একটি নির্দিষ্ট রাজ্য, অ্যারিজোনা), আপনি দেখতে পাবেন যে বছরের পর বছর দামের বৃদ্ধির একটি প্যাটার্ন রয়েছে, কয়েকটি ব্যতিক্রম সহ:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
আপনি দেখতে পাবেন ডটের আকার ধীরে ধীরে বৃদ্ধি পাচ্ছে।
![scatterplot 3](../../../../../translated_images/bn/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/bn/scatter3.722d21e6f20b3ea2.webp)
এটি কি সরবরাহ এবং চাহিদার একটি সাধারণ ঘটনা? জলবায়ু পরিবর্তন এবং কলোনি ধ্বংসের মতো কারণগুলির কারণে, প্রতি বছর কেনার জন্য কম মধু পাওয়া যাচ্ছে, এবং তাই দাম বাড়ছে?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
উত্তর: হ্যাঁ, ২০০৩ সালের আশেপাশে কিছু ব্যতিক্রম সহ:
![line chart 1](../../../../../translated_images/bn/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/bn/line1.299b576fbb2a59e6.webp)
প্রশ্ন: তাহলে, ২০০৩ সালে মধুর সরবরাহে কি কোনো স্পাইক দেখা যায়? যদি আপনি বছর বছর মোট উৎপাদন দেখেন?
@ -106,7 +106,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/bn/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/bn/line2.3b18fcda7176ceba.webp)
উত্তর: আসলে না। যদি আপনি মোট উৎপাদন দেখেন, এটি সেই নির্দিষ্ট বছরে বৃদ্ধি পেয়েছে বলে মনে হয়, যদিও সাধারণভাবে এই বছরগুলিতে উৎপাদিত মধুর পরিমাণ হ্রাস পাচ্ছে।
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
এই ভিজ্যুয়ালাইজেশনে, আপনি প্রতি কলোনির উৎপাদন এবং কলোনির সংখ্যা বছর বছর, রাজ্য রাজ্য পাশাপাশি তুলনা করতে পারেন, যেখানে কলামের জন্য wrap 3 সেট করা হয়েছে:
![facet grid](../../../../../translated_images/bn/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/bn/facet.491ad90d61c2a7cc.webp)
এই ডেটাসেটের জন্য, রাজ্য রাজ্য এবং বছর বছর কলোনির সংখ্যা এবং তাদের উৎপাদনের ক্ষেত্রে কিছুই বিশেষভাবে আলাদা করে দাঁড়ায় না। এই দুটি ভেরিয়েবলের মধ্যে সম্পর্ক খুঁজে বের করার জন্য দেখার অন্য কোনো উপায় কি আছে?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/bn/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/bn/dual-line.fc4665f360a54018.webp)
যদিও ২০০৩ সালের আশেপাশে চোখে কিছুই ধরা পড়ে না, এটি আমাদের এই পাঠটি একটি সামান্য সুখী নোটে শেষ করার অনুমতি দেয়: যদিও সামগ্রিকভাবে কলোনির সংখ্যা হ্রাস পাচ্ছে, কলোনির সংখ্যা স্থিতিশীল হচ্ছে যদিও তাদের প্রতি কলোনির উৎপাদন হ্রাস পাচ্ছে।

@ -38,25 +38,25 @@
একজন ডেটা সায়েন্টিস্ট সঠিক ডেটার জন্য সঠিক চার্ট নির্বাচন করলেও, ডেটা এমনভাবে প্রদর্শন করা যেতে পারে যা একটি পয়েন্ট প্রমাণ করে, প্রায়শই ডেটার বিশ্বাসযোগ্যতাকে ক্ষুণ্ন করে। প্রতারণামূলক চার্ট এবং ইনফোগ্রাফিক্সের অনেক উদাহরণ রয়েছে!
[![আলবার্তো কায়রোর "হাউ চার্টস লাই"](../../../../../translated_images/bn/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[![আলবার্তো কায়রোর "হাউ চার্টস লাই"](../../../../../translated_images/bn/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 প্রতারণামূলক চার্ট নিয়ে একটি কনফারেন্স টক দেখতে উপরের ছবিতে ক্লিক করুন
এই চার্টটি তারিখের ভিত্তিতে সত্যের বিপরীত দেখানোর জন্য X অক্ষটি উল্টে দিয়েছে:
![খারাপ চার্ট 1](../../../../../translated_images/bn/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![খারাপ চার্ট 1](../../../../../translated_images/bn/bad-chart-1.596bc93425a8ac30.webp)
[এই চার্টটি](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) আরও প্রতারণামূলক, কারণ চোখ ডানদিকে আকৃষ্ট হয় এবং মনে হয় যে সময়ের সাথে সাথে বিভিন্ন কাউন্টিতে COVID কেস কমেছে। প্রকৃতপক্ষে, তারিখগুলো ঘনিষ্ঠভাবে দেখলে, আপনি দেখতে পাবেন যে সেগুলো পুনর্বিন্যাস করা হয়েছে যাতে একটি প্রতারণামূলক নিম্নগামী প্রবণতা দেখানো যায়।
![খারাপ চার্ট 2](../../../../../translated_images/bn/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![খারাপ চার্ট 2](../../../../../translated_images/bn/bad-chart-2.62edf4d2f30f4e51.webp)
এই কুখ্যাত উদাহরণটি রঙ এবং একটি উল্টানো Y অক্ষ ব্যবহার করে প্রতারণা করে: বন্দুক-বান্ধব আইন পাস হওয়ার পরে বন্দুক মৃত্যুর সংখ্যা বেড়েছে, এটি বোঝানোর পরিবর্তে চোখকে প্রতারিত করে বিপরীতটি ভাবতে বাধ্য করে:
![খারাপ চার্ট 3](../../../../../translated_images/bn/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![খারাপ চার্ট 3](../../../../../translated_images/bn/bad-chart-3.e201e2e915a230bc.webp)
এই অদ্ভুত চার্টটি দেখায় যে অনুপাত কীভাবে হাস্যকরভাবে হেরফের করা যায়:
![খারাপ চার্ট 4](../../../../../translated_images/bn/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![খারাপ চার্ট 4](../../../../../translated_images/bn/bad-chart-4.8872b2b881ffa96c.webp)
অতুলনীয় জিনিসের তুলনা করাও আরেকটি ছলনামূলক কৌশল। একটি [অসাধারণ ওয়েবসাইট](https://tylervigen.com/spurious-correlations) রয়েছে যা 'স্পুরিয়াস করেলেশন' প্রদর্শন করে, যেমন মেইনে ডিভোর্স রেট এবং মার্জারিনের খরচের মধ্যে সম্পর্ক। একটি Reddit গ্রুপও ডেটার [খারাপ ব্যবহারের](https://www.reddit.com/r/dataisugly/top/?t=all) উদাহরণ সংগ্রহ করে।
@ -91,13 +91,13 @@
যদি আপনার ডেটা X অক্ষে টেক্সট এবং বিস্তারিত হয়, তবে আরও ভালোভাবে পড়ার জন্য টেক্সটটি কোণাকৃতিতে সাজাতে পারেন। [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) 3D প্লটিং অফার করে, যদি আপনার ডেটা এটি সমর্থন করে। এটি ব্যবহার করে উন্নত ডেটা ভিজ্যুয়ালাইজেশন তৈরি করা যায়।
![3D প্লট](../../../../../translated_images/bn/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3D প্লট](../../../../../translated_images/bn/3d.db1734c151eee87d.webp)
## অ্যানিমেশন এবং 3D চার্ট প্রদর্শন
আজকের সেরা ডেটা ভিজ্যুয়ালাইজেশনগুলোর মধ্যে কিছু অ্যানিমেটেড। শার্লি উ D3 দিয়ে তৈরি অসাধারণ ভিজ্যুয়ালাইজেশন করেছেন, যেমন '[ফিল্ম ফ্লাওয়ারস](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', যেখানে প্রতিটি ফুল একটি সিনেমার ভিজ্যুয়ালাইজেশন। আরেকটি উদাহরণ হলো 'বাস্ট আউট', যা গ্রিনসক এবং D3-এর সাথে ভিজ্যুয়ালাইজেশন এবং স্ক্রোলিটেলিং আর্টিকেল ফরম্যাটকে একত্রিত করে দেখায় কীভাবে NYC তার গৃহহীন সমস্যার সমাধান করে।
![বাসিং](../../../../../translated_images/bn/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![বাসিং](../../../../../translated_images/bn/busing.8157cf1bc89a3f65.webp)
> "বাস্ট আউট: আমেরিকা কীভাবে তার গৃহহীন মানুষদের সরিয়ে দেয়" [দ্য গার্ডিয়ান](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study) থেকে। ভিজ্যুয়ালাইজেশন: নাদিয়েহ ব্রেমার এবং শার্লি উ
@ -107,7 +107,7 @@
আপনি একটি ওয়েব অ্যাপ সম্পন্ন করবেন যা এই সামাজিক নেটওয়ার্কের একটি অ্যানিমেটেড ভিউ প্রদর্শন করবে। এটি একটি লাইব্রেরি ব্যবহার করে তৈরি করা হয়েছে যা Vue.js এবং D3 ব্যবহার করে একটি [নেটওয়ার্কের ভিজ্যুয়াল](https://github.com/emiliorizzo/vue-d3-network) তৈরি করে।
![লিয়াজঁ](../../../../../translated_images/bn/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![লিয়াজঁ](../../../../../translated_images/bn/liaisons.90ce7360bcf84765.webp)
## প্রকল্প: D3.js ব্যবহার করে একটি নেটওয়ার্ক দেখানোর জন্য একটি চার্ট তৈরি করুন

@ -1,6 +1,6 @@
# ভিজুয়ালাইজেশন
![ল্যাভেন্ডার ফুলে একটি মৌমাছি](../../../translated_images/bn/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![ল্যাভেন্ডার ফুলে একটি মৌমাছি](../../../translated_images/bn/bee.0aa1d91132b12e3a.webp)
> ছবি <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">জেনা লি</a> এর তোলা <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">আনস্প্ল্যাশ</a>
ডেটা ভিজুয়ালাইজ করা একজন ডেটা সায়েন্টিস্টের সবচেয়ে গুরুত্বপূর্ণ কাজগুলোর একটি। একটি ছবি হাজার শব্দের সমান, এবং একটি ভিজুয়ালাইজেশন আপনাকে আপনার ডেটার বিভিন্ন আকর্ষণীয় অংশ যেমন স্পাইক, আউটলায়ার, গ্রুপিং, প্রবণতা এবং আরও অনেক কিছু চিহ্নিত করতে সাহায্য করতে পারে, যা আপনার ডেটা যে গল্পটি বলতে চায় তা বুঝতে সাহায্য করে।

@ -16,7 +16,7 @@
এই পাঠটি লাইফসাইকেলের ৩টি অংশের উপর কেন্দ্রীভূত: ডেটা সংগ্রহ, প্রক্রিয়াকরণ এবং রক্ষণাবেক্ষণ।
![ডেটা সায়েন্স লাইফসাইকেলের চিত্র](../../../../translated_images/bn/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![ডেটা সায়েন্স লাইফসাইকেলের চিত্র](../../../../translated_images/bn/data-science-lifecycle.a1e362637503c4fb.webp)
> ছবি [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) দ্বারা
## ডেটা সংগ্রহ
@ -89,7 +89,7 @@
|টিম ডেটা সায়েন্স প্রক্রিয়া (TDSP)|ক্রস-ইন্ডাস্ট্রি স্ট্যান্ডার্ড প্রক্রিয়া ফর ডেটা মাইনিং (CRISP-DM)|
|--|--|
|![টিম ডেটা সায়েন্স লাইফসাইকেল](../../../../translated_images/bn/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![ডেটা সায়েন্স প্রক্রিয়া অ্যালায়েন্স চিত্র](../../../../translated_images/bn/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![টিম ডেটা সায়েন্স লাইফসাইকেল](../../../../translated_images/bn/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![ডেটা সায়েন্স প্রক্রিয়া অ্যালায়েন্স চিত্র](../../../../translated_images/bn/CRISP-DM.8bad2b4c66e62aa7.webp) |
| ছবি [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) দ্বারা | ছবি [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) দ্বারা |
## [পোস্ট-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# ডেটা সায়েন্স লাইফসাইকেল
![communication](../../../translated_images/bn/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/bn/communication.06d8e2a88d30d168.webp)
> ছবি <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> এর সৌজন্যে <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
এই পাঠগুলোতে, আপনি ডেটা সায়েন্স লাইফসাইকেলের কিছু দিক অন্বেষণ করবেন, যার মধ্যে ডেটা বিশ্লেষণ এবং যোগাযোগ অন্তর্ভুক্ত।

@ -1,12 +1,12 @@
# ক্লাউডে ডেটা সায়েন্স
![cloud-picture](../../../translated_images/bn/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/bn/cloud-picture.f5526de3c6c6387b.webp)
> ছবি: [Jelleke Vanooteghem](https://unsplash.com/@ilumire) [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) থেকে
বড় ডেটার সাথে ডেটা সায়েন্স করার ক্ষেত্রে ক্লাউড একটি বড় পরিবর্তন আনতে পারে। পরবর্তী তিনটি পাঠে আমরা দেখব ক্লাউড কী এবং এটি কেন খুবই সহায়ক হতে পারে। আমরা একটি হার্ট ফেইলিউর ডেটাসেট বিশ্লেষণ করব এবং একটি মডেল তৈরি করব যা কারো হার্ট ফেইলিউরের সম্ভাবনা মূল্যায়নে সাহায্য করবে। আমরা ক্লাউডের শক্তি ব্যবহার করে মডেলটি প্রশিক্ষণ, ডিপ্লয় এবং দুটি ভিন্ন উপায়ে ব্যবহার করব। একটি উপায় শুধুমাত্র ব্যবহারকারীর ইন্টারফেস ব্যবহার করে "লো কোড/নো কোড" পদ্ধতিতে, অন্যটি Azure Machine Learning Software Developer Kit (Azure ML SDK) ব্যবহার করে।
![project-schema](../../../translated_images/bn/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/bn/project-schema.420e56d495624541.webp)
### বিষয়বস্তু

@ -32,7 +32,7 @@
* [স্বাস্থ্যসেবায় ডেটা সায়েন্স](https://data-flair.training/blogs/data-science-in-healthcare/) - মেডিকেল ইমেজিং (যেমন এমআরআই, এক্স-রে, সিটি-স্ক্যান), জিনোমিক্স (ডিএনএ সিকোয়েন্সিং), ওষুধ উন্নয়ন (ঝুঁকি মূল্যায়ন, সাফল্যের পূর্বাভাস), পূর্বাভাসমূলক বিশ্লেষণ (রোগীর যত্ন এবং সরবরাহ লজিস্টিকস), রোগ ট্র্যাকিং এবং প্রতিরোধ ইত্যাদির মতো প্রয়োগ তুলে ধরে।
![বাস্তব জীবনে ডেটা সায়েন্সের প্রয়োগ](../../../../translated_images/bn/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) চিত্র ক্রেডিট: [ডেটা ফ্লেয়ার: ৬টি অসাধারণ ডেটা সায়েন্স প্রয়োগ](https://data-flair.training/blogs/data-science-applications/)
![বাস্তব জীবনে ডেটা সায়েন্সের প্রয়োগ](../../../../translated_images/bn/data-science-applications.4e5019cd8790ebac.webp) চিত্র ক্রেডিট: [ডেটা ফ্লেয়ার: ৬টি অসাধারণ ডেটা সায়েন্স প্রয়োগ](https://data-flair.training/blogs/data-science-applications/)
চিত্রটি ডেটা সায়েন্স কৌশল প্রয়োগের অন্যান্য ডোমেইন এবং উদাহরণ দেখায়। আরও প্রয়োগ অন্বেষণ করতে চান? নীচের [পর্যালোচনা এবং স্ব-অধ্যয়ন](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) বিভাগটি দেখুন।

@ -13,7 +13,7 @@
2. ডেটাসেট [ক্যাটালগ](https://planetarycomputer.microsoft.com/catalog) অন্বেষণ করুন - প্রতিটির উদ্দেশ্য শিখুন।
3. এক্সপ্লোরার ব্যবহার করুন - একটি আগ্রহের ডেটাসেট নির্বাচন করুন, একটি প্রাসঙ্গিক কোয়েরি এবং রেন্ডারিং অপশন নির্বাচন করুন।
![প্ল্যানেটারি কম্পিউটার এক্সপ্লোরার](../../../../translated_images/bn/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![প্ল্যানেটারি কম্পিউটার এক্সপ্লোরার](../../../../translated_images/bn/planetary-computer-explorer.c1e95a9b053167d6.webp)
`আপনার কাজ:`
এখন ব্রাউজারে রেন্ডার করা ভিজ্যুয়ালাইজেশনটি অধ্যয়ন করুন এবং নিম্নলিখিত প্রশ্নগুলির উত্তর দিন:

@ -1,4 +1,4 @@
# শিক্ষানবিসদের জন্য ডেটা সায়েন্স - একটি কার্যক্রম
# ডেটা সায়েন্স ফর বিগিনার্স - একটি পাঠ্যক্রম
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
@ -17,237 +17,247 @@
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
মাইক্রোসফট-এর আজুর ক্লাউড অ্যাডভোকেটরা আনন্দিত যে তারা ১০ সপ্তাহ, ২০টি পাঠের একটি পুরোপুরি ডেটা সায়েন্স সম্পর্কিত কার্যক্রম প্রদান করছে। প্রতিটি পাঠের মধ্যে থাকে প্র-পাঠ ও পোস্ট-পাঠ কোয়িজ, পাঠ সম্পন্ন করার জন্য লিখিত নির্দেশাবলী, একটি সমাধান এবং একটি নিয়োগ। আমাদের প্রকল্প-ভিত্তিক শিক্ষণ পদ্ধতি আপনাকে শেখার সময় তৈরি করতে দেয়, যা নতুন দক্ষতার জন্য প্রমাণিত একটি কার্যকর পদ্ধতি।
মাইক্রোসফট-এর আজুর ক্লাউড অ্যাডভোকেটরা ১০ সপ্তাহ, ২০-টি পাঠের একটি পূর্ণাঙ্গ ডেটা সায়েন্স বিষয়ক পাঠ্যক্রম উপস্থাপন করতে পেরে আনন্দিত। প্রতিটি পাঠে অন্তর্ভুক্ত রয়েছে প্রাক-পাঠ এবং পাঠোত্তর কুইজ, পাঠ সম্পন্ন করার জন্য লিখিত নির্দেশাবলী, একটি সমাধান, এবং একটি অ্যাসাইনমেন্ট। আমাদের প্রকল্প-ভিত্তিক শিক্ষাদান পদ্ধতি আপনাকে তৈরি করে শেখার সুযোগ দেয়, যা নতুন দক্ষতা অর্জনের জন্য প্রমাণিত একটি পদ্ধতি।
**আমাদের লেখকদের প্রতি হৃদয়ঙ্গম ধন্যবাদ:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer)।
**আমাদের লেখকদের প্রতি আন্তরিক ধন্যবাদ:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer)।
**🙏 বিশেষ ধন্যবাদ 🙏 আমাদের [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) লেখক, পর্যালোচক এবং বিষয়বস্তু প্রদানকারীদের,** বিশেষ করে Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 বিশেষ ধন্যবাদ 🙏 আমাদের [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) লেখক, পর্যালোচনা এবং বিষয়বস্তু সরবরাহকারী দলকে,** বিশেষত Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/bn/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| শিক্ষানবিসদের জন্য ডেটা সায়েন্স - _স্কেচনোট [@nitya](https://twitter.com/nitya) দ্বারা_ |
| ডেটা সায়েন্স ফর বিগিনার্স - _স্কেচনোট করা হয়েছে [@nitya](https://twitter.com/nitya) দ্বারা_ |
### 🌐 বহু-ভাষা সমর্থন
### 🌐 বহু-ভাষা সাপোর্ট
#### GitHub Action এর মাধ্যমে সমর্থিত (স্বয়ংক্রিয় ও সর্বদা আপ-টু-ডেট)
#### গিটহাব অ্যাকশনের মাধ্যমে সমর্থিত (স্বয়ংক্রিয় ও সর্বদা আপডেটেড)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](./README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **স্থানীয়ভাবে ক্লোন করতে চান?**
> এই রিপোজিটোরিতে ৫০+ ভাষার অনুবাদ রয়েছে যা ডাউনলোড সাইজ বেশ বড় করে তোলে। অনুবাদ ছাড়া ক্লোন করতে sparse checkout ব্যবহার করুন:
>
> এই রিপোজিটরির মধ্যে ৫০+ ভাষার অনুবাদ অন্তর্ভুক্ত রয়েছে যা ডাউনলোডের আকার অনেক বাড়িয়ে দেয়। শুধুমাত্র মূল কোর্স ক্লোন করতে স্পার্স চেকআউট ব্যবহার করুন:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> এটি আপনাকে দ্রুত ডাউনলোডসহ কোর্স সম্পন্ন করার জন্য প্রয়োজনীয় সবকিছু দেবে।
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> এর ফলে আপনি দ্রুত ডাউনলোড করে কোর্স সম্পন্ন করার জন্য প্রয়োজনীয় সকল কিছু পাবেন।
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**আপনি যদি অতিরিক্ত অনুবাদ ভাষাগুলি চান তবে তালিকাভুক্ত রয়েছে [এখানে](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**আপনি যদি অতিরিক্ত ভাষার অনুবাদের জন্য আগ্রহী হন তবে সেগুলো [এখানে](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) পাওয়া যাবে**
#### আমাদের সম্প্রদায়ে যোগ দিন
#### আমাদের কমিউনিটিতে যোগ দিন
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
আমাদের একটি Discord AI শেখার সিরিজ চলছে, আরও জানতে এবং যুক্ত হতে পারেন [Learn with AI Series](https://aka.ms/learnwithai/discord) এ ১৮ থেকে ৩০ সেপ্টেম্বর, ২০২৫। আপনি GitHub Copilot ব্যবহার করে ডেটা সায়েন্সের টিপস এবং ট্রিকস পাবেন।
আমাদের একটি ডিসকর্ড শেখার AI সিরিজ চলছে, আরো জানুন এবং আমাদের সঙ্গে যোগ দিন [Learn with AI Series](https://aka.ms/learnwithai/discord) ১৮ - ৩০ সেপ্টেম্বর, ২০২৫ থেকে। আপনি ডেটা সায়েন্সের জন্য GitHub Copilot ব্যবহারের টিপস এবং কৌশল শিখতে পারবেন।
![Learn with AI series](../../translated_images/bn/1.2b28cdc6205e26fe.webp)
# আপনি কি একজন ছাত্র?
নিম্নলিখিত সম্পদ দিয়ে শুরু করুন:
নিম্নলিখিত সম্পদ দিে শুরু করুন:
- [ছাত্র হাব পেজ](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) এই পাতায় আপনি পাবেন শিক্ষানবিসদের জন্য সম্পদ, ছাত্র প্যাক এবং এমনকি একটি ফ্রি সার্টিফিকেট ভাউচারের উপায়। এটি একটি পাতা যা আপনি বুকমার্ক করে সময়ে সময়ে চেক করবেন কারণ আমরা অন্তত প্রতি মাসে বিষয়বস্তু পরিবর্তন করি।
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) গ্লোবাল ছাত্র অ্যাম্বাসেডরদের একটি সম্প্রদায়ে যোগ দিন, যা আপনার মাইক্রোসফটে প্রবেশদ্বার হতে পারে।
- [Student Hub page](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) এই পৃষ্ঠায় আপনি শুরু করার জন্য সম্পদ, ছাত্র প্যাক এবং এমনকি একটি ফ্রী সার্টিফিকেট ভাউচার পাওয়ার উপায় খুঁজে পাবেন। এটি একটি পৃষ্ঠা যা আপনি বুকমার্ক করে সময়ে সময়ে পরীক্ষা করবেন কারণ আমরা প্রতি মাসে অন্তত একটি বার কনটেন্ট পরিবর্তন করি।
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) একটি বৈশ্বিক ছাত্র অ্যাম্বাসেডর কমিউনিটির সঙ্গে যোগ দিন, এটি আপনার Microsoft-এ প্রবেশের পথ হতে পারে।
# শুরু করাঃ
# শুরু করুন
## 📚 ডকুমেন্টেশন
- **[ইনস্টলেশন গাইড](INSTALLATION.md)** - শিক্ষানবিসদের জন্য ধাপে ধাপে ইনস্টলেশন নির্দেশন
- **[ব্যবহার নির্দেশিকা](USAGE.md)** - উদাহরণ এবং সাধারণ কাজের প্রবাহ
- **[ইনস্টলেশন গাইড](INSTALLATION.md)** - নতুনদের জন্য ধাপে ধাপে সেটআপ নির্দেশিক
- **[ব্যবহার গাইড](USAGE.md)** - উদাহরণ এবং সাধারণ প্রকরণ
- **[সমস্যা সমাধান](TROUBLESHOOTING.md)** - সাধারণ সমস্যার সমাধান
- **[অংশগ্রহণ গাইড](CONTRIBUTING.md)** - এই প্রকল্পে কীভাবে অবদান রাখতে হয়
- **[শিক্ষকদের জন্য](for-teachers.md)** - শিক্ষাদান নির্দেশিকা এবং শ্রেণিকক্ষ সম্পদ
- **[কন্ট্রিবিউটিং গাইড](CONTRIBUTING.md)** - এই প্রকল্পে কিভাবে অবদান করতে হবে
- **[শিক্ষকদের জন্য](for-teachers.md)** - শিক্ষাদান নির্দেশিকা ও শ্রেণীকক্ষের সম্পদ
## 👨‍🎓 শিক্ষার্থীদের জন্য
> **সম্পূর্ণ শিক্ষানবিস**: ডেটা সায়েন্সে নতুন? আমাদের [শিখতে সহজ উদাহরণ](examples/README.md) দিয়ে শুরু করুন! এই সাধারণ, ভালোভাবে মন্তব্য করা উদাহরণগুলি আপনাকে পূর্ণ কার্যক্রমে প্রবেশ করার আগে মৌলিক বিষয়গুলি বুঝতে সাহায্য করবে।
> **[ছাত্রছাত্রীদের জন্য](https://aka.ms/student-page)**: এই কার্যক্রমটি নিজের মতো ব্যবহার করতে, পুরো রিপোটি fork করুন এবং নিজে নিজে pre-lecture quiz থেকে শুরু করে অনুশীলনগুলি সম্পন্ন করুন। তারপর পাঠ পড়ুন এবং বাকি কার্যকলাপগুলি সম্পন্ন করুন। সমাধান কোড অনুলিপি করার পরিবর্তে পাঠগুলি বুঝে প্রকল্পগুলি তৈরি করার চেষ্টা করুন; তবে সেই কোড প্রতিটি প্রকল্প-কেন্দ্রিক পাঠের /solutions ফোল্ডারে উপলব্ধ। আরেকটি ধারণা হল বন্ধুদের সাথে একটি অধ্যয়ন গোষ্ঠী গঠন করে একসঙ্গে বিষয়বস্তু পড়া। আরও অধ্যয়নের জন্য, আমরা সুপারিশ করি [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)।
> **সম্পূর্ণ নতুন:** ডেটা সায়েন্সে নতুন? আমাদের [শুরু করার জন্য বন্ধুবৎসল উদাহরণ](examples/README.md) দিয়ে শুরু করুন! এই সহজ, ভালভাবে মন্তব্য করা উদাহরণগুলি আপনাকে সম্পূর্ণ পাঠ্যক্রমে প্রবেশ করার আগে মূল বিষয়গুলি বুঝতে সাহায্য করবে।
> **[ছাত্ররা](https://aka.ms/student-page):** এই পাঠ্যক্রম নিজে থেকে ব্যবহার করতে, পুরো রিপো ফর্ক করুন এবং প্রথমে প্রি-লেকচার কুইজ থেকে শুরু করে একে একে পাঠ শেষ করুন এবং বাকি কার্যক্রম সম্পন্ন করুন। সমাধান কোড কপি করার পরিবর্তে পাঠ বুঝে প্রকল্প তৈরি করার চেষ্টা করুন; যদিও প্রতিটি প্রকল্প-ভিত্তিক পাঠে /solutions ফোল্ডারে সেই কোড পাওয়া যায়। আরেকটি ধারণা হলো বন্ধুদের সাথে একটি স্টাডি গ্রুপ তৈরি করে একসাথে বিষয়বস্তু অনুসরণ করা। আরও অধ্যয়নের জন্য আমরা সুপারিশ করি [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)।
**দ্রুত শুরু:**
1. আপনার পরিবেশ সেটআপ করার জন্য [ইনস্টলেশন গাইড](INSTALLATION.md) দেখে নি
2. কার্যক্রম নিয়ে কাজ করার জন্য [ব্যবহার নির্দেশিকা](USAGE.md) পর্যালোচনা করুন
**দ্রুত শুরু করুন:**
1. পরিবেশ সেটআপের জন্য [ইনস্টলেশন গাইড](INSTALLATION.md) দেখ
2. পাঠ্যক্রম নিয়ে কাজ করার জন্য [ব্যবহার গাইড](USAGE.md) পর্যালোচনা করুন
3. পাঠ ১ থেকে শুরু করে ধারাবাহিকভাবে কাজ করুন
4. সহায়তার জন্য আমাদের [Discord সম্প্রদায়ে](https://aka.ms/ds4beginners/discord) যোগ দিন
4. সহায়তার জন্য আমাদের [ডিসকর্ড কমিউনিটিতে](https://aka.ms/ds4beginners/discord) যোগ দিন
## 👩‍🏫 শিক্ষকদের জন্য
> **শিক্ষকগণ**: আমরা এই পাঠ্যক্রমটি কীভাবে ব্যবহার করবেন তার জন্য [কিছু পরামর্শ যুক্ত করেছি](for-teachers.md)। আমরা আপনার মতামত শুনতে আগ্রহী [আমাদের আলোচনার ফোরামে](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **শিক্ষকবৃন্দ**: আমরা [এই কার্যক্রম ব্যবহারের জন্য কিছু পরামর্শ](for-teachers.md) জুড়েছি। আপনার ফিডব্যাকের অপেক্ষায় আছি [আমাদের আলোচনা ফোরামে](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## দলকে চেনো
## টিমের সাথে পরিচিতি
[![প্রচার ভিডিও](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "প্রচার ভিডিও")
[![প্রচার ভিডিও](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Promo video")
**গিফ দ্বারা** [মোহিত জৈসাল](https://www.linkedin.com/in/mohitjaisal)
**জিফটি করেছেন** [মোহিত যৈসল](https://www.linkedin.com/in/mohitjaisal)
> 🎥 উপরের ছবিতে ক্লিক করুন প্রজেক্ট এবং এটি যারা তৈরি করেছে তাদের সম্পর্কে একটি ভিডিও দেখতে!
> 🎥 প্রকল্প ও এটি তৈরি করা ব্যক্তিদের সম্পর্কে ভিডিও দেখার জন্য উপরের ছবিতে ক্লিক করুন!
## শিক্ষণশাস্ত্র
## শিক্ষাদান পদ্ধতি
এই পাঠক্রম তৈরির সময় আমরা দুটি শিক্ষণমূলক নীতিমালা নির্বাচন করেছি: এটি প্রকল্পভিত্তিক হওয়া এবং এতে ঘনঘন কুইজ অন্তর্ভুক্ত থাকা। এই সিরিজ শেষ হওয়ার পর, শিক্ষার্থীরা ডেটা সায়েন্সের মৌলিক নীতিমালা শিখবে, যার মধ্যে রয়েছে নৈতিক ধারণা, ডেটা প্রস্তুতি, ডেটার সাথে কাজ করার বিভিন্ন পদ্ধতি, ডেটা ভিজ্যুয়ালাইজেশন, ডেটা বিশ্লেষণ, ডেটা সায়েন্সের বাস্তব প্রয়োগ, এবং আরও অনেক কিছু।
আমরা এই পাঠ্যক্রম তৈরি করার সময় দুটি শিক্ষাদান নীতি বেছে নিয়েছি: এটি অবশ্যই প্রকল্প-ভিত্তিক হতে হবে এবং এতে নিয়মিত কুইজ অন্তর্ভুক্ত থাকতে হবে। এই সিরিজের শেষে, শিক্ষার্থীরা ডাটা সায়েন্সের মৌলিক নীতিমালা শিখবে, যার মধ্যে রয়েছে নৈতিক বিষয়সমূহ, ডাটা প্রস্তুতি, ডাটার বিভিন্ন কাজের পদ্ধতি, তথ্যচিত্রায়ন, ডাটা বিশ্লেষণ, ডাটা সায়েন্সের বাস্তব-জগতের ব্যবহার এবং আরও অনেক কিছু।
অতিরিক্তভাবে, ক্লাসের আগে একটি নিম্ন চাপের কুইজ শিক্ষার্থীর একটি বিষয়ে শিখতে ইচ্ছা প্রকাশ করে, আর ক্লাসের পরের দ্বিতীয় কুইজ আরও ধারণ বজায় রাখে। এই পাঠক্রম নমনীয় এবং মজাদার করার জন্য ডিজাইন করা হয়েছে এবং এটি সম্পূর্ণ বা আংশিকভাবে নেওয়া যেতে পারে। প্রকল্পগুলি ছোট থেকে শুরু হয় এবং ১০ সপ্তাহের চক্র শেষ পর্যন্ত ক্রমশ জটিল হয়
অতিরিক্তভাবে, ক্লাসের আগে একটি কম চাপে কুইজ শিক্ষার্থীর শেখার উদ্দেশ্য নির্ধারণ করে, এবং ক্লাসের পরে দ্বিতীয় কুইজ উচ্চতর ধারণা ধরে রাখার নিশ্চয়তা দেয়। এই পাঠ্যক্রমটি নমনীয় এবং মজাদার করে ডিজাইন করা হয়েছে এবং পুরোটা অথবা আংশিক অংশ গ্রহণ করা যায়। প্রকল্পগুলি ছোট থেকে শুরু হয়ে ১০ সপ্তাহের চক্রের শেষে ক্রমবর্ধমান জটিল হয়ে ওঠে
> আমাদের [আচার সংহিতা](CODE_OF_CONDUCT.md), [অংশগ্রহণ নির্দেশিকা](CONTRIBUTING.md), [অনুবাদ নির্দেশিকা](TRANSLATIONS.md) দেখুন। আমরা আপনার গঠনমূলক প্রতিক্রিয়াকে স্বাগত জানাই!
> আমাদের [আচরণবিধি](CODE_OF_CONDUCT.md), [অংশগ্রহণের নিয়মাবলী](CONTRIBUTING.md), [অনুবাদ নির্দেশিকা](TRANSLATIONS.md) দেখুন। আমাদের গঠনমূলক প্রতিক্রিয়া স্বাগত!
## প্রতিটি পাঠে অন্তর্ভুক্ত:
- ঐচ্ছিক স্কেচনোট
- ঐচ্ছিক অতিরিক্ত ভিডিও
- পাঠের আগে প্রস্তুতিমূলক কুইজ
- পাঠের আগে উত্তপ্তকরণ কুইজ
- লিখিত পাঠ
- প্রকল্পভিত্তিক পাঠের জন্য, প্রকল্প তৈরির ধাপে ধাপে গাইড
- জ্ঞান যাচাই
- প্রকল্প ভিত্তিক পাঠের জন্য প্রকল্পটি নির্মাণের ধাপে ধাপে নির্দেশিকা
- জ্ঞানের পরীক্ষা
- একটি চ্যালেঞ্জ
- অতিরিক্ত পাঠ্য
- অ্যাসাইনমেন্ট
- [পাঠের পর কুইজ](https://ff-quizzes.netlify.app/en/)
- অতিরিক্ত পাঠ
- নিয়মিত [পাঠের পরে কুইজ](https://ff-quizzes.netlify.app/en/)
> **কুইজ সম্পর্কে একটি টিপ**: সমস্ত কুইজ Quiz-App ফোল্ডারে রয়েছে, মোট ৪০টি কুইজ, প্রতিটিতে তিনটি প্রশ্ন। এগুলি পাঠ থেকে লিঙ্ক করা হয়েছে, তবে কুইজ অ্যাপটি স্থানীয়ভাবে চালানো বা Azure-এ মোতায়েন করা যেতে পারে; `quiz-app` ফোল্ডারের নির্দেশ অনুসরণ করুন। এগুলি ধাপে ধাপে স্থানীয়করণ করা হচ্ছে।
> **কুইজ সম্পর্কে একটি নোট**: সব কুইজগুলি Quiz-App ফোল্ডারে রয়েছে, মোট ৪০টি কুইজ আছে প্রত্যেকে তিনটি প্রশ্ন নিয়ে। এগুলো পাঠের ভেতর থেকে লিঙ্ক করা আছে, কিন্তু কুইজ অ্যাপটি স্থানীয়ভাবে চলানো বা Azure এ মোতায়েন করা যায়; নির্দেশনাগুলো `quiz-app` ফোল্ডারে পাওয়া যাবে। কুইজগুলো ধীরে ধীরে স্থানীয়করণ হচ্ছে।
## 🎓 শুরু কর্তা_সুলভ উদাহরণ
## 🎓 নবাগতদের উপযোগী উদাহরণ
**ডেটা সায়েন্সে নতুন?** আমরা একটি বিশেষ [উদাহরণ ডিরেক্টরি](examples/README.md) তৈরি করেছি সহজ, ভাল মন্তব্য করা কোডের সাথে যা আপনাকে শুরু করতে সাহায্য করবে:
**ডাটা সায়েন্স নতুন?** আমরা একটি বিশেষ [উদাহরণ ডিরেক্টরি](examples/README.md) তৈরি করেছি যেখানে সহজ, সুপরিচিত কোড রয়েছে যা আপনাকে শুরু করতে সাহায্য করবে:
- 🌟 **হ্যালো ওয়ার্ল্ড** - আপনার প্রথম ডেটা সায়েন্স প্রোগ্রাম
- 📂 **েটা লোড করা** - ডেটাসেট পড়া এবং অন্বেষণ করা শিখুন
- 📊 **সহজ বিশ্লেষণ** - পরিসংখ্যান গণনা করুন এবং প্যাটার্ন খুঁজুন
- 📈 **মৌলিক ভিজ্যুয়ালাইজেশন** - চার্ট এবং গ্রাফ তৈরি করুন
- 🔬 **বাস্তব প্রজেক্ট** - শুরু থেকে শেষ পর্যন্ত সম্পূর্ণ কার্যপ্রবাহ
- 🌟 **হ্যালো ওয়ার্ল্ড** - আপনার প্রথম ডাটা সায়েন্স প্রোগ্রাম
- 📂 **াটা লোডিং** - ডেটাসেট পড়া এবং অনুসন্ধানের শেখা
- 📊 **সহজ বিশ্লেষণ** - পরিসংখ্যান গণনা এবং প্যাটার্ন খোঁজা
- 📈 **মৌলিক তথ্যচিত্রায়ন** - চার্ট এবং গ্রাফ তৈরি করা
- 🔬 **বাস্তব প্রকল্প** - শুরু থেকে শেষ পর্যন্ত সম্পূর্ণ কাজের প্রবাহ
প্রতিটি উদাহরণ বিস্তারিত মন্তব্য সহ যা প্রতিটি ধাপ ব্যাখ্যা করে, এটি সম্পূর্ণ নতুনদের জন্য উপযুক্ত!
প্রত্যেক উদাহরণ বিস্তারিত মন্তব্যসহ প্রত্যেক ধাপ ব্যাখ্যা করে, যা সম্পূর্ণ নবাগতদের জন্য আদর্শ!
👉 **[উদাহরণ দিয়ে শুরু করুন](examples/README.md)** 👈
👉 **[উদাহরণগুলো দিয়ে শুরু করুন](examples/README.md)** 👈
## পাঠসমূহ
|![স্কেচনোট @sketchthedocs এর দ্বারা https://sketchthedocs.dev](../../translated_images/bn/00-Roadmap.4905d6567dff4753.webp)|
|![ @sketchthedocs দ্বারা স্কেচনোট https://sketchthedocs.dev](../../translated_images/bn/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| ডটা সায়েন্স ফর বিগিনারস: রোডম্যাপ - _স্কেচনোট [@nitya](https://twitter.com/nitya) দ্বারা_ |
| পাঠ নম্বর | বিষয় | পাঠের গ্রুপিং | শেখার উদ্দেশ্য | লিঙ্ককৃত পাঠ | লেখক |
| :--------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| ০১ | ডটা সায়েন্স সংজ্ঞায়িতকরণ | [পরিচিতি](1-Introduction/README.md) | ডেটা সায়েন্সের মুল ধারণা শিখুন এবং কীভাবে এটি কৃত্রিম বুদ্ধিমত্তা, মেশিন লার্নিং এবং বড় ডেটার সাথে সম্পর্কিত। | [পাঠ](1-Introduction/01-defining-data-science/README.md) [ভিডিও](https://youtu.be/beZ7Mb_oz9I) | [মিত্রি](http://soshnikov.com) |
| ০২ | ডেটা সায়েন্স নীতিশাস্ত্র | [পরিচিতি](1-Introduction/README.md) | ডেটা নীতি ধারণা, চ্যালেঞ্জ এবং কাঠামো। | [পাঠ](1-Introduction/02-ethics/README.md) | [নিত্য](https://twitter.com/nitya) |
| ০৩ | ডটা সংজ্ঞায়িতকরণ | [পরিচিতি](1-Introduction/README.md) | ডটা কীভাবে শ্রেণীবদ্ধ করা হয় এবং এর সাধারণ উৎস। | [পাঠ](1-Introduction/03-defining-data/README.md) | [াসমিন](https://www.twitter.com/paladique) |
| | পরিসংখ্যান ও সম্ভাবনা পরিচিতি | [পরিচিতি](1-Introduction/README.md) | ডেটা বোঝার জন্য সম্ভাব্যতা ও পরিসংখ্যানের গাণিতিক পদ্ধতি। | [পাঠ](1-Introduction/04-stats-and-probability/README.md) [ভিডিও](https://youtu.be/Z5Zy85g4Yjw) | [মিত্রি](http://soshnikov.com) |
| ০৫ | সম্পর্কিত ডেটার সাথে কাজ | [ডেটার সাথে কাজ](2-Working-With-Data/README.md) | সম্পর্কিত ডেটার পরিচিতি ও Structured Query Language (SQL) ব্যবহার করে সম্পর্কিত ডেটা অনুসন্ধান ও বিশ্লেষণের মৌলিক ধারণা। | [পাঠ](2-Working-With-Data/05-relational-databases/README.md) | [ক্রিস্টোফার](https://www.twitter.com/geektrainer) |
| ০৬ | নন-রিলেশনাল ডেটার সাথে কাজ | [ডেটার সাথে কাজ](2-Working-With-Data/README.md) | নন-রিলেশনাল ডেটার পরিচিতি, তার বিভিন্ন প্রকার এবং ডকুমেন্ট ডেটাবেস অনুসন্ধান ও বিশ্লেষণের মৌলিক ধারণা। | [পাঠ](2-Working-With-Data/06-non-relational/README.md) | [াসমিন](https://twitter.com/paladique)|
| | পাইথনের সাথে কাজ | [েটার সাথে কাজ](2-Working-With-Data/README.md) | Pandas-এর মতো লাইব্রেরি নিয়ে ডেটা অন্বেষণের জন্য পাইথন ব্যবহারের মৌলিক ধারণা। পাইথন প্রোগ্রামিংয়ের প্রাথমিক বোঝাপড়া প্রয়োজন। | [পাঠ](2-Working-With-Data/07-python/README.md) [ভিডিও](https://youtu.be/dZjWOGbsN4Y) | [মিত্রি](http://soshnikov.com) |
| ০৮ | ডেটা প্রস্তুতি | [ডেটার সাথে কাজ](2-Working-With-Data/README.md) | অনুপস্থিত, ভুল বা অসম্পূর্ণ ডেটার সমস্যাগুলো মোকাবেলায় ডেটা পরিষ্কার করা ও রূপান্তরের টেকনিক। | [পাঠ](2-Working-With-Data/08-data-preparation/README.md) | [াসমিন](https://www.twitter.com/paladique) |
| ০৯ | পরিমাণের ভিজ্যুয়ালাইজেশন | [টা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | Matplotlib ব্যবহার করে পাখির ডেটা ভিজ্যুয়ালাইজ করা শিখুন 🦆 | [পাঠ](3-Data-Visualization/09-visualization-quantities/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১০ | ডেটার বন্টনের ভিজ্যুয়ালাইজেশন | [ডেটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | একটি ইন্টারভালের মধ্যে পর্যবেক্ষণ ও প্রবণতা ভিজ্যুয়ালাইজ করা। | [পাঠ](3-Data-Visualization/10-visualization-distributions/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১১ | অনুপাতের ভিজ্যুয়ালাইজেশন | [টা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | ডিসক্রিট এবং গুচ্ছিত শতকরার ভিজ্যুয়ালাইজেশন। | [পাঠ](3-Data-Visualization/11-visualization-proportions/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১২ | সম্পর্কের ভিজ্যুয়ালাইজেশন | [টা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | ডেটা সেট ও তাদের ভেরিয়েবলের মধ্যে সংযোগ ও সম্পর্ক ভিজ্যুয়ালাইজেশন। | [পাঠ](3-Data-Visualization/12-visualization-relationships/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১৩ | অর্থপূর্ণ ভিজ্যুয়ালাইজেশন | [ডেটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | আপনার ভিজ্যুয়ালাইজেশনকে কার্যকর সমস্যা সমাধান ও অন্তর্দৃষ্টির জন্য মূল্যবান করার পদ্ধতি ও নির্দেশনা। | [পাঠ](3-Data-Visualization/13-meaningful-visualizations/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১৪ | ডেটা সায়েন্স জীবচক্রের পরিচিতি | [জীবচক্র](4-Data-Science-Lifecycle/README.md) | ডেটা সায়েন্স জীবচক্রের পরিচিতি এবং ডেটা সংগ্রহ ও আহরণের প্রথম ধাপ। | [পাঠ](4-Data-Science-Lifecycle/14-Introduction/README.md) | [াসমিন](https://twitter.com/paladique) |
| ১৫ | বিশ্লেষণ | [জীবচক্র](4-Data-Science-Lifecycle/README.md) | ডেটা সায়েন্স জীবচক্রের এই পর্যায়ে ডেটা বিশ্লেষণের পদ্ধতিগুলো ফোকাস করা হয়। | [পাঠ](4-Data-Science-Lifecycle/15-analyzing/README.md) | [াসমিন](https://twitter.com/paladique) |
| ১৬ | যোগাযোগ | [জীবচক্র](4-Data-Science-Lifecycle/README.md) | ডেটা থেকে প্রাপ্ত অন্তর্দৃষ্টি উপস্থাপনায় এই পর্যায় ফোকাস করে যাতে সিদ্ধান্ত গ্রহণকারীরা সহজে বুঝতে পারে। | [পাঠ](4-Data-Science-Lifecycle/16-communication/README.md) | [জালেন](https://twitter.com/JalenMcG) |
| ১৭ | ক্লাউডে ডেটা সায়েন্স | [ক্লাউড ডেটা](5-Data-Science-In-Cloud/README.md) | এই সিরিজের পাঠগুলি ক্লাউডে ডেটা সায়েন্স এবং এর সুবিধাসমূহ পরিচয় করিয়ে দেয়। | [পাঠ](5-Data-Science-In-Cloud/17-Introduction/README.md) | [টিফানি](https://twitter.com/TiffanySouterre) এবং [ড](https://twitter.com/maudstweets) |
| ১৮ | ক্লাউডে ডেটা সায়েন্স | [ক্লাউড ডেটা](5-Data-Science-In-Cloud/README.md) | Low Code টুল ব্যবহার করে মডেল ট্রেনিং। |[পাঠ](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [টিফানি](https://twitter.com/TiffanySouterre) এবং [ড](https://twitter.com/maudstweets) |
| ১৯ | ক্লাউডে ডেটা সায়েন্স | [ক্লাউড ডেটা](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio দিয়ে মডেল মোতায়েন। | [পাঠ](5-Data-Science-In-Cloud/19-Azure/README.md)| [টিফানি](https://twitter.com/TiffanySouterre) এবং [ড](https://twitter.com/maudstweets) |
| ২০ | প্রকৃত দুনিয়াতে ডেটা সায়েন্স | [ইন দ্য ওয়াইল্ড](6-Data-Science-In-Wild/README.md) | বাস্তব বিশ্বের ডেটা সায়েন্স চালিত প্রকল্প। | [পাঠ](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [নিত্য](https://twitter.com/nitya) |
| ডটা সায়েন্স ফর বিগিনারস: রোডম্যাপ - _[@nitya](https://twitter.com/nitya) দ্বারা স্কেচনোট_ |
| পাঠ নম্বর | বিষয় | পাঠের গ্রুপিং | শেখার উদ্দেশ্য | যুক্ত পাঠ | রচনা করেছেন |
| :-------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| ০১ | ডটা সায়েন্স সংজ্ঞায়িতকরণ | [পরিচিতি](1-Introduction/README.md) | ডাটা সায়েন্সের মূল ধারণাগুলো শিখুন এবং এটি কৃত্রিম বুদ্ধিমত্তা, মেশিন লার্নিং, এবং বড় ডাটার সঙ্গে কীভাবে সম্পর্কিত। | [পাঠ](1-Introduction/01-defining-data-science/README.md) [ভিডিও](https://youtu.be/beZ7Mb_oz9I) | [মিত্রি](http://soshnikov.com) |
| ০২ | ডাটা সায়েন্স নৈতিকতা | [পরিচিতি](1-Introduction/README.md) | ডাটা নৈতিকতার ধারণা, চ্যালেঞ্জ ও কাঠামো। | [পাঠ](1-Introduction/02-ethics/README.md) | [নিত্য](https://twitter.com/nitya) |
| ০৩ | ডটা সংজ্ঞায়িতকরণ | [পরিচিতি](1-Introduction/README.md) | ডটা কীভাবে শ্রেণীবদ্ধ হয় এবং এর সাধারণ উৎস। | [পাঠ](1-Introduction/03-defining-data/README.md) | [্যাসমিন](https://www.twitter.com/paladique) |
| | পরিসংখ্যান ও সম্ভাবনা পরিচিতি | [পরিচিতি](1-Introduction/README.md) | ডাটা বোঝার জন্য সম্ভাবনা ও পরিসংখ্যানের গাণিতিক পদ্ধতি। | [পাঠ](1-Introduction/04-stats-and-probability/README.md) [ভিডিও](https://youtu.be/Z5Zy85g4Yjw) | [মিত্রি](http://soshnikov.com) |
| ০৫ | রিলেশনাল ডাটার সাথে কাজ | [ডাটার সাথে কাজ](2-Working-With-Data/README.md) | রিলেশনাল ডাটার পরিচিতি এবং SQL (প্রসিদ্ধি "সি-ক্বেল") ব্যবহার করে ডাটা অনুসন্ধান ও বিশ্লেষণের মৌলিক বিষয়। | [পাঠ](2-Working-With-Data/05-relational-databases/README.md) | [ক্রিস্টোফার](https://www.twitter.com/geektrainer) | | |
| ০৬ | ননএসকিউএল ডাটার সাথে কাজ | [ডাটার সাথে কাজ](2-Working-With-Data/README.md) | অ-রিলেশনাল ডাটা, এর বিভিন্ন ধরণ, এবং ডকুমেন্ট ডাটাবেস অনুসন্ধান ও বিশ্লেষণের মৌলিক অংশ। | [পাঠ](2-Working-With-Data/06-non-relational/README.md) | [্যাসমিন](https://twitter.com/paladique)|
| | পাইথনের সাথে কাজ | [াটার সাথে কাজ](2-Working-With-Data/README.md) | পাণ্ডাসের মতো লাইব্রেরি ব্যবহার করে ডাটা অনুসন্ধানের জন্য পাইথনের মৌলিক ব্যবহার। পাইথন প্রোগ্রামিংয়ের মৌলিক ধারণা সুপারিশ করা হয়। | [পাঠ](2-Working-With-Data/07-python/README.md) [ভিডিও](https://youtu.be/dZjWOGbsN4Y) | [মিত্রি](http://soshnikov.com) |
| ০৮ | ডাটা প্রস্তুতি | [ডাটার সাথে কাজ](2-Working-With-Data/README.md) | মিসিং, ভুল বা অসম্পূর্ণ ডাটা মোকাবেলায় ডাটা পরিষ্কার ও পরিবর্তনের কৌশল। | [পাঠ](2-Working-With-Data/08-data-preparation/README.md) | [্যাসমিন](https://www.twitter.com/paladique) |
| ০৯ | পরিমাণ ভিজ্যুয়ালাইজেশন | [টা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | ম্যাটপ্লটলিব ব্যবহার করে পাখির ডাটা ভিজ্যুয়ালাইজেশন শিখুন 🦆 | [পাঠ](3-Data-Visualization/09-visualization-quantities/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১০ | ডাটার বন্টন ভিজ্যুয়ালাইজেশন | [ডাটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | একটি অন্তরালের মধ্যে পর্যবেক্ষণ এবং প্রবণতা ভিজ্যুয়ালাইজেশন। | [পাঠ](3-Data-Visualization/10-visualization-distributions/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১১ | অনুপাত ভিজ্যুয়ালাইজেশন | [টা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | বিচ্ছিন্ন এবং গুচ্ছভুক্ত শতাংশ ভিজ্যুয়ালাইজেশন। | [পাঠ](3-Data-Visualization/11-visualization-proportions/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১২ | সম্পর্ক ভিজ্যুয়ালাইজেশন | [টা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | ডাটা সেট এবং তাদের ভেরিয়েবলের মধ্যে সংযোগ ও সম্পর্কের ভিজ্যুয়ালাইজেশন। | [পাঠ](3-Data-Visualization/12-visualization-relationships/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১৩ | তাৎপর্যপূর্ণ ভিজ্যুয়ালাইজেশন | [ডাটা ভিজ্যুয়ালাইজেশন](3-Data-Visualization/README.md) | কার্যকর সমাধান এবং অন্তর্দৃষ্টির জন্য আপনার ভিজ্যুয়ালাইজেশন মূল্যবান করার কৌশল ও নির্দেশনা। | [পাঠ](3-Data-Visualization/13-meaningful-visualizations/README.md) | [জেন](https://twitter.com/jenlooper) |
| ১৪ | ডাটা সায়েন্স লাইফসাইকেলের পরিচিতি | [লাইফসাইকেল](4-Data-Science-Lifecycle/README.md) | ডাটা সায়েন্স লাইফসাইকেলের পরিচিতি এবং ডাটা সংগ্রহ ও নিষ্কাশনের প্রথম ধাপ। | [পাঠ](4-Data-Science-Lifecycle/14-Introduction/README.md) | [্যাসমিন](https://twitter.com/paladique) |
| ১৫ | বিশ্লেষণ | [লাইফসাইকেল](4-Data-Science-Lifecycle/README.md) | ডাটা সায়েন্স লাইফসাইকেলের এই ধাপ ডাটা বিশ্লেষণের কৌশলগুলোর উপর জোর দেয়। | [পাঠ](4-Data-Science-Lifecycle/15-analyzing/README.md) | [্যাসমিন](https://twitter.com/paladique) | | |
| ১৬ | যোগাযোগ | [লাইফসাইকেল](4-Data-Science-Lifecycle/README.md) | ডাটা থেকে প্রাপ্ত অন্তর্দৃষ্টিগুলো এমনভাবে উপস্থাপন করা যাতে সিদ্ধান্তগ্রহণকারীরা সহজে বুঝতে পারে। | [পাঠ](4-Data-Science-Lifecycle/16-communication/README.md) | [জালেন](https://twitter.com/JalenMcG) | | |
| ১৭ | ক্লাউডে ডাটা সায়েন্স | [ক্লাউড ডাটা](5-Data-Science-In-Cloud/README.md) | ক্লাউডে ডাটা সায়েন্স ও এর সুবিধার পরিচিতি। | [পাঠ](5-Data-Science-In-Cloud/17-Introduction/README.md) | [টিফানি](https://twitter.com/TiffanySouterre) এবং [ড](https://twitter.com/maudstweets) |
| ১৮ | ক্লাউডে ডাটা সায়েন্স | [ক্লাউড ডাটা](5-Data-Science-In-Cloud/README.md) | লো কোড টুলস ব্যবহার করে মডেল প্রশিক্ষণ। |[পাঠ](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [টিফানি](https://twitter.com/TiffanySouterre) এবং [ড](https://twitter.com/maudstweets) |
| ১৯ | ক্লাউডে ডাটা সায়েন্স | [ক্লাউড ডাটা](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio তে মডেল মোতায়েন। | [পাঠ](5-Data-Science-In-Cloud/19-Azure/README.md)| [টিফানি](https://twitter.com/TiffanySouterre) এবং [ড](https://twitter.com/maudstweets) |
| ২০ | বন্য বৃহৎজীবনে ডাটা সায়েন্স | [বন্যে](6-Data-Science-In-Wild/README.md) | বাস্তব জগতে ডাটা সায়েন্স চালিত প্রকল্প। | [পাঠ](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [নিত্য](https://twitter.com/nitya) |
## GitHub Codespaces
এই নমুনাটি Codespace-এ খুলতে নিম্নলিখিত পদক্ষেপ অনুসরণ করুন:
১. কোড ড্রপডাউন মেনুতে ক্লিক করে Open with Codespaces অপশনটি নির্বাচন করুন।
২. পেনের নিচে + New codespace নির্বাচন করুন।
বিস্তারিত জানার জন্য দেখুন [GitHub ডকুমেন্টেশন](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace)।
এই নমুনাটি Codespace-এ খুলতে নিচের ধাপগুলো অনুসরণ করুন:
১. কোড ড্রপ-ডাউন মেনুতে ক্লিক করুন এবং Open with Codespaces অপশন নির্বাচন করুন।
২. প্যানের নিচে + New codespace নির্বাচন করুন।
আরো তথ্যের জন্য [GitHub ডকুমেন্টেশন](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) দেখুন।
## VSCode রিমোট - কন্টেইনার
## VSCode রিমোট - কন্টেইনারস
আপনার স্থানীয় মেশিন এবং VSCode ব্যবহার করে এই রিপোজিটরিটি কন্টেইনারে খুলতে নিম্নলিখিত পদক্ষেপ অনুসরণ করুন VS Code Remote - Containers এক্সটেনশন ব্যবহার করে:
আপনার স্থানীয় মেশিন ও VSCode ব্যবহার করে এই রিপোজিটরিটি কন্টেইনারে খোলার জন্য VS Code Remote - Containers এক্সটেনশন ব্যবহার করুন:
১. এটি যদি আপনার প্রথমবারের মতো ডেভেলপমেন্ট কন্টেইনার ব্যবহার হয়, দয়া করে নিশ্চিত করুন আপনার সিস্টেম প্রয়োজনীয়তা পূরণ করে (যেমন Docker ইনস্টল করা) [গেটিং স্টার্টেড ডকুমেন্টেশন](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started)।
১. যদি আপনি প্রথমবার ডেভেলপমেন্ট কন্টেইনার ব্যবহার করেন, নিশ্চিত করুন আপনার সিস্টেম প্রয়োজনীয়তা পূরণ হয়েছে (যেমন ডকার ইনস্টল করা আছে) [গেটিং স্টার্টেড ডকুমেন্টেশন](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started)
এই রিপোজিটরি ব্যবহার করতে, আপনি অথবা রিপোজিটরিটি একটি পৃথক Docker ভলিউমে খুলতে পারেন:
এই রিপোজিটরি ব্যবহার করতে আপনি বা তো রিপোজিটরিটি একটি পৃথক ডকার ভলিউমে খুলতে পারেন:
**দ্রষ্টব্য**: অভ্যন্তরে, এটি Remote-Containers: **Clone Repository in Container Volume...** কমান্ড ব্যবহার করে সোর্স কোড ডকারের একটি ভলিউমে ক্লোন করার জন্য, স্থানীয় ফাইল সিস্টেমের পরিবর্তে। [ভলিউমগুলি](https://docs.docker.com/storage/volumes/) কন্টেইনার ডেটা সংরক্ষণের জন্য পছন্দের মাধ্যম
**নোট**: এই প্রক্রিয়ায় Remote-Containers: **Clone Repository in Container Volume...** কমান্ড ব্যবহার করে সোর্স কোড স্থানীয় ফাইল সিস্টেমের বদলে ডকার ভলিউমে ক্লোন করবে। [ভলিউম](https://docs.docker.com/storage/volumes/) হল কন্টেইনার ডাটা সংরক্ষণের পছন্দের পদ্ধতি
অথবা রিপোজিটরির একটি স্থানীয় ক্লোন করা বা ডাউনলোডকৃত সংস্করণ খুলুন:
অথবা স্থানীয় ক্লোন বা ডাউনলোড করা সংস্করণ খুলুন:
- এই রিপোজিটরিটি আপনার স্থানীয় ফাইল সিস্টেমে ক্লোন করুন।
- F1 চাপুন এবং **Remote-Containers: Open Folder in Container...** কমান্ড নির্বাচন করুন।
- এই ফোল্ডারটির ক্লোন করা কপি নির্বাচন করুন, কন্টেইনার শুরু হওয়ার জন্য অপেক্ষা করুন এবং পরীক্ষা করুন।
- ফোল্ডারটির ক্লোনকৃত কপি নির্বাচন করুন, কন্টেইনার শুরু হওয়া পর্যন্ত অপেক্ষা করুন, এবং কাজ শুরু করুন।
## অফলাইন অ্যাকসেস
## অফলাইন অ্যাকসেস
আপনি [Docsify](https://docsify.js.org/#/) ব্যবহার করে এই ডকুমেন্টেশন অফলাইন চালাতে পারেন। এই রিপোটি ফর্ক করুন, আপনার স্থানীয় মেশিনে [Docsify ইনস্টল করুন](https://docsify.js.org/#/quickstart), তারপর এই রিপোর মূল ফোল্ডারে `docsify serve` টাইপ করুন। ওয়েবসাইটটি আপনার লোকালহোস্টের পোর্ট ৩০০০-এ চালু হবে: `localhost:3000`
আপনি [Docsify](https://docsify.js.org/#/) ব্যবহার করে এই ডকুমেন্টেশন অফলাইন চালাতে পারেন। এই রিপো ফর্ক করুন, আপনার স্থানীয় মেশিনে [Docsify ইনস্টল করুন](https://docsify.js.org/#/quickstart), তারপর এই রিপোর মূল ফোল্ডারে `docsify serve` টাইপ করুন। ওয়েবসাইটটি পোর্ট ৩০০০ এ চালানো হবে: `localhost:3000`
> লক্ষ্য করুন, নোটবুকগুলি Docsify দ্বারা রেন্ডার হবে না, তাই যখন আপনাকে নোটবুক চালাতে হবে, তা আলাদাভাবে VS Code-এ পাইথন কার্নেল দিয়ে চালান
> লক্ষ্য করুন, নোটবুকগুলো Docsify দ্বারা রেন্ডার হবে না, সুতরাং নোটবুক চালানোর জন্য, আলাদাভাবে VS Code এ পাইথন কার্নেল চালাতে হবে
## অন্যান্য পাঠক্রম
## অন্যান্য পাঠ্যক্রম
আমাদের দল অন্যান্য পাঠক্রমও তৈরি করে! দেখতে পাবেন:
আমাদের টিম আরও অন্যান্য পাঠ্যক্রম তৈরি করে! দেখুন:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js for Beginners](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain for Beginners](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![নবীনদের জন্য LangChain.js](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![নবীনদের জন্য LangChain](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / এজেন্টরা
[![AZD for Beginners](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI for Beginners](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP for Beginners](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI Agents for Beginners](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[![নবীনদের জন্য AZD](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![নবীনদের জন্য Edge AI](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![নবীনদের জন্য MCP](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![নবীনদের জন্য AI এজেন্টরা](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### জেনরেটিভ AI সিরিজ
[![Generative AI for Beginners](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Generative AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Generative AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![Generative AI (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
### জেনরেটিভ AI সিরিজ
[![নবীনদের জন্য জেনারেটিভ AI](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![জেনারেটিভ AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![জেনারেটিভ AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![জেনারেটিভ AI (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### মূল শিক্ষ
[![ML for Beginners](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Data Science for Beginners](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI for Beginners](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Cybersecurity for Beginners](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Web Dev for Beginners](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT for Beginners](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![XR Development for Beginners](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
### মূল শেখ
[![নবীনদের জন্য ML](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![নবীনদের জন্য ডেটা সায়েন্স](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![নবীনদের জন্য AI](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![নবীনদের জন্য সাইবারসিকিউরিটি](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![নবীনদের জন্য ওয়েব ডেভেলপমেন্ট](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![নবীনদের জন্য IoT](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![নবীনদের জন্য XR ডেভেলপমেন্ট](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### কোপাইলট সিরিজ
[![Copilot for AI Paired Programming](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot for C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot Adventure](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
### কোপিলট সিরিজ
[![AI যৌথ প্রোগ্রামিং জন্য কোপিলট](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![C#/.NET এর জন্য কোপিলট](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![কোপিলট অ্যাডভেঞ্চার](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## সাহায্য নেওয়
## সাহায্য পাওয়
**সমস্যা হচ্ছে?** সাধারণ সমস্যার সমাধান জানতে আমাদের [ট্রাবলশুটিং গাইড](TROUBLESHOOTING.md) দেখুন।
**সমস্যায় পড়েছেন?** সাধারণ সমস্যার সমাধানের জন্য আমাদের [ট্রাবলশুটিং গাইড](TROUBLESHOOTING.md) দেখুন।
যদি আপনি আটকে যান বা AI অ্যাপ তৈরি সংক্রান্ত কোনো প্রশ্ন থাকে। MCP সম্পর্কে আলাপ-আলোচনায় অন্য শিক্ষার্থী এবং অভিজ্ঞ ডেভেলপারদের সাথে যোগ দিন। এটি একটি সহায়ক সম্প্রদায় যেখানে প্রশ্নরা স্বাগত এবং জ্ঞান শেয়ার করা হয় মুক্তভাবে
আপনি আটকে গেলে বা AI অ্যাপ তৈরি সম্পর্কে কোনও প্রশ্ন থাকে, MCP নিয়ে অন্যান্য শিক্ষার্থী এবং অভিজ্ঞ ডেভেলপারদের সাথে আলোচনা করুন। এটি একটি সহায়ক কমিউনিটি যেখানে প্রশ্ন করা স্বাগত এবং জ্ঞান সাবলীলভাবে শেয়ার করা হয়।
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
যদি পণ্য সম্পর্কিত ফিডব্যাক বা ত্রুটি থাকে, তাহলে এখানে যান:
আপনার যদি পণ্যের প্রতিক্রিয়া বা তৈরির সময় ত্রুটি থাকে, তাহলে এখানে দেখুন:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**অস্বীকৃতি**:
এই নথিটি AI অনুবাদ েবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনূদিত হয়েছে। আমরা সঠিকতার জন্য চেষ্টা করি, তবে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল নথিটি তার নিজস্ব ভাষায় কর্তৃপক্ষপূর্ণ উৎস হিসেবে গণ্য করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানুষের অনুবাদ সুপারিশ করা হয়। এই অনুবাদের ব্যবহারকে উদ্ভূত কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায় নই।
**ডিসক্লেইমার**:
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসাধ্য সঠিকতার চেষ্টা করলেও, স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে তা অনুগ্রহ করে জানুন। মুল নথি যা নিজ ভাষায় রয়েছে সেটিকেই সর্বোচ্চ প্রামাণিক উৎস হিসেবে ধরা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদ প্রয়োজন। এই অনুবাদের ব্যবহারে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়বদ্ধ নই।
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@
নিত্যা নারাসিমহান, শিল্পী
![রোডম্যাপ স্কেচনোট](../../../translated_images/bn/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![রোডম্যাপ স্কেচনোট](../../../translated_images/bn/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "cs"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T11:14:20+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "cs"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-26T15:26:20+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "cs"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T11:14:58+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "cs"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:54:39+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "cs"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T11:15:56+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "cs"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T17:47:16+00:00",
@ -360,8 +378,8 @@
"language_code": "cs"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T08:50:36+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T11:20:49+00:00",
"source_file": "README.md",
"language_code": "cs"
},

@ -6,7 +6,7 @@
---
[![Video o definici datové vědy](../../../../translated_images/cs/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Video o definici datové vědy](../../../../translated_images/cs/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Kvíz před přednáškou](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Pokud se chceme pustit do ještě složitější analýzy, můžeme vykreslit č
V této výzvě se pokusíme najít koncepty relevantní pro oblast Data Science tím, že se podíváme na texty. Vezmeme článek z Wikipedie o Data Science, stáhneme a zpracujeme text, a poté vytvoříme slovní mrak, který bude vypadat takto:
![Slovní mrak pro Data Science](../../../../translated_images/cs/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Slovní mrak pro Data Science](../../../../translated_images/cs/ds_wordcloud.664a7c07dca57de0.webp)
Navštivte [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') a projděte si kód. Můžete také spustit kód a sledovat, jak provádí všechny transformace dat v reálném čase.

@ -5,11 +5,11 @@
"source": [
"# Výzva: Analýza textu o datové vědě\n",
"\n",
"V tomto příkladu si vyzkoušíme jednoduché cvičení, které pokrývá všechny kroky tradičního procesu datové vědy. Nemusíte psát žádný kód, stačí kliknout na buňky níže, abyste je spustili a pozorovali výsledek. Jako výzvu vás povzbuzujeme, abyste tento kód vyzkoušeli s různými daty.\n",
"V tomto příkladu si provedeme jednoduché cvičení, které pokrývá všechny kroky tradičního procesu datové vědy. Nemusíte psát žádný kód, můžete jednoduše kliknout na buňky níže a spustit je a pozorovat výsledek. Jako výzvu jste vyzváni zkusit tento kód s různými daty.\n",
"\n",
"## Cíl\n",
"\n",
"V této lekci jsme diskutovali různé koncepty související s datovou vědou. Pojďme se pokusit objevit další související koncepty pomocí **těžby textu**. Začneme textem o datové vědě, z něj extrahujeme klíčová slova a poté se pokusíme vizualizovat výsledek.\n",
"V této lekci jsme diskutovali různé koncepty související s datovou vědou. Zkusme objevit další související koncepty pomocí **textového dolování**. Začneme textem o datové vědě, z něj extrahujeme klíčová slova a pak se pokusíme výsledek vizualizovat.\n",
"\n",
"Jako text použiji stránku o datové vědě z Wikipedie:\n"
],
@ -68,43 +68,41 @@
"source": [
"## Krok 2: Transformace dat\n",
"\n",
"Dalším krokem je převést data do formy vhodné pro zpracování. V našem případě jsme stáhli HTML zdrojový kód ze stránky a potřebujeme jej převést na čistý text.\n",
"Dalším krokem je převést data do podoby vhodné pro zpracování. V našem případě jsme stáhli zdrojový kód HTML ze stránky a potřebujeme ho převést na prostý text.\n",
"\n",
"Existuje mnoho způsobů, jak to lze provést. My použijeme nejjednodušší vestavěný objekt [HTMLParser](https://docs.python.org/3/library/html.parser.html) z Pythonu. Musíme vytvořit podtřídu třídy `HTMLParser` a definovat kód, který bude shromažďovat veškerý text uvnitř HTML tagů, s výjimkou tagů `<script>` a `<style>`.\n"
"Existuje mnoho způsobů, jak to lze provést. My použijeme [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), populární Python knihovnu pro parsování HTML. BeautifulSoup nám umožňuje cílit na konkrétní HTML elementy, takže se můžeme zaměřit na hlavní obsah článku z Wikipedie a snížit množství navigačních menu, postranních panelů, patiček a dalšího irelevantního obsahu (i když některý boilerplate text může přetrvávat).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Nejprve musíme nainstalovat knihovnu BeautifulSoup pro parsování HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Krok 3: Získání poznatků\n",
"## Krok 3: Získání poznatků\n",
"\n",
"Nejdůležitějším krokem je přeměnit naše data do podoby, ze které můžeme získat poznatky. V našem případě chceme z textu extrahovat klíčová slova a zjistit, která klíčová slova jsou významnější.\n",
"Nejdůležitějším krokem je převést naše data do nějaké podoby, ze které můžeme získat poznatky. V našem případě chceme z textu extrahovat klíčová slova a zjistit, která klíčová slova jsou smysluplnější.\n",
"\n",
"Použijeme Python knihovnu nazvanou [RAKE](https://github.com/aneesha/RAKE) pro extrakci klíčových slov. Nejprve tuto knihovnu nainstalujeme, pokud ji ještě nemáme:\n"
"Použijeme knihovnu Pythonu nazvanou [RAKE](https://github.com/aneesha/RAKE) pro extrakci klíčových slov. Nejprve si tuto knihovnu nainstalujeme, pokud ji nemáme: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Hlavní funkčnost je dostupná z objektu `Rake`, který můžeme přizpůsobit pomocí některých parametrů. V našem případě nastavíme minimální délku klíčového slova na 5 znaků, minimální frekvenci klíčového slova v dokumentu na 3 a maximální počet slov v klíčovém slově na 2. Neváhejte experimentovat s jinými hodnotami a pozorovat výsledek.\n"
"Hlavní funkčnost je dostupná z objektu `Rake`, který můžeme přizpůsobit pomocí některých parametrů. V našem případě nastavíme minimální délku klíčového slova na 5 znaků, minimální četnost klíčového slova v dokumentu na 3 a maximální počet slov v klíčovém slově na 2. Klidně si pohrávejte s jinými hodnotami a sledujte výsledek.\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"Získali jsme seznam termínů spolu s jejich stupněm důležitosti. Jak můžete vidět, nejrelevantnější obory, jako je strojové učení a velká data, se nacházejí na předních pozicích seznamu.\n",
"\n",
"## Krok 4: Vizualizace výsledku\n",
"\n",
"Lidé nejlépe interpretují data ve vizuální podobě. Proto často dává smysl data vizualizovat, abychom získali určité poznatky. Můžeme použít knihovnu `matplotlib` v Pythonu k vykreslení jednoduchého rozložení klíčových slov podle jejich relevance:\n"
"\r\n",
"We obtained a list terms together with associated degree of importance. As you can see, the most relevant disciplines, such as machine learning and big data, are present in the list at top positions.\r\n",
"\r\n",
"## Krok 4: Vizualizace výsledku\r\n",
"\r\n",
"Lidé dokáží data nejlépe interpretovat ve vizuální podobě. Proto často dává smysl data vizualizovat, aby bylo možné z nich získat nějaké poznatky. Můžeme použít knihovnu `matplotlib` v Pythonu k zobrazení jednoduché distribuce klíčových slov s jejich relevancí:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"Existuje však ještě lepší způsob, jak vizualizovat frekvence slov - pomocí **Word Cloud**. Budeme muset nainstalovat další knihovnu, abychom vytvořili word cloud z našeho seznamu klíčových slov.\n"
"Existuje však ještě lepší způsob, jak vizualizovat četnosti slov - pomocí **Word Cloud**. Budeme muset nainstalovat další knihovnu pro vykreslení word cloudu z našeho seznamu klíčových slov.\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"Objekt `WordCloud` je zodpovědný za přijetí buď původního textu, nebo předem vypočítaného seznamu slov s jejich frekvencemi, a vrací obrázek, který lze následně zobrazit pomocí `matplotlib`:\n"
"Objekt `WordCloud` je zodpovědný za příjem buď původního textu, nebo předem vypočítaného seznamu slov s jejich frekvencemi, a vrací obrázek, který pak může být zobrazen pomocí `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"Můžeme také předat původní text do `WordCloud` - podívejme se, zda dokážeme získat podobný výsledek:\n"
"Můžeme také předat původní text do `WordCloud` - uvidíme, jestli dokážeme získat podobný výsledek:\n"
],
"metadata": {}
},
@ -372,11 +371,11 @@
{
"cell_type": "markdown",
"source": [
"Můžete vidět, že slovní mrak nyní vypadá působivěji, ale zároveň obsahuje hodně šumu (např. nesouvisející slova jako `Retrieved on`). Také získáváme méně klíčových slov, která se skládají ze dvou slov, jako například *data scientist* nebo *computer science*. To je způsobeno tím, že algoritmus RAKE odvádí mnohem lepší práci při výběru kvalitních klíčových slov z textu. Tento příklad ukazuje důležitost předzpracování a čištění dat, protože jasný obraz na konci nám umožní dělat lepší rozhodnutí.\n",
"Vidíte, že word cloud nyní vypadá impozantněji, ale také obsahuje hodně šumu (např. nesouvisející slova jako `Retrieved on`). Také dostáváme méně klíčových slov složených ze dvou slov, jako například *data scientist* nebo *computer science*. To je proto, že algoritmus RAKE si v textu vybírá dobrá klíčová slova mnohem lépe. Tento příklad ilustruje důležitost předzpracování a čištění dat, protože jasný obraz na konci nám umožní činit lepší rozhodnutí.\n",
"\n",
"V tomto cvičení jsme prošli jednoduchým procesem extrakce určitého významu z textu na Wikipedii, ve formě klíčových slov a slovního mraku. Tento příklad je poměrně jednoduchý, ale dobře demonstruje všechny typické kroky, které datový vědec podnikne při práci s daty, od získávání dat až po vizualizaci.\n",
"V tomto cvičení jsme prošli jednoduchým procesem získávání významu z textu Wikipedie ve formě klíčových slov a word cloudu. Tento příklad je poměrně jednoduchý, ale dobře ukazuje všechny typické kroky, které datový vědec podnikne při práci s daty, počínaje získáváním dat až po vizualizaci.\n",
"\n",
"V našem kurzu budeme všechny tyto kroky podrobně probírat.\n"
"V našem kurzu všechny tyto kroky podrobně prodiskutujeme.\n"
],
"metadata": {}
},
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Prohlášení**: \nTento dokument byl přeložen pomocí služby pro automatický překlad [Co-op Translator](https://github.com/Azure/co-op-translator). I když se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádná nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Prohlášení o vyloučení odpovědnosti**: \nTento dokument byl přeložen pomocí AI překladatelské služby [Co-op Translator](https://github.com/Azure/co-op-translator). Přestože usilujeme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Originální dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro kritické informace se doporučuje profesionální lidský překlad. Nejsme odpovědni za jakékoliv nedorozumění nebo nesprávné výklady vyplývající z použití tohoto překladu.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +417,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:29:56+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "cs"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# Výzva: Analýza textu o datové vědě\n",
"# Výzva: Analýza textu o Data Science\n",
"\n",
"> *V tomto notebooku experimentujeme s použitím různých URL - článku na Wikipedii o strojovém učení. Můžete si všimnout, že na rozdíl od datové vědy tento článek obsahuje mnoho odborných termínů, což analýzu činí problematičtější. Musíme přijít na jiný způsob, jak vyčistit data po extrakci klíčových slov, abychom se zbavili některých častých, ale nevýznamných slovních spojení.*\n",
"> *V tomto notebooku zkoušíme použití různých URL wikipedia článek o strojovém učení. Vidíte, že na rozdíl od Data Science tento článek obsahuje mnoho termínů, což činí analýzu problematičtější. Potřebujeme přijít s jiným způsobem, jak vyčistit data po extrakci klíčových slov, abychom se zbavili některých častých, ale nevýznamných slovních spojení.*\n",
"\n",
"V tomto příkladu si uděláme jednoduché cvičení, které pokrývá všechny kroky tradičního procesu datové vědy. Nemusíte psát žádný kód, stačí kliknout na buňky níže, abyste je spustili a pozorovali výsledek. Jako výzvu vás povzbuzujeme, abyste tento kód vyzkoušeli s různými daty.\n",
"V tomto příkladu uděláme jednoduché cvičení, které pokrývá všechny kroky tradičního procesu datové vědy. Nemusíte psát žádný kód, stačí kliknout na buňky níže, spustit je a pozorovat výsledek. Jako výzvu máte možnost tento kód vyzkoušet na různých datech.\n",
"\n",
"## Cíl\n",
"\n",
"V této lekci jsme diskutovali o různých konceptech souvisejících s datovou vědou. Zkusme objevit další související koncepty pomocí **těžby textu**. Začneme textem o datové vědě, extrahujeme z něj klíčová slova a poté se pokusíme vizualizovat výsledek.\n",
"V této lekci jsme diskutovali různé koncepty související s Data Science. Zkusme objevit další související koncepty pomocí **textminingu**. Začneme textem o Data Science, z něj extrahujeme klíčová slova a pak se pokusíme vizualizovat výsledek.\n",
"\n",
"Jako text použiji stránku o datové vědě z Wikipedie:\n"
"Jako text použiji stránku o Data Science z Wikipedie:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Krok 2: Transformace dat\n",
"\n",
"Dalším krokem je převést data do formy vhodné pro zpracování. V našem případě jsme stáhli HTML zdrojový kód ze stránky a potřebujeme jej převést na čistý text.\n",
"Dalším krokem je převést data do podoby vhodné pro zpracování. V našem případě jsme stáhli HTML zdrojový kód ze stránky a potřebujeme ho převést na prostý text.\n",
"\n",
"Existuje mnoho způsobů, jak to lze provést. My použijeme nejjednodušší vestavěný objekt [HTMLParser](https://docs.python.org/3/library/html.parser.html) z Pythonu. Musíme vytvořit podtřídu třídy `HTMLParser` a definovat kód, který bude sbírat veškerý text uvnitř HTML tagů, s výjimkou tagů `<script>` a `<style>`.\n"
"Existuje mnoho způsobů, jak to lze provést. Použijeme [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), populární Python knihovnu pro parsování HTML. BeautifulSoup nám umožní cílit na konkrétní HTML elementy, takže se můžeme zaměřit na hlavní obsah článku z Wikipedie a snížit množství navigačních menu, postranních panelů, zápatí a jiného nepodstatného obsahu (ačkoli může zůstat nějaký běžný text).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Nejprve musíme nainstalovat knihovnu BeautifulSoup pro parsování HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -118,9 +116,9 @@
"source": [
"## Krok 3: Získávání poznatků\n",
"\n",
"Nejdůležitějším krokem je přeměnit naše data do podoby, ze které můžeme získat poznatky. V našem případě chceme z textu extrahovat klíčová slova a zjistit, která klíčová slova mají větší význam.\n",
"Nejdůležitějším krokem je proměnit naše data do takové podoby, ze které můžeme získat poznatky. V našem případě chceme z textu extrahovat klíčová slova a zjistit, která klíčová slova jsou smysluplnější.\n",
"\n",
"Pro extrakci klíčových slov použijeme knihovnu Pythonu nazvanou [RAKE](https://github.com/aneesha/RAKE). Nejprve tuto knihovnu nainstalujeme, pokud již není přítomna:\n"
"Použijeme Python knihovnu s názvem [RAKE](https://github.com/aneesha/RAKE) pro extrakci klíčových slov. Nejprve tuto knihovnu nainstalujeme, pokud není přítomna:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Hlavní funkčnost je dostupná z objektu `Rake`, který můžeme přizpůsobit pomocí některých parametrů. V našem případě nastavíme minimální délku klíčového slova na 5 znaků, minimální frekvenci klíčového slova v dokumentu na 3 a maximální počet slov v klíčovém slovu na 2. Klidně si pohrajte s jinými hodnotami a sledujte výsledek.\n"
"Hlavní funkcionalita je dostupná z objektu `Rake`, který můžeme přizpůsobit pomocí některých parametrů. V našem případě nastavíme minimální délku klíčového slova na 5 znaků, minimální četnost klíčového slova v dokumentu na 3 a maximální počet slov v klíčovém slově na 2. Klidně si pohrávejte s jinými hodnotami a sledujte výsledek.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Získali jsme seznam termínů spolu s jejich stupněm důležitosti. Jak můžete vidět, nejrelevantnější obory, jako je strojové učení a velká data, se nacházejí na předních pozicích seznamu.\n",
"\n",
"## Krok 4: Vizualizace výsledku\n",
"\n",
"Lidé nejlépe interpretují data ve vizuální podobě. Proto často dává smysl data vizualizovat, abychom získali určité poznatky. Můžeme použít knihovnu `matplotlib` v Pythonu k vykreslení jednoduchého rozložení klíčových slov s jejich relevancí:\n"
"\r\n",
"We obtained a list terms together with associated degree of importance. As you can see, the most relevant disciplines, such as machine learning and big data, are present in the list at top positions.\r\n",
"\r\n",
"## Krok 4: Vizualizace výsledku\r\n",
"\r\n",
"Lidé nejlépe interpretují data ve vizuální podobě. Proto často dává smysl data vizualizovat, abychom získali nějaké poznatky. Můžeme použít knihovnu `matplotlib` v Pythonu pro vykreslení jednoduchého rozdělení klíčových slov s jejich relevancí:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"Existuje však ještě lepší způsob, jak vizualizovat frekvence slov - použití **Word Cloud**. Budeme muset nainstalovat další knihovnu, abychom vytvořili word cloud z našeho seznamu klíčových slov.\n"
"Existuje však ještě lepší způsob, jak vizualizovat četnost slov - pomocí **Word Cloudu**. Budeme muset nainstalovat další knihovnu, abychom mohli vykreslit word cloud z našeho seznamu klíčových slov.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` objekt je zodpovědný za přijetí buď původního textu, nebo předem vypočítaného seznamu slov s jejich frekvencemi, a vrací obrázek, který lze následně zobrazit pomocí `matplotlib`:\n"
"Objekt `WordCloud` je zodpovědný za příjem buď původního textu, nebo předem vypočítaného seznamu slov s jejich frekvencemi, a vrací obrázek, který lze následně zobrazit pomocí `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"Můžeme také předat původní text do `WordCloud` - podívejme se, zda dokážeme získat podobný výsledek:\n"
"Můžeme také předat původní text do `WordCloud` - uvidíme, jestli dokážeme získat podobný výsledek:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"Můžete vidět, že word cloud nyní vypadá působivěji, ale také obsahuje hodně šumu (např. nesouvisející slova jako `Retrieved on`). Také získáváme méně klíčových slov, která se skládají ze dvou slov, jako například *data scientist* nebo *computer science*. To je proto, že algoritmus RAKE odvádí mnohem lepší práci při výběru vhodných klíčových slov z textu. Tento příklad ilustruje důležitost předzpracování a čištění dat, protože jasný obraz na konci nám umožní dělat lepší rozhodnutí.\n",
"Vidíte, že slovní oblak nyní vypadá impozantněji, ale také obsahuje hodně šumu (např. nesouvisející slova jako `Retrieved on`). Také dostáváme méně klíčových slov, která se skládají ze dvou slov, jako *data scientist* nebo *computer science*. Je to proto, že algoritmus RAKE dělá mnohem lepší práci při výběru dobrých klíčových slov z textu. Tento příklad ilustruje důležitost předzpracování a čištění dat, protože jasný obraz na konci nám umožní činit lepší rozhodnutí.\n",
"\n",
"V tomto cvičení jsme prošli jednoduchým procesem extrakce určitého významu z textu na Wikipedii, ve formě klíčových slov a word cloudu. Tento příklad je poměrně jednoduchý, ale dobře ukazuje všechny typické kroky, které datový vědec podnikne při práci s daty, od získávání dat až po vizualizaci.\n",
"V tomto cvičení jsme prošli jednoduchým procesem získání smyslu z textu Wikipedie ve formě klíčových slov a slovního oblaku. Tento příklad je poměrně jednoduchý, ale dobře demonstruje všechny typické kroky, které datový vědec podnikne při práci s daty, počínaje získáváním dat až po vizualizaci.\n",
"\n",
"V našem kurzu si všechny tyto kroky podrobně rozebereme.\n"
"V našem kurzu budeme všechny tyto kroky podrobně probírat.\n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Prohlášení**: \nTento dokument byl přeložen pomocí služby pro automatický překlad [Co-op Translator](https://github.com/Azure/co-op-translator). I když se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádné nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Prohlášení o vyloučení odpovědnosti**: \nTento dokument byl přeložen pomocí AI překladatelské služby [Co-op Translator](https://github.com/Azure/co-op-translator). Přestože usilujeme o přesnost, mějte prosím na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho rodném jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje využít profesionální lidský překlad. Nejsme odpovědní za jakékoliv nedorozumění nebo nesprávné interpretace vyplývající z užití tohoto překladu.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +525,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:41:06+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "cs"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
Teorie statistiky a pravděpodobnosti jsou dvě úzce související oblasti matematiky, které mají velký význam pro datovou vědu. Je možné pracovat s daty bez hlubokých znalostí matematiky, ale je stále lepší znát alespoň některé základní koncepty. Zde vám představíme krátký úvod, který vám pomůže začít.
[![Úvodní video](../../../../translated_images/cs/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Úvodní video](../../../../translated_images/cs/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Kvíz před přednáškou](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Popis pravděpodobnostního rozdělení spojité proměnné, jejíž hodnoty jso
Můžeme mluvit pouze o pravděpodobnosti, že proměnná spadne do určitého intervalu hodnot, např. P(t<sub>1</sub>≤X<t<sub>2</sub>). V tomto případě je pravděpodobnostní rozdělení popsáno pomocí **funkce hustoty pravděpodobnosti** p(x), takové že
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/cs/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/cs/probability-density.a8aad29f17a14afb.webp)
Spojitý analog rovnoměrného rozdělení se nazývá **spojité rovnoměrné rozdělení**, které je definováno na konečném intervalu. Pravděpodobnost, že hodnota X spadne do intervalu délky l, je úměrná l a stoupá až k 1.
@ -73,11 +73,11 @@ Když analyzujeme data z reálného života, často nejsou náhodnými proměnn
Zde je box plot zobrazující průměr, medián a kvartily pro naše data:
![Box plot váhy](../../../../translated_images/cs/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Box plot váhy](../../../../translated_images/cs/weight-boxplot.1dbab1c03af26f8a.webp)
Protože naše data obsahují informace o různých hráčských **rolích**, můžeme také vytvořit box plot podle role - umožní nám získat představu o tom, jak se hodnoty parametrů liší podle rolí. Tentokrát budeme zvažovat výšku:
![Box plot podle role](../../../../translated_images/cs/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Box plot podle role](../../../../translated_images/cs/boxplot_byrole.036b27a1c3f52d42.webp)
Tento diagram naznačuje, že průměrná výška hráčů na první metě je vyšší než výška hráčů na druhé metě. Později v této lekci se naučíme, jak můžeme tuto hypotézu formálněji otestovat a jak ukázat, že naše data jsou statisticky významná.
@ -85,7 +85,7 @@ Tento diagram naznačuje, že průměrná výška hráčů na první metě je vy
Abychom viděli, jaké je rozdělení našich dat, můžeme vytvořit graf nazývaný **histogram**. Osa X by obsahovala počet různých intervalů váhy (tzv. **binů**) a vertikální osa by ukazovala počet případů, kdy vzorek náhodné proměnné spadl do daného intervalu.
![Histogram dat z reálného světa](../../../../translated_images/cs/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Histogram dat z reálného světa](../../../../translated_images/cs/weight-histogram.bfd00caf7fc30b14.webp)
Z tohoto histogramu můžete vidět, že všechny hodnoty jsou soustředěny kolem určité průměrné váhy, a čím dále se od této váhy dostaneme, tím méně váhových hodnot se vyskytuje. Tj. je velmi nepravděpodobné, že váha baseballového hráče bude velmi odlišná od průměrné váhy. Rozptyl váhy ukazuje míru, do jaké se váhy pravděpodobně liší od průměru.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
Pokud vykreslíme histogram vygenerovaných vzorků, uvidíme obrázek velmi podobný tomu, který je uveden výše. A pokud zvýšíme počet vzorků a počet binů, můžeme vytvořit obrázek normálního rozdělení, který je blíže ideálu:
![Normální rozdělení s průměrem=0 a směrodatnou odchylkou=1](../../../../translated_images/cs/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Normální rozdělení s průměrem=0 a směrodatnou odchylkou=1](../../../../translated_images/cs/normal-histogram.dfae0d67c202137d.webp)
*Normální rozdělení s průměrem=0 a směrodatnou odchylkou=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
V našem případě hodnota 0.53 naznačuje, že existuje určitá korelace mezi váhou a výškou osoby. Můžeme také vytvořit scatter plot jedné hodnoty proti druhé, abychom viděli vztah vizuálně:
![Vztah mezi váhou a výškou](../../../../translated_images/cs/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Vztah mezi váhou a výškou](../../../../translated_images/cs/weight-height-relationship.3f06bde4ca2aba99.webp)
> Další příklady korelace a kovariance najdete v [doprovodném poznámkovém bloku](notebook.ipynb).

@ -1,6 +1,6 @@
# Úvod do datové vědy
![data v akci](../../../translated_images/cs/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![data v akci](../../../translated_images/cs/data.48e22bb7617d8d92.webp)
> Foto od <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephena Dawsona</a> na <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
V těchto lekcích objevíte, jak je datová věda definována, a seznámíte se s etickými otázkami, které musí datový vědec zohlednit. Také se naučíte, jak jsou data definována, a získáte základní znalosti o statistice a pravděpodobnosti, což jsou klíčové akademické oblasti datové vědy.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Práce s Pythonem - _Sketchnote od [@nitya](https://twitter.com/nitya)_ |
[![Úvodní video](../../../../translated_images/cs/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Úvodní video](../../../../translated_images/cs/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Databáze nabízejí velmi efektivní způsoby ukládání dat a jejich dotazování pomocí dotazovacích jazyků, ale nejflexibilnějším způsobem zpracování dat je napsání vlastního programu pro manipulaci s daty. V mnoha případech by bylo efektivnější použít dotaz na databázi. Nicméně v některých situacích, kdy je potřeba složitější zpracování dat, to nelze snadno provést pomocí SQL.
Zpracování dat lze naprogramovat v jakémkoli programovacím jazyce, ale existují určité jazyky, které jsou na vyšší úrovni, pokud jde o práci s daty. Datoví vědci obvykle preferují jeden z následujících jazyků:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Graf časové řady](../../../../translated_images/cs/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Graf časové řady](../../../../translated_images/cs/timeseries-1.80de678ab1cf727e.webp)
Předpokládejme, že každý týden pořádáme večírek pro přátele a bereme dalších 10 balení zmrzliny na večírek. Můžeme vytvořit další sérii, indexovanou podle týdne, abychom to ukázali:
```python
@ -75,7 +75,7 @@ Když sečteme dvě série dohromady, získáme celkový počet:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Graf časové řady](../../../../translated_images/cs/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Graf časové řady](../../../../translated_images/cs/timeseries-2.aae51d575c55181c.webp)
> **Poznámka**: Nepoužíváme jednoduchou syntaxi `total_items+additional_items`. Pokud bychom to udělali, dostali bychom mnoho hodnot `NaN` (*Not a Number*) v výsledné sérii. To je proto, že některé hodnoty indexu v sérii `additional_items` chybí, a přičtení `NaN` k čemukoli vede k `NaN`. Proto musíme při sčítání specifikovat parametr `fill_value`.
@ -84,7 +84,7 @@ U časových řad můžeme také **převzorkovat** sérii na různé časové in
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Měsíční průměry časové řady](../../../../translated_images/cs/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Měsíční průměry časové řady](../../../../translated_images/cs/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -210,7 +210,7 @@ Prvním problémem, na který se zaměříme, je modelování epidemického ší
Protože chceme ukázat, jak pracovat s daty, zveme vás k otevření [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) a jeho přečtení od začátku do konce. Můžete také spustit buňky a vyzkoušet některé výzvy, které jsme pro vás nechali na konci.
![COVID Spread](../../../../translated_images/cs/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/cs/covidspread.f3d131c4f1d260ab.webp)
> Pokud nevíte, jak spustit kód v Jupyter Notebooku, podívejte se na [tento článek](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Kompletní příklad analýzy tohoto datasetu pomocí [Text Analytics for Health
Otevřete [`notebook-papers.ipynb`](notebook-papers.ipynb) a přečtěte si jej od začátku do konce. Můžete také spustit buňky a vyzkoušet některé výzvy, které jsme pro vás nechali na konci.
![Covid Medical Treatment](../../../../translated_images/cs/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/cs/covidtreat.b2ba59f57ca45fbc.webp)
## Zpracování obrazových dat

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# Práce s daty
![data love](../../../translated_images/cs/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/cs/data-love.a22ef29e6742c852.webp)
> Foto od <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexandra Sinna</a> na <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
V těchto lekcích se naučíte některé způsoby, jak lze data spravovat, manipulovat s nimi a používat je v aplikacích. Naučíte se o relačních a nerelačních databázích a o tom, jak v nich lze data ukládat. Získáte základy práce s Pythonem pro správu dat a objevíte některé z mnoha způsobů, jak můžete Python využít k práci s daty a jejich analýze.

@ -42,7 +42,7 @@ Vytvořte základní bodový graf, který ukáže vztah mezi cenou za libru medu
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/cs/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/cs/scatter1.5e1aa5fd6706c5d1.webp)
Nyní zobrazte stejná data s barevným schématem připomínajícím med, abyste ukázali, jak se cena vyvíjela v průběhu let. Toho můžete dosáhnout přidáním parametru 'hue', který ukáže změnu rok od roku:
@ -51,7 +51,7 @@ Nyní zobrazte stejná data s barevným schématem připomínajícím med, abyst
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/cs/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/cs/scatter2.c0041a58621ca702.webp)
S touto změnou barevného schématu je zřejmé, že cena za libru medu v průběhu let výrazně stoupá. Pokud se podíváte na vzorek dat (například stát Arizona), můžete vidět vzorec zvyšování cen rok od roku s několika výjimkami:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Vidíte, že velikost bodů se postupně zvětšuje.
![scatterplot 3](../../../../translated_images/cs/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/cs/scatter3.3c160a3d1dcb36b3.webp)
Je to jednoduchý případ nabídky a poptávky? Kvůli faktorům, jako je změna klimatu a kolaps včelstev, je k dispozici méně medu k prodeji rok od roku, a proto cena stoupá?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Odpověď: Ano, s několika výjimkami kolem roku 2003:
![line chart 1](../../../../translated_images/cs/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/cs/line1.f36eb465229a3b1f.webp)
✅ Protože Seaborn agreguje data do jedné čáry, zobrazuje „vícenásobná měření pro každou hodnotu x vykreslením průměru a 95% intervalem spolehlivosti kolem průměru“. [Zdroj](https://seaborn.pydata.org/tutorial/relational.html). Toto časově náročné chování lze vypnout přidáním `ci=None`.
@ -105,7 +105,7 @@ Otázka: No, můžeme v roce 2003 také vidět nárůst zásob medu? Co když se
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/cs/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/cs/line2.a5b3493dc01058af.webp)
Odpověď: Ani ne. Pokud se podíváte na celkovou produkci, zdá se, že v tomto konkrétním roce skutečně vzrostla, i když obecně množství vyprodukovaného medu v těchto letech klesá.
@ -130,7 +130,7 @@ sns.relplot(
```
V této vizualizaci můžete porovnat výnos na včelstvo a počet včelstev rok od roku vedle sebe s nastavením wrap na 3 pro sloupce:
![facet grid](../../../../translated_images/cs/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/cs/facet.6a34851dcd540050.webp)
Pro tento dataset nic zvláštního nevyniká, pokud jde o počet včelstev a jejich výnos rok od roku a stát od státu. Existuje jiný způsob, jak hledat korelaci mezi těmito dvěma proměnnými?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/cs/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/cs/dual-line.a4c28ce659603fab.webp)
I když kolem roku 2003 nic zvláštního nevyniká, umožňuje nám to zakončit tuto lekci na trochu pozitivnější notě: i když celkový počet včelstev klesá, jejich počet se stabilizuje, i když jejich výnos na včelstvo klesá.

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Zde nainstalujete balíček `ggplot2` a poté jej importujete do pracovního prostoru pomocí příkazu `library("ggplot2")`. Pro vykreslení jakéhokoliv grafu v ggplot se používá funkce `ggplot()` a vy specifikujete dataset, proměnné x a y jako atributy. V tomto případě použijeme funkci `geom_line()`, protože chceme vykreslit čárový graf.
![MaxRozpětí-lineplot](../../../../../translated_images/cs/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxRozpětí-lineplot](../../../../../translated_images/cs/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
Co si okamžitě všimnete? Zdá se, že existuje alespoň jeden odlehlý bod - to je docela rozpětí křídel! Rozpětí křídel přesahující 2000 centimetrů odpovídá více než 20 metrům - potulují se v Minnesotě pterodaktylové? Pojďme to prozkoumat.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Specifikujeme úhel v `theme` a specifikujeme popisky os x a y pomocí `xlab()` a `ylab()` respektive. Funkce `ggtitle()` dává grafu/jednotce název.
![MaxRozpětí-lineplot-vylepšený](../../../../../translated_images/cs/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxRozpětí-lineplot-vylepšený](../../../../../translated_images/cs/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
I při rotaci popisků na 45 stupňů je jich příliš mnoho na čtení. Zkusme jinou strategii: označme pouze odlehlé body a nastavme popisky přímo v grafu. Můžete použít bodový graf, abyste vytvořili více prostoru pro popisky:
@ -91,7 +91,7 @@ Co se zde děje? Použili jste funkci `geom_point()` k vykreslení bodů. S tím
Co objevíte?
![MaxRozpětí-scatterplot](../../../../../translated_images/cs/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxRozpětí-scatterplot](../../../../../translated_images/cs/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## Filtrování dat
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Vytvořili jsme nový dataframe `birds_filtered` a poté vykreslili bodový graf. Filtrováním odlehlých bodů jsou vaše data nyní soudržnější a srozumitelnější.
![MaxRozpětí-scatterplot-vylepšený](../../../../../translated_images/cs/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxRozpětí-scatterplot-vylepšený](../../../../../translated_images/cs/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
Nyní, když máme čistší dataset alespoň z hlediska rozpětí křídel, pojďme objevit více o těchto ptácích.
@ -151,7 +151,7 @@ birds_filtered %>% group_by(Category) %>%
```
V následujícím úryvku instalujeme balíčky [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) a [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0), které pomáhají manipulovat a seskupovat data za účelem vykreslení seskupeného sloupcového grafu. Nejprve seskupíte data podle `Kategorie` ptáků a poté shrnete sloupce `MinDélka`, `MaxDélka`, `MinHmotnost`, `MaxHmotnost`, `MinRozpětí`, `MaxRozpětí`. Poté vykreslíte sloupcový graf pomocí balíčku `ggplot2` a specifikujete barvy pro různé kategorie a popisky.
![Seskupený sloupcový graf](../../../../../translated_images/cs/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Seskupený sloupcový graf](../../../../../translated_images/cs/stacked-bar-chart.0c92264e89da7b39.webp)
Tento sloupcový graf je však nečitelný, protože obsahuje příliš mnoho neseskupených dat. Musíte vybrat pouze data, která chcete vykreslit, takže se podívejme na délku ptáků podle jejich kategorie.
@ -166,7 +166,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Nejprve spočítáte unikátní hodnoty ve sloupci `Kategorie` a poté je seřadíte do nového dataframe `birds_count`. Tato seřazená data jsou poté faktorizována na stejné úrovni, aby byla vykreslena ve správném pořadí. Pomocí `ggplot2` poté vykreslíte data ve sloupcovém grafu. Funkce `coord_flip()` vykreslí horizontální sloupce.
![Kategorie-délka](../../../../../translated_images/cs/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![Kategorie-délka](../../../../../translated_images/cs/category-length.7e34c296690e85d6.webp)
Tento sloupcový graf poskytuje dobrý přehled o počtu ptáků v každé kategorii. Na první pohled vidíte, že největší počet ptáků v této oblasti patří do kategorie Kachny/Husy/Vodní ptáci. Minnesota je "země 10 000 jezer", takže to není překvapivé!
@ -189,7 +189,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
Seskupíme data `birds_filtered` podle `Kategorie` a poté vykreslíme sloupcový graf.
![Porovnávání dat](../../../../../translated_images/cs/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![Porovnávání dat](../../../../../translated_images/cs/comparingdata.f486a450d61c7ca5.webp)
Nic zde není překvapivé: kolibříci mají nejmenší MaxDélku ve srovnání s pelikány nebo husami. Je dobré, když data dávají logický smysl!
@ -201,7 +201,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![Překryté hodnoty](../../../../../translated_images/cs/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![Překryté hodnoty](../../../../../translated_images/cs/superimposed-values.5363f0705a1da416.webp)
## 🚀 Výzva

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![max délka podle řádu](../../../../../translated_images/cs/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![max délka podle řádu](../../../../../translated_images/cs/max-length-per-order.e5b283d952c78c12.webp)
Tento graf poskytuje přehled o obecné distribuci délky těla podle řádu ptáků, ale není to optimální způsob, jak zobrazit skutečné distribuce. Tento úkol se obvykle řeší vytvořením histogramu.
## Práce s histogramy
@ -47,7 +47,7 @@ Tento graf poskytuje přehled o obecné distribuci délky těla podle řádu pt
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![distribuce přes celý dataset](../../../../../translated_images/cs/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![distribuce přes celý dataset](../../../../../translated_images/cs/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
Jak vidíte, většina z více než 400 ptáků v tomto datasetu spadá do rozsahu pod 2000 pro jejich maximální tělesnou hmotnost. Získejte více informací o datech změnou parametru `bins` na vyšší číslo, například 30:
@ -55,7 +55,7 @@ Jak vidíte, většina z více než 400 ptáků v tomto datasetu spadá do rozsa
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![distribuce-30bins](../../../../../translated_images/cs/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![distribuce-30bins](../../../../../translated_images/cs/distribution-30bins.6a3921ea7a421bf7.webp)
Tento graf ukazuje distribuci trochu podrobněji. Méně zkreslený graf by mohl být vytvořen tím, že zajistíte, že vyberete pouze data v daném rozsahu:
@ -67,7 +67,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![filtrovaný histogram](../../../../../translated_images/cs/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![filtrovaný histogram](../../../../../translated_images/cs/filtered-histogram.6bf5d2bfd8253322.webp)
✅ Vyzkoušejte některé další filtry a datové body. Chcete-li vidět plnou distribuci dat, odstraňte filtr `['MaxBodyMass']`, abyste zobrazili označené distribuce.
@ -81,7 +81,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Zdá se, že existuje očekávaná korelace mezi těmito dvěma prvky podél očekávané osy, s jedním obzvláště silným bodem konvergence:
![2d graf](../../../../../translated_images/cs/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2d graf](../../../../../translated_images/cs/2d-plot.c504786f439bd7eb.webp)
Histogramy fungují dobře ve výchozím nastavení pro číselná data. Co když potřebujete vidět distribuce podle textových dat?
## Prozkoumejte dataset pro distribuce pomocí textových dat
@ -112,7 +112,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![rozpětí křídel a stav ochrany](../../../../../translated_images/cs/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![rozpětí křídel a stav ochrany](../../../../../translated_images/cs/wingspan-conservation-collation.4024e9aa6910866a.webp)
Zdá se, že neexistuje dobrá korelace mezi minimálním rozpětím křídel a stavem ochrany. Otestujte další prvky datasetu pomocí této metody. Můžete také vyzkoušet různé filtry. Najdete nějakou korelaci?
@ -126,7 +126,7 @@ Pojďme nyní pracovat s hustotními grafy!
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![hustotní graf](../../../../../translated_images/cs/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![hustotní graf](../../../../../translated_images/cs/density-plot.675ccf865b76c690.webp)
Vidíte, jak graf odráží ten předchozí pro data o minimálním rozpětí křídel; je jen trochu hladší. Pokud byste chtěli znovu vytvořit tu zubatou linii MaxBodyMass z druhého grafu, který jste vytvořili, mohli byste ji velmi dobře vyhladit pomocí této metody:
@ -134,7 +134,7 @@ Vidíte, jak graf odráží ten předchozí pro data o minimálním rozpětí k
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![hustota tělesné hmotnosti](../../../../../translated_images/cs/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![hustota tělesné hmotnosti](../../../../../translated_images/cs/bodymass-smooth.d31ce526d82b0a1f.webp)
Pokud byste chtěli hladkou, ale ne příliš hladkou linii, upravte parametr `adjust`:
@ -142,7 +142,7 @@ Pokud byste chtěli hladkou, ale ne příliš hladkou linii, upravte parametr `a
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![méně hladká tělesná hmotnost](../../../../../translated_images/cs/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![méně hladká tělesná hmotnost](../../../../../translated_images/cs/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ Přečtěte si o dostupných parametrech pro tento typ grafu a experimentujte!
@ -152,7 +152,7 @@ Tento typ grafu nabízí krásně vysvětlující vizualizace. Například něko
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![tělesná hmotnost podle řádu](../../../../../translated_images/cs/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![tělesná hmotnost podle řádu](../../../../../translated_images/cs/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 Výzva

@ -84,7 +84,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Voila, koláčový graf zobrazující proporce těchto dat podle těchto dvou tříd hub. Je velmi důležité správně nastavit pořadí štítků, zejména zde, takže si ověřte pořadí, ve kterém je pole štítků vytvořeno!
![koláčový graf](../../../../../translated_images/cs/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![koláčový graf](../../../../../translated_images/cs/pie1-wb.685df063673751f4.webp)
## Prstence!
@ -118,7 +118,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![prstencový graf](../../../../../translated_images/cs/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![prstencový graf](../../../../../translated_images/cs/donut-wb.34e6fb275da9d834.webp)
Tento kód používá dvě knihovny - ggplot2 a webr. Pomocí funkce PieDonut z knihovny webr můžeme snadno vytvořit prstencový graf!
@ -156,7 +156,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
Pomocí waflového grafu můžete jasně vidět proporce barev klobouků v této datové sadě hub. Zajímavé je, že existuje mnoho hub se zelenými klobouky!
![waflový graf](../../../../../translated_images/cs/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![waflový graf](../../../../../translated_images/cs/waffle.aaa75c5337735a6e.webp)
V této lekci jste se naučili tři způsoby vizualizace proporcí. Nejprve musíte svá data seskupit do kategorií a poté se rozhodnout, který způsob zobrazení dat je nejlepší - koláč, prstenec nebo wafle. Všechny jsou chutné a uživateli okamžitě poskytují přehled o datové sadě.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/cs/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/cs/scatter1.86b8900674d88b26.webp)
Nyní zobrazte stejná data s barevným schématem inspirovaným medem, abyste ukázali, jak se cena vyvíjí v průběhu let. Toho můžete dosáhnout přidáním parametru 'scale_color_gradientn', který ukáže změnu rok od roku:
@ -52,7 +52,7 @@ Nyní zobrazte stejná data s barevným schématem inspirovaným medem, abyste u
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/cs/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/cs/scatter2.4d1cbc693bad20e2.webp)
S touto změnou barevného schématu můžete vidět, že v průběhu let dochází k jasnému nárůstu ceny za libru medu. Pokud se podíváte na vzorek dat (například stát Arizona), můžete vidět vzorec zvyšování cen rok od roku s několika výjimkami:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Vidíte, že velikost bodů se postupně zvětšuje.
![scatterplot 3](../../../../../translated_images/cs/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/cs/scatter3.722d21e6f20b3ea2.webp)
Je to jednoduchý případ nabídky a poptávky? Kvůli faktorům, jako je změna klimatu a kolaps včelstev, je k dispozici méně medu k prodeji rok od roku, a proto cena stoupá?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Odpověď: Ano, s několika výjimkami kolem roku 2003:
![line chart 1](../../../../../translated_images/cs/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/cs/line1.299b576fbb2a59e6.webp)
Otázka: Vidíme v roce 2003 také nárůst zásob medu? Co když se podíváte na celkovou produkci rok od roku?
@ -106,7 +106,7 @@ Otázka: Vidíme v roce 2003 také nárůst zásob medu? Co když se podíváte
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/cs/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/cs/line2.3b18fcda7176ceba.webp)
Odpověď: Ne tak docela. Pokud se podíváte na celkovou produkci, zdá se, že v tomto konkrétním roce skutečně vzrostla, i když obecně produkce medu během těchto let klesá.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
V této vizualizaci můžete porovnat výnos na včelstvo a počet včelstev rok od roku vedle sebe s nastavením wrap na 3 pro sloupce:
![facet grid](../../../../../translated_images/cs/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/cs/facet.491ad90d61c2a7cc.webp)
Pro tento dataset nic zvláštního nevyniká, pokud jde o počet včelstev a jejich výnos rok od roku a stát od státu. Existuje jiný způsob, jak najít korelaci mezi těmito dvěma proměnnými?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/cs/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/cs/dual-line.fc4665f360a54018.webp)
I když kolem roku 2003 nic výrazně nevyniká, umožňuje nám to zakončit tuto lekci na trochu pozitivnější notě: i když celkový počet včelstev klesá, jejich počet se stabilizuje, i když jejich výnos na včelstvo klesá.

@ -38,25 +38,25 @@ V předchozích lekcích jste experimentovali s vytvářením různých zajímav
I když datový vědec pečlivě vybere správný graf pro správná data, existuje mnoho způsobů, jak mohou být data zobrazena tak, aby podporovala určitý názor, často na úkor samotných dat. Existuje mnoho příkladů klamavých grafů a infografik!
[![Jak grafy lžou od Alberta Caira](../../../../../translated_images/cs/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Jak grafy lžou")
[![Jak grafy lžou od Alberta Caira](../../../../../translated_images/cs/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Jak grafy lžou")
> 🎥 Klikněte na obrázek výše pro konferenční přednášku o klamavých grafech
Tento graf obrací osu X, aby ukázal opak pravdy na základě data:
![špatný graf 1](../../../../../translated_images/cs/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![špatný graf 1](../../../../../translated_images/cs/bad-chart-1.596bc93425a8ac30.webp)
[Tento graf](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) je ještě klamavější, protože oko je přitahováno doprava, aby dospělo k závěru, že počet případů COVID v různých okresech v průběhu času klesal. Ve skutečnosti, pokud se podíváte pozorně na data, zjistíte, že byla přeskupena, aby vytvořila klamavý sestupný trend.
![špatný graf 2](../../../../../translated_images/cs/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![špatný graf 2](../../../../../translated_images/cs/bad-chart-2.62edf4d2f30f4e51.webp)
Tento notoricky známý příklad používá barvy A obrácenou osu Y k oklamání: místo závěru, že počet úmrtí na střelné zbraně vzrostl po přijetí legislativy podporující zbraně, je oko oklamáno, aby si myslelo, že opak je pravdou:
![špatný graf 3](../../../../../translated_images/cs/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![špatný graf 3](../../../../../translated_images/cs/bad-chart-3.e201e2e915a230bc.webp)
Tento podivný graf ukazuje, jak lze manipulovat s proporcemi, a to k humornému efektu:
![špatný graf 4](../../../../../translated_images/cs/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![špatný graf 4](../../../../../translated_images/cs/bad-chart-4.8872b2b881ffa96c.webp)
Porovnávání neporovnatelného je další pochybný trik. Existuje [úžasná webová stránka](https://tylervigen.com/spurious-correlations) plná 'nesmyslných korelací', která zobrazuje 'fakta' korelující například míru rozvodovosti v Maine a spotřebu margarínu. Skupina na Redditu také sbírá [ošklivé použití](https://www.reddit.com/r/dataisugly/top/?t=all) dat.
@ -91,13 +91,13 @@ Označte osy, poskytněte legendu, pokud je to nutné, a nabídněte tooltipy pr
Pokud jsou vaše data textová a na ose X příliš dlouhá, můžete text naklonit pro lepší čitelnost. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) nabízí 3D grafy, pokud vaše data podporují jejich zobrazení. Pomocí této knihovny lze vytvořit sofistikované vizualizace dat.
![3D grafy](../../../../../translated_images/cs/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3D grafy](../../../../../translated_images/cs/3d.db1734c151eee87d.webp)
## Animace a 3D zobrazení grafů
Některé z nejlepších vizualizací dat dnes jsou animované. Shirley Wu vytvořila úžasné vizualizace pomocí D3, například '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kde každá květina představuje vizualizaci filmu. Dalším příkladem pro Guardian je 'bussed out', interaktivní zážitek kombinující vizualizace s Greensock a D3 plus formát článku typu scrollytelling, který ukazuje, jak NYC řeší problém bezdomovectví tím, že lidi vyváží z města.
![busing](../../../../../translated_images/cs/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/cs/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: Jak Amerika přesouvá své bezdomovce" od [Guardianu](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Vizualizace od Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ I když tato lekce není dostatečně podrobná, aby vás naučila používat ty
Dokončíte webovou aplikaci, která zobrazí animovaný pohled na tuto sociální síť. Používá knihovnu, která byla vytvořena pro [vizualizaci sítě](https://github.com/emiliorizzo/vue-d3-network) pomocí Vue.js a D3. Když aplikace běží, můžete uzly na obrazovce přetahovat a měnit jejich uspořádání.
![liaisons](../../../../../translated_images/cs/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/cs/liaisons.90ce7360bcf84765.webp)
## Projekt: Vytvořte graf zobrazující síť pomocí D3.js

@ -1,6 +1,6 @@
# Vizualizace
![včela na květu levandule](../../../translated_images/cs/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![včela na květu levandule](../../../translated_images/cs/bee.0aa1d91132b12e3a.webp)
> Fotografie od <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenny Lee</a> na <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Vizualizace dat je jedním z nejdůležitějších úkolů datového vědce. Obrázky mají hodnotu tisíce slov a vizualizace vám může pomoci identifikovat různé zajímavé aspekty vašich dat, jako jsou výkyvy, odlehlé hodnoty, seskupení, tendence a další, které vám mohou pomoci pochopit příběh, který vaše data vyprávějí.

@ -16,7 +16,7 @@ V tuto chvíli jste si pravděpodobně uvědomili, že datová věda je proces.
Tato lekce se zaměřuje na 3 části životního cyklu: zachycení, zpracování a údržbu.
![Diagram životního cyklu datové vědy](../../../../translated_images/cs/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Diagram životního cyklu datové vědy](../../../../translated_images/cs/data-science-lifecycle.a1e362637503c4fb.webp)
> Foto od [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Zachycení
@ -92,7 +92,7 @@ Prozkoumejte [životní cyklus procesu týmové datové vědy](https://docs.micr
|Proces týmové datové vědy (TDSP)|Průmyslový standardní proces pro dolování dat (CRISP-DM)|
|--|--|
|![Životní cyklus týmové datové vědy](../../../../translated_images/cs/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Obrázek od Data Science Process Alliance](../../../../translated_images/cs/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Životní cyklus týmové datové vědy](../../../../translated_images/cs/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Obrázek od Data Science Process Alliance](../../../../translated_images/cs/CRISP-DM.8bad2b4c66e62aa7.webp) |
| Obrázek od [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Obrázek od [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Kvíz po lekci](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# Životní cyklus datové vědy
![communication](../../../translated_images/cs/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/cs/communication.06d8e2a88d30d168.webp)
> Foto od <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> na <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
V těchto lekcích prozkoumáte některé aspekty životního cyklu datové vědy, včetně analýzy a komunikace kolem dat.

@ -1,12 +1,12 @@
# Data Science v cloudu
![cloud-picture](../../../translated_images/cs/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/cs/cloud-picture.f5526de3c6c6387b.webp)
> Foto od [Jelleke Vanooteghem](https://unsplash.com/@ilumire) z [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Pokud jde o práci s datovou vědou a velkými daty, cloud může být skutečným průlomem. V následujících třech lekcích si vysvětlíme, co je to cloud a proč může být velmi užitečný. Také prozkoumáme dataset o srdečním selhání a vytvoříme model, který pomůže odhadnout pravděpodobnost, že někdo trpí srdečním selháním. Využijeme sílu cloudu k trénování, nasazení a využití modelu dvěma různými způsoby. Jeden způsob bude využívat pouze uživatelské rozhraní v režimu Low code/No code, druhý způsob bude využívat Azure Machine Learning Software Developer Kit (Azure ML SDK).
![project-schema](../../../translated_images/cs/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/cs/project-schema.420e56d495624541.webp)
### Témata

@ -32,7 +32,7 @@ Díky demokratizaci AI je pro vývojáře nyní snazší navrhovat a integrovat
* [Datová věda ve zdravotnictví](https://data-flair.training/blogs/data-science-in-healthcare/) - zdůrazňuje aplikace jako lékařské zobrazování (např. MRI, rentgen, CT-sken), genomiku (sekvenování DNA), vývoj léků (hodnocení rizik, predikce úspěchu), prediktivní analytiku (péče o pacienty a logistika zásob), sledování a prevence nemocí atd.
![Aplikace datové vědy v reálném světě](../../../../translated_images/cs/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Zdroj obrázku: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Aplikace datové vědy v reálném světě](../../../../translated_images/cs/data-science-applications.4e5019cd8790ebac.webp) Zdroj obrázku: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Obrázek ukazuje další oblasti a příklady aplikace technik datové vědy. Chcete prozkoumat další aplikace? Podívejte se na sekci [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) níže.

@ -13,7 +13,7 @@ Rozhraní Explorer (zobrazené na snímku obrazovky níže) vám umožňuje vybr
2. Prozkoumat [katalog datasetů](https://planetarycomputer.microsoft.com/catalog) zjistit účel každého datasetu.
3. Použít Explorer vybrat dataset, který vás zajímá, zvolit relevantní dotaz a možnost vykreslení.
![Explorer Planetary Computer](../../../../translated_images/cs/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![Explorer Planetary Computer](../../../../translated_images/cs/planetary-computer-explorer.c1e95a9b053167d6.webp)
`Váš úkol:`
Nyní prostudujte vizualizaci, která se zobrazí v prohlížeči, a odpovězte na následující otázky:

@ -1,130 +1,140 @@
# Data Science pro začátečníky učební plán
# Data Science pro začátečníky - Kurikulum
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![Otevřít v GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![Licence GitHub](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
[![Přispěvatelé GitHub](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
[![Problémy GitHub](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
[![Pull requesty GitHub](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[![Vítáme PR](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Sledující GitHub](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
[![Rozvětvení GitHub](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
[![Hvězdy GitHub](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Zástupci Azure Cloud ve společnosti Microsoft s potěšením představují desetitýdenní, dvacetilekční učební plán zaměřený na Data Science. Každá lekce obsahuje kvízy před lekcí a po lekci, psaný návod k dokončení lekce, řešení a úkol. Náš projektově orientovaný způsob výuky umožňuje učit se při tvorbě projektů, což je osvědčený způsob, jak si nové dovednosti skutečně osvojit.
Azure Cloud Advocates ve společnosti Microsoft s potěšením nabízejí 10týdenní, 20lekční kurikulum věnované Data Science. Každá lekce obsahuje před- a po-lekční kvízy, písemné instrukce k dokončení lekce, řešení a úkol. Naše projektově orientovaná pedagogika vám umožní učit se při budování, což je osvědčený způsob, jak si nové dovednosti zapamatovat.
**Srdečné díky našim autorům:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**Upřímné díky našim autorům:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Zvláštní poděkování 🙏 patří našim autorům, recenzentům a přispěvatelům obsahu z řad [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** zejména Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Zvláštní poděkování 🙏 našim [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) autorům, recenzentům a přispěvatelům obsahu,** zejména Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Myšlenková mapa od @sketchthedocs https://sketchthedocs.dev](../../translated_images/cs/00-Title.8af36cd35da1ac55.webp)|
|![Sketchnote od @sketchthedocs https://sketchthedocs.dev](../../translated_images/cs/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Data Science pro začátečníky _Myšlenková mapa od [@nitya](https://twitter.com/nitya)_ |
| Data Science pro začátečníky - _Sketchnote od [@nitya](https://twitter.com/nitya)_ |
### 🌐 Podpora více jazyků
#### Podporováno pomocí GitHub Action (automatizované & stále aktuální)
#### Podporováno pomocí GitHub Action (automatizováno a vždy aktuální)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabština](../ar/README.md) | [Bengálština](../bn/README.md) | [Bulharština](../bg/README.md) | [Barmština (Myanmar)](../my/README.md) | [Čínština (zjednodušená)](../zh-CN/README.md) | [Čínština (tradiční, Hongkong)](../zh-HK/README.md) | [Čínština (tradiční, Macao)](../zh-MO/README.md) | [Čínština (tradiční, Taiwan)](../zh-TW/README.md) | [Chorvatština](../hr/README.md) | [Čeština](./README.md) | [Dánština](../da/README.md) | [Nizozemština](../nl/README.md) | [Estonština](../et/README.md) | [Finština](../fi/README.md) | [Francouzština](../fr/README.md) | [Němčina](../de/README.md) | [Řečtina](../el/README.md) | [Hebrejština](../he/README.md) | [Hindština](../hi/README.md) | [Maďarština](../hu/README.md) | [Indonéština](../id/README.md) | [Italyština](../it/README.md) | [Japonština](../ja/README.md) | [Kannadština](../kn/README.md) | [Korejština](../ko/README.md) | [Litevština](../lt/README.md) | [Malajština](../ms/README.md) | [Malajalámština](../ml/README.md) | [Maráthština](../mr/README.md) | [Nepálština](../ne/README.md) | [Nigerská Pidgin](../pcm/README.md) | [Norština](../no/README.md) | [Perština (Fársí)](../fa/README.md) | [Polština](../pl/README.md) | [Portugalština (Brazílie)](../pt-BR/README.md) | [Portugalština (Portugalsko)](../pt-PT/README.md) | [Paňdžábština (Gurmukhi)](../pa/README.md) | [Rumunština](../ro/README.md) | [Ruština](../ru/README.md) | [Srbština (cyrilice)](../sr/README.md) | [Slovenština](../sk/README.md) | [Slovinština](../sl/README.md) | [Španělština](../es/README.md) | [Svahilština](../sw/README.md) | [Švédština](../sv/README.md) | [Tagalog (filipínština)](../tl/README.md) | [Tamilština](../ta/README.md) | [Telugština](../te/README.md) | [Thajština](../th/README.md) | [Turečtina](../tr/README.md) | [Ukrajinština](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamština](../vi/README.md)
[Arabština](../ar/README.md) | [Bengálština](../bn/README.md) | [Bulharština](../bg/README.md) | [Barmsky (Myanmar)](../my/README.md) | [Čínština (zjednodušená)](../zh-CN/README.md) | [Čínština (tradiční, Hong Kong)](../zh-HK/README.md) | [Čínština (tradiční, Macau)](../zh-MO/README.md) | [Čínština (tradiční, Taiwan)](../zh-TW/README.md) | [Chorvatština](../hr/README.md) | [Čeština](./README.md) | [Dánština](../da/README.md) | [Nizozemština](../nl/README.md) | [Estonština](../et/README.md) | [Finština](../fi/README.md) | [Francouzština](../fr/README.md) | [Němčina](../de/README.md) | [Řečtina](../el/README.md) | [Hebrejština](../he/README.md) | [Hindština](../hi/README.md) | [Maďarština](../hu/README.md) | [Indonéština](../id/README.md) | [Italština](../it/README.md) | [Japonština](../ja/README.md) | [Kannada](../kn/README.md) | [Korejština](../ko/README.md) | [Litevština](../lt/README.md) | [Malajština](../ms/README.md) | [Malajalámština](../ml/README.md) | [Maráthština](../mr/README.md) | [Nepálština](../ne/README.md) | [Nigerijský pidžin](../pcm/README.md) | [Norština](../no/README.md) | [Perština (Farsi)](../fa/README.md) | [Polština](../pl/README.md) | [Portugalština (Brazílie)](../pt-BR/README.md) | [Portugalština (Portugalsko)](../pt-PT/README.md) | [Paňdžábština (Gurmukhi)](../pa/README.md) | [Rumunština](../ro/README.md) | [Ruština](../ru/README.md) | [Srbština (cyrilice)](../sr/README.md) | [Slovenština](../sk/README.md) | [Slovinština](../sl/README.md) | [Španělština](../es/README.md) | [Svahilština](../sw/README.md) | [Švédština](../sv/README.md) | [Tagalog (Filipíny)](../tl/README.md) | [Tamilština](../ta/README.md) | [Telugština](../te/README.md) | [Thajština](../th/README.md) | [Turečtina](../tr/README.md) | [Ukrajinština](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamština](../vi/README.md)
> **Dáváte přednost klonování lokálně?**
> Tento repozitář obsahuje více než 50 jazykových překladů, což výrazně zvyšuje velikost stahování. Pro klonování bez překladů použijte sparse checkout:
> **Radši klonovat lokálně?**
>
> Tento repozitář obsahuje 50+ jazykových překladů, což výrazně zvětšuje velikost stahování. Pro klonování bez překladů použijte sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> Toto vám zajistí vše potřebné k dokončení kurzu s mnohem rychlejším stažením.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> To vám poskytne vše potřebné ke zvládnutí kurzu s mnohem rychlejším stažením.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Pokud si přejete mít podporu dalších jazyků, podporované jazyky najdete [zde](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Pokud chcete podporu dalších jazyků, jsou seznam podporovaných jazyků uveden [zde](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Přidejte se k naší komunitě
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Máme probíhající sérii Learn with AI na Discordu, dozvíte se více a přidejte se k nám na [Learn with AI Series](https://aka.ms/learnwithai/discord) od 18. do 30. září 2025. Získáte tipy a triky používání GitHub Copilot pro Data Science.
Máme probíhající sérii „Learn with AI“ na Discordu, dozvíte se více a připojte se na [Learn with AI Series](https://aka.ms/learnwithai/discord) od 18. do 30. září 2025. Získáte tipy a triky pro používání GitHub Copilot pro Data Science.
![Learn with AI series](../../translated_images/cs/1.2b28cdc6205e26fe.webp)
![Série Learn with AI](../../translated_images/cs/1.2b28cdc6205e26fe.webp)
# Jste student?
Začněte s následujícími zdroji:
- [Stránka Studentského centra](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Na této stránce najdete zdroje pro začátečníky, studentské balíčky a dokonce i způsoby, jak získat bezplatný certifikační voucher. Tuto stránku si určitě uložte mezi záložky a občas ji zkontrolujte, protože obsah obměňujeme alespoň jednou měsíčně.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Přidejte se k mezinárodní komunitě studentských ambasadorů, může to být vaše cesta do Microsoftu.
- [Stránka Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Na této stránce najdete zdroje pro začátečníky, studentské balíčky a dokonce i způsoby, jak získat bezplatný certifikační voucher. Tuto stránku si chcete uložit do záložek a čas od času ji kontrolovat, protože obsah měníme alespoň každý měsíc.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Připojte se k celosvětové komunitě studentských velvyslanců, může to být vaše cesta do Microsoftu.
# Začínáme
## 📚 Dokumentace
- **[Instalační příručka](INSTALLATION.md)** Podrobné pokyny k nastavení pro začátečníky
- **[Příručka k použití](USAGE.md)** Příklady a běžné pracovní postupy
- **[Řešení problémů](TROUBLESHOOTING.md)** Řešení běžných problémů
- **[Příručka přispívání](CONTRIBUTING.md)** Jak přispět do tohoto projektu
- **[Pro učitele](for-teachers.md)** Pokyny k výuce a zdroje pro třídu
- **[Průvodce instalací](INSTALLATION.md)** - Krok za krokem instrukce pro začátečníky
- **[Průvodce používáním](USAGE.md)** - Příklady a běžné pracovní postupy
- **[Řešení problémů](TROUBLESHOOTING.md)** - Řešení běžných problémů
- **[Příručka přispěvatelů](CONTRIBUTING.md)** - Jak přispívat do tohoto projektu
- **[Pro učitele](for-teachers.md)** - Pokyny pro výuku a zdroje do tříd
## 👨‍🎓 Pro studenty
> **Úplní začátečníci**: Jste v oblasti data science nováčkem? Začněte s našimi [příklady vhodnými pro začátečníky](examples/README.md)! Tyto jednoduché, dobře komentované příklady vám pomohou pochopit základy ještě před tím, než se pustíte do celého učebního plánu.
> **[Studenti](https://aka.ms/student-page)**: abyste mohli tento učební plán využívat sami, naklonujte celý repozitář a vypracujte úkoly samostatně, počínaje kvízem před přednáškou. Pak si přečtěte přednášku a dokončete zbývající aktivity. Snažte se projekty vytvářet tak, že lekce pochopíte, místo pouhého kopírování řešení; řešení jsou však k dispozici ve složkách /solutions v každé lekci zaměřené na projekt. Další možností je založit studijní skupinu s přáteli a projít obsah společně. Pro další studium doporučujeme [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Úplní začátečníci**: Noví v oblasti data science? Začněte s našimi [příklady vhodnými pro začátečníky](examples/README.md)! Tyto jednoduché, dobře komentované příklady vám pomohou pochopit základy před tím, než se pustíte do celého kurikula.
> **[Studenti](https://aka.ms/student-page)**: pro samostatné užití tohoto kurikula, forkněte celý repozitář a dokončujte cvičení sami, začněte přednáškovým kvízem. Potom si přečtěte přednášku a dokončete ostatní aktivity. Snažte se projekty vytvářet na základě pochopení lekcí, nikoli pouze kopírováním kódu řešení; kód však najdete ve složkách /solutions v každé lekci orientované na projekt. Další možností je vytvořit studijní skupinu s přáteli a projít obsah spolu. Pro další studium doporučujeme [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Rychlý start:**
1. Podívejte se do [Instalační příručky](INSTALLATION.md) pro nastavení vašeho prostředí
2. Prostudujte [Příručku k použití](USAGE.md), jak pracovat s učebním plánem
1. Podívejte se na [Průvodce instalací](INSTALLATION.md) k nastavení prostředí
2. Prostudujte [Průvodce používáním](USAGE.md), jak s kurikulem pracovat
3. Začněte Lekcí 1 a pokračujte postupně
4. Přidejte se k naší [Discord komunitě](https://aka.ms/ds4beginners/discord) pro podporu
4. Připojte se k naší [Discord komunitě](https://aka.ms/ds4beginners/discord) pro podporu
## 👩‍🏫 Pro učitele
> **Učitelé**: zahrnuli jsme [několik návrhů](for-teachers.md), jak tento učební plán používat. Budeme rádi za vaši zpětnou vazbu [v našem diskusním fóru](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Učitelé**: zahrnuli jsme [některá doporučení](for-teachers.md), jak tento učební plán používat. Budeme rádi za vaši zpětnou vazbu [v našem diskusním fóru](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Seznamte se s týmem
[![Promo video](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Promo video")
**Gif od** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Klikněte na obrázek výše pro video o projektu a lidech, kteří jej vytvořili!
> 🎥 Klikněte na obrázek výše pro video o projektu a lidech, kteří ho vytvořili!
## Pedagogika
Při tvorbě této kurikula jsme zvolili dvě pedagogické zásady: zajistit, aby bylo založeno na projektech, a aby obsahovalo časté kvízy. Na konci této série se studenti naučí základní principy datové vědy, včetně etických konceptů, přípravy dat, různých způsobů práce s daty, vizualizace dat, analýzy dat, reálných případů použití datové vědy a dalších.
Při tvorbě tohoto učebního plánu jsme zvolili dvě pedagogické zásady: zajistit, aby byl založen na projektech, a zahrnout časté kvízy. Na konci tohoto cyklu se studenti naučí základní principy datové vědy, včetně etických konceptů, přípravy dat, různých způsobů práce s daty, vizualizace dat, analýzy dat, reálných případů použití datové vědy a mnohem více.
Navíc nízkorizikový kvíz před hodinou nastavuje záměr studenta učit se dané téma, zatímco druhý kvíz po hodině zajišťuje lepší zapamatování. Toto kurikulum je navrženo tak, aby bylo flexibilní a zábavné a může být absolvováno celé nebo částečně. Projekty začínají malé a postupně se ve 10týdenním cyklu stávají složitějšími.
Navíc nízkorizikový kvíz před hodinou nastavuje záměr studenta k naučení tématu, zatímco druhý kvíz po hodině zajišťuje další zapamatování. Tento učební plán byl navržen tak, aby byl flexibilní a zábavný a může být absolvován celý nebo zčásti. Projekty začínají jednoduše a postupně se během 10týdenního cyklu stávají složitějšími.
> Najděte náš [Kodex chování](CODE_OF_CONDUCT.md), [Pravidla přispívání](CONTRIBUTING.md), [Pokyny k překladům](TRANSLATIONS.md). Vítáme vaši konstruktivní zpětnou vazbu!
> Najděte náš [Kodex chování](CODE_OF_CONDUCT.md), [Příspěvky](CONTRIBUTING.md), [Překlady](TRANSLATIONS.md) a pravidla. Vítáme vaše konstruktivní připomínky!
## Každá lekce obsahuje:
- Nepovinnou sketchnotu
- Nepovinné doplňkové video
- Kvíz na rozehřátí před lekcí
- Psanou lekci
- Pro projektové lekce krok za krokem návody, jak vytvořit projekt
- Zahřívací kvíz před lekcí
- Písemnou lekci
- U projektových lekcí krok za krokem návody, jak projekt vybudovat
- Kontroly znalostí
- Výzvu
- Doplňující čtení
- Zadání
- [Kvíz po lekci](https://ff-quizzes.netlify.app/en/)
> **Poznámka ke kvízům**: Všechny kvízy jsou v složce Quiz-App, je jich celkem 40, každý s třemi otázkami. Jsou propojeny z lekcí, ale kvízovou aplikaci lze spustit lokálně nebo nasadit na Azure; následujte instrukce ve složce `quiz-app`. Postupně se překládají.
> **Poznámka o kvízech**: Všechny kvízy jsou v adresáři Quiz-App, celkem 40 kvízů po třech otázkách. Jsou propojeny v lekcích, ale quiz app lze spustit lokálně nebo nasadit do Azure; postupujte podle pokynů v složce `quiz-app`. Kvízy jsou postupně lokalizovány.
## 🎓 Příklady přátelské k začátečníkům
## 🎓 Příklady vhodné pro začátečníky
**Jste nový v datové vědě?** Vytvořili jsme speciální [adresář příkladů](examples/README.md) s jednoduchým, dobře okomentovaným kódem, který vám pomůže začít:
**Jste nováček v datové vědě?** Vytvořili jsme speciální [adresář příkladů](examples/README.md) s jednoduchým, dobře okomentovaným kódem, který vám pomůže začít:
- 🌟 **Hello World** - Váš první program pro datovou vědu
- 📂 **Načítání dat** - Naučte se číst a prozkoumávat datové sady
- 📊 **Jednoduchá analýza** - Spočítejte statistiky a objevte vzory
- 📈 **Základní vizualizace** - Vytvářejte grafy a diagramy
- 🔬 **Projekt z reálného světa** - Kompletní pracovní postup od začátku do konce
- 🌟 **Hello World** váš první program v datové vědě
- 📂 **Načítání dat** naučte se číst a zkoumat datové sady
- 📊 **Jednoduchá analýza** vypočítejte statistiky a hledejte vzory
- 📈 **Základní vizualizace** vytvářejte grafy a diagramy
- 🔬 **Projekt z reálného světa** kompletní pracovní postup od začátku do konce
Každý příklad obsahuje podrobné komentáře vysvětlující každý krok, což je ideální pro úplné začátečníky!
@ -133,69 +143,69 @@ Každý příklad obsahuje podrobné komentáře vysvětlující každý krok, c
## Lekce
|![ Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/cs/00-Roadmap.4905d6567dff4753.webp)|
|![ Sketchnota od @sketchthedocs https://sketchthedocs.dev](../../translated_images/cs/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Data Science For Beginners: Plán - _Sketchnote od [@nitya](https://twitter.com/nitya)_ |
| Datová věda pro začátečníky: Plán cesty - _Sketchnota od [@nitya](https://twitter.com/nitya)_ |
| Číslo lekce | Téma | Skupina lekcí | Cíle učení | Propojená lekce | Autor |
| Číslo lekce | Téma | Skupina lekcí | Vzdělávací cíle | Propojená lekce | Autor |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Definování datové vědy | [Úvod](1-Introduction/README.md) | Naučte se základní pojmy datové vědy a jak souvisí s umělou inteligencí, strojovým učením a velkými daty. | [lekce](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 01 | Definování datové vědy | [Úvod](1-Introduction/README.md) | Naučit se základní koncepty datové vědy a jak souvisí s umělou inteligencí, strojovým učením a big data. | [lekce](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etika datové vědy | [Úvod](1-Introduction/README.md) | Koncepty, výzvy a rámce etiky dat. | [lekce](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definování dat | [Úvod](1-Introduction/README.md) | Jak jsou data klasifikována a jejich běžné zdroje. | [lekce](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 03 | Definování dat | [Úvod](1-Introduction/README.md) | Jak se data klasifikují a jaké jsou jejich běžné zdroje. | [lekce](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Úvod do statistiky a pravděpodobnosti | [Úvod](1-Introduction/README.md) | Matematické techniky pravděpodobnosti a statistiky pro pochopení dat. | [lekce](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Práce s relačními daty | [Práce s daty](2-Working-With-Data/README.md) | Úvod do relačních dat a základy průzkumu a analýzy relačních dat pomocí strukturovaného dotazovacího jazyka, známého jako SQL (vyslovuje se "ess-kju-el"). | [lekce](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Práce s NoSQL daty | [Práce s daty](2-Working-With-Data/README.md) | Úvod do nerelačních dat, jejich různých typů a základy průzkumu a analýzy dokumentových databází. | [lekce](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 05 | Práce s relačními daty | [Práce s daty](2-Working-With-Data/README.md) | Úvod do relačních dat a základy prozkoumávání a analýzy relačních dat pomocí jazyka SQL (Structured Query Language, vyslovuje se „si-kvel“). | [lekce](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Práce s NoSQL daty | [Práce s daty](2-Working-With-Data/README.md) | Úvod do nereálnací (NoSQL) dat, jejich typů a základy prozkoumávání a analýzy dokumentových databází. | [lekce](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Práce s Pythonem | [Práce s daty](2-Working-With-Data/README.md) | Základy použití Pythonu pro průzkum dat s knihovnami jako Pandas. Doporučuje se základní znalost programování v Pythonu. | [lekce](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Příprava dat | [Práce s daty](2-Working-With-Data/README.md) | Témata týkající se technik čištění a transformace dat k řešení problémů s chybějícími, nepřesnými nebo neúplnými daty. | [lekce](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Vizualizace množství | [Vizualizace dat](3-Data-Visualization/README.md) | Naučte se používat Matplotlib k vizualizaci dat o ptácích 🦆 | [lekce](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Vizualizace rozložení dat | [Vizualizace dat](3-Data-Visualization/README.md) | Vizualizace pozorování a trendů v intervalu. | [lekce](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Vizualizace proporcí | [Vizualizace dat](3-Data-Visualization/README.md) | Vizualizace diskrétních a seskupených procent. | [lekce](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 08 | Příprava dat | [Práce s daty](2-Working-With-Data/README.md) | Techniky čištění a transformace dat k řešení problémů s chybějícími, nepřesnými nebo neúplnými daty. | [lekce](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Vizualizace množství | [Vizualizace dat](3-Data-Visualization/README.md) | Naučte se používat Matplotlib pro vizualizaci dat ptáků 🦆 | [lekce](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Vizualizace rozložení dat | [Vizualizace dat](3-Data-Visualization/README.md) | Vizualizace pozorování a trendů v rámci intervalu. | [lekce](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Vizualizace poměrů | [Vizualizace dat](3-Data-Visualization/README.md) | Vizualizace diskrétních a seskupených procent. | [lekce](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Vizualizace vztahů | [Vizualizace dat](3-Data-Visualization/README.md) | Vizualizace spojení a korelací mezi sadami dat a jejich proměnnými. | [lekce](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Smysluplné vizualizace | [Vizualizace dat](3-Data-Visualization/README.md) | Techniky a návody, jak učinit vaše vizualizace hodnotnými pro efektivní řešení problémů a získání poznatků. | [lekce](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Úvod do životního cyklu datové vědy | [Životní cyklus](4-Data-Science-Lifecycle/README.md) | Úvod do životního cyklu datové vědy a jeho první fáze získávání a extrakce dat. | [lekce](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analýza | [Životní cyklus](4-Data-Science-Lifecycle/README.md) | Tato fáze životního cyklu datové vědy se zaměřuje na techniky analýzy dat. | [lekce](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikace | [Životní cyklus](4-Data-Science-Lifecycle/README.md) | Tato fáze životního cyklu datové vědy se zaměřuje na prezentaci poznatků z dat tak, aby bylo snazší je pochopit rozhodovacím orgánům. | [lekce](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Datová věda v cloudu | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Tato série lekcí představuje datovou vědu v cloudu a její výhody. | [lekce](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 18 | Datová věda v cloudu | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Trénování modelů pomocí nástrojů Low Code. |[lekce](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 19 | Datová věda v cloudu | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Nasazení modelů pomocí Azure Machine Learning Studio. | [lekce](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 20 | Datová věda v praxi | [In the Wild](6-Data-Science-In-Wild/README.md) | Projekty založené na datové vědě v reálném světě. | [lekce](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 13 | Smysluplné vizualizace | [Vizualizace dat](3-Data-Visualization/README.md) | Techniky a pokyny, jak udělat vizualizace cennými pro efektivní řešení problémů a získání poznatků. | [lekce](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Úvod do životního cyklu datové vědy | [Životní cyklus](4-Data-Science-Lifecycle/README.md) | Úvod do životního cyklu datové vědy a jeho první krok získávání a vytahování dat. | [lekce](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analýza | [Životní cyklus](4-Data-Science-Lifecycle/README.md) | Fáze životního cyklu datové vědy zaměřená na techniky analýzy dat. | [lekce](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikace | [Životní cyklus](4-Data-Science-Lifecycle/README.md) | Fáze životního cyklu datové vědy zaměřená na prezentaci poznatků z dat tak, aby byly snadněji pochopitelné pro rozhodující osoby. | [lekce](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Datová věda v cloudu | [Data v cloudu](5-Data-Science-In-Cloud/README.md) | Tato série lekcí představuje datovou vědu v cloudu a její výhody. | [lekce](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 18 | Datová věda v cloudu | [Data v cloudu](5-Data-Science-In-Cloud/README.md) | Trénování modelů pomocí nástrojů Low Code. |[lekce](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 19 | Datová věda v cloudu | [Data v cloudu](5-Data-Science-In-Cloud/README.md) | Nasazení modelů pomocí Azure Machine Learning Studio. | [lekce](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) a [Maud](https://twitter.com/maudstweets) |
| 20 | Datová věda v praxi | [V praxi](6-Data-Science-In-Wild/README.md) | Projekty datové vědy v reálném světě. | [lekce](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Postupujte podle těchto kroků pro otevření tohoto vzoru v Codespace:
1. Klikněte na rozbalovací menu Code a vyberte možnost Open with Codespaces.
2. Vyberte + New codespace v dolní části panelu.
Pro více informací se podívejte na [dokumentaci GitHubu](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
Postupujte podle těchto kroků pro otevření tohoto vzorku v Codespace:
1. Klikněte na rozbalovací menu Kód a vyberte možnost Otevřít v Codespaces.
2. Vyberte + Nový codespace ve spodní části panelu.
Pro více informací si přečtěte [dokumentaci GitHubu](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
## VSCode Remote - kontejnery
Postupujte podle těchto kroků pro otevření tohoto repozitáře v kontejneru pomocí vašeho lokálního počítače a VSCode s rozšířením VS Code Remote - Containers:
1. Pokud používáte vývojový kontejner poprvé, ujistěte se, že váš systém splňuje požadavky (tzn. máte nainstalovaný Docker) v [dokumentaci pro začátečníky](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Pokud používáte vývojářský kontejner poprvé, ujistěte se, že váš systém splňuje předpoklady (např. má nainstalovaný Docker) v [dokumentaci pro začátečníky](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Pro použití tohoto repozitáře můžete repozitář otevřít v izolovaném Docker svazku:
Pro použití tohoto repozitáře můžete buď otevřít repozitář v izolovaném Docker svazku:
**Poznámka**: Pod pokličkou toto používá příkaz Remote-Containers: **Clone Repository in Container Volume...** pro klonování zdrojového kódu do Docker svazku místo lokálního souborového systému. [Svazky](https://docs.docker.com/storage/volumes/) jsou preferovaným mechanismem pro perzistenci dat kontejneru.
**Poznámka**: Pod kapotou bude použito příkazu Remote-Containers: **Clone Repository in Container Volume...** pro naklonování zdrojového kódu do Docker svazku místo lokálního souborového systému. [Svazky](https://docs.docker.com/storage/volumes/) jsou preferovaný mechanismus pro uchovávání dat kontejneru.
Nebo otevřete lokálně klonovanou či staženou verzi repozitáře:
- Naklonujte tento repozitář do svého lokálního souborového systému.
- Stiskněte F1 a vyberte příkaz **Remote-Containers: Open Folder in Container...**.
- Vyberte naklonovanou kopii této složky, počkejte, až se kontejner spustí, a vyzkoušejte to.
- Vyberte klonovanou kopii této složky, počkejte na spuštění kontejneru a vyzkoušejte to.
## Offline přístup
Tuto dokumentaci můžete spustit offline pomocí [Docsify](https://docsify.js.org/#/). Vytvořte fork tohoto repozitáře, [nainstalujte Docsify](https://docsify.js.org/#/quickstart) na svůj počítač, pak v kořenové složce tohoto repozitáře zadejte `docsify serve`. Web bude dostupný na portu 3000 na vašem localhostu: `localhost:3000`.
Tuto dokumentaci můžete spustit offline pomocí [Docsify](https://docsify.js.org/#/). Vytvořte fork tohoto repozitáře, [nainstalujte Docsify](https://docsify.js.org/#/quickstart) na vašem počítači, poté zadejte v kořenové složce tohoto repozitáře příkaz `docsify serve`. Web bude servírován na portu 3000 na vaší localhost adrese: `localhost:3000`.
> Poznámka, zápisníky (notebooks) nebudou renderovány přes Docsify, takže pokud potřebujete notebook spustit, dělejte to zvlášť ve VS Code s Python kernelem.
> Poznámka, notebooky nebudou renderovány přes Docsify, takže když potřebujete spustit notebook, dělejte to zvlášť ve VS Code s běžícím Python kernel.
## Jiná kurikula
## Další učební plány
Náš tým tvoří i další kurikula! Podívejte se:
Náš tým vytváří i další učební plány! Podívejte se na:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain4j pro začátečníky](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js pro začátečníky](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain pro začátečníky](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
@ -204,7 +214,7 @@ Náš tým tvoří i další kurikula! Podívejte se:
[![AZD pro začátečníky](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI pro začátečníky](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP pro začátečníky](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI Agenti pro začátečníky](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI agenti pro začátečníky](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
@ -223,21 +233,21 @@ Náš tým tvoří i další kurikula! Podívejte se:
[![Kybernetická bezpečnost pro začátečníky](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Webový vývoj pro začátečníky](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT pro začátečníky](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![XR vývoj pro začátečníky](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Vývoj XR pro začátečníky](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Série Copilot
[![Copilot pro AI párové programování](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot pro párové programování s AI](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot pro C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot Dobrodružství](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## Získání pomoci
**Setkáváte se s problémy?** Podívejte se na náš [Průvodce odstraňováním problémů](TROUBLESHOOTING.md) pro řešení běžných problémů.
**Máte problémy?** Podívejte se na naši [Příručku řešení problémů](TROUBLESHOOTING.md) pro řešení běžných potíží.
Pokud uvíznete nebo máte jakékoli dotazy ohledně vytváření AI aplikací, připojte se k dalším studentům a zkušeným vývojářům v diskusích o MCP. Je to podporující komunita, kde jsou otázky vítány a znalosti jsou sdíleny volně.
Pokud uvíznete nebo máte jakékoli otázky ohledně tvorby AI aplikací, připojte se ke komunitě dalších studentů a zkušených vývojářů v diskusích o MCP. Je to podpůrná komunita, kde jsou otázky vítány a znalosti se volně sdílejí.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
@ -248,6 +258,6 @@ Pokud máte zpětnou vazbu k produktu nebo narazíte na chyby během vývoje, na
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Upozornění**:
Tento dokument byl přeložen pomocí AI překladatelské služby [Co-op Translator](https://github.com/Azure/co-op-translator). I když usilujeme o přesnost, mějte prosím na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho mateřském jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Nejsme zodpovědní za žádné nedorozumění či chybné interpretace vzniklé z použití tohoto překladu.
**Prohlášení o vyloučení odpovědnosti**:
Tento dokument byl přeložen pomocí AI překladatelské služby [Co-op Translator](https://github.com/Azure/co-op-translator). Přestože usilujeme o přesnost, mějte na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho mateřském jazyce by měl být považován za autoritativní zdroj. Pro kritické informace se doporučuje profesionální lidský překlad. Nepřebíráme odpovědnost za jakákoliv nedorozumění nebo chybné interpretace vyplývající z použití tohoto překladu.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@ Najděte všechny sketchnoty zde!
Nitya Narasimhan, umělkyně
![sketchnote plánu](../../../translated_images/cs/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![sketchnote plánu](../../../translated_images/cs/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "da"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T09:45:55+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "da"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-26T21:35:47+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "da"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T09:46:27+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "da"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:38:15+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "da"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T09:47:17+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "da"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T21:59:34+00:00",
@ -360,8 +378,8 @@
"language_code": "da"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T08:23:33+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T09:52:59+00:00",
"source_file": "README.md",
"language_code": "da"
},

@ -6,7 +6,7 @@
---
[![Video om definition af Data Science](../../../../translated_images/da/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Video om definition af Data Science](../../../../translated_images/da/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Quiz før forelæsning](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Hvis vi vil gøre det endnu mere kompliceret, kan vi plotte den tid, der bruges
I denne udfordring vil vi forsøge at finde begreber, der er relevante for området Data Science ved at kigge på tekster. Vi vil tage en Wikipedia-artikel om Data Science, downloade og bearbejde teksten og derefter opbygge en ordsky som denne:
![Ordsky for Data Science](../../../../translated_images/da/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Ordsky for Data Science](../../../../translated_images/da/ds_wordcloud.664a7c07dca57de0.webp)
Besøg [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') for at læse koden igennem. Du kan også køre koden og se, hvordan den udfører alle datatransformationer i realtid.

@ -3,15 +3,15 @@
{
"cell_type": "markdown",
"source": [
"# Udfordring: Analyse af tekst om Data Science\n",
"# Udfordring: Analyse af tekst om datalogi\n",
"\n",
"I dette eksempel skal vi lave en simpel øvelse, der dækker alle trin i en traditionel data science-proces. Du behøver ikke skrive nogen kode, du kan blot klikke på cellerne nedenfor for at udføre dem og observere resultatet. Som en udfordring opfordres du til at prøve denne kode med forskellige data.\n",
"I dette eksempel laver vi en simpel øvelse, der dækker alle trin i en traditionel datalogiproces. Du behøver ikke at skrive nogen kode, du kan blot klikke på cellerne nedenfor for at køre dem og observere resultatet. Som en udfordring opfordres du til at prøve denne kode med forskellige data.\n",
"\n",
"## Mål\n",
"\n",
"I denne lektion har vi diskuteret forskellige begreber relateret til Data Science. Lad os prøve at opdage flere relaterede begreber ved at lave noget **tekstmining**. Vi starter med en tekst om Data Science, udtrækker nøgleord fra den og forsøger derefter at visualisere resultatet.\n",
"I denne lektion har vi diskuteret forskellige begreber relateret til datalogi. Lad os prøve at opdage flere relaterede begreber ved at lave noget **tekstmining**. Vi starter med en tekst om datalogi, udtrækker nøgleord fra den og prøver derefter at visualisere resultatet.\n",
"\n",
"Som tekst vil jeg bruge siden om Data Science fra Wikipedia:\n"
"Som tekst vil jeg bruge siden om datalogi fra Wikipedia:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Trin 1: Hente dataene\n",
"## Trin 1: Hent dataene\n",
"\n",
"Første trin i enhver datavidenskabelig proces er at hente dataene. Vi vil bruge biblioteket `requests` til dette:\n"
"Første trin i enhver data science-proces er at hente dataene. Vi vil bruge `requests` biblioteket til det:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Trin 2: Transformering af data\n",
"\n",
"Det næste trin er at omdanne dataene til en form, der er egnet til behandling. I vores tilfælde har vi downloadet HTML-kildekoden fra siden, og vi skal konvertere den til ren tekst.\n",
"Det næste trin er at konvertere dataene til en form egnet til behandling. I vores tilfælde har vi downloadet HTML-kildekoden fra siden, og vi skal konvertere den til almindelig tekst.\n",
"\n",
"Der er mange måder, dette kan gøres på. Vi vil bruge det enkleste indbyggede objekt, [HTMLParser](https://docs.python.org/3/library/html.parser.html), fra Python. Vi skal oprette en underklasse af `HTMLParser`-klassen og definere koden, der vil indsamle al tekst inde i HTML-tags, undtagen `<script>`- og `<style>`-tags.\n"
"Der er mange måder, hvorpå dette kan gøres. Vi vil bruge [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), et populært Python-bibliotek til at analysere HTML. BeautifulSoup giver os mulighed for at målrette specifikke HTML-elementer, så vi kan fokusere på hovedartiklens indhold fra Wikipedia og reducere nogle navigationsmenuer, sidepaneler, sidefødder og andet irrelevant indhold (selvom noget standardsprog stadig kan være tilbage).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Først skal vi installere BeautifulSoup-biblioteket til HTML-parsing:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## Trin 3: Få indsigt\n",
"\n",
"Det vigtigste trin er at omdanne vores data til en form, hvorfra vi kan udlede indsigt. I vores tilfælde ønsker vi at udtrække nøgleord fra teksten og se, hvilke nøgleord der er mest meningsfulde.\n",
"Det vigtigste trin er at omdanne vores data til en form, hvorfra vi kan udlede indsigt. I vores tilfælde vil vi udtrække nøgleord fra teksten og se, hvilke nøgleord der er mere meningsfulde.\n",
"\n",
"Vi vil bruge et Python-bibliotek kaldet [RAKE](https://github.com/aneesha/RAKE) til nøgleordsudtrækning. Først skal vi installere dette bibliotek, hvis det ikke allerede er til stede:\n"
"Vi vil bruge Python-biblioteket kaldet [RAKE](https://github.com/aneesha/RAKE) til nøgleordsudtrækning. Først skal vi installere dette bibliotek, hvis det ikke allerede er til stede: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Den primære funktionalitet er tilgængelig fra `Rake`-objektet, som vi kan tilpasse ved hjælp af nogle parametre. I vores tilfælde vil vi indstille den minimale længde af et nøgleord til 5 tegn, den minimale frekvens af et nøgleord i dokumentet til 3, og det maksimale antal ord i et nøgleord til 2. Du er velkommen til at eksperimentere med andre værdier og observere resultatet.\n"
"Hovedfunktionen er tilgængelig fra `Rake`-objektet, som vi kan tilpasse ved hjælp af nogle parametre. I vores tilfælde vil vi sætte den minimale længde af et nøgleord til 5 tegn, den minimale hyppighed af et nøgleord i dokumentet til 3, og maksimalt antal ord i et nøgleord til 2. Du er velkommen til at eksperimentere med andre værdier og observere resultatet.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Vi har fået en liste over termer sammen med deres tilknyttede vigtighedsgrad. Som du kan se, er de mest relevante discipliner, såsom maskinlæring og big data, til stede på listen i de øverste positioner.\n",
"Vi har opnået en liste over termer sammen med tilknyttet grad af vigtighed. Som du kan se, er de mest relevante discipliner, såsom maskinlæring og big data, til stede øverst på listen.\n",
"\n",
"## Trin 4: Visualisering af resultatet\n",
"\n",
"Folk kan bedst fortolke data i visuel form. Derfor giver det ofte mening at visualisere dataene for at få nogle indsigter. Vi kan bruge `matplotlib`-biblioteket i Python til at plotte en simpel fordeling af nøgleordene med deres relevans:\n"
"Folk kan bedst fortolke data i visuel form. Derfor giver det ofte mening at visualisere dataene for at opnå nogle indsigter. Vi kan bruge `matplotlib`-biblioteket i Python til at plotte simpel fordeling af nøgleordene med deres relevans:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Der er dog en endnu bedre måde at visualisere ordfrekvenser på - ved hjælp af **Word Cloud**. Vi skal installere et andet bibliotek for at plotte ordskyen fra vores nøgleordsliste.\n"
"Der er dog en endnu bedre måde at visualisere ordhyppigheder på - ved hjælp af **Word Cloud**. Vi skal installere et andet bibliotek for at plotte word cloud fra vores nøgleords liste.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud`-objektet er ansvarligt for at tage enten originaltekst eller en forudberegnet liste over ord med deres frekvenser og returnerer et billede, som derefter kan vises ved hjælp af `matplotlib`:\n"
"`WordCloud`-objektet er ansvarligt for at tage enten original tekst eller en forudberegnet liste over ord med deres frekvenser, og returnerer et billede, som derefter kan vises ved hjælp af `matplotlib`:\n"
],
"metadata": {}
},
@ -372,9 +370,9 @@
{
"cell_type": "markdown",
"source": [
"Du kan se, at ordskyen nu ser mere imponerende ud, men den indeholder også en del støj (f.eks. irrelevante ord som `Retrieved on`). Derudover får vi færre nøgleord, der består af to ord, såsom *data scientist* eller *computer science*. Dette skyldes, at RAKE-algoritmen gør et langt bedre stykke arbejde med at udvælge gode nøgleord fra teksten. Dette eksempel illustrerer vigtigheden af dataforbehandling og -rensning, da et klart billede i sidste ende vil give os mulighed for at træffe bedre beslutninger.\n",
"Du kan se, at ordsky nu ser mere imponerende ud, men den indeholder også en masse støj (f.eks. ikke-relaterede ord som `Retrieved on`). Desuden får vi færre nøgleord, der består af to ord, såsom *data scientist* eller *computer science*. Det skyldes, at RAKE-algoritmen gør et langt bedre stykke arbejde med at udvælge gode nøgleord fra teksten. Dette eksempel illustrerer vigtigheden af dataforbehandling og rengøring, fordi et klart billede til sidst vil gøre os i stand til at træffe bedre beslutninger.\n",
"\n",
"I denne øvelse har vi gennemgået en simpel proces med at udtrække mening fra Wikipedia-tekst i form af nøgleord og en ordsky. Dette eksempel er ret enkelt, men det viser tydeligt alle de typiske trin, en data scientist vil tage, når de arbejder med data, fra dataindsamling til visualisering.\n",
"I denne øvelse har vi gennemgået en simpel proces til at udtrække mening fra Wikipedia-tekst i form af nøgleord og ordsky. Dette eksempel er ret enkelt, men det demonstrerer godt alle typiske trin, en data scientist vil tage, når han arbejder med data, startende fra dataindhentning til visualisering.\n",
"\n",
"I vores kursus vil vi diskutere alle disse trin i detaljer.\n"
],
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Ansvarsfraskrivelse**: \nDette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det originale dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi er ikke ansvarlige for eventuelle misforståelser eller fejltolkninger, der måtte opstå som følge af brugen af denne oversættelse.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Ansvarsfraskrivelse**:\nDette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det originale dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi påtager os intet ansvar for misforståelser eller fejltolkninger, der måtte opstå som følge af brugen af denne oversættelse.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:30:25+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "da"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# Udfordring: Analyse af tekst om Data Science\n",
"# Udfordring: Analyse af tekst om datalogi\n",
"\n",
"> *I denne notesbog eksperimenterer vi med at bruge forskellige URL'er - Wikipedia-artiklen om Machine Learning. Du kan se, at i modsætning til Data Science indeholder denne artikel mange fagudtryk, hvilket gør analysen mere problematisk. Vi skal finde en anden måde at rense dataene på efter at have udført nøgleordsudtrækning, for at slippe af med nogle hyppige, men ikke meningsfulde ordkombinationer.*\n",
"> *I denne notesbog eksperimenterer vi med at bruge forskellige URL'er - wikipedia-artikel om maskinlæring. Du kan se, at i modsætning til datalogi indeholder denne artikel mange termer, hvilket gør analysen mere problematisk. Vi er nødt til at finde en anden måde at rydde op i dataene på efter nøgleordsudtrækning for at slippe af med nogle hyppige, men ikke meningsfulde ordkombinationer.*\n",
"\n",
"I dette eksempel laver vi en simpel øvelse, der dækker alle trin i en traditionel data science-proces. Du behøver ikke skrive nogen kode, du kan blot klikke på cellerne nedenfor for at udføre dem og observere resultatet. Som en udfordring opfordres du til at prøve denne kode med forskellige data.\n",
"I dette eksempel laver vi en simpel øvelse, der dækker alle trin i en traditionel datalogi-proces. Du behøver ikke skrive nogen kode, du kan bare klikke på cellerne nedenfor for at køre dem og observere resultatet. Som en udfordring opfordres du til at prøve denne kode med forskellige data.\n",
"\n",
"## Mål\n",
"\n",
"I denne lektion har vi diskuteret forskellige begreber relateret til Data Science. Lad os prøve at opdage flere relaterede begreber ved at lave noget **tekstanalyse**. Vi starter med en tekst om Data Science, udtrækker nøgleord fra den og forsøger derefter at visualisere resultatet.\n",
"I denne lektion har vi diskuteret forskellige begreber relateret til datalogi. Lad os prøve at opdage flere relaterede begreber ved at lave noget **tekstmining**. Vi starter med en tekst om datalogi, udtrækker nøgleord fra den, og forsøger derefter at visualisere resultatet.\n",
"\n",
"Som tekst vil jeg bruge siden om Data Science fra Wikipedia:\n"
"Som tekst vil jeg bruge siden om datalogi fra Wikipedia:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Trin 1: Hentning af data\n",
"## Trin 1: Hente dataene\n",
"\n",
"Første trin i enhver datavidenskabelig proces er at hente dataene. Vi vil bruge biblioteket `requests` til dette:\n"
"Første trin i enhver data science-proces er at hente dataene. Vi vil bruge `requests` biblioteket til det:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Trin 2: Transformering af data\n",
"\n",
"Det næste trin er at konvertere dataene til en form, der er egnet til behandling. I vores tilfælde har vi downloadet HTML-kildekoden fra siden, og vi skal konvertere den til ren tekst.\n",
"Næste skridt er at konvertere dataene til en form, der er egnet til behandling. I vores tilfælde har vi hentet HTML-kildekoden fra siden, og vi skal konvertere den til ren tekst.\n",
"\n",
"Der er mange måder, dette kan gøres på. Vi vil bruge det enkleste indbyggede objekt, [HTMLParser](https://docs.python.org/3/library/html.parser.html), fra Python. Vi skal oprette en underklasse af `HTMLParser`-klassen og definere koden, der vil indsamle al tekst inden for HTML-tags, undtagen `<script>`- og `<style>`-tags.\n"
"Der er mange måder at gøre dette på. Vi vil bruge [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), et populært Python-bibliotek til parsing af HTML. BeautifulSoup giver os mulighed for at målrette specifikke HTML-elementer, så vi kan fokusere på hovedartiklens indhold fra Wikipedia og reducere nogle navigationsmenuer, sidebjælker, sidefødder og andet irrelevant indhold (selvom noget standardtekst stadig kan være tilbage).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Først skal vi installere BeautifulSoup-biblioteket til HTML-parsning:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Trin 3: Få indsigt\n",
"## Step 3: Få indsigt\n",
"\n",
"Det vigtigste trin er at omdanne vores data til en form, hvorfra vi kan udlede indsigt. I vores tilfælde ønsker vi at udtrække nøgleord fra teksten og se, hvilke nøgleord der er mest betydningsfulde.\n",
"Det vigtigste skridt er at omdanne vores data til en form, hvorfra vi kan udlede indsigt. I vores tilfælde ønsker vi at udtrække nøgleord fra teksten og se, hvilke nøgleord der er mere meningsfulde.\n",
"\n",
"Vi vil bruge et Python-bibliotek kaldet [RAKE](https://github.com/aneesha/RAKE) til nøgleordsudtrækning. Først skal vi installere dette bibliotek, hvis det ikke allerede er tilgængeligt:\n"
"Vi vil bruge Python-biblioteket kaldet [RAKE](https://github.com/aneesha/RAKE) til nøgleordsudtrækning. Først skal vi installere dette bibliotek, hvis det ikke allerede er til stede: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Den primære funktionalitet er tilgængelig fra `Rake`-objektet, som vi kan tilpasse ved hjælp af nogle parametre. I vores tilfælde vil vi indstille den minimale længde af et nøgleord til 5 tegn, den minimale frekvens af et nøgleord i dokumentet til 3, og det maksimale antal ord i et nøgleord - til 2. Du er velkommen til at eksperimentere med andre værdier og observere resultatet.\n"
"Hovedfunktionen er tilgængelig fra `Rake`-objektet, som vi kan tilpasse ved hjælp af nogle parametre. I vores tilfælde sætter vi minimumslængden for et nøgleord til 5 tegn, minimumsfrekvensen for et nøgleord i dokumentet til 3, og maksimalt antal ord i et nøgleord - til 2. Du er velkommen til at eksperimentere med andre værdier og observere resultatet.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Vi har fået en liste over termer sammen med deres tilknyttede vigtighedsgrad. Som du kan se, er de mest relevante discipliner, såsom maskinlæring og big data, placeret øverst på listen.\n",
"Vi har opnået en liste over termer sammen med tilhørende grad af vigtighed. Som du kan se, er de mest relevante discipliner, såsom maskinlæring og big data, til stede i listen på topplaceringer.\n",
"\n",
"## Trin 4: Visualisering af resultatet\n",
"\n",
"Folk forstår data bedst i visuel form. Derfor giver det ofte mening at visualisere dataene for at få nogle indsigter. Vi kan bruge `matplotlib`-biblioteket i Python til at lave en simpel fordeling af nøgleordene med deres relevans:\n"
"Folk kan bedst fortolke data i visuel form. Derfor giver det ofte mening at visualisere dataene for at udlede nogle indsiger. Vi kan bruge `matplotlib`-biblioteket i Python til at plotte en simpel fordeling af nøgleordene med deres relevans:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Der er dog en endnu bedre måde at visualisere ordfrekvenser på - ved at bruge **Word Cloud**. Vi skal installere et andet bibliotek for at plotte word cloud fra vores nøgleordsliste.\n"
"Der er dog en endnu bedre måde at visualisere ordfrekvenser på - ved hjælp af **Word Cloud**. Vi bliver nødt til at installere et andet bibliotek for at kunne plotte word cloud fra vores nøgleordsliste.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud`-objektet er ansvarligt for at tage enten originalteksten eller en forudberegnet liste over ord med deres frekvenser og returnerer et billede, som derefter kan vises ved hjælp af `matplotlib`:\n"
"`WordCloud`-objektet er ansvarligt for at modtage enten original tekst eller en forudberegnet liste af ord med deres frekvenser, og returnerer et billede, som derefter kan vises ved hjælp af `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"Vi kan også indsætte den originale tekst i `WordCloud` - lad os se, om vi kan opnå et lignende resultat:\n"
"Vi kan også indsætte den oprindelige tekst i `WordCloud` - lad os se, om vi kan opnå et lignende resultat:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Du kan se, at ordskyen nu ser mere imponerende ud, men den indeholder også en del støj (f.eks. uvedkommende ord som `Retrieved on`). Derudover får vi færre nøgleord, der består af to ord, såsom *data scientist* eller *computer science*. Dette skyldes, at RAKE-algoritmen gør et langt bedre stykke arbejde med at udvælge gode nøgleord fra teksten. Dette eksempel illustrerer vigtigheden af dataforbehandling og -rensning, da et klart billede i sidste ende giver os mulighed for at træffe bedre beslutninger.\n",
"Du kan se, at ordskyen nu ser mere imponerende ud, men den indeholder også meget støj (f.eks. uvedkommende ord som `Retrieved on`). Derudover får vi færre nøgleord, der består af to ord, såsom *data scientist* eller *computer science*. Det skyldes, at RAKE-algoritmen gør et meget bedre stykke arbejde med at udvælge gode nøgleord fra tekst. Dette eksempel illustrerer vigtigheden af dataforbehandling og rengøring, fordi et klart billede til sidst vil give os mulighed for at træffe bedre beslutninger.\n",
"\n",
"I denne øvelse har vi gennemgået en simpel proces med at udtrække mening fra Wikipedia-tekst i form af nøgleord og en ordsky. Eksemplet er ret simpelt, men det viser tydeligt alle de typiske trin, en data scientist vil tage, når de arbejder med data, lige fra dataindsamling til visualisering.\n",
"I denne øvelse har vi gennemgået en enkel proces med at udtrække mening fra Wikipedia-tekst i form af nøgleord og ordsky. Dette eksempel er ret simpelt, men det demonstrerer godt alle typiske trin en data scientist vil tage, når han arbejder med data, fra dataindsamling til visualisering.\n",
"\n",
"I vores kursus vil vi gennemgå alle disse trin i detaljer.\n"
"I vores kursus vil vi diskutere alle disse trin i detaljer.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Ansvarsfraskrivelse**: \nDette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det originale dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi påtager os intet ansvar for misforståelser eller fejltolkninger, der måtte opstå som følge af brugen af denne oversættelse.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Ansvarsfraskrivelse**:\nDette dokument er oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det oprindelige dokument på dets modersmål bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi påtager os intet ansvar for misforståelser eller fejltolkninger, der måtte opstå som følge af brugen af denne oversættelse.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:41:42+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "da"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
Statistik og Sandsynlighedsteori er to nært beslægtede områder inden for matematik, som er meget relevante for datavidenskab. Det er muligt at arbejde med data uden dyb matematisk viden, men det er stadig bedre at kende i det mindste nogle grundlæggende begreber. Her præsenterer vi en kort introduktion, der kan hjælpe dig med at komme i gang.
[![Introduktionsvideo](../../../../translated_images/da/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Introduktionsvideo](../../../../translated_images/da/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Quiz før forelæsning](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Det er mere vanskeligt at beskrive sandsynlighedsfordelingen for en kontinuerlig
Vi kan kun tale om sandsynligheden for, at en variabel falder inden for et givet interval af værdier, fx P(t<sub>1</sub>≤X<t<sub>2</sub>). I dette tilfælde beskrives sandsynlighedsfordelingen af en **sandsynlighedstæthedsfunktion** p(x), sådan at
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/da/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/da/probability-density.a8aad29f17a14afb.webp)
En kontinuerlig analog til uniform fordeling kaldes **kontinuerlig uniform**, som er defineret på et endeligt interval. Sandsynligheden for, at værdien X falder inden for et interval af længde l, er proportional med l og stiger op til 1.
@ -73,11 +73,11 @@ Når vi analyserer data fra den virkelige verden, er de ofte ikke tilfældige va
Her er boksplottet, der viser middelværdi, median og kvartiler for vores data:
![Vægt Boksplot](../../../../translated_images/da/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Vægt Boksplot](../../../../translated_images/da/weight-boxplot.1dbab1c03af26f8a.webp)
Da vores data indeholder information om forskellige spiller **roller**, kan vi også lave boksplot efter rolle - det vil give os en idé om, hvordan parameterværdierne varierer på tværs af roller. Denne gang vil vi overveje højde:
![Boksplot efter rolle](../../../../translated_images/da/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Boksplot efter rolle](../../../../translated_images/da/boxplot_byrole.036b27a1c3f52d42.webp)
Dette diagram antyder, at gennemsnitligt er højden af første basemen højere end højden af anden basemen. Senere i denne lektion vil vi lære, hvordan vi kan teste denne hypotese mere formelt, og hvordan vi kan demonstrere, at vores data er statistisk signifikante for at vise det.
@ -85,7 +85,7 @@ Dette diagram antyder, at gennemsnitligt er højden af første basemen højere e
For at se, hvordan fordelingen af vores data er, kan vi plotte en graf kaldet et **histogram**. X-aksen vil indeholde et antal forskellige vægtintervaller (såkaldte **bins**), og den lodrette akse vil vise antallet af gange, vores tilfældige variabelprøve var inden for et givet interval.
![Histogram af data fra den virkelige verden](../../../../translated_images/da/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Histogram af data fra den virkelige verden](../../../../translated_images/da/weight-histogram.bfd00caf7fc30b14.webp)
Fra dette histogram kan du se, at alle værdier er centreret omkring en bestemt gennemsnitsvægt, og jo længere vi bevæger os væk fra den vægt, jo færre vægte af den værdi optræder. Dvs., det er meget usandsynligt, at vægten af en baseballspiller vil være meget forskellig fra gennemsnitsvægten. Variansen af vægtene viser, i hvilket omfang vægtene sandsynligvis vil afvige fra gennemsnittet.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
Hvis vi plotter histogrammet for de genererede prøver, vil vi se et billede, der ligner det, der er vist ovenfor. Og hvis vi øger antallet af prøver og antallet af bins, kan vi generere et billede af en normalfordeling, der er tættere på det ideelle:
![Normalfordeling med gennemsnit=0 og std.afvigelse=1](../../../../translated_images/da/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Normalfordeling med gennemsnit=0 og std.afvigelse=1](../../../../translated_images/da/normal-histogram.dfae0d67c202137d.webp)
*Normalfordeling med gennemsnit=0 og std.afvigelse=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
I vores tilfælde indikerer værdien 0.53, at der er en vis korrelation mellem en persons vægt og højde. Vi kan også lave et scatterplot af én værdi mod den anden for at se relationen visuelt:
![Forhold mellem vægt og højde](../../../../translated_images/da/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Forhold mellem vægt og højde](../../../../translated_images/da/weight-height-relationship.3f06bde4ca2aba99.webp)
> Flere eksempler på korrelation og kovarians kan findes i [den medfølgende notebook](notebook.ipynb).

@ -1,6 +1,6 @@
# Introduktion til Data Science
![data i aktion](../../../translated_images/da/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![data i aktion](../../../translated_images/da/data.48e22bb7617d8d92.webp)
> Foto af <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a><a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
I disse lektioner vil du opdage, hvordan Data Science defineres, og lære om de etiske overvejelser, som en dataforsker skal tage højde for. Du vil også lære, hvordan data defineres, og få en introduktion til statistik og sandsynlighed, de centrale akademiske områder inden for Data Science.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Arbejde med Python - _Sketchnote af [@nitya](https://twitter.com/nitya)_ |
[![Introduktionsvideo](../../../../translated_images/da/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Introduktionsvideo](../../../../translated_images/da/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Selvom databaser tilbyder meget effektive måder at gemme data og forespørge dem ved hjælp af forespørgselssprog, er den mest fleksible måde at bearbejde data på at skrive dit eget program til at manipulere data. I mange tilfælde vil en databaseforespørgsel være en mere effektiv løsning. Men i nogle tilfælde, hvor mere kompleks databehandling er nødvendig, kan det ikke nemt gøres med SQL.
Databehandling kan programmeres i ethvert programmeringssprog, men der er visse sprog, der er mere avancerede, når det kommer til at arbejde med data. Dataforskere foretrækker typisk et af følgende sprog:
@ -66,7 +66,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Tidsserieplot](../../../../translated_images/da/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Tidsserieplot](../../../../translated_images/da/timeseries-1.80de678ab1cf727e.webp)
Antag nu, at vi hver uge arrangerer en fest for venner, og vi tager yderligere 10 pakker is med til festen. Vi kan oprette en anden series, indekseret efter uge, for at demonstrere det:
```python
@ -77,7 +77,7 @@ Når vi lægger de to series sammen, får vi det samlede antal:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Tidsserieplot](../../../../translated_images/da/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Tidsserieplot](../../../../translated_images/da/timeseries-2.aae51d575c55181c.webp)
> **Bemærk** at vi ikke bruger den simple syntaks `total_items+additional_items`. Hvis vi gjorde det, ville vi få mange `NaN` (*Not a Number*) værdier i den resulterende series. Dette skyldes, at der mangler værdier for nogle af indeksene i `additional_items`-serien, og at lægge `NaN` til noget resulterer i `NaN`. Derfor skal vi angive parameteren `fill_value` under addition.
@ -86,7 +86,7 @@ Med tidsserier kan vi også **resample** serien med forskellige tidsintervaller.
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Månedlige tidsserie-gennemsnit](../../../../translated_images/da/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Månedlige tidsserie-gennemsnit](../../../../translated_images/da/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -212,7 +212,7 @@ Det første problem, vi vil fokusere på, er modellering af den epidemiske spred
Da vi ønsker at demonstrere, hvordan man arbejder med data, inviterer vi dig til at åbne [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) og læse det fra top til bund. Du kan også udføre celler og lave nogle udfordringer, som vi har efterladt til dig i slutningen.
![COVID Spread](../../../../translated_images/da/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/da/covidspread.f3d131c4f1d260ab.webp)
> Hvis du ikke ved, hvordan man kører kode i Jupyter Notebook, kan du kigge på [denne artikel](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -234,7 +234,7 @@ Et fuldt eksempel på analyse af dette datasæt ved hjælp af [Text Analytics fo
Åbn [`notebook-papers.ipynb`](notebook-papers.ipynb) og læs det fra top til bund. Du kan også udføre celler og lave nogle udfordringer, som vi har efterladt til dig i slutningen.
![Covid Medical Treatment](../../../../translated_images/da/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/da/covidtreat.b2ba59f57ca45fbc.webp)
## Behandling af billeddata

Some files were not shown because too many files have changed in this diff Show More

Loading…
Cancel
Save