[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [اختبار ما قبل المحاضرة](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@
في هذا التحدي، سنحاول العثور على المفاهيم ذات الصلة بمجال علم البيانات من خلال النظر في النصوص. سنأخذ مقالة من ويكيبيديا عن علم البيانات، ونقوم بتنزيل ومعالجة النص، ثم نبني سحابة كلمات مثل هذه:


قم بزيارة [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') لقراءة الكود. يمكنك أيضًا تشغيل الكود، ومشاهدة كيفية تنفيذ جميع تحويلات البيانات في الوقت الفعلي.
"في هذا المثال، سنقوم بممارسة بسيطة تغطي جميع خطوات عملية علم البيانات التقليدية. لا تحتاج إلى كتابة أي كود، يمكنك فقط النقر على الخلايا أدناه لتنفيذها وملاحظة النتيجة. كجزء من التحدي، يُشجَّعك على تجربة هذا الكود مع بيانات مختلفة.\n",
"في هذا المثال، دعنا نقوم بتمرين بسيط يشمل جميع خطوات عملية علم البيانات التقليدية. لست مضطراً لكتابة أي كود، يمكنك فقط النقر على الخلايا أدناه لتنفيذها وملاحظة النتيجة. كتحدٍ، يُشجعك تجربة هذا الكود مع بيانات مختلفة.\n",
"\n",
"## الهدف\n",
"\n",
"في هذه الدرس، ناقشنا مفاهيم مختلفة تتعلق بعلم البيانات. دعونا نحاول اكتشاف المزيد من المفاهيم ذات الصلة من خلال القيام بـ **تنقيب النصوص**. سنبدأ بنص حول علم البيانات، نستخرج الكلمات المفتاحية منه، ثم نحاول تصور النتيجة.\n",
"في هذا الدرس، كنا نناقش مفاهيم مختلفة مرتبطة بعلم البيانات. دعنا نحاول اكتشاف المزيد من المفاهيم ذات الصلة من خلال القيام بـ **تنقيب النصوص**. سنبدأ بنص حول علم البيانات، نستخرج منه الكلمات المفتاحية،ومن ثم نحاول تصور النتيجة.\n",
"\n",
"كنص، سأستخدم الصفحة الخاصة بعلم البيانات من ويكيبيديا:\n"
],
@ -34,7 +34,7 @@
"source": [
"## الخطوة 1: الحصول على البيانات\n",
"\n",
"الخطوة الأولى في كل عملية علم البيانات هي الحصول على البيانات. سنستخدم مكتبة `requests` للقيام بذلك:\n"
"الخطوة الأولى في كل عملية علم بيانات هي الحصول على البيانات. سنستخدم مكتبة `requests` للقيام بذلك:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## الخطوة 2: تحويل البيانات\n",
"\n",
"الخطوة التالية هي تحويل البيانات إلى الشكل المناسب للمعالجة. في حالتنا، قمنا بتنزيل كود المصدر الخاص بـ HTML من الصفحة، ونحتاج إلى تحويله إلى نص عادي.\n",
"الخطوة التالية هي تحويل البيانات إلى الشكل المناسب للمعالجة. في حالتنا، قمنا بتنزيل شفرة مصدر HTML من الصفحة، ونحتاج إلى تحويلها إلى نص عادي.\n",
"\n",
"هناك العديد من الطرق التي يمكن من خلالها القيام بذلك. سنستخدم أبسط كائن مدمج [HTMLParser](https://docs.python.org/3/library/html.parser.html) من Python. نحتاج إلى إنشاء فئة فرعية من `HTMLParser` وتعريف الكود الذي سيجمع كل النصوص داخل علامات HTML، باستثناء علامات `<script>` و `<style>`.\n"
"هناك عدة طرق للقيام بذلك. سنستخدم [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)، وهي مكتبة بايثون شهيرة لتحليل HTML. تتيح لنا BeautifulSoup استهداف عناصر HTML محددة، حتى نتمكن من التركيز على محتوى المقال الرئيسي من ويكيبيديا وتقليل بعض قوائم التنقل، الأشرطة الجانبية، التذييلات، والمحتويات الأخرى غير ذات الصلة (مع أنه قد يبقى بعض النصوص الثابتة).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"أولاً، نحتاج إلى تثبيت مكتبة BeautifulSoup لتحليل HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## الخطوة 3: الحصول على رؤى\n",
"## الخطوة 3: الحصول على الرؤى\n",
"\n",
"الخطوة الأهم هي تحويل بياناتنا إلى شكل يمكننا من خلاله استخلاص رؤى. في حالتنا، نريد استخراج الكلمات المفتاحية من النص، ومعرفة أي الكلمات المفتاحية أكثر أهمية.\n",
"أهم خطوة هي تحويل بياناتنا إلى شكل يمكننا من خلاله استخلاص الرؤى. في حالتنا، نريد استخراج الكلمات المفتاحية من النص، ورؤية أي الكلمات المفتاحية أكثر معنى.\n",
"\n",
"سنستخدم مكتبة بايثون تسمى [RAKE](https://github.com/aneesha/RAKE) لاستخراج الكلمات المفتاحية. أولاً، دعونا نقوم بتثبيت هذه المكتبة إذا لم تكن موجودة:\n"
"سنستخدم مكتبة بايثون تسمى [RAKE](https://github.com/aneesha/RAKE) لاستخراج الكلمات المفتاحية. أولاً، لنقم بتثبيت هذه المكتبة في حال لم تكن موجودة: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"تتوفر الوظيفة الرئيسية من كائن `Rake`، والذي يمكننا تخصيصه باستخدام بعض المعلمات. في حالتنا، سنحدد الحد الأدنى لطول الكلمة الرئيسية ليكون 5 أحرف، والحد الأدنى لتكرار الكلمة الرئيسية في المستند ليكون 3، والحد الأقصى لعدد الكلمات في الكلمة الرئيسية ليكون 2. لا تتردد في تجربة قيم أخرى وملاحظة النتيجة.\n"
"الوظيفة الرئيسية متاحة من كائن `Rake`، الذي يمكننا تخصيصه باستخدام بعض المعلمات. في حالتنا، سنحدد الحد الأدنى لطول الكلمة المفتاحية بـ 5 أحرف، والحد الأدنى لتكرار الكلمة المفتاحية في الوثيقة بـ 3، والحد الأقصى لعدد الكلمات في الكلمة المفتاحية - إلى 2. لا تتردد في تجربة قيم أخرى ومراقبة النتيجة.\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"حصلنا على قائمة من المصطلحات مع درجة الأهمية المرتبطة بها. كما ترى، فإن التخصصات الأكثر أهمية، مثل تعلم الآلة والبيانات الضخمة، موجودة في القائمة في المراكز العليا.\n",
"\n",
"لقد حصلنا على قائمة بالمصطلحات مع الدرجة المرتبطة لكل منها من حيث الأهمية. كما تلاحظ، التخصصات الأكثر صلة، مثل التعلم الآلي والبيانات الضخمة، موجودة في القائمة في المراتب الأعلى.\n",
"\n",
"## الخطوة 4: تصور النتيجة\n",
"\n",
"يمكن للناس تفسير البيانات بشكل أفضل عندما تكون في شكل بصري. لذلك، غالبًا ما يكون من المنطقي تصور البيانات لاستخلاص بعض الأفكار. يمكننا استخدام مكتبة `matplotlib` في بايثون لرسم توزيع بسيط للكلمات المفتاحية مع مدى أهميتها:\n"
"يمكن للناس تفسير البيانات بشكل أفضل عندما تكون في شكل بصري. لذلك، غالبًا ما يكون من المنطقي تصور البيانات من أجلاستخلاص بعض الرؤى. يمكننا استخدام مكتبة `matplotlib` في بايثون لرسم توزيع بسيط للكلمات المفتاحية مع مدى ارتباطها:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"هناك، مع ذلك، طريقة أفضل لتصور تكرار الكلمات - باستخدام **سحابة الكلمات**. سنحتاج إلى تثبيت مكتبة أخرى لرسم سحابة الكلمات من قائمة الكلمات الرئيسية الخاصة بنا.\n"
"ومع ذلك، هناك طريقة أفضل لتصور تكرار الكلمات - باستخدام **سحابة الكلمات**. سنحتاج إلى تثبيت مكتبة أخرى لرسم سحابة الكلمات من قائمة الكلمات المفتاحية الخاصة بنا.\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"`كائن WordCloud مسؤول عن استلام النص الأصلي أو قائمة الكلمات المحسوبة مسبقًا مع تردداتها، ويعيد صورة يمكن عرضها باستخدام matplotlib:`\n"
"كائن `WordCloud` مسؤول عن استلام النص الأصلي، أو قائمة الكلمات مع تردداتها المحسوبة مسبقًا، وإرجاع صورة يمكن عرضها باستخدام `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"يمكننا أيضًا تمرير النص الأصلي إلى `WordCloud` - دعنا نرى إذا كنا قادرين على الحصول على نتيجة مشابهة:\n"
"يمكننا أيضًا تمرير النص الأصلي إلى `WordCloud` - لنرَ إذا كنا قادرين على الحصول على نتيجة مشابهة:\n"
],
"metadata": {}
},
@ -372,9 +371,9 @@
{
"cell_type": "markdown",
"source": [
"يمكنك أن ترى أن سحابة الكلمات أصبحت الآن أكثر جاذبية، لكنها تحتوي أيضًا على الكثير من الضوضاء (مثل كلمات غير ذات صلة مثل `Retrieved on`). بالإضافة إلى ذلك، نحصل على عدد أقل من الكلمات المفتاحية التي تتكون من كلمتين، مثل *عالم بيانات* أو *علوم الحاسوب*. السببفي ذلك هو أن خوارزمية RAKE تقوم بعمل أفضل بكثير في اختيار الكلمات المفتاحية الجيدة من النص. يوضح هذا المثال أهمية معالجة البيانات وتنظيفها، لأن الصورة الواضحة في النهاية ستسمح لنا باتخاذ قرارات أفضل.\n",
"يمكنك أن ترى أن سحابة الكلمات تبدو الآن أكثر إثارة للإعجاب، لكنها تحتوي أيضًا على الكثير من الضوضاء (مثل الكلمات غير المرتبطة مثل `تم الاسترجاع في`). بالإضافة إلى ذلك، نحصل على عدد أقل من الكلمات المفتاحية التي تتكون من كلمتين، مثل *عالم بيانات*، أو *علوم الحاسب*. هذا لأن خوارزمية RAKE تقوم بعمل أفضل عند اختيار الكلمات المفتاحية الجيدة من النص. يوضح هذا المثال أهمية المعالجة المسبقة للبيانات وتنظيفها، لأن الصورة الواضحة في النهاية ستسمح لنا باتخاذ قرارات أفضل.\n",
"\n",
"في هذا التمرين، قمنا بعملية بسيطة لاستخراج بعض المعاني من نصوص ويكيبيديا، على شكل كلمات مفتاحية وسحابة كلمات. هذا المثال بسيط جدًا، لكنه يوضح بشكل جيد جميع الخطوات النموذجية التي يقوم بها عالم البيانات عند العمل مع البيانات، بدءًا من الحصول على البيانات وصولاً إلى التصور.\n",
"في هذا التمرين، مررنا بعملية بسيطة لاستخلاص بعض المعاني من نص ويكيبيديا، على شكل كلمات مفتاحية وسحابة كلمات. هذا المثال بسيط جدًا، لكنه يوضح جيدًا جميع الخطوات النموذجية التي سيتبعها عالم البيانات عند العمل مع البيانات، بدءًا من الحصول على البيانات، وصولاً إلى التمثيل البصري.\n",
"\n",
"في دورتنا، سنناقش جميع هذه الخطوات بالتفصيل.\n"
],
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**إخلاء المسؤولية**:\nتم ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الموثوق. للحصول على معلومات حاسمة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**إخلاء المسؤولية**:\nتمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية [Co-op Translator](https://github.com/Azure/co-op-translator). رغم أننا نسعى للدقة، يرجى العلم بأن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الرسمي والموثوق. بالنسبة للمعلومات الهامة، يُنصح بالاستعانة بترجمة مهنية بشرية. نحن غير مسؤولين عن أي سوء فهم أو تفسير ناتج عن استخدام هذه الترجمة.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"> *في هذا الدفتر، نجرب استخدام رابط مختلف - مقال ويكيبيديا عن التعلم الآلي. يمكنك أن تلاحظ أن هذا المقال، على عكس علم البيانات، يحتوي على الكثير من المصطلحات، مما يجعل التحليل أكثر تعقيدًا. نحتاج إلى إيجاد طريقة أخرى لتنظيف البيانات بعد استخراج الكلمات المفتاحية، للتخلص من بعض التراكيب الشائعة ولكن غير ذات المعنى.*\n",
"> *في هذه المفكرة، نجرب استخدام رابط مختلف - مقالة ويكيبيديا عن التعلم الآلي. يمكنك أن ترى، على عكس علم البيانات، أن هذه المقالة تحتوي على الكثير من المصطلحات، مما يجعل التحليل أكثر تعقيدًا. نحتاج إلى إيجاد طريقة أخرى لتنظيف البيانات بعد استخراج الكلمات المفتاحية، للتخلص من بعض التركيبات الشائعة ولكن غير المفيدة من الكلمات.*\n",
"\n",
"في هذا المثال، دعونا نقوم بتمرين بسيط يغطي جميع خطوات عملية علم البيانات التقليدية. ليس عليك كتابة أي كود، يمكنك فقط النقر على الخلايا أدناه لتنفيذها وملاحظة النتيجة. كجزء من التحدي، يُشجَّعك على تجربة هذا الكود مع بيانات مختلفة.\n",
"في هذا المثال، لنقم بتمرين بسيط يغطي جميع خطوات عملية علم البيانات التقليدية. ليس عليك كتابة أي كود، يمكنك فقط النقر على الخلايا أدناه لتنفيذها وملاحظة النتيجة. كتحدي، نشجعك على تجربة هذا الكود مع بيانات مختلفة.\n",
"\n",
"## الهدف\n",
"\n",
"في هذا الدرس، كنا نتحدث عن مفاهيم مختلفة تتعلق بعلم البيانات. دعونا نحاول اكتشاف المزيد من المفاهيم ذات الصلة من خلال القيام ببعض **التنقيب عن النصوص**. سنبدأ بنص حول علم البيانات، نستخرج منه الكلمات المفتاحية، ثم نحاول تصور النتيجة.\n",
"في هذا الدرس، ناقشنا مفاهيم مختلفة تتعلق بعلم البيانات. دعنا نحاول اكتشاف مفاهيم مرتبطة أكثر من خلال القيام ببعض **التنقيب النصي**. سنبدأ بنص عن علم البيانات، نستخرج منه الكلمات المفتاحية، ثم نحاول تصور النتيجة.\n",
"\n",
"كنص، سأستخدم صفحة علم البيانات من ويكيبيديا:\n"
"كنص، سأستخدم الصفحة الخاصة بعلم البيانات من ويكيبيديا:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## الخطوة 1: الحصول على البيانات\n",
"\n",
"أول خطوة في أي عملية علم بيانات هي الحصول على البيانات. سنستخدم مكتبة `requests` للقيام بذلك:\n"
"الخطوة الأولى في كل عملية علم بيانات هي الحصول على البيانات. سنستخدم مكتبة `requests` للقيام بذلك:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## الخطوة 2: تحويل البيانات\n",
"\n",
"الخطوة التالية هي تحويل البيانات إلى الشكل المناسب للمعالجة. في حالتنا، قمنا بتنزيل الشيفرة المصدرية لـ HTML من الصفحة، ونحتاج إلى تحويلها إلى نص عادي.\n",
"الخطوة التالية هي تحويل البيانات إلى الشكل المناسب للمعالجة. في حالتنا، قمنا بتحميل شفرة المصدر HTML من الصفحة، ونحتاج إلى تحويلها إلى نص عادي.\n",
"\n",
"هناك العديد من الطرق التي يمكن من خلالها القيام بذلك. سنستخدم أبسط كائن مدمج [HTMLParser](https://docs.python.org/3/library/html.parser.html) من بايثون. نحتاج إلى إنشاء فئة فرعية من `HTMLParser` وتعريف الشيفرة التي ستجمع كل النصوص داخل علامات HTML، باستثناء علامات `<script>` و `<style>`.\n"
"هناك العديد من الطرق التي يمكن من خلالها القيام بذلك. سنستخدم [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)، وهي مكتبة Python شهيرة لتحليل HTML. تتيح لنا BeautifulSoup استهداف عناصر HTML معينة، بحيث يمكننا التركيز على المحتوى الرئيسي للمقال من ويكيبيديا وتقليل بعض قوائم التنقل، الأشرطة الجانبية، التذييلات، ومحتويات أخرى غير ذات صلة (على الرغم من أن بعض النصوص الافتراضية قد تظل موجودة).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"أولاً، نحتاج إلى تثبيت مكتبة BeautifulSoup لتحليل HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## الخطوة 3: الحصول على رؤى\n",
"## الخطوة 3: الحصول على الرؤى\n",
"\n",
"الخطوة الأهم هي تحويل بياناتنا إلى شكل يمكننا من خلاله استنتاج رؤى. في حالتنا، نريد استخراج الكلمات المفتاحية من النص، ومعرفة أي الكلمات المفتاحية أكثر أهمية.\n",
"الخطوة الأهم هي تحويل بياناتنا إلى شكل يمكننا من خلاله استخلاص الرؤى. في حالتنا، نريد استخراج الكلمات المفتاحية من النص، ورؤية الكلمات المفتاحية التي تحمل معاني أكثر.\n",
"\n",
"سنستخدم مكتبة بايثون تُسمى [RAKE](https://github.com/aneesha/RAKE) لاستخراج الكلمات المفتاحية. أولاً، دعونا نقوم بتثبيت هذه المكتبة في حال لم تكن موجودة:\n"
"سنستخدم مكتبة بايثون تسمى [RAKE](https://github.com/aneesha/RAKE) لاستخراج الكلمات المفتاحية. أولاً، دعنا نقم بتثبيت هذه المكتبة في حال لم تكن موجودة:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"الوظيفة الرئيسية متاحة من كائن `Rake`، والذي يمكننا تخصيصه باستخدام بعض المعلمات. في حالتنا، سنقوم بتعيين الحد الأدنى لطول الكلمة الرئيسية إلى 5 أحرف، والحد الأدنى لتكرار الكلمة الرئيسية في المستند إلى 3، والحد الأقصى لعدد الكلمات في الكلمة الرئيسية إلى 2. لا تتردد في تجربة قيم أخرى وملاحظة النتيجة.\n"
"الوظيفة الرئيسية متاحة من كائن `Rake`، الذي يمكننا تخصيصه باستخدام بعض المعلمات. في حالتنا، سنحدد الحد الأدنى لطول الكلمة المفتاحية إلى 5 أحرف، والحد الأدنى لتكرار الكلمة المفتاحية في المستند إلى 3، والحد الأقصى لعدد الكلمات في الكلمة المفتاحية إلى 2. لا تتردد في تجربة قيم أخرى وملاحظة النتيجة.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"حصلنا على قائمة بالمصطلحات مع درجة الأهمية المرتبطة بها. كما ترى، فإن التخصصات الأكثر صلة، مثل تعلم الآلة والبيانات الضخمة، تظهر في المراكز الأولى من القائمة.\n",
"حصلنا على قائمة مصطلحات مع درجة الأهمية المرتبطة بها. كما ترى، فإن التخصصات الأكثر صلة، مثل التعلم الآلي والبيانات الضخمة، موجودة في القائمة في المراتب العليا.\n",
"\n",
"## الخطوة 4: تصور النتيجة\n",
"\n",
"يمكن للناس فهم البيانات بشكل أفضل عندما تكون في شكل مرئي. لذلك، غالبًا ما يكون من المنطقي تصور البيانات لاستخلاص بعض الأفكار. يمكننا استخدام مكتبة `matplotlib` في بايثون لرسم توزيع بسيط للكلمات المفتاحية مع مدى أهميتها:\n"
"يمكن للناس تفسير البيانات بشكل أفضل في الشكل البصري. لذلك غالبًا ما يكون من المنطقي تصور البيانات من أجلاستخلاص بعض الرؤى. يمكننا استخدام مكتبة `matplotlib` في بايثون لرسم توزيع بسيط للكلمات المفتاحية مع مدى صلتها:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"هناك، مع ذلك، طريقة أفضل لتصور تكرار الكلمات - باستخدام **سحابة الكلمات**. سنحتاج إلى تثبيت مكتبة أخرى لرسم سحابة الكلمات من قائمة الكلمات الرئيسية الخاصة بنا.\n"
"هناك، مع ذلك، طريقة أفضل لرسم تواتر الكلمات - باستخدام **سحابة الكلمات**. سنحتاج إلى تثبيت مكتبة أخرى لرسم سحابة الكلمات من قائمة الكلمات المفتاحية لدينا.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`كائن WordCloud مسؤول عن استلام النص الأصلي أو قائمة الكلمات المحسوبة مسبقًا مع تردداتها، ويعيد صورة يمكن عرضها باستخدام matplotlib:`\n"
"كائن `WordCloud` مسؤول عن استلام النص الأصلي، أو قائمة محسوبة مسبقًا من الكلمات مع تردداتها، ويعيد صورة، والتي يمكن بعد ذلك عرضها باستخدام `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"يمكننا أيضًا تمرير النص الأصلي إلى `WordCloud` - لنرى ما إذا كنا قادرين على الحصول على نتيجة مشابهة:\n"
"يمكننا أيضًا تمرير النص الأصلي إلى `WordCloud` - لنرَ إذا كنا قادرين على الحصول على نتيجة مماثلة:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"يمكنك أن ترى أن سحابة الكلمات أصبحت الآن أكثر جاذبية، لكنها تحتوي أيضًا على الكثير من الضوضاء (مثل كلمات غير ذات صلة مثل `Retrieved on`). بالإضافة إلى ذلك، نحصل على عدد أقل من الكلمات المفتاحية التي تتكون من كلمتين، مثل *عالم بيانات* أو *علوم الحاسوب*. السببفي ذلك هو أن خوارزمية RAKE تقوم بعمل أفضل بكثير في اختيار الكلمات المفتاحية الجيدة من النص. يوضح هذا المثال أهمية معالجة البيانات وتنظيفها، لأن الصورة الواضحة في النهاية ستسمح لنا باتخاذ قرارات أفضل.\n",
"يمكنك أن ترى أن سحابة الكلمات تبدو الآن أكثر إثارة للإعجاب، لكنها تحتوي أيضاً على الكثير من الضوضاء (مثل الكلمات غير المرتبطة مثل `Retrieved on`). كذلك، نحصل على عدد أقل من الكلمات المفتاحية التي تتكون من كلمتين، مثل *عالم بيانات*، أو *علوم الحاسوب*. هذا لأن خوارزمية RAKE تقوم بعمل أفضل بكثير في اختيار الكلمات المفتاحية الجيدة من النص. يوضح هذا المثال أهمية المعالجة المسبقة للبيانات وتنظيفها، لأن الصورة الواضحة في النهاية ستسمح لنا باتخاذ قرارات أفضل.\n",
"\n",
"في هذا التمرين، قمنا بعملية بسيطة لاستخراج بعض المعاني من نصوص ويكيبيديا، على شكل كلمات مفتاحية وسحابة كلمات. هذا المثال بسيط جدًا، لكنه يوضح بشكل جيد جميع الخطوات النموذجية التي يقوم بها عالم البيانات عند العمل مع البيانات، بدءًا من الحصول على البيانات وصولاً إلى التصور.\n",
"في هذا التمرين مررنا بعملية بسيطة لاستخلاص بعض المعاني من نص ويكيبيديا، في شكل كلمات مفتاحية وسحابة كلمات. هذا المثال بسيط جداً، لكنه يوضح جيداً جميع الخطوات النموذجية التي سيأخذها عالم البيانات عند العمل مع البيانات، بدءًا من الحصول على البيانات، وحتى التمثيل البصري.\n",
"\n",
"في دورتنا، سنناقش جميع هذه الخطوات بالتفصيل.\n"
"في دورتنا سنناقش جميع هذه الخطوات بالتفصيل.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**إخلاء المسؤولية**: \nتم ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الرسمي. للحصول على معلومات حاسمة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**إخلاء المسؤولية**: \nتمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى جاهدين للدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الرسمي والموثوق. للحصول على معلومات هامة أو حرجة، يُنصح بالاستعانة بترجمة بشرية مهنية. نحن غير مسؤولين عن أي سوء فهم أو تفسير خاطئ ناتج عن استخدام هذه الترجمة.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
نظرية الإحصاء والاحتمالات هما مجالان مترابطان في الرياضيات ولهما أهمية كبيرة في علم البيانات. يمكن العمل مع البيانات دون معرفة عميقة بالرياضيات، ولكن من الأفضل معرفة بعض المفاهيم الأساسية على الأقل. هنا سنقدم مقدمة قصيرة لمساعدتك على البدء.
## [اختبار ما قبل المحاضرة](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
يمكننا فقط الحديث عن احتمال أن يقع المتغير في نطاق معين من القيم، مثل P(t<sub>1</sub>≤X<t<sub>2</sub>). في هذه الحالة، يتم وصف توزيع الاحتمالات بواسطة **دالة كثافة الاحتمال** p(x)، بحيث
النظير المتصل للتوزيع المنتظم يُسمى **التوزيع المنتظم المتصل**، والذي يتم تعريفه على فاصل محدود. احتمال أن تقع القيمة X في فاصل طوله l يتناسب مع l، ويصل إلى 1.
@ -73,11 +73,11 @@
إليك مخطط الصندوق الذي يظهر المتوسط، الوسيط والرباعيات لبياناتنا:
نظرًا لأن بياناتنا تحتوي على معلومات حول **الأدوار** المختلفة للاعبين، يمكننا أيضًا إنشاء مخطط الصندوق حسب الدور - مما يسمح لنا بفهم كيفية اختلاف قيم المعلمات عبر الأدوار. هذه المرة سننظر في الطول:


يشير هذا الرسم إلى أنه، في المتوسط، يكون طول لاعبي القاعدة الأولى أعلى من طول لاعبي القاعدة الثانية. لاحقًا في هذا الدرس، سنتعلم كيفية اختبار هذه الفرضية بشكل أكثر رسمية، وكيفية إثبات أن بياناتنا ذات دلالة إحصائية لإظهار ذلك.
@ -85,7 +85,7 @@
لرؤية توزيع بياناتنا، يمكننا رسم رسم بياني يُسمى **الهيستوجرام**. يحتوي المحور X على عدد من فواصل الوزن المختلفة (ما يُسمى **الصناديق**)، ويُظهر المحور العمودي عدد المرات التي كانت فيها عينة المتغير العشوائي داخل فاصل معين.
من هذا الهيستوجرام، يمكنك رؤية أن جميع القيم تتمركز حول متوسط وزن معين، وكلما ابتعدنا عن ذلك الوزن - قل عدد الأوزان التي لها تلك القيمة. أي أنه من غير المحتمل جدًا أن يكون وزن لاعب البيسبول مختلفًا جدًا عن متوسط الوزن. يظهر تباين الأوزان مدى احتمال اختلاف الأوزان عن المتوسط.
إذا قمنا برسم الهيستوجرام للعينات المولدة، سنرى صورة مشابهة جدًا لتلك الموضحة أعلاه. وإذا قمنا بزيادة عدد العينات وعدد الصناديق، يمكننا توليد صورة للتوزيع الطبيعي تكون أقرب إلى المثالية:
في حالتنا، تشير القيمة 0.53 إلى وجود بعض الارتباط بين وزن وطول الشخص. يمكننا أيضًا إنشاء مخطط انتشار لقيمة مقابل الأخرى لرؤية العلاقة بصريًا:


> يمكن العثور على المزيد من أمثلة الارتباط والتغاير في [دفتر الملاحظات المرافق](notebook.ipynb).


> الصورة بواسطة <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ستيفن داوسون</a> على <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
في هذه الدروس، ستتعرف على كيفية تعريف علم البيانات وستتعلم عن الاعتبارات الأخلاقية التي يجب أن يأخذها عالم البيانات بعين الاعتبار. كما ستتعرف على تعريف البيانات وستتعلم قليلاً عن الإحصاء والاحتمالات، وهما المجالان الأكاديميان الأساسيان لعلم البيانات.
بينما توفر قواعد البيانات طرقًا فعالة جدًا لتخزين البيانات واستعلامها باستخدام لغات الاستعلام، فإن الطريقة الأكثر مرونة لمعالجة البيانات هي كتابة برنامج خاص بك لمعالجتها. في كثير من الحالات، يكون إجراء استعلام قاعدة بيانات أكثر فعالية. ومع ذلك، في بعض الحالات التي تتطلب معالجة بيانات أكثر تعقيدًا، لا يمكن القيام بذلك بسهولة باستخدام SQL.
يمكن برمجة معالجة البيانات بأي لغة برمجة، ولكن هناك لغات معينة تعتبر عالية المستوى فيما يتعلق بالعمل مع البيانات. يفضل علماء البيانات عادةً إحدى اللغات التالية:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
> **ملاحظة** أننا لا نستخدم الصيغة البسيطة `total_items+additional_items`. إذا فعلنا ذلك، فسنحصل على الكثير من القيم `NaN` (*ليس رقمًا*) في السلسلة الناتجة. هذا لأن هناك قيم مفقودة لبعض نقاط الفهرس في سلسلة `additional_items`، وإضافة `NaN` إلى أي شيء يؤدي إلى `NaN`. لذلك نحتاج إلى تحديد معلمة `fill_value` أثناء الجمع.
نظرًا لأننا نريد توضيح كيفية التعامل مع البيانات، ندعوك لفتح [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) وقراءته من البداية إلى النهاية. يمكنك أيضًا تنفيذ الخلايا، والقيام ببعض التحديات التي تركناها لك في النهاية.
> إذا كنت لا تعرف كيفية تشغيل الكود في Jupyter Notebook، ألقِ نظرة على [هذه المقالة](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
افتح [`notebook-papers.ipynb`](notebook-papers.ipynb) وقراءته من البداية إلى النهاية. يمكنك أيضًا تنفيذ الخلايا، والقيام ببعض التحديات التي تركناها لك في النهاية.
> الصورة بواسطة <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">ألكسندر سين</a> على <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
في هذه الدروس، ستتعلم بعض الطرق التي يمكن من خلالها إدارة البيانات ومعالجتها واستخدامها في التطبيقات. ستتعرف على قواعد البيانات العلائقية وغير العلائقية وكيف يمكن تخزين البيانات فيها. ستتعلم أساسيات العمل مع Python لإدارة البيانات، وستكتشف بعض الطرق العديدة التي يمكنك من خلالها استخدام Python لإدارة البيانات واستخراجها.
الآن، اعرض نفس البيانات باستخدام نظام ألوان يشبه العسل لعرض كيفية تطور السعر على مدار السنوات. يمكنك القيام بذلك عن طريق إضافة معلمة 'hue' لعرض التغيير عامًا بعد عام:
مع هذا التغيير في نظام الألوان، يمكنك أن ترى بوضوح تقدمًا قويًا على مدار السنوات فيما يتعلق بسعر العسل لكل رطل. بالفعل، إذا نظرت إلى مجموعة بيانات للتحقق (اختر ولاية معينة، مثل أريزونا)، يمكنك رؤية نمط زيادة الأسعار عامًا بعد عام، مع بعض الاستثناءات:
هل هذا مجرد حالة بسيطة من العرض والطلب؟ بسبب عوامل مثل تغير المناخ وانهيار المستعمرات، هل هناك كمية أقل من العسل المتاحة للشراء عامًا بعد عام، وبالتالي ترتفع الأسعار؟
✅ لأن Seaborn يقوم بتجميع البيانات حول خط واحد، فإنه يعرض "القياسات المتعددة عند كل قيمة x عن طريق رسم المتوسط وفاصل الثقة بنسبة 95% حول المتوسط". [المصدر](https://seaborn.pydata.org/tutorial/relational.html). يمكن تعطيل هذا السلوك الذي يستغرق وقتًا عن طريق إضافة `ci=None`.
الإجابة: ليس حقًا. إذا نظرت إلى الإنتاج الإجمالي، يبدو أنه قد زاد في ذلك العام تحديدًا، على الرغم من أن كمية العسل المنتجة عمومًا في انخفاض خلال هذه السنوات.
@ -130,7 +130,7 @@ sns.relplot(
```
في هذا التصور، يمكنك مقارنة الإنتاج لكل مستعمرة وعدد المستعمرات عامًا بعد عام، جنبًا إلى جنب مع التفاف مضبوط على 3 للأعمدة:
بالنسبة لهذه المجموعة من البيانات، لا يبرز شيء بشكل خاص فيما يتعلق بعدد المستعمرات وإنتاجها، عامًا بعد عام وولاية بعد ولاية. هل هناك طريقة مختلفة للبحث عن علاقة بين هذين المتغيرين؟
بينما لا يبرز شيء للعين حول عام 2003، فإنه يسمح لنا بإنهاء هذا الدرس بملاحظة أكثر إيجابية: على الرغم من وجود انخفاض عام في عدد المستعمرات، فإن عدد المستعمرات يستقر حتى لو كان إنتاجها لكل مستعمرة يتناقص.
هنا، تقوم بتثبيت حزمة `ggplot2` ثم استيرادها إلى مساحة العمل باستخدام الأمر `library("ggplot2")`. لرسم أي مخطط في ggplot، يتم استخدام وظيفة `ggplot()` وتحديد مجموعة البيانات، متغيرات x و y كسمات. في هذه الحالة، نستخدم وظيفة `geom_line()` لأننا نهدف إلى رسم مخطط خطي.
ما الذي تلاحظه فورًا؟ يبدو أن هناك على الأقل نقطة شاذة واحدة - هذا عرض جناح كبير جدًا! عرض جناح يزيد عن 2000 سنتيمتر يساوي أكثر من 20 مترًا - هل هناك تيروداكتيلات تتجول في مينيسوتا؟ دعونا نحقق في الأمر.
حتى مع تدوير التسميات إلى 45 درجة، هناك الكثير منها لقراءتها. دعونا نحاول استراتيجية مختلفة: قم بتسمية النقاط الشاذة فقط وضع التسميات داخل الرسم البياني. يمكنك استخدام مخطط مبعثر لتوفير مساحة أكبر للتسمية:
في المقتطف التالي، نقوم بتثبيت حزم [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) و[lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) للمساعدة في معالجة وتجميع البيانات من أجل رسم مخطط عمودي مكدس. أولاً، نقوم بتجميع البيانات حسب `Category` الطيور ثم تلخيص الأعمدة `MinLength`, `MaxLength`, `MinBodyMass`,`MaxBodyMass`,`MinWingspan`,`MaxWingspan`. ثم، نرسم المخطط العمودي باستخدام حزمة `ggplot2` ونحدد الألوان للفئات المختلفة والتسميات.


ومع ذلك، هذا المخطط العمودي غير قابل للقراءة لأنه يحتوي على الكثير من البيانات غير المجمعة. تحتاج إلى اختيار البيانات التي تريد رسمها فقط، لذا دعونا ننظر إلى طول الطيور بناءً على فئتها.
أولاً، تقوم بعد القيم الفريدة في عمود `Category` ثم ترتيبها في إطار بيانات جديد `birds_count`. يتم ترتيب هذه البيانات المصفاة بنفس المستوى بحيث يتم رسمها بطريقة مرتبة. باستخدام `ggplot2`، تقوم بعد ذلك برسم البيانات في مخطط عمودي. يقوم `coord_flip()` برسم الأعمدة أفقيًا.
يوفر هذا المخطط العمودي عرضًا جيدًا لعدد الطيور في كل فئة. في لمحة، ترى أن أكبر عدد من الطيور في هذه المنطقة ينتمي إلى فئة البط/الإوز/طيور الماء. مينيسوتا هي "أرض 10,000 بحيرة"، لذا هذا ليس مفاجئًا!


يوفر هذا نظرة عامة على التوزيع العام لطول الجسم لكل رتبة من الطيور، ولكنه ليس الطريقة المثلى لعرض التوزيعات الحقيقية. عادةً ما يتم التعامل مع هذه المهمة من خلال إنشاء مخطط هيستوجرام.


كما ترى، فإن معظم الطيور البالغ عددها 400+ في هذه المجموعة تقع في نطاق أقل من 2000 بالنسبة لأقصى كتلة جسم. احصل على مزيد من الفهم للبيانات عن طريق تغيير معلمة `bins` إلى رقم أعلى، مثل 30:
لا يبدو أن هناك علاقة جيدة بين امتداد الجناح الأدنى وحالة الحفظ. اختبر عناصر أخرى من مجموعة البيانات باستخدام هذه الطريقة. يمكنك تجربة فلاتر مختلفة أيضًا. هل تجد أي علاقة؟
يمكنك أن ترى كيف يعكس المخطط السابق بيانات امتداد الجناح الأدنى؛ إنه فقط أكثر سلاسة. إذا كنت ترغب في إعادة النظر في خط MaxBodyMass المتعرج في المخطط الثاني الذي أنشأته، يمكنك تنعيمه بشكل جيد جدًا عن طريق إعادة إنشائه باستخدام هذه الطريقة:


✅ اقرأ عن المعلمات المتاحة لهذا النوع من المخططات وجربها!
ها هو، مخطط دائري يظهر نسب هذه البيانات وفقًا لهاتين الفئتين من الفطر. من المهم جدًا الحصول على ترتيب التسميات بشكل صحيح، خاصة هنا، لذا تأكد من التحقق من الترتيب الذي يتم بناء مصفوفة التسميات به!
في هذه الدرس، تعلمت ثلاث طرق لتصور النسب. أولاً، تحتاج إلى تجميع بياناتك في فئات ثم تقرر الطريقة الأفضل لعرض البيانات - دائري، دونات، أو وافل. جميعها لذيذة وتمنح المستخدم لمحة فورية عن مجموعة البيانات.
الآن، اعرض نفس البيانات باستخدام نظام ألوان العسل لإظهار كيفية تطور السعر على مر السنين. يمكنك القيام بذلك عن طريق إضافة معامل 'scale_color_gradientn' لإظهار التغيير عامًا بعد عام:
مع هذا التغيير في نظام الألوان، يمكنك أن ترى بوضوح تقدمًا قويًا على مر السنين فيما يتعلق بسعر العسل لكل رطل. بالفعل، إذا نظرت إلى مجموعة بيانات عينة للتحقق (اختر ولاية معينة، مثل أريزونا)، يمكنك رؤية نمط زيادة الأسعار عامًا بعد عام، مع بعض الاستثناءات:
هل هذا مجرد حالة بسيطة من العرض والطلب؟ بسبب عوامل مثل تغير المناخ وانهيار المستعمرات، هل هناك كمية أقل من العسل المتاحة للشراء عامًا بعد عام، وبالتالي يرتفع السعر؟
الإجابة: ليس حقًا. إذا نظرت إلى الإنتاج الإجمالي، يبدو أنه قد زاد في ذلك العام بالذات، على الرغم من أن كمية العسل المنتجة عمومًا كانت في انخفاض خلال هذه السنوات.
بالنسبة لهذه المجموعة من البيانات، لا يبرز أي شيء بشكل خاص فيما يتعلق بعدد المستعمرات وإنتاجها، عامًا بعد عام وولاية بعد ولاية. هل هناك طريقة مختلفة للنظر في إيجاد علاقة بين هذين المتغيرين؟
بينما لا يبرز شيء للعين حول عام 2003، فإنه يسمح لنا بإنهاء هذا الدرس بملاحظة أكثر سعادة: على الرغم من وجود انخفاض عام في عدد المستعمرات، فإن عدد المستعمرات يستقر حتى لو كان إنتاجها لكل مستعمرة يتناقص.
حتى إذا كان عالم البيانات حريصًا على اختيار الرسم البياني المناسب للبيانات المناسبة، هناك العديد من الطرق التي يمكن بها عرض البيانات لإثبات نقطة معينة، غالبًا على حساب البيانات نفسها. هناك العديد من الأمثلة على الرسوم البيانية والمخططات المضللة!
[هذا الرسم البياني](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) أكثر تضليلًا، حيث يجذب العين إلى اليمين لتستنتج أن حالات COVID قد انخفضت مع الزمن في المقاطعات المختلفة. في الواقع، إذا نظرت عن كثب إلى التواريخ، ستجد أنها أعيد ترتيبها لإظهار هذا الاتجاه المضلل.
هذا المثال الشهير يستخدم الألوان ومحور Y مقلوب لخداع العين: بدلاً من استنتاج أن وفيات الأسلحة ارتفعت بعد تمرير تشريعات داعمة للأسلحة، يتم خداع العين لتعتقد العكس:
مقارنة ما لا يمكن مقارنته هي خدعة أخرى مشبوهة. هناك [موقع ويب رائع](https://tylervigen.com/spurious-correlations) يعرض "ارتباطات زائفة" تظهر "حقائق" تربط بين أشياء مثل معدل الطلاق في ولاية مين واستهلاك المارجرين. كما أن هناك مجموعة على Reddit تجمع [الاستخدامات السيئة](https://www.reddit.com/r/dataisugly/top/?t=all) للبيانات.
@ -91,13 +91,13 @@
إذا كانت بياناتك نصية وطويلة على المحور X، يمكنك إمالة النص لتحسين القراءة. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) يقدم رسومات ثلاثية الأبعاد إذا كانت بياناتك تدعم ذلك. يمكن إنتاج تصورات بيانات متطورة باستخدامه.
بعض أفضل تصورات البيانات اليوم متحركة. شيرلي وو لديها أمثلة مذهلة باستخدام D3، مثل '[زهور الأفلام](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)'، حيث يمثل كل زهرة تصورًا لفيلم. مثال آخر للجارديان هو 'باصات المشردين'، تجربة تفاعلية تجمع بين التصورات مع Greensock وD3 بالإضافة إلى تنسيق مقال سردي لعرض كيفية تعامل مدينة نيويورك مع مشكلة المشردين من خلال إرسالهم خارج المدينة.
> "باصات المشردين: كيف تنقل أمريكا مشرديها" من [الجارديان](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). تصورات بواسطة نادية بريمر وشيرلي وو.
@ -107,7 +107,7 @@
ستكمل تطبيق ويب يعرض عرضًا متحركًا لهذه الشبكة الاجتماعية. يستخدم مكتبة تم إنشاؤها لإنشاء [تصور لشبكة](https://github.com/emiliorizzo/vue-d3-network) باستخدام Vue.js وD3. عندما يعمل التطبيق، يمكنك سحب العقد على الشاشة لتحريك البيانات.


> الصورة بواسطة <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> على <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
تصور البيانات هو أحد أهم المهام التي يقوم بها عالم البيانات. الصور تعادل ألف كلمة، ويمكن للتصور أن يساعدك في التعرف على جميع أنواع الأجزاء المثيرة للاهتمام في بياناتك مثل القمم، والقيم الشاذة، والتجمعات، والاتجاهات، والمزيد، مما يمكن أن يساعدك في فهم القصة التي تحاول بياناتك سردها.
تركز هذه الدرس على ثلاثة أجزاء من دورة الحياة: الالتقاط، المعالجة، والصيانة.


> صورة بواسطة [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## الالتقاط
@ -92,7 +92,7 @@
|عملية فريق علم البيانات (TDSP)|المعيار الصناعي لعملية التنقيب عن البيانات (CRISP-DM)|
|--|--|
| |  |
| |  |
| صورة بواسطة [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | صورة بواسطة [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [اختبار ما بعد المحاضرة](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> الصورة بواسطة <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> على <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
في هذه الدروس، ستستكشف بعض جوانب دورة حياة علم البيانات، بما في ذلك التحليل والتواصل حول البيانات.
> الصورة بواسطة [Jelleke Vanooteghem](https://unsplash.com/@ilumire) من [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
عندما يتعلق الأمر بممارسة علم البيانات مع البيانات الضخمة، يمكن أن تكون السحابة نقطة تحول. في الدروس الثلاثة القادمة، سنستعرض ما هي السحابة ولماذا يمكن أن تكون مفيدة جدًا. سنقوم أيضًا باستكشاف مجموعة بيانات عن فشل القلب وبناء نموذج يساعد في تقييم احتمالية إصابة شخص بفشل القلب. سنستخدم قوة السحابة لتدريب النموذج ونشره واستهلاكه بطريقتين مختلفتين. الطريقة الأولى باستخدام واجهة المستخدم فقط بأسلوب "Low code/No code"، والطريقة الثانية باستخدام Azure Machine Learning Software Developer Kit (Azure ML SDK).
* [علم البيانات في الرعاية الصحية](https://data-flair.training/blogs/data-science-in-healthcare/) - يبرز تطبيقات مثل التصوير الطبي (مثل التصوير بالرنين المغناطيسي، الأشعة السينية، التصوير المقطعي)، الجينوميات (تسلسل الحمض النووي)، تطوير الأدوية (تقييم المخاطر، التنبؤ بالنجاح)، التحليلات التنبؤية (رعاية المرضى ولوجستيات الإمداد)، تتبع الأمراض والوقاية منها، إلخ.
 مصدر الصورة: [Data Flair: 6 Amazing Data Science Applications](https://data-flair.training/blogs/data-science-applications/)
 مصدر الصورة: [Data Flair: 6 Amazing Data Science Applications](https://data-flair.training/blogs/data-science-applications/)
تُظهر الصورة مجالات وأمثلة أخرى لتطبيق تقنيات علم البيانات. هل تريد استكشاف تطبيقات أخرى؟ تحقق من قسم [المراجعة والدراسة الذاتية](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) أدناه.
2. استكشاف [كتالوج البيانات](https://planetarycomputer.microsoft.com/catalog) - لمعرفة الغرض من كل مجموعة بيانات.
3. استخدام Explorer - اختيار مجموعة بيانات تهمك، وتحديد استعلام مناسب وخيار عرض.


`مهمتك:`
الآن قم بدراسة التصور الذي يتم عرضه في المتصفح وأجب عن الأسئلة التالية:
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[](https://aka.ms/foundry/forum)
يسعد مدافعوا أزور السحابيون في مايكروسوفت بتقديم منهج دراسي مكون من 10 أسابيع و20 درسًا كله عن علم البيانات. يشمل كل درس اختبارات قبل وبعد الدرس، تعليمات مكتوبة لإكمال الدرس، الحل، ومهمة. تسمح لك منهجيتنا القائمة على المشاريع بالتعلم أثناء البناء، وهي طريقة مثبتة لتثبيت المهارات الجديدة.
يسعد فريق دعاة سحابة أزور في مايكروسوفت أن يقدم منهجًا دراسيًا لمدة 10 أسابيع و20 درسًا حول علم البيانات. يتضمن كل درس اختبارات قبل وبعد الدرس، تعليمات مكتوبة لإتمام الدرس، الحل، ومهمة. تسمح لك منهجية التعلم القائمة على المشاريع بالتعلم أثناء البناء، وهي طريقة مثبتة لجعل المهارات الجديدة "تثبت".
لدينا سلسلة تعلم عبر Discord مع الذكاء الاصطناعي مستمرة، تعرّف على المزيد وانضم إلينا في [سلسلة تعلم مع AI](https://aka.ms/learnwithai/discord) من 18 إلى 30 سبتمبر 2025. ستحصل على نصائح وحيل حول استخدام GitHub Copilot لعلم البيانات.
لدينا سلسلة تعلم على ديسكورد مع الذكاء الاصطناعي مستمرة، تعرف أكثر وانضم إلينا في [سلسلة التعلم مع الذكاء الاصطناعي](https://aka.ms/learnwithai/discord) من 18 إلى 30 سبتمبر 2025. ستحصل على نصائح وحيل لاستخدام GitHub Copilot في علم البيانات.


# هل أنت طالب؟
ابدأ بالموارد التالية:
- [صفحة مركز الطلاب](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) في هذه الصفحة، ستجد موارد للمبتدئين، حزم الطلاب وحتى طرق للحصول على قسيمة شهادة مجانية. هذه صفحة تريد وضع إشارة مرجعية عليها والتحقق منها من وقت لآخر حيث نقوم بتغيير المحتوى شهريًا على الأقل.
- [سفراء مايكروسوفت الطلابية](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) انضم إلى مجتمع عالمي من سفراء الطلاب، قد يكون هذا طريقك إلى مايكروسوفت.
- [صفحة مركز الطلاب](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) في هذه الصفحة، ستجد موارد للمبتدئين، حزم الطلاب وحتى طرق للحصول على قسيمة شهادة مجانية. هذه صفحة تريد إضافتها إلى المفضلة والتحقق منها من وقت لآخر حيث نغير المحتوى على الأقل مرة كل شهر.
- [سفراء طلاب مايكروسوفت](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) انضم إلى مجتمع عالمي من سفراء الطلاب، قد تكون هذه هي طريقك إلى مايكروسوفت.
- **[دليل المساهمة](CONTRIBUTING.md)** - كيفية المساهمة في هذا المشروع
- **[للمعلمين](for-teachers.md)** - إرشادات التدريس وموارد الفصل الدراسي
- **[للمعلمين](for-teachers.md)** - إرشادات التدريس وموارد الصف الدراسي
## 👨🎓 للطلاب
> **للمبتدئين التامّين**: هل أنت جديد في علم البيانات؟ ابدأ بأمثلتنا [الصديقة للمبتدئين](examples/README.md)! تساعدك هذه الأمثلة البسيطة والمشروحة جيدًا على فهم الأساسيات قبل الدخول في المنهج الكامل.
> **[الطلاب](https://aka.ms/student-page)**: لاستخدام هذا المنهج بمفردك، قم بتفرع المستودع بالكامل وأكمل التمرينات بنفسك، بدءًا باختبار قبل المحاضرة. ثم اقرأ المحاضرة وأكمل بقية الأنشطة. حاول إنشاء المشاريع بفهم الدروس بدلاً من نسخ كود الحل؛ ومع ذلك، يتوفر هذا الكود في مجلد /solutions في كل درس موجه نحو المشروع. فكرة أخرى هي تشكيل مجموعة دراسة مع الأصدقاء ومراجعة المحتوى معًا. لمزيد من الدراسة، نوصي بـ [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **المبتدئين تمامًا**: جديد في علم البيانات؟ ابدأ بأمثلتنا السهلة والمناسبة للمبتدئين [beginner-friendly examples](examples/README.md)! هذه الأمثلة البسيطة والمفصلة بالتعليقات ستساعدك على فهم الأساسيات قبل الغوص في المنهج الكامل.
> **[الطلاب](https://aka.ms/student-page)**: لاستخدام هذا المنهج بمفردك، يمكنك عمل فورك للكود كاملاً وإكمال التمارين بنفسك، بدءًا باختبار تمهيدي قبل المحاضرة. ثم اقرأ المحاضرة وأكمل بقية الأنشطة. حاول إنشاء المشاريع من خلال فهم الدروس بدلاً من نسخ شفرة الحل؛ مع ذلك، تتوفر الشفرة في مجلدات /solutions في كل درس موجه للمشروع. فكرة أخرى هي تشكيل مجموعة دراسة مع الأصدقاء ومراجعة المحتوى معًا. للدراسة المتقدمة، نوصي بـ [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**بدء سريع:**
1. تحقق من [دليل التثبيت](INSTALLATION.md) لإعداد بيئتك
2. راجع [دليل الاستخدام](USAGE.md) لتتعلم كيفية العمل مع المنهج
3. ابدأ بالدرس 1 واعمل بالتتابع
4. انضم إلى [مجتمعنا في Discord](https://aka.ms/ds4beginners/discord) للدعم
2. استعرض [دليل الاستخدام](USAGE.md) لتعلم كيفية العمل مع المنهج
3. ابدأ بالدرس 1 وواصل بالدروس بالترتيب
4. انضم إلى [مجتمعنا على Discord](https://aka.ms/ds4beginners/discord) للحصول على الدعم
## 👩🏫 للمعلمين
> **المعلمون**: لقد قمنا بـ[تضمين بعض الاقتراحات](for-teachers.md) حول كيفية استخدام هذا المنهج الدراسي. ونسعد بتلقي ملاحظاتكم [في منتدى النقاش الخاص بنا](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **للمعلمين**: لقد قمنا [بتضمين بعض الاقتراحات](for-teachers.md) حول كيفية استخدام هذا المنهج. نود الحصول على ملاحظاتك [في منتدى المناقشات الخاص بنا](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> 🎥 اضغط على الصورة أعلاه لمشاهدة فيديو عن المشروع والأشخاص الذين أنشأوه!
> 🎥 انقر على الصورة أعلاه لفيديو عن المشروع والأشخاص الذين أنشأوه!
## منهجية التعليم
## المنهجية التعليمية
اخترنا مبدأين تربويين أثناء بناء هذا المنهج الدراسي: التأكد من أنه قائم على المشاريع ويتضمن اختبارات متكررة. بحلول نهاية هذه السلسلة، سيكون الطلاب قد تعلموا المبادئ الأساسية لعلم البيانات، بما في ذلك المفاهيم الأخلاقية، تحضير البيانات، الطرق المختلفة للعمل مع البيانات، تصور البيانات، تحليل البيانات، حالات استخدام واقعية لعلم البيانات، وأكثر.
اخترنا مبدئين تربويين أثناء بناء هذا المنهج: ضمان كونه قائمًا على المشاريع وأن يتضمن اختبارات متكررة. بنهاية هذه السلسلة، سيكون الطلاب قد تعلموا مبادئ أساسية في علم البيانات، بما في ذلك المفاهيم الأخلاقية، تحضير البيانات، طرق مختلفة للعمل مع البيانات، تصور البيانات، تحليل البيانات، حالات الاستخدام الواقعية لعلم البيانات، وأكثر.
بالإضافة إلى ذلك، يحدد اختبار منخفض المخاطر قبل الحصة نية الطالب نحو تعلم الموضوع، في حين يضمن اختبار آخر بعد الحصة المزيد من الاحتفاظ بالمعلومات. تم تصميم هذا المنهج لكونه مرنًا وممتعًا ويمكن أخذه بالكامل أو جزئيًا. تبدأ المشاريع صغيرة وتزداد تعقيدًا مع نهاية دورة العشرة أسابيع.
بالإضافة إلى ذلك، اختبار منخفض المخاطر قبل الدرس يهيئ النية لدى الطالب لتعلم الموضوع، بينما يضمن اختبار ثانٍ بعد الدرس الاحتفاظ بالمعلومات بشكل أكبر. تم تصميم هذا المنهج ليكون مرنًا وممتعًا ويمكن دراسته كاملاً أو جزئيًا. تبدأ المشاريع صغيرة وتزداد تعقيدًا بالتدريج حتى نهاية دورة الأسابيع العشرة.
> تعرف على [مدونة السلوك](CODE_OF_CONDUCT.md)، [المساهمة](CONTRIBUTING.md)، وإرشادات [الترجمة](TRANSLATIONS.md). نرحب بملاحظاتك البناءة!
- دروس إرشادية خطوة بخطوة للمشاريع المعتمدة على المشاريع
- اختبارات معرفة
- تحدي
- قراءة تكاملية
- قراءة إضافية
- واجب
- [اختبار ما بعد الدرس](https://ff-quizzes.netlify.app/en/)
- [اختبار بعد الدرس](https://ff-quizzes.netlify.app/en/)
> **ملاحظة عن الاختبارات**: جميع الاختبارات موجودة في مجلد Quiz-App، بإجمالي 40 اختبارًا كل منها يتضمن ثلاثة أسئلة. ترتبط من داخل الدروس، لكن يمكن تشغيل تطبيق الاختبارات محليًا أو نشره على Azure؛ اتبع التعليمات في مجلد `quiz-app`. يتم تعريبها تدريجيًا.
> **ملاحظة حول الاختبارات**: كل الاختبارات موجودة في مجلد Quiz-App، بمجموع 40 اختبارًا يحتوي كل منها على ثلاثة أسئلة. ترتبط من داخل الدروس، لكن تطبيق الاختبارات يمكن تشغيله محليًا أو نشره على Azure؛ اتبع التعليمات في مجلد `quiz-app`. يتم تعريبها تدريجياً.
## 🎓 أمثلة مناسبة للمبتدئين
## 🎓 أمثلة ميسرة للمبتدئين
**جديد في علم البيانات؟** أنشأنا دليلًا خاصًا للأمثلة [examples directory](examples/README.md) مع أكواد بسيطة ومشروحة جيدًا لمساعدتك على البدء:
**جديد في علم البيانات؟** لقد أنشأنا مجلد خاص [للأمثلة](examples/README.md) يحتوي على أكواد بسيطة ومشروحة جيدًا لمساعدتك على البدء:
- 🌟 **مرحبا بالعالم** - أول برنامج علم بيانات لك
- 📂 **تحميل البيانات** - تعلّم قراءة واستكشاف مجموعات البيانات
- 🌟 **مرحبًا بالعالم** - برنامجك الأول في علم البيانات
- 📂 **تحميل البيانات** - تعلم كيفية قراءة واستكشاف مجموعات البيانات
- 📊 **تحليل بسيط** - حساب الإحصائيات واكتشاف الأنماط
- 📈 **التصور الأساسي** - إنشاء مخططات ورسوم بيانية
- 🔬 **مشروع واقعي** - سير العمل كاملًا من البداية للنهاية
- 📈 **تصور أساسي** - إنشاء المخططات والرسوم البيانية
- 🔬 **مشروع واقعي** - سير عمل مكتمل من البداية للنهاية
تتضمن كل مثال تعليقات تفصيلية تشرح كل خطوة، مما يجعله مثاليًا للمبتدئين تمامًا!
كل مثال يحتوي على تعليقات مفصلة تشرح كل خطوة، مما يجعله مثاليًا للمبتدئين تمامًا!
👉 **[ابدأ بالأمثلة](examples/README.md)** 👈
## الدروس
||
||
|:---:|
| خارطة طريق علم البيانات للمبتدئين - _ملاحظة تخطيطية بواسطة [@nitya](https://twitter.com/nitya)_ |
| علم البيانات للمبتدئين: خارطة الطريق - _رسم تخطيطي بواسطة [@nitya](https://twitter.com/nitya)_ |
| رقم الدرس | الموضوع | مجموعة الدرس | أهداف التعلم | الدرس المرتبط | المؤلف |
| رقم الدرس | الموضوع | مجموعة الدروس | أهداف التعلم | الدرس المرتبط | المؤلف |
| 01 | تعريف علم البيانات | [مقدمة](1-Introduction/README.md) | تعلّم المفاهيم الأساسية وراء علم البيانات وكيف يرتبط بالذكاء الاصطناعي، التعلم الآلي، والبيانات الضخمة. | [درس](1-Introduction/01-defining-data-science/README.md) [فيديو](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | أخلاقيات علم البيانات | [مقدمة](1-Introduction/README.md) | مفاهيم أخلاقيات البيانات، التحديات، والأطر. | [درس](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 02 | أخلاقيات علم البيانات | [مقدمة](1-Introduction/README.md) | مفاهيم وتحديات وأطر عمل أخلاقيات البيانات. | [درس](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | تعريف البيانات | [مقدمة](1-Introduction/README.md) | كيفية تصنيف البيانات ومصادرها الشائعة. | [درس](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | مقدمة في الإحصاء والاحتمالات | [مقدمة](1-Introduction/README.md) | التقنيات الرياضية للاحتمالات والإحصاء لفهم البيانات. | [درس](1-Introduction/04-stats-and-probability/README.md) [فيديو](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | العمل مع البيانات العلائقية | [العمل مع البيانات](2-Working-With-Data/README.md) | مقدمة عن البيانات العلائقية والأساسيات لاستكشاف وتحليل البيانات العلائقية باستخدام لغة الاستعلام البنائية، المعروفة أيضًا بـ SQL (تنطق "سي-كول"). | [درس](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | العمل مع بيانات NoSQL | [العمل مع البيانات](2-Working-With-Data/README.md) | مقدمة عن البيانات غير العلائقية، أنواعه المختلفة، والأساسيات لاستكشاف وتحليل قواعد بيانات المستندات. | [درس](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | العمل مع بايثون | [العمل مع البيانات](2-Working-With-Data/README.md) | أساسيات استخدام بايثون لاستكشاف البيانات مع مكتبات مثل Pandas. من المفضل فهم برمجة بايثون أساسيًا. | [درس](2-Working-With-Data/07-python/README.md) [فيديو](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | تحضير البيانات | [العمل مع البيانات](2-Working-With-Data/README.md) | مواضيع تقنيات تنظيف وتحويل البيانات لمعالجة تحديات البيانات المفقودة أو غير الدقيقة أو غير المكتملة. | [درس](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | تصور الكميات | [تصور البيانات](3-Data-Visualization/README.md) | تعلم كيفية استخدام Matplotlib لتصوير بيانات الطيور 🦆 | [درس](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | تصور توزيع البيانات | [تصور البيانات](3-Data-Visualization/README.md) | تصور الملاحظات والاتجاهات ضمن فترة زمنية. | [درس](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | تصور العلاقات | [تصور البيانات](3-Data-Visualization/README.md) | تصور الروابط والترابطات بين مجموعات البيانات ومتغيراتها. | [درس](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | تصورات ذات معنى | [تصور البيانات](3-Data-Visualization/README.md) | تقنيات وإرشادات لجعل تصوراتك قيمة وفعالة في حل المشكلات واستخلاص الرؤى. | [درس](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | مقدمة في دورة حياة علم البيانات | [دورة الحياة](4-Data-Science-Lifecycle/README.md) | مقدمة في دورة حياة علم البيانات وخطوتها الأولى اكتساب واستخلاص البيانات. | [درس](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | التحليل | [دورة الحياة](4-Data-Science-Lifecycle/README.md) | تركز هذه المرحلة من دورة الحياة على تقنيات تحليل البيانات. | [درس](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | التواصل | [دورة الحياة](4-Data-Science-Lifecycle/README.md) | تركز هذه المرحلة على تقديم الرؤى المستخلصة من البيانات بطريقة تسهل فهمها لصناع القرار. | [درس](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | علم البيانات في السحابة | [بيانات السحابة](5-Data-Science-In-Cloud/README.md) | سلسلة دروس تعرّف علم البيانات في السحابة وفوائده. | [درس](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) و [Maud](https://twitter.com/maudstweets) |
| 18 | علم البيانات في السحابة | [بيانات السحابة](5-Data-Science-In-Cloud/README.md) | تدريب النماذج باستخدام أدوات الكود المنخفض. |[درس](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) و [Maud](https://twitter.com/maudstweets) |
| 19 | علم البيانات في السحابة | [بيانات السحابة](5-Data-Science-In-Cloud/README.md) | نشر النماذج باستخدام Azure Machine Learning Studio. | [درس](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) و [Maud](https://twitter.com/maudstweets) |
| 20 | علم البيانات في العالم الحقيقي | [في العالم الحقيقي](6-Data-Science-In-Wild/README.md) | مشاريع مدفوعة بواسطة علم البيانات في الواقع. | [درس](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## مساحات كود جيت هاب
اتبع هذه الخطوات لفتح هذا العينة في مساحة أكواد:
1. اضغط على قائمة الشيفرة المنسدلة واختر خيار "الفتح مع مساحات الكود".
2. اختر + مساحة جديدة في أسفل اللوحة.
لمزيد من المعلومات، راجع [وثائق GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode عن بعد - الحاويات
اتبع هذه الخطوات لفتح هذا المستودع في حاوية باستخدام جهازك المحلي وVSCode مع امتداد Remote - Containers:
1. إذا كانت هذه أول مرة تستخدم فيها حاوية تطوير، فتأكد من أن نظامك يلبي المتطلبات الأساسية (أي وجود Docker مثبت) في [وثائق البدء](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
لاستخدام هذا المستودع، يمكنك فتح المستودع في حجم Docker معزول:
**ملاحظة**: تحت الغطاء، يستخدم هذا الأمر Remote-Containers: **Clone Repository in Container Volume...** لاستنساخ الشفرة المصدرية في حجم Docker بدلاً من نظام الملفات المحلي. [الأحجام](https://docs.docker.com/storage/volumes/) هي الآلية المفضلة للاحتفاظ ببيانات الحاوية.
أو افتح نسخة من المستودع مستنسخة محليًا أو محملة:
- استنسخ هذا المستودع إلى نظام الملفات المحلي.
| 04 | مقدمة في الإحصاء والاحتمالات | [مقدمة](1-Introduction/README.md) | التقنيات الرياضية في الاحتمالات والإحصاء لفهم البيانات. | [درس](1-Introduction/04-stats-and-probability/README.md) [فيديو](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | العمل مع البيانات العلائقية | [العمل مع البيانات](2-Working-With-Data/README.md) | مقدمة للبيانات العلائقية وأساسيات استكشاف وتحليل البيانات العلائقية باستخدام لغة الاستعلام البنيوية، المعروفة باسم SQL (تنطق "سي-كويل"). | [درس](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | العمل مع بيانات NoSQL | [العمل مع البيانات](2-Working-With-Data/README.md) | مقدمة للبيانات غير العلائقية، أنواعها المختلفة وأساسيات استكشاف وتحليل قواعد بيانات المستندات. | [درس](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | العمل مع بايثون | [العمل مع البيانات](2-Working-With-Data/README.md) | أساسيات استخدام بايثون لاستكشاف البيانات باستخدام مكتبات مثل Pandas. يُنصح بفهم أساسي لبرمجة بايثون. | [درس](2-Working-With-Data/07-python/README.md) [فيديو](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | تحضير البيانات | [العمل مع البيانات](2-Working-With-Data/README.md) | موضوعات حول تقنيات تنظيف وتحويل البيانات لمعالجة تحديات البيانات الناقصة أو غير الدقيقة أو غير المكتملة. | [درس](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | تصور الكميات | [تصور البيانات](3-Data-Visualization/README.md) | تعلم استخدام Matplotlib لتصوير بيانات الطيور 🦆 | [درس](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | تصور توزيعات البيانات | [تصور البيانات](3-Data-Visualization/README.md) | تصور الملاحظات والاتجاهات ضمن فترة زمنية. | [درس](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | مقدمة إلى دورة حياة علم البيانات | [دورة الحياة](4-Data-Science-Lifecycle/README.md) | مقدمة لدورة حياة علم البيانات وخطوتها الأولى في جمع واستخلاص البيانات. | [درس](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | التحليل | [دورة الحياة](4-Data-Science-Lifecycle/README.md) | تركيز هذه المرحلة من دورة حياة علم البيانات على تقنيات تحليل البيانات. | [درس](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | التواصل | [دورة الحياة](4-Data-Science-Lifecycle/README.md) | تركيز هذه المرحلة من دورة حياة علم البيانات على عرض الرؤى المستخلصة من البيانات بطريقة تسهل على متخذي القرار الفهم. | [درس](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | علم البيانات في السحابة | [بيانات السحابة](5-Data-Science-In-Cloud/README.md) | سلسلة من الدروس تعرف علم البيانات في السحابة وفوائده. | [درس](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) و [Maud](https://twitter.com/maudstweets) |
| 18 | علم البيانات في السحابة | [بيانات السحابة](5-Data-Science-In-Cloud/README.md) | تدريب النماذج باستخدام أدوات التعليم منخفضة الكود. |[درس](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) و [Maud](https://twitter.com/maudstweets) |
| 19 | علم البيانات في السحابة | [بيانات السحابة](5-Data-Science-In-Cloud/README.md) | نشر النماذج باستخدام استوديو Azure Machine Learning. | [درس](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) و [Maud](https://twitter.com/maudstweets) |
| 20 | علم البيانات الميداني | [في الميدان](6-Data-Science-In-Wild/README.md) | مشاريع علم بيانات مدفوعة في العالم الحقيقي. | [درس](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
اتبع هذه الخطوات لفتح هذا المثال في Codespace:
1. انقر على قائمة تنزيل الكود واختر خيار Open with Codespaces.
2. حدد + New codespace في أسفل اللوحة.
لمزيد من المعلومات، اطلع على [توثيق GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
اتبع هذه الخطوات لفتح هذا المستودع في حاوية باستخدام جهازك المحلي وVSCode باستخدام امتداد VS Code Remote - Containers:
1. إذا كانت هذه هي المرة الأولى التي تستخدم فيها حاوية تطوير، يرجى التأكد من تلبية النظام للمتطلبات المسبقة (مثل تثبيت Docker) في [توثيق البدء](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
لاستخدام هذا المستودع، يمكنك إما فتح المستودع في حجم حاوية Docker معزول:
**ملاحظة**: تحت الغطاء، سيستخدم هذا الأمر Remote-Containers: **Clone Repository in Container Volume...** لاستنساخ الشفرة المصدرية في حجم Docker بدلاً من نظام الملفات المحلي. [الأحجام](https://docs.docker.com/storage/volumes/) هي الآلية المفضلة للحفاظ على بيانات الحاوية.
أو فتح نسخة استنساخ محليًا أو نسخة تم تنزيلها من المستودع:
- استنسخ هذا المستودع إلى نظام الملفات المحلي لديك.
- اضغط F1 واختر أمر **Remote-Containers: Open Folder in Container...**.
- اختر النسخة المستنسخة من هذا المجلد، انتظر بدء الحاوية، وجرب الأمور.
- اختر النسخة المستنسخة من هذا المجلد، انتظر حتى تبدأ الحاوية، وجرب الأمور.
## الوصول دون اتصال
يمكنك تشغيل هذا التوثيق دون اتصال باستخدام [Docsify](https://docsify.js.org/#/). انسخ هذا الريبو، [ثبت Docsify](https://docsify.js.org/#/quickstart) على جهازك المحلي، ثم في المجلد الجذري لهذا الريبو، اكتب `docsify serve`. سيُخدم الموقع على المنفذ 3000 على المضيف المحلي: `localhost:3000`.
يمكنك تشغيل هذه الوثائق دون اتصال باستخدام [Docsify](https://docsify.js.org/#/). قم بتفريع هذا المستودع، و[تثبيت Docsify](https://docsify.js.org/#/quickstart) على جهازك المحلي، ثم في المجلد الجذري لهذا المستودع، اكتب `docsify serve`. سيتم تقديم الموقع على المنفذ 3000 على جهازك المحلي: `localhost:3000`.
> ملاحظة، لن تُعرض دفاتر الملاحظات عبر Docsify، لذا عندما تحتاج إلى تشغيل دفتر ملاحظات، افعل ذلك بشكل منفصل في VS Code مع تشغيل نواة بايثون.
> ملاحظة، الدفاتر لن تُعرض عبر Docsify، لذا عندما تحتاج إلى تشغيل دفتر، قم بذلك بشكل منفصل في VS Code باستخدام نواة Python.
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**هل تواجه مشكلات؟** تحقق من [دليل استكشاف الأخطاء وإصلاحها](TROUBLESHOOTING.md) للعثور على حلول للمشاكل الشائعة.
**تواجه مشاكل؟** تحقق من [دليل استكشاف الأخطاء وإصلاحها](TROUBLESHOOTING.md) للحصول على حلول للمشاكل الشائعة.
إذا واجهت صعوبة أو كان لديك أي أسئلة حول بناء تطبيقات الذكاء الاصطناعي. انضم إلى المتعلمين الآخرين والمطورين ذوي الخبرة في مناقشات حول MCP. إنها مجتمع داعم حيث تُرحب بالأسئلة ويُشارك المعرفة بحرية.
إذا علقت أو كانت لديك أي أسئلة حول بناء تطبيقات الذكاء الاصطناعي. انضم إلى المتعلمين الآخرين والمطورين ذوي الخبرة في مناقشات حول MCP. إنها مجتمع داعم حيث تُرحب بالأسئلة ويُشارك المعرفة بحرية.
[](https://discord.gg/nTYy5BXMWG)
إذا كان لديك ملاحظات عن المنتج أو أخطاء أثناء البناء، يمكنك زيارة:
إذا كان لديك ملاحظات عن المنتج أو أخطاء أثناء البناء، قم بزيارة:
[](https://aka.ms/foundry/forum)
[](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**إخلاء المسؤولية**:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يُرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. ينبغي اعتبار المستند الأصلي بلغته الأصلية المصدر الرسمي والمعتمد. للحصول على معلومات هامة، يُنصح بالاعتماد على الترجمة البشرية المهنية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة قد تنشأ عن استخدام هذه الترجمة.
**إخلاء مسؤولية**:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر المعتمد. للمعلومات الحرجة، يُوصى بالترجمة المهنية البشرية. نحن غير مسؤولين عن أي سوء فهم أو تفسير ناتج عن استخدام هذه الترجمة.
[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [Quiz vor der Vorlesung](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Wenn wir es noch komplizierter machen wollen, können wir die für jedes Modul b
In dieser Herausforderung werden wir versuchen, Konzepte zu finden, die für den Bereich Data Science relevant sind, indem wir Texte analysieren. Wir nehmen einen Wikipedia-Artikel über Data Science, laden und verarbeiten den Text und erstellen dann eine Wortwolke wie diese:


Besuche [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), um den Code durchzulesen. Du kannst den Code auch ausführen und sehen, wie er alle Datenumwandlungen in Echtzeit durchführt.
"# Herausforderung: Analyse eines Textes über Data Science\n",
"# Herausforderung: Analyse von Texten über Data Science\n",
"\n",
"In diesem Beispiel machen wir eine einfache Übung, die alle Schritte eines traditionellen Data-Science-Prozesses abdeckt. Du musst keinen Code schreiben, sondern kannst einfach auf die untenstehenden Zellen klicken, um sie auszuführen und das Ergebnis zu beobachten. Als Herausforderung wirst du ermutigt, diesen Code mit unterschiedlichen Daten auszuprobieren.\n",
"In diesem Beispiel machen wir eine einfache Übung, die alle Schritte eines traditionellen Data-Science-Prozesses abdeckt. Sie müssen keinen Code schreiben, Sie können einfach auf die untenstehenden Zellen klicken, um sie auszuführen und das Ergebnis zu beobachten. Als Herausforderung wird empfohlen, diesen Code mit verschiedenen Daten auszuprobieren.\n",
"\n",
"## Ziel\n",
"\n",
"In dieser Lektion haben wir verschiedene Konzepte im Zusammenhang mit Data Science besprochen. Lass uns versuchen, weitere verwandte Konzepte zu entdecken, indem wir etwas **Text Mining** durchführen. Wir beginnen mit einem Text über Data Science, extrahieren Schlüsselwörter daraus und versuchen dann, das Ergebnis zu visualisieren.\n",
"In dieser Lektion haben wir verschiedene Konzepte im Zusammenhang mit Data Science besprochen. Versuchen wir, durch **Text Mining** weitere verwandte Konzepte zu entdecken. Wir beginnen mit einem Text über Data Science, extrahieren Schlüsselwörter daraus und versuchen dann, das Ergebnis zu visualisieren.\n",
"\n",
"Als Text verwende ich die Seite über Data Science von Wikipedia:\n"
],
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Schritt 1: Datenbeschaffung\n",
"## Schritt 1: Die Daten holen\n",
"\n",
"Der erste Schritt in jedem Data-Science-Prozess ist die Beschaffung der Daten. Wir verwenden die Bibliothek `requests`, um dies zu erledigen:\n"
"Der erste Schritt in jedem Data-Science-Prozess ist das Sammeln der Daten. Wir werden dafür die Bibliothek `requests` verwenden:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## Schritt 2: Daten umwandeln\n",
"## Schritt 2: Transformation der Daten\n",
"\n",
"Der nächste Schritt besteht darin, die Daten in eine für die Verarbeitung geeignete Form zu bringen. In unserem Fall haben wir den HTML-Quellcode von der Seite heruntergeladen und müssen ihn in einfachen Text umwandeln.\n",
"Der nächste Schritt ist, die Daten in eine für die Verarbeitung geeignete Form zu bringen. In unserem Fall haben wir den HTML-Quellcode von der Seite heruntergeladen und müssen ihn in reinen Text umwandeln.\n",
"\n",
"Es gibt viele Möglichkeiten, dies zu tun. Wir werden das einfachste integrierte [HTMLParser](https://docs.python.org/3/library/html.parser.html)-Objekt von Python verwenden. Dazu müssen wir die `HTMLParser`-Klasse erweitern und den Code definieren, der den gesamten Text innerhalb der HTML-Tags sammelt, mit Ausnahme der `<script>`- und `<style>`-Tags.\n"
"Es gibt viele Möglichkeiten, dies zu tun. Wir verwenden [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), eine beliebte Python-Bibliothek zum Parsen von HTML. BeautifulSoup ermöglicht es uns, bestimmte HTML-Elemente gezielt anzusprechen, sodass wir uns auf den Hauptartikelinhalt von Wikipedia konzentrieren und einige Navigationsmenüs, Seitenleisten, Fußzeilen und anderen irrelevanten Inhalt reduzieren können (obwohl etwas Standardtext möglicherweise weiterhin vorhanden ist).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Zuerst müssen wir die BeautifulSoup-Bibliothek für die HTML-Analyse installieren:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## Schritt 3: Erkenntnisse gewinnen\n",
"\n",
"Der wichtigste Schritt besteht darin, unsere Daten in eine Form zu bringen, aus der wir Erkenntnisse gewinnen können. In unserem Fall möchten wir Schlüsselwörter aus dem Text extrahieren und herausfinden, welche Schlüsselwörter aussagekräftiger sind.\n",
"Der wichtigste Schritt ist, unsere Daten in eine Form zu bringen, aus der wir Erkenntnisse gewinnen können. In unserem Fall möchten wir Schlüsselwörter aus dem Text extrahieren und sehen, welche Schlüsselwörter aussagekräftiger sind.\n",
"\n",
"Wir werden die Python-Bibliothek [RAKE](https://github.com/aneesha/RAKE) für die Schlüsselwort-Extraktion verwenden. Zunächst installieren wir diese Bibliothek, falls sie noch nicht vorhanden ist:\n"
"Wir werden die Python-Bibliothek namens [RAKE](https://github.com/aneesha/RAKE) für die Schlüsselwortextraktion verwenden. Zuerst installieren wir diese Bibliothek, falls sie nicht vorhanden ist: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Die Hauptfunktionalität ist über das `Rake`-Objekt verfügbar, das wir mit einigen Parametern anpassen können. In unserem Fall setzen wir die Mindestlänge eines Schlüsselworts auf 5 Zeichen, die Mindesthäufigkeit eines Schlüsselworts im Dokument auf 3 und die maximale Anzahl von Wörtern in einem Schlüsselwort auf 2. Experimentieren Sie gerne mit anderen Werten und beobachten Sie das Ergebnis.\n"
"Die Hauptfunktionalität ist im `Rake`-Objekt verfügbar, das wir mit einigen Parametern anpassen können. In unserem Fall setzen wir die minimale Länge eines Schlüsselworts auf 5 Zeichen, die minimale Häufigkeit eines Schlüsselworts im Dokument auf 3 und die maximale Anzahl der Wörter in einem Schlüsselwort auf 2. Fühlen Sie sich frei, mit anderen Werten zu spielen und das Ergebnis zu beobachten.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Wir haben eine Liste von Begriffen zusammen mit dem zugehörigen Wichtigkeitsgrad erhalten. Wie Sie sehen können, stehen die relevantesten Disziplinen, wie maschinelles Lernen und Big Data, in der Liste an den obersten Positionen.\n",
"Wir haben eine Liste von Begriffen zusammen mit dem zugehörigen Wichtigkeitsgrad erhalten. Wie Sie sehen können, sind die relevantesten Disziplinen, wie maschinelles Lernen und Big Data, in der Liste an den obersten Positionen vertreten.\n",
"\n",
"## Schritt 4: Visualisierung des Ergebnisses\n",
"\n",
"Menschen können Daten am besten in visueller Form interpretieren. Daher macht es oft Sinn, die Daten zu visualisieren, um einige Erkenntnisse zu gewinnen. Wir können die Bibliothek `matplotlib` in Python verwenden, um eine einfache Verteilung der Schlüsselwörter mit ihrer Relevanz darzustellen:\n"
"Daten können von Menschen am besten in visueller Form interpretiert werden. Daher ist es oft sinnvoll, die Daten zu visualisieren, um einige Erkenntnisse zu gewinnen. Wir können die Bibliothek `matplotlib` in Python verwenden, um eine einfache Verteilung der Schlüsselwörter mit ihrer Relevanz darzustellen:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Es gibt jedoch eine noch bessere Möglichkeit, Wortfrequenzen zu visualisieren - mit **Word Cloud**. Wir müssen eine weitere Bibliothek installieren, um die Wortwolke aus unserer Schlüsselwortliste zu erstellen.\n"
"Es gibt jedoch eine noch bessere Möglichkeit, Wortfrequenzen zu visualisieren – mit **Word Cloud**. Wir müssen eine weitere Bibliothek installieren, um die Wortwolke aus unserer Schlüsselwortliste zu erstellen.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud`-Objekt ist dafür verantwortlich, entweder den Originaltext oder eine vorab berechnete Liste von Wörtern mit ihren Häufigkeiten aufzunehmen und ein Bild zurückzugeben, das anschließend mit `matplotlib` angezeigt werden kann:\n"
"Das `WordCloud`-Objekt ist verantwortlich dafür, entweder den Originaltext oder eine vorab berechnete Liste von Wörtern mit deren Häufigkeiten aufzunehmen und ein Bild zurückzugeben, das dann mit `matplotlib` angezeigt werden kann:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Wir können auch den Originaltext an `WordCloud` übergeben - lassen Sie uns sehen, ob wir ein ähnliches Ergebnis erzielen können:\n"
"Wir können auch den Originaltext an `WordCloud` übergeben – sehen wir, ob wir ein ähnliches Ergebnis erzielen können:\n"
],
"metadata": {}
},
@ -372,9 +370,9 @@
{
"cell_type": "markdown",
"source": [
"Man sieht, dass die Wortwolke jetzt beeindruckender aussieht, aber sie enthält auch viel Rauschen (z. B. nicht verwandte Wörter wie `Retrieved on`). Außerdem erhalten wir weniger Schlüsselwörter, die aus zwei Wörtern bestehen, wie *Data Scientist* oder *Computer Science*. Dies liegt daran, dass der RAKE-Algorithmus eine viel bessere Arbeit bei der Auswahl guter Schlüsselwörter aus dem Text leistet. Dieses Beispiel verdeutlicht die Bedeutung der Datenvorverarbeitung und -bereinigung, da ein klares Bild am Ende uns ermöglicht, bessere Entscheidungen zu treffen.\n",
"Sie können sehen, dass die Wortwolke jetzt beeindruckender aussieht, aber sie enthält auch viel Rauschen (z. B. nicht verwandte Wörter wie `Retrieved on`). Außerdem erhalten wir weniger Schlüsselwörter, die aus zwei Wörtern bestehen, wie *data scientist* oder *computer science*. Das liegt daran, dass der RAKE-Algorithmus bei der Auswahl guter Schlüsselwörter aus Texten viel bessere Arbeit leistet. Dieses Beispiel verdeutlicht die Bedeutung der Datenvorverarbeitung und -bereinigung, da ein klares Bild am Ende uns erlaubt, bessere Entscheidungen zu treffen.\n",
"\n",
"In dieser Übung haben wir einen einfachen Prozess durchlaufen, um aus Wikipedia-Texten einige Bedeutungen in Form von Schlüsselwörtern und einer Wortwolke zu extrahieren. Dieses Beispiel ist recht einfach, zeigt aber gut alle typischen Schritte, die ein Data Scientist bei der Arbeit mit Daten durchführt, angefangen bei der Datenbeschaffung bis hin zur Visualisierung.\n",
"In dieser Übung haben wir einen einfachen Prozess durchlaufen, um aus Wikipedia-Texten eine Bedeutung in Form von Schlüsselwörtern und Wortwolke zu extrahieren. Dieses Beispiel ist recht einfach, zeigt aber gut alle typischen Schritte, die ein Data Scientist bei der Arbeit mit Daten durchläuft, angefangen bei der Datenerfassung bis hin zur Visualisierung.\n",
"\n",
"In unserem Kurs werden wir all diese Schritte im Detail besprechen.\n"
],
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Haftungsausschluss**: \nDieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Haftungsausschluss**:\nDieses Dokument wurde mithilfe des KI-Übersetzungsdienstes [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, bitten wir zu beachten, dass automatische Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache ist als maßgebliche Quelle zu betrachten. Für wichtige Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die durch die Nutzung dieser Übersetzung entstehen.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"# Herausforderung: Analyse von Text über Data Science\n",
"# Herausforderung: Analyse von Texten über Data Science\n",
"\n",
"> *In diesem Notebook experimentieren wir mit der Verwendung verschiedener URLs - Wikipedia-Artikel über Machine Learning. Sie können sehen, dass dieser Artikel, im Gegensatz zu Data Science, viele Fachbegriffe enthält, was die Analyse problematischer macht. Wir müssen uns eine andere Methode überlegen, um die Daten nach der Schlüsselwort-Extraktion zu bereinigen, um einige häufige, aber nicht aussagekräftige Wortkombinationen zu entfernen.*\n",
"> *In diesem Notizbuch experimentieren wir mit der Verwendung verschiedener URLs – Wikipedia-Artikel über Maschinelles Lernen. Sie können sehen, dass im Gegensatz zu Data Science dieser Artikel viele Begriffe enthält, was die Analyse problematischer macht. Wir müssen nach der Schlüsselwortextraktion einen anderen Weg finden, die Daten zu bereinigen, um einige häufige, aber nicht aussagekräftige Wortkombinationen zu entfernen.*\n",
"\n",
"In diesem Beispiel machen wir eine einfache Übung, die alle Schritte eines traditionellen Data-Science-Prozesses abdeckt. Sie müssen keinen Code schreiben, sondern können einfach auf die untenstehenden Zellen klicken, um sie auszuführen und das Ergebnis zu beobachten. Als Herausforderung werden Sie ermutigt, diesen Code mit unterschiedlichen Daten auszuprobieren.\n",
"In diesem Beispiel machen wir eine einfache Übung, die alle Schritte eines traditionellen Data-Science-Prozesses abdeckt. Sie müssen keinen Code schreiben, Sie können einfach die Zellen unten anklicken, um sie auszuführen und das Ergebnis zu beobachten. Als Herausforderung sind Sie eingeladen, diesen Code mit anderen Daten auszuprobieren.\n",
"\n",
"## Ziel\n",
"\n",
"In dieser Lektion haben wir verschiedene Konzepte im Zusammenhang mit Data Science besprochen. Lassen Sie uns versuchen, weitere verwandte Konzepte durch **Text Mining** zu entdecken. Wir beginnen mit einem Text über Data Science, extrahieren Schlüsselwörter daraus und versuchen dann, das Ergebnis zu visualisieren.\n",
"In dieser Lektion haben wir verschiedene Konzepte rund um Data Science besprochen. Versuchen wir, weitere verwandte Konzepte durch **Text Mining** zu entdecken. Wir beginnen mit einem Text über Data Science, extrahieren Schlüsselwörter daraus und versuchen dann, das Ergebnis zu visualisieren.\n",
"\n",
"Als Text werde ich die Seite über Data Science von Wikipedia verwenden:\n"
"Als Text verwende ich die Seite über Data Science von Wikipedia:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Schritt 1: Daten beschaffen\n",
"## Schritt 1: Datenbeschaffung\n",
"\n",
"Der erste Schritt in jedem Data-Science-Prozess ist das Beschaffen der Daten. Wir verwenden dazu die Bibliothek `requests`:\n"
"Der erste Schritt in jedem Data-Science-Prozess ist die Beschaffung der Daten. Wir verwenden dafür die Bibliothek `requests`:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Schritt 2: Umwandlung der Daten\n",
"## Schritt 2: Daten transformieren\n",
"\n",
"Der nächste Schritt besteht darin, die Daten in eine für die Verarbeitung geeignete Form zu bringen. In unserem Fall haben wir den HTML-Quellcode der Seite heruntergeladen und müssen ihn in reinen Text umwandeln.\n",
"Der nächste Schritt besteht darin, die Daten in eine für die Verarbeitung geeignete Form zu bringen. In unserem Fall haben wir den HTML-Quellcode von der Seite heruntergeladen, und wir müssen ihn in reinen Text umwandeln.\n",
"\n",
"Es gibt viele Möglichkeiten, dies zu tun. Wir werden das einfachste, eingebaute [HTMLParser](https://docs.python.org/3/library/html.parser.html)-Objekt aus Python verwenden. Dazu müssen wir die `HTMLParser`-Klasse erweitern und den Code definieren, der den gesamten Text innerhalb der HTML-Tags sammelt, mit Ausnahme der `<script>`- und `<style>`-Tags.\n"
"Es gibt viele Möglichkeiten, dies zu tun. Wir werden [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), eine beliebte Python-Bibliothek zum Parsen von HTML, verwenden. BeautifulSoup ermöglicht es uns, gezielt bestimmte HTML-Elemente anzusprechen, sodass wir uns auf den Hauptartikelinhalt von Wikipedia konzentrieren und einige Navigationsmenüs, Seitenleisten, Fußzeilen und andere irrelevante Inhalte reduzieren können (obwohl einige Boilerplate-Texte möglicherweise noch bleiben).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Zuerst müssen wir die BeautifulSoup-Bibliothek für die HTML-Analyse installieren:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -118,9 +116,9 @@
"source": [
"## Schritt 3: Erkenntnisse gewinnen\n",
"\n",
"Der wichtigste Schritt besteht darin, unsere Daten in eine Form zu bringen, aus der wir Erkenntnisse gewinnen können. In unserem Fall möchten wir Schlüsselwörter aus dem Text extrahieren und herausfinden, welche Schlüsselwörter besonders aussagekräftig sind.\n",
"Der wichtigste Schritt ist es, unsere Daten in eine Form zu bringen, aus der wir Erkenntnisse gewinnen können. In unserem Fall möchten wir Schlüsselwörter aus dem Text extrahieren und sehen, welche Schlüsselwörter aussagekräftiger sind.\n",
"\n",
"Wir verwenden die Python-Bibliothek [RAKE](https://github.com/aneesha/RAKE) für die Schlüsselwort-Extraktion. Zuerst installieren wir diese Bibliothek, falls sie noch nicht vorhanden ist:\n"
"Wir werden die Python-Bibliothek namens [RAKE](https://github.com/aneesha/RAKE) für die Schlüsselwortextraktion verwenden. Zuerst installieren wir diese Bibliothek, falls sie nicht vorhanden ist:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Die Hauptfunktionalität ist über das `Rake`-Objekt verfügbar, das wir mit einigen Parametern anpassen können. In unserem Fall setzen wir die Mindestlänge eines Schlüsselworts auf 5 Zeichen, die Mindesthäufigkeit eines Schlüsselworts im Dokument auf 3 und die maximale Anzahl von Wörtern in einem Schlüsselwort auf 2. Experimentieren Sie gerne mit anderen Werten und beobachten Sie das Ergebnis.\n"
"Die Hauptfunktionalität steht über das `Rake`-Objekt zur Verfügung, das wir mit einigen Parametern anpassen können. In unserem Fall setzen wir die minimale Länge eines Schlüsselworts auf 5 Zeichen, die minimale Häufigkeit eines Schlüsselworts im Dokument auf 3 und die maximale Anzahl der Wörter in einem Schlüsselwort auf 2. Probieren Sie gerne auch andere Werte aus und beobachten Sie das Ergebnis.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Wir haben eine Liste von Begriffen zusammen mit dem zugehörigen Wichtigkeitsgrad erhalten. Wie Sie sehen können, stehen die relevantesten Disziplinen, wie Machine Learning und Big Data, in der Liste an den obersten Positionen.\n",
"\n",
"Wir haben eine Liste von Begriffen zusammen mit dem zugehörigen Relevanzgrad erhalten. Wie Sie sehen können, sind die relevantesten Disziplinen, wie maschinelles Lernen und Big Data, ganz oben in der Liste vertreten.\n",
"\n",
"## Schritt 4: Visualisierung des Ergebnisses\n",
"\n",
"Menschen können Daten am besten in visueller Form interpretieren. Daher macht es oft Sinn, die Daten zu visualisieren, um einige Erkenntnisse zu gewinnen. Wir können die Bibliothek `matplotlib` in Python verwenden, um eine einfache Verteilung der Schlüsselwörter mit ihrer Relevanz darzustellen:\n"
"Menschen können Daten am besten in visueller Form interpretieren. Daher ist es oft sinnvoll, die Daten zu visualisieren, um einige Erkenntnisse zu gewinnen. Wir können die Bibliothek `matplotlib` in Python verwenden, um die einfache Verteilung der Schlüsselwörter mit ihrer Relevanz darzustellen:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"Es gibt jedoch eine noch bessere Möglichkeit, Wortfrequenzen zu visualisieren - mit **Word Cloud**. Wir müssen eine weitere Bibliothek installieren, um die Wortwolke aus unserer Schlüsselwortliste zu erstellen.\n"
"Es gibt jedoch eine noch bessere Möglichkeit, Wortfrequenzen zu visualisieren – mit **Wortwolke**. Wir müssen eine weitere Bibliothek installieren, um die Wortwolke aus unserer Schlüsselwortliste zu erstellen.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud`-Objekt ist dafür verantwortlich, entweder den Originaltext oder eine vorab berechnete Liste von Wörtern mit ihren Häufigkeiten aufzunehmen und ein Bild zurückzugeben, das dann mit `matplotlib` angezeigt werden kann:\n"
"Das `WordCloud`-Objekt ist dafür verantwortlich, entweder den ursprünglichen Text oder eine vorab berechnete Liste von Wörtern mit deren Häufigkeiten entgegenzunehmen und ein Bild zurückzugeben, das dann mit `matplotlib` angezeigt werden kann:\n"
],
"metadata": {}
},
@ -441,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"Wir können auch den ursprünglichen Text an `WordCloud` übergeben - mal sehen, ob wir ein ähnliches Ergebnis erzielen können:\n"
"Wir können auch den Originaltext an `WordCloud` übergeben – schauen wir, ob wir ein ähnliches Ergebnis erzielen können:\n"
],
"metadata": {}
},
@ -490,9 +489,9 @@
{
"cell_type": "markdown",
"source": [
"Man sieht, dass die Wortwolke jetzt beeindruckender aussieht, aber sie enthält auch viel \"Rauschen\" (z. B. nicht zusammenhängende Wörter wie `Retrieved on`). Außerdem erhalten wir weniger Schlüsselwörter, die aus zwei Wörtern bestehen, wie *Data Scientist* oder *Computer Science*. Das liegt daran, dass der RAKE-Algorithmus eine deutlich bessere Arbeit bei der Auswahl guter Schlüsselwörter aus dem Text leistet. Dieses Beispiel verdeutlicht die Bedeutung der Datenvorverarbeitung und -bereinigung, da ein klares Bild am Ende uns ermöglicht, bessere Entscheidungen zu treffen.\n",
"Sie können sehen, dass die Wortwolke jetzt beeindruckender aussieht, aber sie enthält auch viel Rauschen (z. B. nicht verwandte Wörter wie `Retrieved on`). Außerdem erhalten wir weniger Schlüsselwörter, die aus zwei Wörtern bestehen, wie *Datenwissenschaftler* oder *Informatik*. Dies liegt daran, dass der RAKE-Algorithmus bei der Auswahl guter Schlüsselwörter aus Texten wesentlich bessere Ergebnisse erzielt. Dieses Beispiel verdeutlicht die Bedeutung der Datenvorverarbeitung und -bereinigung, denn ein klares Bild am Ende ermöglicht es uns, bessere Entscheidungen zu treffen.\n",
"\n",
"In dieser Übung haben wir einen einfachen Prozess durchlaufen, um aus Wikipedia-Texten einige Bedeutungen in Form von Schlüsselwörtern und einer Wortwolke zu extrahieren. Dieses Beispiel ist zwar recht einfach, zeigt aber gut alle typischen Schritte, die ein Data Scientist bei der Arbeit mit Daten durchläuft – angefangen bei der Datenbeschaffung bis hin zur Visualisierung.\n",
"In dieser Übung haben wir einen einfachen Prozess durchlaufen, um aus einem Wikipedia-Text Bedeutung in Form von Schlüsselwörtern und einer Wortwolke zu extrahieren. Dieses Beispiel ist recht einfach, aber es zeigt gut alle typischen Schritte auf, die ein Datenwissenschaftler beim Arbeiten mit Daten durchläuft, angefangen von der Datenbeschaffung bis hin zur Visualisierung.\n",
"\n",
"In unserem Kurs werden wir all diese Schritte im Detail besprechen.\n"
],
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Haftungsausschluss**: \nDieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, weisen wir darauf hin, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Haftungsausschluss**: \nDieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir bemüht sind, eine genaue Übersetzung zu liefern, können automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten. Das Originaldokument in seiner Ausgangssprache gilt als maßgebliche Quelle. Für wichtige Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die durch die Nutzung dieser Übersetzung entstehen.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
Statistik und Wahrscheinlichkeitsrechnung sind zwei eng miteinander verbundene Bereiche der Mathematik, die für Data Science von großer Bedeutung sind. Es ist möglich, mit Daten zu arbeiten, ohne tiefgehende mathematische Kenntnisse zu haben, aber es ist dennoch hilfreich, zumindest einige grundlegende Konzepte zu kennen. Hier geben wir eine kurze Einführung, die Ihnen den Einstieg erleichtert.
## [Quiz vor der Vorlesung](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Es ist schwieriger, die Wahrscheinlichkeitsverteilung einer stetigen Variablen z
Wir können nur über die Wahrscheinlichkeit sprechen, dass eine Variable in ein bestimmtes Werteintervall fällt, z. B. P(t<sub>1</sub>≤X<t<sub>2</sub>). In diesem Fall wird die Wahrscheinlichkeitsverteilung durch eine **Wahrscheinlichkeitsdichtefunktion** p(x) beschrieben, sodass
Ein stetiges Analogon der gleichmäßigen Verteilung wird als **stetige Gleichverteilung** bezeichnet, die auf einem endlichen Intervall definiert ist. Die Wahrscheinlichkeit, dass der Wert X in ein Intervall der Länge l fällt, ist proportional zu l und steigt bis zu 1.
@ -73,11 +73,11 @@ Wenn wir Daten aus der realen Welt analysieren, sind sie oft keine Zufallsvariab
Hier ist der Boxplot, der Mittelwert, Median und Quartile für unsere Daten zeigt:
Da unsere Daten Informationen über verschiedene Spieler**rollen** enthalten, können wir auch den Boxplot nach Rollen erstellen – so können wir erkennen, wie sich die Parameterwerte je nach Rolle unterscheiden. Diesmal betrachten wir die Größe:


Dieses Diagramm deutet darauf hin, dass die Größe von First Basemen im Durchschnitt höher ist als die von Second Basemen. Später in dieser Lektion werden wir lernen, wie wir diese Hypothese formeller testen können und wie wir zeigen können, dass unsere Daten statistisch signifikant sind, um dies zu belegen.
@ -85,7 +85,7 @@ Dieses Diagramm deutet darauf hin, dass die Größe von First Basemen im Durchsc
Um zu sehen, wie die Verteilung unserer Daten aussieht, können wir ein Diagramm namens **Histogramm** erstellen. Die X-Achse enthält eine Anzahl verschiedener Gewichtsintervalle (sogenannte **Bins**), und die Y-Achse zeigt die Anzahl der Male, die unsere Zufallsvariablenstichprobe in ein bestimmtes Intervall fiel.
Aus diesem Histogramm können Sie erkennen, dass alle Werte um einen bestimmten mittleren Wert zentriert sind und dass die Wahrscheinlichkeit, dass ein Gewicht stark vom Mittelwert abweicht, geringer ist. Die Varianz der Gewichte zeigt, in welchem Maße die Gewichte wahrscheinlich vom Mittelwert abweichen.
Wenn wir das Histogramm der generierten Stichproben zeichnen, sehen wir ein Bild, das dem oben gezeigten sehr ähnlich ist. Und wenn wir die Anzahl der Stichproben und die Anzahl der Bins erhöhen, können wir ein Bild einer Normalverteilung erzeugen, das näher an der idealen Form liegt:


*Normalverteilung mit Mittelwert=0 und Standardabweichung=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
In unserem Fall zeigt der Wert 0.53 an, dass es eine gewisse Korrelation zwischen dem Gewicht und der Größe einer Person gibt. Wir können auch das Streudiagramm eines Wertes gegen den anderen erstellen, um die Beziehung visuell zu sehen:


> Weitere Beispiele für Korrelation und Kovarianz finden Sie im [begleitenden Notebook](notebook.ipynb).


> Foto von <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> auf <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
In diesen Lektionen erfahren Sie, wie Data Science definiert wird und lernen die ethischen Überlegungen kennen, die ein Data Scientist berücksichtigen muss. Außerdem lernen Sie, wie Daten definiert werden, und erhalten einen Einblick in Statistik und Wahrscheinlichkeit, die zentralen akademischen Bereiche der Data Science.
Während Datenbanken sehr effiziente Möglichkeiten bieten, Daten zu speichern und sie mit Abfragesprachen zu durchsuchen, ist die flexibelste Art der Datenverarbeitung das Schreiben eines eigenen Programms, um die Daten zu manipulieren. In vielen Fällen wäre eine Datenbankabfrage effektiver. Es gibt jedoch Situationen, in denen komplexere Datenverarbeitungen erforderlich sind, die sich nicht einfach mit SQL umsetzen lassen.
Datenverarbeitung kann in jeder Programmiersprache programmiert werden, aber es gibt bestimmte Sprachen, die sich besonders gut für die Arbeit mit Daten eignen. Datenwissenschaftler bevorzugen typischerweise eine der folgenden Sprachen:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
Angenommen, wir organisieren jede Woche eine Party für Freunde und nehmen zusätzlich 10 Packungen Eis für die Party. Wir können eine weitere Serie erstellen, die nach Wochen indiziert ist, um dies zu demonstrieren:
```python
@ -75,7 +75,7 @@ Wenn wir zwei Series zusammenaddieren, erhalten wir die Gesamtanzahl:
> **Hinweis**: Wir verwenden nicht die einfache Syntax `total_items+additional_items`. Wenn wir dies täten, würden wir viele `NaN` (*Not a Number*)-Werte in der resultierenden Serie erhalten. Dies liegt daran, dass für einige Indexpunkte in der Serie `additional_items` Werte fehlen, und das Addieren von `NaN` zu irgendetwas ergibt `NaN`. Daher müssen wir den Parameter `fill_value` während der Addition angeben.
@ -84,7 +84,7 @@ Mit Zeitreihen können wir die Serie auch mit unterschiedlichen Zeitintervallen
@ -210,7 +210,7 @@ Das erste Problem, auf das wir uns konzentrieren werden, ist die Modellierung de
Da wir demonstrieren möchten, wie man mit Daten umgeht, laden wir Sie ein, [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) zu öffnen und es von oben bis unten zu lesen. Sie können auch Zellen ausführen und einige Herausforderungen lösen, die wir am Ende für Sie hinterlassen haben.
> Wenn Sie nicht wissen, wie man Code in Jupyter Notebook ausführt, werfen Sie einen Blick auf [diesen Artikel](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Ein vollständiges Beispiel für die Analyse dieses Datensatzes mit dem kognitiv
Öffnen Sie [`notebook-papers.ipynb`](notebook-papers.ipynb) und lesen Sie es von oben bis unten. Sie können auch Zellen ausführen und einige Herausforderungen lösen, die wir am Ende für Sie hinterlassen haben.


> Foto von <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> auf <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
In diesen Lektionen lernst du einige der Möglichkeiten kennen, wie Daten verwaltet, manipuliert und in Anwendungen genutzt werden können. Du wirst etwas über relationale und nicht-relationale Datenbanken erfahren und wie Daten in ihnen gespeichert werden können. Du lernst die Grundlagen der Arbeit mit Python zur Datenverwaltung und entdeckst einige der vielen Möglichkeiten, wie du mit Python Daten verwalten und analysieren kannst.
Zeigen Sie nun dieselben Daten mit einer honigfarbenen Farbpalette, um zu zeigen, wie sich der Preis im Laufe der Jahre entwickelt. Sie können dies tun, indem Sie einen 'hue'-Parameter hinzufügen, der die Veränderung Jahr für Jahr darstellt:
@ -51,7 +51,7 @@ Zeigen Sie nun dieselben Daten mit einer honigfarbenen Farbpalette, um zu zeigen
Mit dieser Farbänderung können Sie deutlich sehen, dass es im Laufe der Jahre eine starke Entwicklung des Honigpreises pro Pfund gibt. Wenn Sie beispielsweise einen Bundesstaat wie Arizona auswählen, können Sie ein Muster von Preissteigerungen Jahr für Jahr mit wenigen Ausnahmen erkennen:
Ist dies ein einfacher Fall von Angebot und Nachfrage? Aufgrund von Faktoren wie Klimawandel und dem Zusammenbruch von Bienenvölkern gibt es Jahr für Jahr weniger Honig zu kaufen, und daher steigen die Preise?
✅ Da Seaborn die Daten um eine Linie aggregiert, zeigt es "die mehrfachen Messungen bei jedem x-Wert, indem es den Mittelwert und das 95%-Konfidenzintervall um den Mittelwert herum darstellt". [Quelle](https://seaborn.pydata.org/tutorial/relational.html). Dieses zeitaufwändige Verhalten kann durch Hinzufügen von `ci=None` deaktiviert werden.
@ -105,7 +105,7 @@ Frage: Nun, können wir im Jahr 2003 auch einen Anstieg des Honigangebots sehen?
Antwort: Nicht wirklich. Wenn Sie die Gesamtproduktion betrachten, scheint sie in diesem Jahr tatsächlich gestiegen zu sein, obwohl die Honigproduktion im Allgemeinen in diesen Jahren rückläufig ist.
@ -130,7 +130,7 @@ sns.relplot(
```
In dieser Visualisierung können Sie den Ertrag pro Volk und die Anzahl der Bienenvölker Jahr für Jahr nebeneinander vergleichen, mit einer Wrap-Einstellung von 3 für die Spalten:
Für diesen Datensatz fällt nichts Besonderes in Bezug auf die Anzahl der Bienenvölker und deren Ertrag Jahr für Jahr und Bundesstaat für Bundesstaat auf. Gibt es eine andere Möglichkeit, eine Korrelation zwischen diesen beiden Variablen zu finden?
Während nichts um das Jahr 2003 besonders auffällt, können wir diese Lektion mit einer etwas erfreulicheren Note abschließen: Obwohl die Anzahl der Bienenvölker insgesamt abnimmt, stabilisiert sich die Anzahl der Bienenvölker, auch wenn ihr Ertrag pro Volk sinkt.
Hier installierst du das `ggplot2`-Paket und importierst es dann in den Arbeitsbereich mit dem Befehl `library("ggplot2")`. Um ein Diagramm in ggplot zu erstellen, wird die Funktion `ggplot()` verwendet, und du gibst den Datensatz sowie die x- und y-Variablen als Attribute an. In diesem Fall verwenden wir die Funktion `geom_line()`, da wir ein Liniendiagramm erstellen möchten.
Was fällt dir sofort auf? Es scheint mindestens einen Ausreißer zu geben – das ist eine beeindruckende Flügelspannweite! Eine Flügelspannweite von über 2000 Zentimetern entspricht mehr als 20 Metern – gibt es Pterodaktylen in Minnesota? Lass uns das untersuchen.
Wir geben den Winkel im `theme` an und spezifizieren die x- und y-Achsenbeschriftungen in `xlab()` und `ylab()`. Der `ggtitle()` gibt dem Diagramm/Plot einen Namen.
Selbst mit der Drehung der Beschriftungen auf 45 Grad sind es zu viele, um sie zu lesen. Versuchen wir eine andere Strategie: Beschrifte nur die Ausreißer und setze die Beschriftungen direkt ins Diagramm. Du kannst ein Streudiagramm verwenden, um mehr Platz für die Beschriftungen zu schaffen:
@ -91,7 +91,7 @@ Was passiert hier? Du hast die Funktion `geom_point()` verwendet, um Streupunkte
Wir haben einen neuen Dataframe `birds_filtered` erstellt und dann ein Streudiagramm geplottet. Durch das Herausfiltern von Ausreißern sind deine Daten jetzt kohärenter und verständlicher.
Im folgenden Code-Snippet installieren wir die Pakete [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) und [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0), um Daten zu manipulieren und zu gruppieren, um ein gestapeltes Balkendiagramm zu erstellen. Zuerst gruppierst du die Daten nach der `Category` der Vögel und fasst die Spalten `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` zusammen. Anschließend erstellst du das Balkendiagramm mit dem `ggplot2`-Paket und spezifizierst die Farben für die verschiedenen Kategorien und die Beschriftungen.


Dieses Balkendiagramm ist jedoch unleserlich, da es zu viele nicht gruppierte Daten gibt. Du musst nur die Daten auswählen, die du plotten möchtest. Lass uns die Länge der Vögel basierend auf ihrer Kategorie betrachten.
Du zählst zuerst die eindeutigen Werte in der Spalte `Category` und sortierst sie in einen neuen Dataframe `birds_count`. Diese sortierten Daten werden dann auf derselben Ebene fakturiert, sodass sie in der sortierten Weise geplottet werden. Mit `ggplot2` plottest du die Daten dann in einem Balkendiagramm. Die Funktion `coord_flip()` erstellt horizontale Balken.
Dieses Balkendiagramm zeigt eine gute Ansicht der Anzahl der Vögel in jeder Kategorie. Auf einen Blick siehst du, dass die größte Anzahl von Vögeln in dieser Region in der Kategorie Enten/Gänse/Wasservögel liegt. Minnesota ist das 'Land der 10.000 Seen', daher ist das nicht überraschend!
Hier gibt es nichts Überraschendes: Kolibris haben die geringste MaxLänge im Vergleich zu Pelikanen oder Gänsen. Es ist gut, wenn Daten logisch Sinn ergeben!


Dies gibt einen Überblick über die allgemeine Verteilung der Körperlänge pro Vogelordnung, ist jedoch nicht die optimale Methode, um echte Verteilungen darzustellen. Diese Aufgabe wird normalerweise durch die Erstellung eines Histogramms gelöst.
@ -48,7 +48,7 @@ Dies gibt einen Überblick über die allgemeine Verteilung der Körperlänge pro


Wie du sehen kannst, fallen die meisten der über 400 Vögel in diesem Datensatz in den Bereich unter 2000 für ihre maximale Körpermasse. Erhalte mehr Einblicke in die Daten, indem du den `bins`-Parameter auf eine höhere Zahl, z. B. 30, änderst:
@ -56,7 +56,7 @@ Wie du sehen kannst, fallen die meisten der über 400 Vögel in diesem Datensatz
Dieses Diagramm zeigt die Verteilung etwas detaillierter. Ein weniger nach links verzerrtes Diagramm könnte erstellt werden, indem du sicherstellst, dass du nur Daten innerhalb eines bestimmten Bereichs auswählst:
✅ Probiere einige andere Filter und Datenpunkte aus. Um die vollständige Verteilung der Daten zu sehen, entferne den `['MaxBodyMass']`-Filter, um beschriftete Verteilungen anzuzeigen.
Es scheint eine erwartete Korrelation zwischen diesen beiden Elementen entlang einer erwarteten Achse zu geben, mit einem besonders starken Konvergenzpunkt:


Es scheint keine gute Korrelation zwischen minimaler Flügelspannweite und Schutzstatus zu geben. Teste andere Elemente des Datensatzes mit dieser Methode. Kannst du eine Korrelation finden?
@ -127,7 +127,7 @@ Lass uns jetzt mit Dichteplots arbeiten!
Du kannst sehen, wie der Plot das vorherige Diagramm für die minimale Flügelspannweite widerspiegelt; es ist nur etwas glatter. Wenn du die gezackte MaxKörpermasse-Linie im zweiten Diagramm, das du erstellt hast, glätten möchtest, könntest du dies sehr gut mit dieser Methode tun:
@ -135,7 +135,7 @@ Du kannst sehen, wie der Plot das vorherige Diagramm für die minimale Flügelsp
✅ Lies über die verfügbaren Parameter für diesen Diagrammtyp und experimentiere!
@ -153,7 +153,7 @@ Diese Art von Diagramm bietet wunderschön erklärende Visualisierungen. Mit nur
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```


Voila, ein Tortendiagramm, das die Proportionen dieser Daten entsprechend den beiden Pilzklassen zeigt. Es ist sehr wichtig, die Reihenfolge der Labels korrekt zu setzen, besonders hier, also überprüfe unbedingt die Reihenfolge, in der das Label-Array erstellt wird!
Dieser Code verwendet die beiden Bibliotheken ggplot2 und webr. Mit der PieDonut-Funktion der webr-Bibliothek können wir ein Donut-Diagramm einfach erstellen!
Mit einem Waffel-Diagramm kannst du die Proportionen der Hutfarben in diesem Pilz-Datenset deutlich sehen. Interessanterweise gibt es viele Pilze mit grünen Hüten!
In dieser Lektion hast du drei Möglichkeiten gelernt, Proportionen zu visualisieren. Zuerst musst du deine Daten in Kategorien gruppieren und dann entscheiden, welche die beste Möglichkeit ist, die Daten darzustellen - Torte, Donut oder Waffel. Alle sind köstlich und bieten dem Benutzer einen sofortigen Überblick über ein Datenset.
Zeige nun dieselben Daten mit einem honigfarbenen Farbschema, um zu verdeutlichen, wie sich der Preis im Laufe der Jahre entwickelt hat. Dies kannst du erreichen, indem du den Parameter 'scale_color_gradientn' hinzufügst, um die Veränderung Jahr für Jahr darzustellen:
@ -52,7 +52,7 @@ Zeige nun dieselben Daten mit einem honigfarbenen Farbschema, um zu verdeutliche
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
Mit dieser Farbänderung kannst du deutlich erkennen, dass es im Laufe der Jahre eine starke Preissteigerung pro Pfund Honig gibt. Wenn du beispielsweise einen bestimmten Bundesstaat wie Arizona betrachtest, kannst du ein Muster von Preissteigerungen Jahr für Jahr erkennen, mit wenigen Ausnahmen:
Ist dies ein einfacher Fall von Angebot und Nachfrage? Aufgrund von Faktoren wie Klimawandel und dem Zusammenbruch von Bienenvölkern – gibt es Jahr für Jahr weniger Honig zu kaufen, und daher steigen die Preise?
Antwort: Nicht wirklich. Wenn du die Gesamtproduktion betrachtest, scheint sie in diesem Jahr tatsächlich gestiegen zu sein, obwohl die Honigproduktion im Allgemeinen in diesen Jahren rückläufig ist.
In dieser Visualisierung kannst du den Ertrag pro Volk und die Anzahl der Völker Jahr für Jahr nebeneinander vergleichen, wobei die Wrap-Einstellung auf 3 Spalten gesetzt ist:
Für diesen Datensatz fällt nichts Besonderes in Bezug auf die Anzahl der Völker und deren Ertrag Jahr für Jahr und Bundesstaat für Bundesstaat auf. Gibt es eine andere Möglichkeit, eine Korrelation zwischen diesen beiden Variablen zu finden?
Auch wenn nichts um das Jahr 2003 ins Auge springt, können wir diese Lektion mit einer etwas erfreulicheren Note beenden: Während die Gesamtzahl der Bienenvölker insgesamt abnimmt, stabilisiert sich die Anzahl der Völker, auch wenn ihr Ertrag pro Volk sinkt.
@ -38,25 +38,25 @@ In den vorherigen Lektionen haben Sie mit Matplotlib und Seaborn verschiedene in
Selbst wenn ein Data Scientist sorgfältig den richtigen Diagrammtyp für die richtigen Daten auswählt, gibt es viele Möglichkeiten, wie Daten so dargestellt werden können, dass sie eine bestimmte Aussage unterstützen – oft auf Kosten der Datenintegrität. Es gibt viele Beispiele für irreführende Diagramme und Infografiken!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Wie Diagramme lügen")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Wie Diagramme lügen")
> 🎥 Klicken Sie auf das Bild oben, um einen Vortrag über irreführende Diagramme anzusehen.
Dieses Diagramm kehrt die X-Achse um, um das Gegenteil der Wahrheit basierend auf dem Datum darzustellen:
[Dieses Diagramm](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) ist noch irreführender, da das Auge nach rechts gezogen wird, um zu schließen, dass die COVID-Fälle in den verschiedenen Bezirken im Laufe der Zeit zurückgegangen sind. Tatsächlich wurden die Daten jedoch so umgeordnet, dass ein irreführender Abwärtstrend entsteht.
Dieses berüchtigte Beispiel verwendet Farbe UND eine umgekehrte Y-Achse, um zu täuschen: Statt zu zeigen, dass die Zahl der Waffentoten nach der Verabschiedung waffenfreundlicher Gesetze gestiegen ist, wird das Auge getäuscht, das Gegenteil zu glauben:
Das Vergleichen von Unvergleichbarem ist ein weiterer fragwürdiger Trick. Es gibt eine [wunderbare Website](https://tylervigen.com/spurious-correlations), die sich mit "spurious correlations" beschäftigt und "Fakten" zeigt, die Dinge wie die Scheidungsrate in Maine und den Margarineverbrauch korrelieren. Eine Reddit-Gruppe sammelt auch die [hässlichen Anwendungen](https://www.reddit.com/r/dataisugly/top/?t=all) von Daten.
@ -91,13 +91,13 @@ Beschriften Sie Ihre Achsen, fügen Sie bei Bedarf eine Legende hinzu und bieten
Wenn Ihre Daten textlastig und ausführlich auf der X-Achse sind, können Sie den Text für eine bessere Lesbarkeit schräg stellen. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) bietet 3D-Diagramme, wenn Ihre Daten dies unterstützen. Mit dieser Bibliothek können anspruchsvolle Datenvisualisierungen erstellt werden.
Einige der besten Datenvisualisierungen heutzutage sind animiert. Shirley Wu hat beeindruckende Visualisierungen mit D3 erstellt, wie z. B. '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', bei denen jede Blume eine Visualisierung eines Films darstellt. Ein weiteres Beispiel für den Guardian ist 'bussed out', eine interaktive Erfahrung, die Visualisierungen mit Greensock und D3 kombiniert und ein Scrollytelling-Artikel-Format verwendet, um zu zeigen, wie NYC mit seinem Obdachlosenproblem umgeht, indem Menschen aus der Stadt geschickt werden.
> "Bussed Out: How America Moves its Homeless" vom [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualisierungen von Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Auch wenn diese Lektion nicht ausreicht, um diese leistungsstarken Visualisierun
Sie werden eine Web-App abschließen, die eine animierte Ansicht dieses sozialen Netzwerks anzeigt. Sie verwendet eine Bibliothek, die erstellt wurde, um ein [Netzwerk zu visualisieren](https://github.com/emiliorizzo/vue-d3-network) mit Vue.js und D3. Wenn die App läuft, können Sie die Knoten auf dem Bildschirm verschieben, um die Daten neu anzuordnen.


> Foto von <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> auf <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Daten zu visualisieren ist eine der wichtigsten Aufgaben eines Data Scientists. Bilder sagen mehr als tausend Worte, und eine Visualisierung kann Ihnen helfen, alle möglichen interessanten Aspekte Ihrer Daten zu erkennen, wie z. B. Spitzen, Ausreißer, Gruppierungen, Tendenzen und vieles mehr, die Ihnen helfen können, die Geschichte zu verstehen, die Ihre Daten erzählen möchten.
@ -16,7 +16,7 @@ An diesem Punkt haben Sie wahrscheinlich erkannt, dass Datenwissenschaft ein Pro
Diese Lektion konzentriert sich auf drei Teile des Lebenszyklus: Erfassung, Verarbeitung und Wartung.


> Foto von [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Erfassung
@ -92,7 +92,7 @@ Erforschen Sie den [Team Data Science Process Lifecycle](https://docs.microsoft.
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
| |  |
| |  |
| Bild von [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Bild von [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Quiz nach der Vorlesung](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> Foto von <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> auf <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
In diesen Lektionen wirst du einige Aspekte des Lebenszyklus der Datenwissenschaft erkunden, einschließlich der Analyse und Kommunikation rund um Daten.
> Foto von [Jelleke Vanooteghem](https://unsplash.com/@ilumire) auf [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Wenn es darum geht, Datenwissenschaft mit großen Datenmengen zu betreiben, kann die Cloud ein echter Wendepunkt sein. In den nächsten drei Lektionen werden wir uns ansehen, was die Cloud ist und warum sie sehr hilfreich sein kann. Außerdem werden wir einen Datensatz zu Herzinsuffizienz untersuchen und ein Modell erstellen, um die Wahrscheinlichkeit einer Herzinsuffizienz zu bewerten. Wir werden die Leistungsfähigkeit der Cloud nutzen, um ein Modell auf zwei verschiedene Arten zu trainieren, bereitzustellen und zu verwenden. Einmal mit einer Benutzeroberfläche im Low-Code/No-Code-Stil und einmal mit dem Azure Machine Learning Software Developer Kit (Azure ML SDK).
@ -32,7 +32,7 @@ Dank der Demokratisierung von KI finden Entwickler es jetzt einfacher, KI-gesteu
* [Datenwissenschaft im Gesundheitswesen](https://data-flair.training/blogs/data-science-in-healthcare/) - hebt Anwendungen wie medizinische Bildgebung (z. B. MRT, Röntgen, CT-Scan), Genomik (DNA-Sequenzierung), Arzneimittelentwicklung (Risikobewertung, Erfolgsvorhersage), prädiktive Analytik (Patientenversorgung & Logistik), Krankheitsüberwachung und -prävention hervor.
 Bildnachweis: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Bildnachweis: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Die Abbildung zeigt weitere Bereiche und Beispiele für die Anwendung von Datenwissenschaftstechniken. Möchten Sie weitere Anwendungen erkunden? Schauen Sie sich den Abschnitt [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) unten an.
Die Azure Cloud Advocates bei Microsoft freuen sich, einen 10-wöchigen Lehrplan mit 20 Lektionen rund um Data Science anzubieten. Jede Lektion beinhaltet Vor- und Nachquiz, schriftliche Anweisungen zum Abschluss der Lektion, eine Lösung und eine Aufgabe. Unsere projektbasierte Lehrmethode ermöglicht es Ihnen, beim Bauen zu lernen – eine bewährte Methode, damit neue Fähigkeiten „haften bleiben“.
Azure Cloud Advocates bei Microsoft freuen sich, einen 10-wöchigen, 20-teiligen Lehrplan rund um Data Science anzubieten. Jede Lektion enthält Vor- und Nach-Quiz, schriftliche Anweisungen zur Durchführung der Lektion, eine Lösung und eine Aufgabe. Unsere projektbasierte Pädagogik ermöglicht es Ihnen, durch aktives Bauen zu lernen – eine bewährte Methode, damit neue Fähigkeiten „haften bleiben“.
> Dieses Repository enthält über 50 Sprachübersetzungen, was die Downloadgröße erheblich erhöht. Um ohne Übersetzungen zu klonen, verwenden Sie Sparse Checkout:
> **Lieber lokal klonen?**
>
> Dieses Repository enthält über 50 Sprachübersetzungen, was die Download-Größe erheblich erhöht. Um ohne Übersetzungen zu klonen, verwenden Sie Sparse Checkout:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> So erhalten Sie alles, was Sie für den Kurs benötigen, bei deutlich schnellerem Download.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Wenn Sie weitere unterstützte Übersetzungssprachen wünschen, finden Sie diese [hier](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Wenn Sie weitere Übersetzungen wünschen, sind unterstützte Sprachen [hier](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) aufgelistet**
Wir haben eine laufende Discord-Reihe „Learn with AI“, erfahren Sie mehr und treten Sie uns bei unter [Learn with AI Series](https://aka.ms/learnwithai/discord) vom 18. bis 30. September 2025. Dort erhalten Sie Tipps und Tricks zur Nutzung von GitHub Copilot für Data Science.
Wir führen derzeit eine Discord „Learn with AI“-Serie durch, erfahren Sie mehr und nehmen Sie teil unter [Learn with AI Series](https://aka.ms/learnwithai/discord) vom 18. – 30. September 2025. Sie erhalten Tipps und Tricks zur Nutzung von GitHub Copilot für Data Science.

# Sind Sie ein Student?
# Bist du ein Student?
Starten Sie mit den folgenden Ressourcen:
Starte mit den folgenden Ressourcen:
- [Student Hub Seite](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Auf dieser Seite finden Sie Einsteigerressourcen, Studentensets und sogar Möglichkeiten, einen kostenlosen Zertifikatsgutschein zu erhalten. Diese Seite sollten Sie speichern und regelmäßig besuchen, da wir den Inhalt mindestens monatlich aktualisieren.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Treten Sie einer globalen Gemeinschaft von Student Ambassadors bei, das könnte Ihr Einstieg bei Microsoft sein.
- [Student Hub Seite](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Auf dieser Seite findest du Einsteigerressourcen, Studentenkits und sogar Möglichkeiten, einen kostenlosen Zertifizierungsgutschein zu erhalten. Das ist eine Seite, die du als Lesezeichen speichern und regelmäßig anschauen solltest, da wir die Inhalte mindestens monatlich austauschen.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Werde Teil einer globalen Community von Studentenbotschaftern – das könnte dein Einstieg bei Microsoft sein.
# Erste Schritte
## 📚 Dokumentation
- **[Installationsanleitung](INSTALLATION.md)** - Schritt-für-Schritt-Anleitung für Anfänger
- **[Nutzungsanleitung](USAGE.md)** - Beispiele und häufige Abläufe
- **[Fehlerbehebung](TROUBLESHOOTING.md)** - Lösungen für häufige Probleme
- **[Beitragsrichtlinien](CONTRIBUTING.md)** - Wie man zu diesem Projekt beiträgt
- **[Für Lehrkräfte](for-teachers.md)** - Unterrichtshilfen und Materialien für den Klassenraum
- **[Installationsanleitung](INSTALLATION.md)** – Schritt-für-Schritt-Anleitung für Anfänger
- **[Nutzungsanleitung](USAGE.md)** – Beispiele und gängige Arbeitsabläufe
- **[Fehlerbehebung](TROUBLESHOOTING.md)** – Lösungen für häufige Probleme
- **[Beitragsrichtlinien](CONTRIBUTING.md)** – Wie man zu diesem Projekt beiträgt
- **[Für Lehrende](for-teachers.md)** – Anleitung für Unterricht und Klassenressourcen
## 👨🎓 Für Studierende
> **Komplette Anfänger:** Neu in Data Science? Beginnen Sie mit unseren [anfängerfreundlichen Beispielen](examples/README.md)! Diese einfachen, gut kommentierten Beispiele helfen Ihnen, die Grundlagen zu verstehen, bevor Sie sich in den kompletten Lehrplan vertiefen.
> **[Studierende](https://aka.ms/student-page)**: Um diesen Lehrplan eigenständig zu nutzen, forken Sie das gesamte Repository und bearbeiten die Übungen eigenständig, beginnend mit einem Vorlesungsquiz. Lesen Sie dann die Vorlesung und bearbeiten die restlichen Aktivitäten. Versuchen Sie, die Projekte zu verstehen und selbst zu erstellen, statt einfach die Lösungscodes zu kopieren; diese Lösungen sind allerdings in den /solutions-Ordnern jeder projektorientierten Lektion verfügbar. Eine weitere Idee ist, eine Lerngruppe mit Freunden zu bilden und gemeinsam den Inhalt durchzuarbeiten. Für weiterführendes Lernen empfehlen wir [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Absolute Anfänger**: Neu in Data Science? Beginne mit unseren [einsteigerfreundlichen Beispielen](examples/README.md)! Diese einfachen, gut kommentierten Beispiele helfen dir, die Grundlagen zu verstehen, bevor du in den vollständigen Lehrplan eintauchst.
> **[Studierende](https://aka.ms/student-page)**: Um diesen Lehrplan eigenständig zu nutzen, fork das gesamte Repository und bearbeite die Übungen selbstständig, beginnend mit einem Vorab-Quiz. Dann lese die Lektion und bearbeite die restlichen Aktivitäten. Versuche, die Projekte zu erstellen, indem du die Lektionen verstehst, anstatt den Lösungscode zu kopieren; der Code ist jedoch in den /solutions-Ordnern jeder projektorientierten Lektion verfügbar. Eine weitere Idee ist, eine Lerngruppe mit Freund*innen zu bilden und die Inhalte gemeinsam durchzugehen. Für weiterführendes Lernen empfehlen wir [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Schnellstart:**
1. Sehen Sie sich die [Installationsanleitung](INSTALLATION.md) zur Einrichtung Ihrer Umgebung an
2. Lesen Sie die [Nutzungsanleitung](USAGE.md), um zu lernen, wie Sie mit dem Lehrplan arbeiten
3. Beginnen Sie mit Lektion 1 und arbeiten Sie diese der Reihe nach durch
4. Treten Sie unserer [Discord-Community](https://aka.ms/ds4beginners/discord) für Unterstützung bei
1. Schau dir die [Installationsanleitung](INSTALLATION.md) an, um deine Umgebung einzurichten
2. Lies die [Nutzungsanleitung](USAGE.md), um zu lernen, wie du mit dem Lehrplan arbeitest
3. Beginne mit Lektion 1 und arbeite dich sequenziell durch
4. Tritt unserer [Discord-Community](https://aka.ms/ds4beginners/discord) für Unterstützung bei
## 👩🏫 Für Lehrkräfte
## 👩🏫 Für Lehrende
> **Lehrkräfte**: Wir haben [einige Vorschläge](for-teachers.md) zur Nutzung dieses Lehrplans aufgenommen. Wir freuen uns über Ihr Feedback [in unserem Diskussionsforum](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Lehrkräfte:** Wir haben [einige Vorschläge](for-teachers.md) zur Nutzung dieses Lehrplans zusammengestellt. Wir freuen uns über Ihr Feedback [in unserem Diskussionsforum](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
@ -95,99 +105,101 @@ Starten Sie mit den folgenden Ressourcen:
## Pädagogik
Wir haben beim Aufbau dieses Lehrplans zwei pädagogische Grundsätze gewählt: sicherzustellen, dass er projektbasiert ist und häufige Quizze enthält. Am Ende dieser Reihe werden die Lernenden grundlegende Prinzipien der Datenwissenschaft gelernt haben, einschließlich ethischer Konzepte, Datenvorbereitung, verschiedener Arbeitsweisen mit Daten, Datenvisualisierung, Datenanalyse, Anwendungsbeispiele aus der Praxis der Datenwissenschaft und mehr.
Wir haben bei der Erstellung dieses Lehrplans zwei pädagogische Grundsätze gewählt: Sicherzustellen, dass er projektbasiert ist und dass häufige Quizze enthalten sind. Am Ende dieser Serie haben die Lernenden grundlegende Prinzipien der Datenwissenschaft gelernt, einschließlich ethischer Konzepte, Datenvorbereitung, verschiedener Arbeitsweisen mit Daten, Datenvisualisierung, Datenanalyse, realer Anwendungsfälle der Datenwissenschaft und mehr.
Darüber hinaus setzt ein Quiz mit niedrigem Einsatz vor einer Unterrichtseinheit die Lernabsicht des Studierenden hinsichtlich eines Themas, während ein zweites Quiz nach der Unterrichtsstunde das weitere Behalten sichert. Dieser Lehrplan wurde flexibel und unterhaltsam gestaltet und kann vollständig oder teilweise durchlaufen werden. Die Projekte beginnen klein und werden im Laufe des 10-wöchigen Zyklus zunehmend komplexer.
Zusätzlich setzt ein niedrigschwelliges Quiz vor dem Unterricht die Intention der Lernenden, ein Thema zu erlernen, während ein zweites Quiz nach dem Unterricht das weitere Behalten sichert. Dieser Lehrplan wurde flexibel und unterhaltsam gestaltet und kann ganz oder teilweise absolviert werden. Die Projekte beginnen klein und werden zum Ende des 10-wöchigen Zyklus immer komplexer.
> Finden Sie unseren [Verhaltenskodex](CODE_OF_CONDUCT.md), [Beitragsleitfaden](CONTRIBUTING.md), [Übersetzungsrichtlinien](TRANSLATIONS.md). Wir freuen uns auf Ihr konstruktives Feedback!
> Finden Sie unseren [Verhaltenskodex](CODE_OF_CONDUCT.md), [Beitragsleitfäden](CONTRIBUTING.md), [Übersetzungsleitfäden](TRANSLATIONS.md). Wir freuen uns über Ihr konstruktives Feedback!
## Jede Lektion beinhaltet:
- Optionale Sketchnote
- Optionales Zusatzvideo
- Optionales Sketchnote
- Optionales ergänzendes Video
- Aufwärmquiz vor der Lektion
- Schriftliche Lektion
- Für projektbasierte Lektionen: Schritt-für-Schritt-Anleitungen zum Aufbau des Projekts
- Wissenskontrollen
- Für projektbasierte Lektionen Schritt-für-Schritt-Anleitungen zum Aufbau des Projekts
- Wissensüberprüfungen
- Eine Herausforderung
- Ergänzende Lektüre
- Aufgabe
- [Quiz nach der Lektion](https://ff-quizzes.netlify.app/en/)
> **Ein Hinweis zu den Quizzen**: Alle Quizze befinden sich im Quiz-App-Ordner, insgesamt 40 Quizze mit jeweils drei Fragen. Sie sind aus den Lektionen verlinkt, aber die Quiz-App kann lokal ausgeführt oder in Azure bereitgestellt werden; folgen Sie den Anweisungen im `quiz-app`-Ordner. Sie werden nach und nach lokalisiert.
> **Eine Anmerkung zu den Quizzen**: Alle Quizze befinden sich im Ordner Quiz-App, insgesamt 40 Quizze mit jeweils drei Fragen. Sie sind aus den Lektionen verlinkt, aber die Quiz-App kann lokal ausgeführt oder in Azure bereitgestellt werden; folgen Sie den Anweisungen im `quiz-app`-Ordner. Sie werden nach und nach lokalisiert.
## 🎓 Anfängerfreundliche Beispiele
**Neu in der Datenwissenschaft?** Wir haben ein spezielles [Beispielverzeichnis](examples/README.md) mit einfachem, gut kommentiertem Code erstellt, das Ihnen den Einstieg erleichtert:
**Neu in Data Science?** Wir haben ein spezielles [Beispielverzeichnis](examples/README.md) mit einfachem, gut kommentiertem Code erstellt, das Ihnen den Einstieg erleichtert:
- 🌟 **Hello World**– Ihr erstes Datenwissenschaftsprogramm
- 📂 **Daten laden**– Lernen, Datensätze zu lesen und zu erkunden
- 🌟 **Hello World**– Ihr erstes Programm in der Datenwissenschaft
- 📂 **Daten laden**– Lernen Sie, Datensätze zu lesen und zu erkunden
- 📊 **Einfache Analyse**– Statistiken berechnen und Muster finden
- 📈 **Grundlegende Visualisierung**–Erstellen von Diagrammen und Grafiken
- 🔬 **Praxisprojekt** – Kompletter Workflow von Anfang bis Ende
- 📈 **Grundlegende Visualisierung**– Diagramme und Grafiken erstellen
- 🔬 **Echtes Projekt** – Komplett-Workflow von Anfang bis Ende
Jedes Beispiel enthält detaillierte Kommentare, die jeden Schritt erklären, perfekt für absolute Anfänger!
Jedes Beispiel enthält ausführliche Kommentare, die jeden Schritt erklären, was es perfekt für absolute Anfänger macht!
👉 **[Beginnen Sie mit den Beispielen](examples/README.md)** 👈
## Lektionen
||
|:---:|
| Data Science For Beginners: Fahrplan - _Sketchnote von [@nitya](https://twitter.com/nitya)_ |
| Data Science für Anfänger: Fahrplan –_Sketchnote von [@nitya](https://twitter.com/nitya)_ |
| Lektion Nummer | Thema | Lektion Gruppe | Lernziele | Verlinkte Lektion | Autor |
| Lektion Nr. | Thema | Unterrichtseinheit | Lernziele | Verlinkte Lektion | Autor |
| 01 | Definition von Data Science | [Einführung](1-Introduction/README.md) | Lernen Sie die Grundkonzepte der Datenwissenschaft und deren Beziehung zu künstlicher Intelligenz, maschinellem Lernen und Big Data kennen. | [Lektion](1-Introduction/01-defining-data-science/README.md) [Video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 03 | Definition von Daten | [Einführung](1-Introduction/README.md) | Wie Daten klassifiziert werden und ihre häufigsten Quellen. | [Lektion](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Einführung in Statistik & Wahrscheinlichkeit | [Einführung](1-Introduction/README.md) | Mathematische Techniken der Wahrscheinlichkeit und Statistik zum Verständnis von Daten. | [Lektion](1-Introduction/04-stats-and-probability/README.md) [Video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Arbeit mit relationalen Daten | [Arbeiten mit Daten](2-Working-With-Data/README.md) | Einführung in relationale Daten und Grundlagen der Erkundung und Analyse relationaler Daten mit der Structured Query Language, auch bekannt als SQL (ausgesprochen „see-quell“). | [Lektion](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Arbeit mit NoSQL-Daten | [Arbeiten mit Daten](2-Working-With-Data/README.md) | Einführung in nicht-relationale Daten, deren verschiedene Typen und die Grundlagen der Erkundung und Analyse von Dokumentendatenbanken. | [Lektion](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Arbeiten mit Python | [Arbeiten mit Daten](2-Working-With-Data/README.md) | Grundlagen der Nutzung von Python zur Datenexploration mit Bibliotheken wie Pandas. Grundlegendes Verständnis der Python-Programmierung wird empfohlen. | [Lektion](2-Working-With-Data/07-python/README.md) [Video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Datenvorbereitung | [Arbeiten mit Daten](2-Working-With-Data/README.md) | Themen zu Daten-Techniken zum Reinigen und Transformieren der Daten, um Herausforderungen wie fehlende, ungenaue oder unvollständige Daten zu bewältigen. | [Lektion](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualisierung von Mengen | [Datenvisualisierung](3-Data-Visualization/README.md) | Lernen Sie, wie Sie Matplotlib zur Visualisierung von Vogeldaten 🦆 verwenden. | [Lektion](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 01 | Definieren von Data Science | [Einführung](1-Introduction/README.md) | Lernt die Grundkonzepte der Datenwissenschaft und deren Beziehung zu künstlicher Intelligenz, maschinellem Lernen und Big Data kennen. | [Lektion](1-Introduction/01-defining-data-science/README.md) [Video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Ethik der Datenwissenschaft | [Einführung](1-Introduction/README.md) | Konzepte, Herausforderungen und Rahmenwerke der Datenethik. | [Lektion](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definition von Daten | [Einführung](1-Introduction/README.md) | Wie Daten klassifiziert werden und ihre gängigen Quellen. | [Lektion](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Einführung in Statistik und Wahrscheinlichkeit | [Einführung](1-Introduction/README.md) | Mathematische Techniken von Wahrscheinlichkeit und Statistik, um Daten zu verstehen. | [Lektion](1-Introduction/04-stats-and-probability/README.md) [Video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Arbeiten mit relationalen Daten | [Arbeiten mit Daten](2-Working-With-Data/README.md) | Einführung in relationale Daten und die Grundlagen von Erkundung und Analyse relationaler Daten mit der Structured Query Language, auch bekannt als SQL („see-quell“). | [Lektion](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Arbeiten mit NoSQL-Daten | [Arbeiten mit Daten](2-Working-With-Data/README.md) | Einführung in nicht-relationale Daten, deren verschiedene Typen und die Grundlagen der Erkundung und Analyse von Dokumentdatenbanken. | [Lektion](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Arbeiten mit Python | [Arbeiten mit Daten](2-Working-With-Data/README.md) | Grundlagen der Nutzung von Python für die Datenerkundung mit Bibliotheken wie Pandas. Grundlegende Kenntnisse in Python-Programmierung werden empfohlen. | [Lektion](2-Working-With-Data/07-python/README.md) [Video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Datenaufbereitung | [Arbeiten mit Daten](2-Working-With-Data/README.md) | Themen zu Datenreinigung und Transformation, um Herausforderungen wie fehlende, ungenaue oder unvollständige Daten zu bewältigen. | [Lektion](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualisierung von Mengen | [Datenvisualisierung](3-Data-Visualization/README.md) | Lernen, wie man Matplotlib zur Visualisierung von Vogeldaten 🦆 verwendet | [Lektion](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualisierung von Datenverteilungen | [Datenvisualisierung](3-Data-Visualization/README.md) | Visualisierung von Beobachtungen und Trends innerhalb eines Intervalls. | [Lektion](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualisierung von Anteilen | [Datenvisualisierung](3-Data-Visualization/README.md) | Visualisierung diskreter und gruppierter Prozentsätze. | [Lektion](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualisierung von Zusammenhängen | [Datenvisualisierung](3-Data-Visualization/README.md) | Visualisierung von Verbindungen und Korrelationen zwischen Datensätzen und deren Variablen. | [Lektion](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Sinnvolle Visualisierungen | [Datenvisualisierung](3-Data-Visualization/README.md) | Techniken und Anleitungen, um Ihre Visualisierungen wertvoll für eine effektive Problemlösung und Einsichten zu machen. | [Lektion](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Einführung in den Data Science Lifecycle | [Lebenszyklus](4-Data-Science-Lifecycle/README.md) | Einführung in den Data Science Lebenszyklus und dessen ersten Schritt der Datenerfassung und -extraktion. | [Lektion](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analysieren | [Lebenszyklus](4-Data-Science-Lifecycle/README.md) | Diese Phase des Data Science Lebenszyklus konzentriert sich auf Techniken zur Analyse von Daten. | [Lektion](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Kommunikation | [Lebenszyklus](4-Data-Science-Lifecycle/README.md) | Diese Phase des Data Science Lebenszyklus konzentriert sich darauf, Einsichten aus den Daten so zu präsentieren, dass Entscheidungsträger sie besser verstehen können. | [Lektion](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Data Science in der Cloud | [Cloud Daten](5-Data-Science-In-Cloud/README.md) | Diese Unterrichtsreihe führt in Data Science in der Cloud und deren Vorteile ein. | [Lektion](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) und [Maud](https://twitter.com/maudstweets) |
| 18 | Data Science in der Cloud | [Cloud Daten](5-Data-Science-In-Cloud/README.md) | Modelltraining mit Low-Code-Tools. |[Lektion](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) und [Maud](https://twitter.com/maudstweets) |
| 19 | Data Science in der Cloud | [Cloud Daten](5-Data-Science-In-Cloud/README.md) | Deployment von Modellen mit Azure Machine Learning Studio. | [Lektion](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) und [Maud](https://twitter.com/maudstweets) |
| 20 | Data Science in der Praxis | [Im praktischen Einsatz](6-Data-Science-In-Wild/README.md) | Data Science-getriebene Projekte in der realen Welt. | [Lektion](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 12 | Visualisierung von Beziehungen | [Datenvisualisierung](3-Data-Visualization/README.md) | Visualisierung von Verbindungen und Korrelationen zwischen Datensätzen und deren Variablen. | [Lektion](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Sinnvolle Visualisierungen | [Datenvisualisierung](3-Data-Visualization/README.md) | Techniken und Anleitung, um Visualisierungen wertvoll für effektive Problemlösungen und Erkenntnisse zu machen. | [Lektion](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Einführung in den Data-Science-Lebenszyklus | [Lebenszyklus](4-Data-Science-Lifecycle/README.md) | Einführung in den Lebenszyklus der Datenwissenschaft und dessen ersten Schritt des Erwerbs und der Extraktion von Daten. | [Lektion](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analysieren | [Lebenszyklus](4-Data-Science-Lifecycle/README.md) | Diese Phase des Data-Science-Lebenszyklus fokussiert Techniken zur Datenanalyse. | [Lektion](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Kommunikation | [Lebenszyklus](4-Data-Science-Lifecycle/README.md) | Diese Phase des Data-Science-Lebenszyklus konzentriert sich darauf, Erkenntnisse aus den Daten so zu präsentieren, dass Entscheidungsträger sie besser verstehen können. | [Lektion](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Datenwissenschaft in der Cloud | [Cloud-Daten](5-Data-Science-In-Cloud/README.md) | Diese Lektionenserie führt in die Datenwissenschaft in der Cloud und deren Vorteile ein. | [Lektion](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) und [Maud](https://twitter.com/maudstweets) |
| 18 | Datenwissenschaft in der Cloud | [Cloud-Daten](5-Data-Science-In-Cloud/README.md) | Modelltraining mit Low-Code-Tools. |[Lektion](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) und [Maud](https://twitter.com/maudstweets) |
| 19 | Datenwissenschaft in der Cloud | [Cloud-Daten](5-Data-Science-In-Cloud/README.md) | Modellbereitstellung mit Azure Machine Learning Studio. | [Lektion](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) und [Maud](https://twitter.com/maudstweets) |
| 20 | Datenwissenschaft in der Praxis | [In freier Wildbahn](6-Data-Science-In-Wild/README.md) | Datenwissenschaftliche Projekte in der realen Welt. | [Lektion](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Folgen Sie diesen Schritten, um dieses Beispiel in einem Codespace zu öffnen:
1. Klicken Sie auf das Code-Dropdown-Menü und wählen Sie die Option „Open with Codespaces“.
2. Wählen Sie „+ New codespace“ unten im Bereich.
Für weitere Informationen siehe die [GitHub-Dokumentation](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
Führen Sie diese Schritte aus, um dieses Beispiel in einem Codespace zu öffnen:
1. Klicken Sie auf das Dropdown-Menü Code und wählen Sie die Option Open with Codespaces.
2. Wählen Sie unten im Bereich + New codespace aus.
Weitere Informationen finden Sie in der [GitHub-Dokumentation](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Folgen Sie diesen Schritten, um dieses Repository in einem Container mit Ihrem lokalen Rechner und VSCode mit der VS Code Remote - Containers Erweiterung zu öffnen:
Führen Sie diese Schritte aus, um dieses Repo mit Ihrem lokalen Rechner und VSCode unter Verwendung der Erweiterung VS Code Remote - Containers in einem Container zu öffnen:
1. Wenn Sie zum ersten Mal einen Entwicklungscontainer verwenden, stellen Sie sicher, dass Ihr System die Voraussetzungen erfüllt (z. B. Docker installiert ist) gemäß [der Einstiegshilfe](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Wenn Sie zum ersten Mal einen Entwicklungscontainer verwenden, stellen Sie bitte sicher, dass Ihr System die Voraussetzungen erfüllt (z. B. Docker installiert) in der [Erste-Schritte-Dokumentation](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Um dieses Repository zu verwenden, können Sie entweder das Repository in einem isolierten Docker-Volume öffnen:
**Hinweis**: Im Hintergrund wird der Remote-Containers-Befehl **Clone Repository in Container Volume...** verwendet, der den Quellcode in einem Docker-Volume statt im lokalen Dateisystem klont. [Volumes](https://docs.docker.com/storage/volumes/) sind der bevorzugte Mechanismus zur dauerhaften Speicherung von Container-Daten.
**Hinweis**: Im Hintergrund wird dazu der Befehl Remote-Containers: **Clone Repository in Container Volume...** verwendet, um den Quellcode in einem Docker-Volume und nicht im lokalen Dateisystem zu klonen. [Volumes](https://docs.docker.com/storage/volumes/) sind der bevorzugte Mechanismus zum Persistieren von Container-Daten.
Oder öffnen Sie eine lokal geklonte oder heruntergeladene Version des Repositories:
- Klonen Sie dieses Repository auf Ihr lokales Dateisystem.
- Drücken Sie F1 und wählen Sie den Befehl **Remote-Containers: Open Folder in Container...**.
- Klonen Sie dieses Repository in Ihr lokales Dateisystem.
- Drücken Sie F1 und wählen Sie den Befehl **Remote-Containers: Open Folder in Container...** aus.
- Wählen Sie die geklonte Kopie dieses Ordners aus, warten Sie, bis der Container gestartet ist, und probieren Sie es aus.
## Offline-Zugriff
Sie können diese Dokumentation offline mit [Docsify](https://docsify.js.org/#/) ausführen. Forken Sie dieses Repository, [installieren Sie Docsify](https://docsify.js.org/#/quickstart) auf Ihrem lokalen Rechner und geben Sie dann im Stammverzeichnis dieses Repositories `docsify serve` ein. Die Webseite wird auf Port 3000 auf Ihrem lokalen Host bereitgestellt: `localhost:3000`.
Sie können diese Dokumentation offline mit [Docsify](https://docsify.js.org/#/) ausführen. Forken Sie dieses Repo, [installieren Sie Docsify](https://docsify.js.org/#/quickstart) auf Ihrem lokalen Rechner und geben Sie dann im Stammordner dieses Repos `docsify serve` ein. Die Webseite wird auf Port 3000 auf Ihrem lokalen Host verfügbar sein: `localhost:3000`.
> Hinweis: Notebooks werden nicht über Docsify gerendert. Wenn Sie ein Notebook ausführen müssen, tun Sie dies separat in VS Code mit einem Python-Kernel.
> Hinweis: Notebooks werden nicht mittels Docsify gerendert, also wenn Sie ein Notebook ausführen müssen, tun Sie dies getrennt in VS Code mit einem Python-Kernel.
## Weitere Lehrpläne
## Andere Lehrpläne
Unser Team erstellt weitere Lehrpläne! Schauen Sie sich an:
@ -206,7 +218,7 @@ Unser Team erstellt weitere Lehrpläne! Schauen Sie sich an:
---
### Generative KIReihe
### Generative KI-Reihe
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
@ -218,28 +230,28 @@ Unser Team erstellt weitere Lehrpläne! Schauen Sie sich an:
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### CopilotReihe
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
### Copilot-Reihe
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**Probleme?** Schau dir unseren [Fehlerbehebungsleitfaden](TROUBLESHOOTING.md) für Lösungen zu häufigen Problemen an.
**Probleme?** Sieh dir unseren [Fehlerbehebungsleitfaden](TROUBLESHOOTING.md) an, um Lösungen für häufige Probleme zu finden.
Wenn du feststeckst oder Fragen zum Erstellen von KI-Apps hast. Tritt Gleichgesinnten und erfahrenen Entwicklern in Diskussionen über MCP bei. Es ist eine unterstützende Gemeinschaft, in der Fragen willkommen sind und Wissen frei geteilt wird.
Wenn du feststeckst oder Fragen zum Erstellen von KI-Anwendungen hast, tausche dich mit anderen Lernenden und erfahrenen Entwicklern in Diskussionen über MCP aus. Es ist eine unterstützende Community, in der Fragen willkommen sind und Wissen frei geteilt wird.
@ -247,5 +259,5 @@ Wenn du Produktfeedback hast oder Fehler beim Erstellen auftreten, besuche:
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Haftungsausschluss**:
Dieses Dokument wurde mithilfe des KI-Übersetzungsdienstes [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir auf Genauigkeit achten, können automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten. Das Originaldokument in der jeweiligen Ursprungssprache gilt als maßgebliche Quelle. Bei kritischen Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die aus der Nutzung dieser Übersetzung entstehen.
Dieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, bitten wir zu beachten, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner Ursprungssprache gilt als maßgebliche Quelle. Für wichtige Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben.
Dieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben.
[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [Тест перед лекцией](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@
В этом задании мы попробуем найти концепции, связанные с областью Data Science, анализируя тексты. Мы возьмем статью из Википедии о Data Science, загрузим и обработаем текст, а затем создадим облако слов, похожее на это:


Посетите [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), чтобы ознакомиться с кодом. Вы также можете запустить код и увидеть, как он выполняет все преобразования данных в реальном времени.
"В этом примере мы выполним простое упражнение, охватывающее все этапы традиционного процесса работы с данными. Вам не нужно писать код, достаточно просто нажимать на ячейки ниже, чтобы выполнить их и наблюдать за результатом. В качестве задания вам предлагается попробовать этот код сдругими данными.\n",
"В этом примере давайте выполним простое упражнение, охватывающее все этапы традиционного процесса науки о данных. Вам не нужно писать никакой код, вы можете просто нажимать на ячейки ниже, чтобы выполнить их и наблюдать результат. В качестве задания вам предлагается попробовать этот код сразными данными.\n",
"\n",
"## Цель\n",
"\n",
"На этом уроке мы обсуждали различные концепции, связанные с наукой о данных. Давайте попробуем обнаружить больше связанных концепций, выполнив **текстовый анализ**. Мы начнем с текста о науке о данных, извлечем из него ключевые слова, а затем попробуем визуализировать результат.\n",
"В этом уроке мы обсуждали различные концепции, связанные с наукой о данных. Давайте попробуем обнаружить больше связанных концепций, сделав немного **текстового анализа**. Мы начнем с текста о науке о данных, извлечем из него ключевые слова и затем попробуем визуализировать результат.\n",
"\n",
"В качестве текста я использую страницу о науке о данных из Википедии:\n"
],
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Шаг 1: Получение данных\n",
"## Step 1: Получение данных\n",
"\n",
"Первый шаг в любом процессе работы с данными — это получение данных. Для этого мы будем использовать библиотеку `requests`:\n"
"Первый шаг в каждом процессе обработки данных — получение данных. Мы будем использовать библиотеку `requests` для этого:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Шаг 2: Преобразование данных\n",
"\n",
"Следующий шаг — преобразовать данные в форму, подходящую для обработки. В нашем случае мы скачали исходный HTML-код страницы, и нам нужно преобразовать его в обычный текст.\n",
"Следующий шаг — преобразовать данные в форму, подходящую для обработки. В нашем случае мы скачали исходный код HTML со страницы, и нам нужно преобразовать его в обычный текст.\n",
"\n",
"Существует множество способов сделать это. Мы будем использовать самый простой встроенный объект [HTMLParser](https://docs.python.org/3/library/html.parser.html) из Python. Нам нужно создать подкласс класса `HTMLParser` и определить код, который будет собирать весь текст внутри HTML-тегов, за исключением тегов `<script>` и `<style>`.\n"
"Существует множество способов сделать это. Мы воспользуемся [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), популярной библиотекой Python для парсинга HTML. BeautifulSoup позволяет выбирать конкретные HTML-элементы, поэтому мы можем сфокусироваться на основном содержимом статьи из Википедии и сократить меню навигации, боковые панели, нижние колонтитулы и другой нерелевантный контент (хотя некоторый шаблонный текст всё же может остаться).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Сначала нам нужно установить библиотеку BeautifulSoup для парсинга HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## Шаг 3: Получение инсайтов\n",
"\n",
"Самый важный шаг — это преобразование данных в такую форму, из которой можно извлечь полезные выводы. В нашем случае мы хотим выделить ключевые слова из текста и определить, какие из них наиболее значимы.\n",
"Самый важный шаг — преобразовать наши данные в форму, из которой мы можем извлечь инсайты. В нашем случае мы хотим извлечь ключевые слова из текста и увидеть, какие ключевые слова более значимы.\n",
"\n",
"Мы будем использовать библиотеку Python под названием [RAKE](https://github.com/aneesha/RAKE) для извлечения ключевых слов. Сначала установим эту библиотеку, если она еще не установлена:\n"
"Мы будем использовать библиотеку Python под названием [RAKE](https://github.com/aneesha/RAKE) для извлечения ключевых слов. Сначала установим эту библиотеку, если она отсутствует: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Основная функциональность доступна через объект `Rake`, который мы можем настроить с помощью некоторых параметров. В нашем случае мы установим минимальную длину ключевого слова в 5 символов, минимальную частоту ключевого слова в документе - 3, а максимальное количество слов в ключевом слове - 2. Не стесняйтесь экспериментировать с другими значениями и наблюдать за результатом.\n"
"Основная функциональность доступна через объект `Rake`, который мы можем настроить с помощью некоторых параметров. В нашем случае мы установим минимальную длину ключевого слова в 5 символов, минимальную частоту появления ключевого слова в документе — 3, а максимальное количество слов в ключевом слове — 2. Не стесняйтесь экспериментировать с другими значениями и наблюдать результат.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Мы получили список терминов вместе с соответствующей степенью важности. Как вы можете видеть, наиболее значимые дисциплины, такие как машинное обучение и большие данные, находятся в верхних позициях списка.\n",
"Мы получили список терминов вместе с соответствующей степенью важности. Как вы можете видеть, наиболее релевантные дисциплины, такие как машинное обучение и большие данные, присутствуют в списке в верхних позициях.\n",
"\n",
"## Шаг 4: Визуализация результата\n",
"\n",
"Люди лучше всего воспринимают данные в визуальной форме. Поэтому часто имеет смысл визуализировать данные, чтобы извлечь некоторые инсайты. Мы можем использовать библиотеку `matplotlib` в Python, чтобы построить простое распределение ключевых слов с их значимостью:\n"
"Люди лучше всего воспринимают данные в визуальной форме. Поэтому часто имеет смысл визуализировать данные, чтобы сделать некоторые выводы. Мы можем использовать библиотеку `matplotlib` в Python, чтобы построить простое распределение ключевых слов с их релевантностью:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Однако существует еще более лучший способ визуализировать частоту слов - с помощью **облака слов**. Нам потребуется установить еще одну библиотеку, чтобы построить облако слов из нашего списка ключевых слов.\n"
"Однако существует еще лучший способ визуализации частоты слов — с помощью **Word Cloud**. Нам потребуется установить другую библиотеку, чтобы построить облако слов из нашего списка ключевых слов.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"Объект `WordCloud` отвечает за обработку либо исходного текста, либо предварительно вычисленного списка слов с их частотами, и возвращает изображение, которое затем можно отобразить с помощью `matplotlib`:\n"
"Объект `WordCloud` отвечает за прием либо исходного текста, либо предварительно вычисленного списка слов с их частотами, и возвращает изображение, которое затем можно отобразить с помощью `matplotlib`:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"Вы можете заметить, что облако слов теперь выглядит более впечатляющим, но оно также содержит много шума (например, несвязанные слова, такие как `Retrieved on`). Кроме того, мы получаем меньше ключевых слов, состоящих из двух слов, таких как *data scientist* или *computer science*. Это связано с тем, что алгоритм RAKE гораздо лучше справляется с выбором качественных ключевых слов из текста. Этот пример иллюстрирует важность предварительной обработки и очистки данных, поскольку четкая картина в конце позволит нам принимать более обоснованные решения.\n",
"Вы можете видеть, что облако слов теперь выглядит более впечатляюще, но в нем также содержится много шума (например, нерелевантные слова, такие как `Retrieved on`). Кроме того, мы получаем меньше ключевых слов, состоящих из двух слов, таких как *data scientist* или *computer science*. Это происходит потому, что алгоритм RAKE гораздо лучше справляется с выбором хороших ключевых слов из текста. Этот пример иллюстрирует важность предварительной обработки и очистки данных, так как четкая картина в итоге позволит нам принимать более обоснованные решения.\n",
"\n",
"В этом упражнении мы прошли простой процесс извлечения некоторого смысла из текста Википедии в форме ключевых слов и облака слов. Этот пример довольно прост, но он хорошо демонстрирует все типичные шаги, которые выполняет специалист по данным при работе с данными, начиная с получения данных и заканчивая визуализацией.\n",
"В этом упражнении мы прошли простой процесс извлечения смысла из текста Википедии в виде ключевых слов и облака слов. Этот пример достаточно простой, но он хорошо демонстрирует все типичные шаги, которые предпринимает специалист по данным при работе с данными, начиная сих получения и заканчивая визуализацией.\n",
"\n",
"В нашем курсе мы подробно обсудим все эти шаги.\n"
"В нашем курсе мы подробно обсудим все эти этапы.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Отказ от ответственности**: \nЭтот документ был переведен сиспользованием сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Несмотря на наши усилия обеспечить точность, автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на егоисходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Отказ от ответственности**: \nЭтот документ был переведен спомощью сервиса машинного перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Несмотря на наши усилия обеспечить точность, имейте в виду, что автоматический перевод может содержать ошибки или неточности. Оригинальный документ на егородном языке следует считать авторитетным источником. Для критически важной информации рекомендуется использовать профессиональный человеческий перевод. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"> *В этом блокноте мы экспериментируем с использованием разных URL - статьи из Википедии о машинном обучении. Вы можете заметить, что, в отличие от науки о данных, эта статья содержит множество терминов, что делает анализ более сложным. Нам нужно придумать другой способ очистки данных после извлечения ключевых слов, чтобы избавиться от некоторых частых, но незначимых словосочетаний.*\n",
"> *В этой тетради мы экспериментируем с использованием различных URL — статьи в Википедии о машинном обучении. Как видно, в отличие от статьи о науке о данных, эта статья содержит много терминов, что усложняет анализ. Нам нужно придумать другой способ очистки данных после извлечения ключевых слов, чтобы избавиться от некоторых часто встречающихся, но незначимых словосочетаний.*\n",
"\n",
"В этом примере давайте проведем простое упражнение, охватывающее все этапы традиционного процесса науки о данных. Вам не нужно писать код, вы можете просто нажимать на ячейки ниже, чтобы выполнить их и наблюдать за результатом. В качестве задания вам предлагается попробовать этот код с другими данными.\n",
"В этом примере давайте выполним простое упражнение, охватывающее все этапы традиционного процесса науки о данных. Вам не нужно писать код, можно просто кликать по ячейкам ниже, чтобы выполнить их и наблюдать результат. В качестве вызова вам предлагается попробовать этот код с другими данными.\n",
"\n",
"## Цель\n",
"\n",
"На этом уроке мы обсуждали различные концепции, связанные с наукой о данных. Давайте попробуем обнаружить больше связанных концепций, выполняя **текстовый анализ**. Мы начнем с текста о науке о данных, извлечем из него ключевые слова, а затем попробуем визуализировать результат.\n",
"В этом уроке мы обсуждали различные концепции, связанные с наукой о данных. Давайте попробуем открыть больше связанных концепций, выполняя **текстовый майнинг**. Начнем с текста о науке о данных, извлечем из него ключевые слова, а затем попробуем визуализировать результат.\n",
"\n",
"В качестве текста я буду использовать страницу о науке о данных из Википедии:\n"
],
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Шаг 1: Получение данных\n",
"## Step 1: Получение данных\n",
"\n",
"Первый шаг в любом процессе работы с данными — это получение данных. Для этого мы будем использовать библиотеку `requests`:\n"
"Первым шагом в любом процессе анализа данных является получение данных. Для этого мы будем использовать библиотеку `requests`:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Шаг 2: Преобразование данных\n",
"\n",
"Следующий шаг — преобразовать данные в форму, подходящую для обработки. В нашем случае мы скачали исходный HTML-код страницы, и нам нужно преобразовать его в обычный текст.\n",
"Следующий шаг — преобразовать данные в подходящую для обработки форму. В нашем случае мы загрузили исходный код HTML страницы и нам нужно преобразовать его в простой текст.\n",
"\n",
"Существует множество способов сделать это. Мы будем использовать самый простой встроенный объект [HTMLParser](https://docs.python.org/3/library/html.parser.html) из Python. Нам нужно создать подкласс класса `HTMLParser` и определить код, который будет собирать весь текст внутри HTML-тегов, за исключением тегов `<script>` и `<style>`.\n"
"Существует много способов сделать это. Мы будем использовать [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), популярную библиотеку Python для парсинга HTML. BeautifulSoup позволяет нам выбирать определённые HTML-элементы, чтобы сосредоточиться на основном содержимом статьи на Википедии и сократить количество элементов навигационного меню, боковых панелей, нижних колонтитулов и другого нерелевантного содержания (хотя некоторый служебный текст всё же может остаться).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Сначала нам нужно установить библиотеку BeautifulSoup для разбора HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -118,9 +116,9 @@
"source": [
"## Шаг 3: Получение инсайтов\n",
"\n",
"Самый важный шаг — преобразовать наши данные в форму, из которой можно извлечь полезные инсайты. В нашем случае мы хотим выделить ключевые слова из текста и определить, какие из них наиболее значимы.\n",
"Самый важный шаг — преобразовать наши данные в форму, из которой мы можем извлечь инсайты. В нашем случае мы хотим извлечь ключевые слова из текста и посмотреть, какие из них более значимы.\n",
"\n",
"Мы будем использовать библиотеку Python под названием [RAKE](https://github.com/aneesha/RAKE) для извлечения ключевых слов. Сначала установим эту библиотеку, если она еще не установлена:\n"
"Мы будем использовать библиотеку Python под названием [RAKE](https://github.com/aneesha/RAKE) для извлечения ключевых слов. Сначала установим эту библиотеку, если она не установлена:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Основная функциональность доступна через объект `Rake`, который мы можем настроить с помощью некоторых параметров. В нашем случае мы установим минимальную длину ключевого слова в 5 символов, минимальную частоту ключевого слова в документе - 3, а максимальное количество слов в ключевом слове - 2. Не стесняйтесь экспериментировать с другими значениями и наблюдать за результатом.\n"
"Основная функциональность доступна через объект `Rake`, который мы можем настраивать с помощью некоторых параметров. В нашем случае мы установим минимальную длину ключевого слова в 5 символов, минимальную частоту ключевого слова в документе равной 3, а максимальное количество слов в ключевом слове — 2. Не стесняйтесь экспериментировать с другими значениями и наблюдать результаты.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Мы получили список терминов вместе сих степенью важности. Как видно, наиболее значимые дисциплины, такие как машинное обучение и большие данные, находятся на верхних позициях списка.\n",
"Мы получили список терминов вместе ссоответствующей степенью важности. Как видите, самые актуальные дисциплины, такие как машинное обучение и большие данные, присутствуют в списке на верхних позициях.\n",
"\n",
"## Шаг 4: Визуализация результата\n",
"\n",
"Люди лучше всего воспринимают данные в визуальной форме. Поэтому часто имеет смысл визуализировать данные, чтобы извлечь некоторые инсайты. Мы можем использовать библиотеку `matplotlib` в Python, чтобы построить простое распределение ключевых слов с их значимостью:\n"
"Люди лучше всего воспринимают данные в визуальной форме. Поэтому часто имеет смысл визуализировать данные, чтобы сделать некоторые выводы. Мы можем использовать библиотеку `matplotlib` в Python для построения простой диаграммы распределения ключевых слов с их релевантностью:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Однако существует еще более лучший способ визуализировать частоту слов - использовать **Облако слов**. Нам потребуется установить еще одну библиотеку, чтобы построить облако слов из нашего списка ключевых слов.\n"
"Однако существует еще лучший способ визуализации частоты слов — с помощью **облака слов**. Нам потребуется установить другую библиотеку, чтобы построить облако слов из нашего списка ключевых слов.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`Объект WordCloud отвечает за прием либо исходного текста, либо заранее вычисленного списка слов с их частотами, и возвращает изображение, которое затем можно отобразить с помощью matplotlib:`\n"
"Объект `WordCloud` отвечает за прием либо исходного текста, либо предварительно вычисленного списка слов с их частотами, и возвращает изображение, которое затем можно отобразить с помощью `matplotlib`:\n"
],
"metadata": {}
},
@ -490,9 +488,9 @@
{
"cell_type": "markdown",
"source": [
"Вы можете заметить, что облако слов теперь выглядит более впечатляющим, но оно также содержит много шума (например, несвязанные слова, такие как `Retrieved on`). Кроме того, мы получаем меньше ключевых слов, состоящих из двух слов, таких как *data scientist* или *computer science*. Это связано с тем, что алгоритм RAKE гораздо лучше справляется с выбором подходящих ключевых слов из текста. Этот пример подчеркивает важность предварительной обработки и очистки данных, так как четкая картина в итоге позволит нам принимать более обоснованные решения.\n",
"Вы можете видеть, что облако слов теперь выглядит более впечатляюще, но оно также содержит много шума (например, нерелевантные слова, такие как `Retrieved on`). Кроме того, у нас получается меньше ключевых слов, состоящих из двух слов, таких как *data scientist* или *computer science*. Это связано с тем, что алгоритм RAKE гораздо лучше справляется с выбором хороших ключевых слов из текста. Этот пример иллюстрирует важность предварительной обработки и очистки данных, поскольку четкая картина в конце позволит принимать лучшие решения.\n",
"\n",
"В этом упражнении мы прошли простой процесс извлечения смысла из текста Википедии в виде ключевых слов и облака слов. Этот пример довольно прост, но он хорошо демонстрирует все типичные шаги, которые выполняет специалист по данным при работе с данными, начиная сих получения и заканчивая визуализацией.\n",
"В этом упражнении мы прошли через простой процесс извлечения смысла из текста Википедии в форме ключевых слов и облака слов. Этот пример довольно простой, но он хорошо демонстрирует все типичные шаги, которые выполнит дата-сайентист при работе с данными, начиная с получения данных и заканчивая визуализацией.\n",
"\n",
"В нашем курсе мы подробно обсудим все эти шаги.\n"
],
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Отказ от ответственности**: \nЭтот документ был переведен с использованием сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Несмотря на наши усилия обеспечить точность, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные интерпретации, возникшие в результате использования данного перевода.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Отказ от ответственности**: \nЭтот документ был переведен с использованием автоматического сервиса перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Несмотря на наши усилия обеспечить точность, имейте в виду, что автоматический перевод может содержать ошибки или неточности. Оригинальный документ на языке оригинала должен рассматриваться как авторитетный источник. Для критически важной информации рекомендуется воспользоваться профессиональным переводом, выполненным человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
Статистика и теория вероятностей — это две тесно связанные области математики, которые имеют большое значение для анализа данных. Можно работать с данными без глубоких знаний математики, но лучше знать хотя бы основные концепции. Здесь мы представим краткое введение, которое поможет вам начать.
## [Тест перед лекцией](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@
Мы можем говорить только о вероятности того, что переменная попадёт в заданный интервал значений, например P(t<sub>1</sub>≤X<t<sub>2</sub>). В этом случае распределение вероятностей описывается **функцией плотности вероятности** p(x), такой, что
Непрерывный аналог равномерного распределения называется **непрерывным равномерным**, который определяется на конечном интервале. Вероятность того, что значение X попадёт в интервал длиной l, пропорциональна l и достигает 1.
@ -73,11 +73,11 @@
Вот боксплот, показывающий среднее, медиану и квартили для наших данных:
Поскольку наши данные содержат информацию о разных **ролях** игроков, мы также можем построить боксплот по ролям — это позволит нам понять, как значения параметров различаются в зависимости от ролей. На этот раз мы рассмотрим рост:


Эта диаграмма показывает, что, в среднем, рост игроков первой базы выше, чем рост игроков второй базы. Позже в этом уроке мы узнаем, как можно более формально проверить эту гипотезу и как продемонстрировать, что наши данные статистически значимы для её подтверждения.
@ -85,7 +85,7 @@
Чтобы увидеть, как распределены наши данные, мы можем построить график, называемый **гистограммой**. Ось X будет содержать количество различных интервалов веса (так называемых **бинов**), а вертикальная ось будет показывать количество раз, когда выборка случайной переменной попадала в данный интервал.


Из этой гистограммы видно, что все значения сосредоточены вокруг определённого среднего веса, и чем дальше мы отходим от этого веса, тем реже встречаются веса такого значения. То есть, вероятность того, что вес бейсболиста будет сильно отличаться от среднего веса, очень мала. Дисперсия весов показывает степень, в которой веса могут отличаться от среднего.
Если мы построим гистограмму сгенерированных выборок, мы увидим картину, очень похожую на ту, что показана выше. А если мы увеличим количество выборок и количество бинов, мы сможем получить изображение нормального распределения, которое будет ближе к идеальному:


*Нормальное распределение со средним=0 и стандартным отклонением=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
В нашем случае значение 0.53 указывает на то, что существует некоторая корреляция между весом и ростом человека. Мы также можем построить диаграмму рассеяния одного значения против другого, чтобы визуально увидеть связь:


> Больше примеров корреляции и ковариации можно найти в [сопроводительном ноутбуке](notebook.ipynb).


> Фото сделано <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Стивеном Доусоном</a> на <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
В этих уроках вы узнаете, как определяется наука о данных, а также познакомитесь с этическими аспектами, которые должен учитывать специалист по данным. Вы также узнаете, что такое данные, и получите общее представление о статистике и теории вероятностей — ключевых академических областях науки о данных.
Хотя базы данных предоставляют очень эффективные способы хранения данных и их запросов с использованием языков запросов, наиболее гибким способом обработки данных является написание собственной программы для их манипуляции. Во многих случаях запрос к базе данных будет более эффективным. Однако в некоторых случаях, когда требуется более сложная обработка данных, это не так просто сделать с помощью SQL.
Обработка данных может быть запрограммирована на любом языке программирования, но существуют языки, которые считаются более высокоуровневыми для работы с данными. Специалисты по данным обычно предпочитают один из следующих языков:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
Теперь предположим, что каждую неделю мы устраиваем вечеринку для друзей и берем дополнительно 10 упаковок мороженого для вечеринки. Мы можем создать еще один Series, индексированный по неделям, чтобы это показать:
> **Примечание**: Мы не используем простую запись `total_items+additional_items`. Если бы мы это сделали, то получили бы много значений `NaN` (*Not a Number*) в результирующем Series. Это происходит из-за отсутствующих значений для некоторых точек индекса в Series `additional_items`, а сложение `NaN`с чем-либо дает `NaN`. Поэтому необходимо указать параметр `fill_value` при сложении.
@ -84,7 +84,7 @@ total_items.plot()
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```


### DataFrame
@ -210,7 +210,7 @@ df = pd.read_csv('file.csv')
Поскольку мы хотим продемонстрировать, как работать с данными, мы приглашаем вас открыть [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) и прочитать его от начала до конца. Вы также можете выполнить ячейки и выполнить задания, которые мы оставили для вас в конце.
> Если вы не знаете, как запускать код в Jupyter Notebook, ознакомьтесь с [этой статьей](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ df = pd.read_csv('file.csv')
Откройте [`notebook-papers.ipynb`](notebook-papers.ipynb) и прочитайте его от начала до конца. Вы также можете выполнить ячейки и выполнить задания, которые мы оставили для вас в конце.


> Фото <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Александра Синна</a> на <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
В этих уроках вы узнаете о различных способах управления, обработки и использования данных в приложениях. Вы познакомитесь с реляционными и нереляционными базами данных и узнаете, как данные могут храниться в них. Вы изучите основы работы с Python для управления данными и откроете для себя множество способов использования Python для обработки и анализа данных.
Теперь покажите те же данные с цветовой схемой, напоминающей цвет мёда, чтобы отобразить, как цена меняется год за годом. Вы можете сделать это, добавив параметр 'hue', чтобы показать изменения:
С изменением цветовой схемы становится очевидным, что цена за фунт мёда значительно увеличивается с годами. Если вы проверите это на выборке данных (например, выберите штат Аризона), вы увидите закономерность роста цен год за годом, за редкими исключениями:
Это простой случай спроса и предложения? Из-за таких факторов, как изменение климата и разрушение колоний, становится ли мёда меньше с каждым годом, что приводит к росту цен?
✅ Поскольку Seaborn агрегирует данные в одну линию, он отображает "несколько измерений для каждого значения x, строя среднее значение и 95% доверительный интервал вокруг среднего". [Источник](https://seaborn.pydata.org/tutorial/relational.html). Это трудоёмкое поведение можно отключить, добавив `ci=None`.
Ответ: Не совсем. Если посмотреть на общий объём производства, он, наоборот, кажется увеличившимся в этот год, хотя в целом объём производства мёда снижается в течение этих лет.
@ -130,7 +130,7 @@ sns.relplot(
```
В этой визуализации вы можете сравнить урожайность на колонию и количество колоний год за годом, рядом друг с другом, с wrap, установленным на 3 для столбцов:
Для этого набора данных ничего особенно не выделяется в отношении количества колоний и их урожайности год за годом и штат за штатом. Есть ли другой способ найти корреляцию между этими двумя переменными?
Хотя ничего явно не выделяется около 2003 года, это позволяет завершить урок на более позитивной ноте: несмотря на общее снижение количества колоний, их число стабилизируется, даже если урожайность на колонию уменьшается.
Здесь вы устанавливаете пакет `ggplot2`, а затем импортируете его в рабочую область с помощью команды `library("ggplot2")`. Для построения любого графика в ggplot используется функция `ggplot()`, где вы указываете набор данных, переменные x и y в качестве атрибутов. В данном случае мы используем функцию `geom_line()`, так как хотим построить линейный график.
Что вы замечаете сразу? Кажется, есть как минимум один выброс — это впечатляющий размах крыльев! Размах крыльев более 2000 сантиметров равен более чем 20 метрам — неужели в Миннесоте летают птеродактили? Давайте разберемся.
Даже с поворотом подписей на 45 градусов их слишком много, чтобы прочитать. Попробуем другой подход: подпишем только выбросы и разместим подписи внутри графика. Вы можете использовать точечный график, чтобы освободить место для подписей:
В следующем фрагменте мы устанавливаем пакеты [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) и [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0), чтобы помочь манипулировать и группировать данные для построения составной столбчатой диаграммы. Сначала вы группируете данные по `Category` птиц, а затем суммируете столбцы `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Затем строите столбчатую диаграмму с помощью пакета `ggplot2`, указывая цвета для разных категорий и подписи.


Эта столбчатая диаграмма, однако, нечитаема из-за слишком большого количества негруппированных данных. Вам нужно выбрать только те данные, которые вы хотите отобразить, поэтому давайте посмотрим на длину птиц в зависимости от их категории.
Сначала вы подсчитываете уникальные значения в столбце `Category`, а затем сортируете их в новый датафрейм `birds_count`. Эти отсортированные данные затем учитываются на том же уровне, чтобы они были построены в отсортированном порядке. Используя `ggplot2`, вы затем строите данные в виде столбчатой диаграммы. Функция `coord_flip()` строит горизонтальные столбцы.
Эта столбчатая диаграмма дает хороший обзор количества птиц в каждой категории. С первого взгляда видно, что наибольшее количество птиц в этом регионе относится к категории Утки/Гуси/Водоплавающие. Миннесота — это "земля 10,000 озер", так что это неудивительно!


Это дает обзор общего распределения длины тела по отрядам птиц, но это не оптимальный способ отображения истинных распределений. Для этой задачи обычно создается гистограмма.


Как видно, большинство из 400+ птиц в этом наборе данных имеют Max Body Mass менее 2000. Получите больше информации о данных, изменив параметр `bins` на большее число, например, 30:
Эта диаграмма показывает распределение в более детализированном виде. Менее смещенную влево диаграмму можно создать, выбрав данные только в заданном диапазоне:
✅ Попробуйте другие фильтры и точки данных. Чтобы увидеть полное распределение данных, удалите фильтр `['MaxBodyMass']`, чтобы показать распределения с метками.


Не кажется, что существует хорошая корреляция между минимальным размахом крыльев и статусом сохранности. Проверьте другие элементы набора данных, используя этот метод. Вы можете попробовать разные фильтры. Найдете ли вы какую-либо корреляцию?
Вы можете увидеть, как график повторяет предыдущий для данных о минимальном размахе крыльев; он просто немного более плавный. Если вы захотите вернуться к той зубчатой линии MaxBodyMass на втором графике, который вы построили, вы сможете сгладить ее, используя этот метод:


✅ Прочитайте о доступных параметрах для этого типа графика и экспериментируйте!
Вуаля, круговая диаграмма, показывающая пропорции данных в соответствии с двумя классами грибов. Очень важно правильно указать порядок меток, особенно здесь, поэтому обязательно проверьте порядок, в котором создается массив меток!
С помощью вафельной диаграммы вы можете четко увидеть пропорции цветов шляпок грибов в этом наборе данных. Интересно, что есть много грибов с зелеными шляпками!
В этом уроке вы узнали три способа визуализации пропорций. Сначала нужно сгруппировать данные в категории, а затем решить, какой способ отображения данных — круг, пончик или вафля — подходит лучше всего. Все они аппетитны и дают пользователю мгновенное представление о наборе данных.
Теперь покажите те же данные с цветовой схемой, напоминающей цвет мёда, чтобы отобразить, как цена меняется год за годом. Вы можете сделать это, добавив параметр 'scale_color_gradientn', чтобы показать изменения:
С изменением цветовой схемы становится очевидным, что цена за фунт мёда значительно увеличивается с течением времени. Если вы проверите выборку данных (например, для штата Аризона), вы увидите закономерность увеличения цен год за годом, с редкими исключениями:
Это простой случай спроса и предложения? Из-за таких факторов, как изменение климата и разрушение колоний, становится ли мёда меньше с каждым годом, что приводит к увеличению цены?
Ответ: Не совсем. Если посмотреть на общий объём производства, он, наоборот, кажется увеличившимся в этот год, хотя в целом объём производства мёда снижается в течение этих лет.
Для этого набора данных ничего особенно не выделяется в отношении количества колоний и их урожайности год за годом и штат за штатом. Можно ли найти другой способ выявить корреляцию между этими двумя переменными?
Хотя ничего явно не выделяется около 2003 года, это позволяет завершить урок на более позитивной ноте: несмотря на общее снижение количества колоний, их число стабилизируется, даже если урожайность на одну колонию уменьшается.
Даже если дата-сайентист тщательно выбирает подходящую диаграмму для данных, существует множество способов представить данные так, чтобы доказать определенную точку зрения, часто в ущерб самим данным. Существует множество примеров обманчивых диаграмм и инфографики!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Как диаграммы вводят в заблуждение")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Как диаграммы вводят в заблуждение")
> 🎥 Нажмите на изображение выше, чтобы посмотреть доклад о вводящих в заблуждение диаграммах
Эта диаграмма переворачивает ось X, чтобы показать противоположное истине, основываясь на дате:
[Эта диаграмма](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) еще более обманчива, так как взгляд автоматически устремляется вправо, чтобы сделать вывод, что со временем случаи COVID сократились в различных округах. Однако, если внимательно посмотреть на даты, можно заметить, что они были переставлены, чтобы создать ложное впечатление нисходящего тренда.
Этот печально известный пример использует цвет И перевернутую ось Y, чтобы ввести в заблуждение: вместо вывода о том, что количество смертей от огнестрельного оружия возросло после принятия закона, благоприятного для оружия, взгляд обманчиво воспринимает противоположное:
Сравнение несравнимого — еще один сомнительный прием. Существует [замечательный веб-сайт](https://tylervigen.com/spurious-correlations), посвященный "ложным корреляциям", где представлены "факты", связывающие, например, уровень разводов в штате Мэн и потребление маргарина. На Reddit также есть группа, собирающая [некрасивые примеры](https://www.reddit.com/r/dataisugly/top/?t=all) использования данных.
@ -91,13 +91,13 @@
Если ваши данные текстовые и содержат длинные подписи на оси X, вы можете наклонить текст для улучшения читаемости. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) предлагает 3D-графики, если ваши данные это поддерживают. Сего помощью можно создавать сложные визуализации данных.
Некоторые из лучших визуализаций данных сегодня являются анимационными. Ширли Ву создала потрясающие примеры с использованием D3, такие как '[цветы фильмов](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', где каждый цветок представляет собой визуализацию фильма. Другой пример для Guardian — 'Bussed Out', интерактивный проект, сочетающий визуализации с Greensock и D3, а также формат статьи с прокруткой, чтобы показать, как Нью-Йорк решает проблему бездомных, отправляя их за пределы города.
> "Bussed Out: Как Америка перемещает своих бездомных" от [The Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Визуализации Надии Бремер и Ширли Ву
@ -107,7 +107,7 @@
Вы завершите веб-приложение, которое будет отображать анимированный вид этой социальной сети. Оно использует библиотеку, созданную для [визуализации сети](https://github.com/emiliorizzo/vue-d3-network) с использованием Vue.js и D3. Когда приложение запущено, вы можете перемещать узлы на экране, чтобы изменять расположение данных.


> Фото от <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> на <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Визуализация данных — одна из самых важных задач для специалиста по данным. Изображения говорят больше, чем тысяча слов, а визуализация может помочь вам выявить множество интересных аспектов ваших данных, таких как пики, выбросы, группировки, тенденции и многое другое, что поможет вам понять историю, которую ваши данные пытаются рассказать.
Этот урок сосредоточен на трех частях жизненного цикла: сборе данных, обработке и поддержке.


> Фото от [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Сбор данных
@ -92,7 +92,7 @@
|Процесс Team Data Science (TDSP)|Стандартный процесс для анализа данных в различных отраслях (CRISP-DM)|
|--|--|
| |  |
| |  |
| Изображение от [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Изображение от [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Тест после лекции](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> Фото от <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> на <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
В этих уроках вы изучите некоторые аспекты жизненного цикла Data Science, включая анализ и коммуникацию, связанные с данными.
> Фото [Jelleke Vanooteghem](https://unsplash.com/@ilumire) с [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Когда речь идет о работе с большими данными в области науки о данных, облако может стать настоящим прорывом. В следующих трех уроках мы узнаем, что такое облако и почему оно может быть очень полезным. Мы также изучим набор данных о сердечной недостаточности и создадим модель, которая поможет оценить вероятность сердечной недостаточности у человека. Мы будем использовать возможности облака для обучения, развертывания и использования модели двумя различными способами. Один способ — используя только пользовательский интерфейс в стиле Low code/No code, другой — с помощью набора инструментов разработчика Azure Machine Learning (Azure ML SDK).
* [Наука о данных в здравоохранении](https://data-flair.training/blogs/data-science-in-healthcare/) - выделяет такие приложения, как медицинская визуализация (например, МРТ, рентген, КТ-сканирование), геномика (секвенирование ДНК), разработка лекарств (оценка рисков, прогнозирование успеха), предиктивная аналитика (уход за пациентами и логистика поставок), отслеживание и предотвращение заболеваний и т.д.
 Источник изображения: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Источник изображения: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
На рисунке показаны другие области и примеры применения методов науки о данных. Хотите изучить другие приложения? Ознакомьтесь с разделом [Обзор и самостоятельное изучение](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) ниже.
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
[](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
[](https://aka.ms/foundry/forum)
Адвокаты Azure Cloud в Microsoft рады предложить 10-недельную учебную программу из 20 уроков, посвящённую Data Science. Каждый урок включает в себя викторины до и после урока, письменные инструкции по выполнению, решение и задание. Наша проектно-ориентированная методика позволяет учиться, создавая проекты, что доказало свою эффективность в закреплении новых навыков.
Azure Cloud Advocates в Microsoft рады предложить 10-недельную программу из 20 уроков полностью посвящённую Data Science. Каждый урок включает викторины до и после урока, письменные инструкции для выполнения урока, решение и задание. Наш проектно-ориентированный подход позволяет учиться, одновременно создавая проекты — доказанный способ лучше усваивать новые навыки.
> Этот репозиторий содержит более 50 переводов, что значительно увеличивает размер загрузки. Чтобы клонировать без переводов, используйте sparse checkout:
> **Предпочитаете клонировать локально?**
>
> В этом репозитории есть более 50 языковых переводов, что значительно увеличивает размер скачивания. Чтобы клонировать без переводов, используйте sparse checkout:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Это даст вам всё, что нужно для прохождения курса с гораздо более быстрой загрузкой.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Если вы хотите добавить поддержку других языков, см. список [здесь](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Если вы хотите, чтобы дополнительные языки переводов были поддержаны, они перечислены [здесь](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
У нас проходит серия по обучению с AI в Discord, узнайте больше и присоединяйтесь на [Learn with AI Series](https://aka.ms/learnwithai/discord) с 18 по 30 сентября 2025 года. Вы получите советы и рекомендации по использованию GitHub Copilot для Data Science.
У нас продолжается серия занятий в Discord с обучением с помощью ИИ, узнайте больше и присоединяйтесь к нам на [Learn with AI Series](https://aka.ms/learnwithai/discord) с 18 по 30 сентября 2025 года. Вы получите советы и хитрости по использованию GitHub Copilot для Data Science.

@ -59,194 +69,195 @@
Начните с следующих ресурсов:
- [Страница Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) На этой странице вы найдёте материалы для начинающих, студенческие наборы и даже способы получить бесплатный ваучер на сертификацию. Это страница, которую стоит добавить в закладки и периодически проверять, так как контент обновляется как минимум раз в месяц.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Присоединяйтесь к глобальному сообществу студенческих амбассадоров — это может стать вашим путём в Microsoft.
- [Страница Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) На этой странице вы найдете ресурсы для начинающих, студенческие наборы и даже способы получить бесплатный сертификат. Это страница, которую стоит добавить в закладки и время от времени проверять, поскольку мы обновляем контент как минимум раз в месяц.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Присоединяйтесь к глобальному сообществу студенческих амбассадоров, это может стать вашим путём в Microsoft.
# Начало работы
## 📚 Документация
- **[Руководство по установке](INSTALLATION.md)** — Поэтапные инструкции по настройке для начинающих
- **[Руководство по использованию](USAGE.md)** — Примеры и распространённые сценарии работы
- **[Руководство по устранению неполадок](TROUBLESHOOTING.md)** — Решения типичных проблем
- **[Руководство по участию](CONTRIBUTING.md)** — Как внести вклад в этот проект
- **[Для преподавателей](for-teachers.md)** — Методические рекомендации и материалы для занятий
- **[Руководство по установке](INSTALLATION.md)** - Пошаговые инструкции по настройке для начинающих
- **[Руководство по использованию](USAGE.md)** - Примеры и распространённые сценарии работы
- **[Устранение неисправностей](TROUBLESHOOTING.md)** - Решения распространённых проблем
- **[Руководство по внесению вклада](CONTRIBUTING.md)** - Как внести вклад в этот проект
- **[Для преподавателей](for-teachers.md)** - Методические указания и материалы для занятий
## 👨🎓 Для студентов
> **Совершенно новые пользователи**: новичок в data science? Начните с наших [простых примеров для начинающих](examples/README.md)! Эти простые и хорошо прокомментированные примеры помогут понять основы, прежде чем перейти к полной программе.
> **[Студенты](https://aka.ms/student-page)**: чтобы использовать эту программу самостоятельно, создайте форк всего репозитория и выполняйте упражнения самостоятельно, начиная с викторины перед лекцией. Затем прочитайте лекцию и выполните остальные задания. Старайтесь создавать проекты, осмысленно усваивая уроки, а не просто копируя код решений; однако код решений доступен в папках /solutions каждого проектно-ориентированного урока. Другой вариант — собрать учебную группу с друзьями и изучать материал вместе. Для дальнейшего обучения рекомендуем [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Полные новички**: Новички в Data Science? Начните с наших [примеров для начинающих](examples/README.md)! Эти простые, хорошо прокомментированные примеры помогут вам разобраться с основами перед изучением всей программы.
> **[Студенты](https://aka.ms/student-page)**: чтобы использовать эту программу самостоятельно, форкните весь репозиторий и выполняйте упражнения самостоятельно, начиная с викторины до лекции. Затем прочитайте лекцию и выполните остальные задания. Старайтесь создавать проекты, понимая уроки, а не просто копируя решения; однако код решений доступен в папках /solutions для каждого урока с проектами. Ещё одна идея — сформировать учебную группу с друзьями и проходить материал вместе. Для дополнительного обучения рекомендуем [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Быстрый старт:**
1. Ознакомьтесь с [Руководством по установке](INSTALLATION.md) для настройки среды
2. Изучите [Руководство по использованию](USAGE.md), чтобы узнать, как работатьс программой
2. Изучите [Руководство по использованию](USAGE.md), чтобы понять работус программой
3. Начинайте с урока 1 и проходите последовательно
4. Присоединяйтесь к нашему [Discord-сообществу](https://aka.ms/ds4beginners/discord) за поддержкой
4. Присоединяйтесь к нашему [сообществу Discord](https://aka.ms/ds4beginners/discord) для поддержки
## 👩🏫 Для преподавателей
> **Преподаватели**: мы включили [некоторые рекомендации](for-teachers.md) по использованию этой учебной программы. Будем рады вашим отзывам [в нашем форуме для обсуждений](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Преподаватели**: мы [включили некоторые рекомендации](for-teachers.md) по использованию этой программы. Будем рады вашим отзывам [в нашем форуме обсуждений](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> 🎥 Нажмите на изображение выше, чтобы посмотреть видео о проекте и людях, которые его создали!
> 🎥 Нажмите на изображение выше для просмотра видео о проекте и людях, которые его создали!
## Педагогика
Мы выбрали два педагогических принципа при создании этой учебной программы: обеспечение проектной направленности и включение частых викторин. К концу этой серии студенты узнают основные принципы науки о данных, включая этические концепции, подготовку данных, различные способы работы с данными, визуализацию данных, анализ данных, реальные случаи использования науки о данных и многое другое.
Мы выбрали два педагогических принципа при создании этой учебной программы: сделать её проектно-ориентированной и включить частые викторины. К концу серии студенты изучат основные принципы науки о данных, включая этические концепции, подготовку данных, различные способы работы с данными, визуализацию данных, анализ данных, реальные случаи применения науки о данных и многое другое.
Кроме того, викторина с низкой ставкой перед занятием задаёт намерение студента на изучение темы, а вторая викторина после занятия обеспечивает лучшее закрепление материала. Эта учебная программа была разработана так, чтобы быть гибкой и интересной, и её можно проходить полностью или частично. Проекты начинаются с простых и становятся всё более сложными к концу 10-недельного цикла.
Кроме того, викторина с низкой степенью сложности перед занятием задаёт настрой студента на изучение темы, а вторая викторина после занятия помогает закрепить материал. Эта учебная программа разработана, чтобы быть гибкой и увлекательной, её можно пройти целиком или частично. Проекты начинаются с простых и становятся всё более сложными к концу 10-недельного цикла.
> Ознакомьтесь с нашим [Кодексом поведения](CODE_OF_CONDUCT.md), [правилами участия](CONTRIBUTING.md), [переводческими](TRANSLATIONS.md) рекомендациями. Мы приветствуем ваши конструктивные отзывы!
> Посмотрите наши [Правила поведения](CODE_OF_CONDUCT.md), [Правила внесения изменений](CONTRIBUTING.md), [Руководство по переводу](TRANSLATIONS.md). Мы приветствуем ваши конструктивные отзывы!
## Каждое занятие включает:
## В каждом уроке есть:
- Опциональную скетчноут
- Опциональная зарисовка
- Опциональное дополнительное видео
- Разминку-викторину перед занятием
- Письменный урок
- Для проектных уроков — пошаговые руководства по созданию проекта
- Разминка-викторина перед уроком
- Текст урока
- Для проектно-ориентированных уроков — пошаговые инструкции по созданию проекта
- Проверки знаний
- Задание
- Задание вызова
- Дополнительное чтение
- [Викторину после урока](https://ff-quizzes.netlify.app/en/)
- Домашнее задание
- [Викторина после урока](https://ff-quizzes.netlify.app/en/)
> **Примечание о викторинах**: Все викторины находятся в папке Quiz-App, всего 40 викторин по три вопроса каждая. Они связаны из уроков, но приложение викторин можно запускать локально или размещать в Azure; следуйте инструкциям в папке `quiz-app`. Они постепенно локализуются.
> **Примечание о викторинах**: Все викторины находятся в папке Quiz-App, всего 40 викторин по три вопроса каждая. Они связаны из уроков, но приложение викторин можно запускать локально или развернуть в Azure; следуйте инструкциям в папке `quiz-app`. Они постепенно локализуются.
## 🎓 Примеры для начинающих
**Новички в науке о данных?** Мы создали специальный [каталог примеров](examples/README.md) с простым, хорошо прокомментированным кодом, чтобы помочь вам начать:
**Новый в науке о данных?** Мы создали специальный [каталог с примерами](examples/README.md) с простым, хорошо комментированным кодом, чтобы помочь вам начать:
- 🌟 **Hello World** — ваша первая программа по науке о данных
- 📂 **Загрузка данных** — научитесь читать и исследовать наборы данных
- 📊 **Простой анализ** — вычисляйте статистику и находите закономерности
- 📈 **Базовая визуализация** — создавайте диаграммы и графики
- 🔬 **Реальный проект** — полный рабочий процесс от начала до конца
- 🌟 **Hello World** — Ваша первая программа по науке о данных
- 📂 **Загрузка данных** — Учитесь читать и исследовать наборы данных
- 📊 **Простой анализ** — Рассчитывайте статистику и находите закономерности
- 📈 **Базовая визуализация** — Создавайте диаграммы и графики
- 🔬 **Реальный проект** — Полный рабочий процесс от начала до конца
Каждый пример включает подробные комментарии, объясняющие каждый шаг, что идеально подходит для абсолютных новичков!
Каждый пример содержит подробные комментарии, объясняющие каждый шаг, что идеально подходит для абсолютных начинающих!
👉 **[Начните с примеров](examples/README.md)** 👈
## Уроки
||
||
|:---:|
| Наука о данных для начинающих: Дорожная карта - _Скетчноут от [@nitya](https://twitter.com/nitya)_ |
| Наука о данных для начинающих: план - _Зарисовка от [@nitya](https://twitter.com/nitya)_ |
| Номер урока | Тема | Группа уроков | Цели обучения | Связанный урок | Автор |
| 01 | Определение науки о данных | [Введение](1-Introduction/README.md) | Изучить основные концепции науки о данных и её связис искусственным интеллектом, машинным обучением и большими данными. | [урок](1-Introduction/01-defining-data-science/README.md) [видео](https://youtu.be/beZ7Mb_oz9I) | [Дмитрий](http://soshnikov.com) |
| 02 | Этика в науке о данных | [Введение](1-Introduction/README.md) | Концепции этики данных, вызовы и рамочные подходы. | [урок](1-Introduction/02-ethics/README.md) | [Нития](https://twitter.com/nitya) |
| 03 | Определение данных | [Введение](1-Introduction/README.md) | Как классифицируются данные и их распространённые источники. | [урок](1-Introduction/03-defining-data/README.md) | [Жасмин](https://www.twitter.com/paladique) |
| 01 | Определение науки о данных | [Введение](1-Introduction/README.md) | Изучить базовые концепции науки о данных и её связьс искусственным интеллектом, машинным обучением и большими данными. | [урок](1-Introduction/01-defining-data-science/README.md) [видео](https://youtu.be/beZ7Mb_oz9I) | [Дмитрий](http://soshnikov.com) |
| 02 | Этика в науке о данных | [Введение](1-Introduction/README.md) | Концепции этики данных, вызовы и рамки. | [урок](1-Introduction/02-ethics/README.md) | [Нитья](https://twitter.com/nitya) |
| 03 | Определение данных | [Введение](1-Introduction/README.md) | Как классифицируются данные и их основные источники. | [урок](1-Introduction/03-defining-data/README.md) | [Жасмин](https://www.twitter.com/paladique) |
| 04 | Введение в статистику и вероятность | [Введение](1-Introduction/README.md) | Математические методы вероятности и статистики для понимания данных. | [урок](1-Introduction/04-stats-and-probability/README.md) [видео](https://youtu.be/Z5Zy85g4Yjw) | [Дмитрий](http://soshnikov.com) |
| 05 | Работа с реляционными данными | [Работа с данными](2-Working-With-Data/README.md) | Введение в реляционные данные и основы изучения и анализа реляционных данных с помощью языка структурированных запросов SQL (произносится «си-квел»). | [урок](2-Working-With-Data/05-relational-databases/README.md) | [Кристофер](https://www.twitter.com/geektrainer) | | |
| 06 | Работа с NoSQL данными | [Работа с данными](2-Working-With-Data/README.md) | Введение в нереляционные данные, их типы и основы изучения и анализа документных баз данных. | [урок](2-Working-With-Data/06-non-relational/README.md) | [Жасмин](https://twitter.com/paladique)|
| 07 | Работа с Python | [Работа с данными](2-Working-With-Data/README.md) | Основы использования Python для исследования данных с библиотеками, такими как Pandas. Рекомендуются базовые знания Python. | [урок](2-Working-With-Data/07-python/README.md) [видео](https://youtu.be/dZjWOGbsN4Y) | [Дмитрий](http://soshnikov.com) |
| 08 | Подготовка данных | [Работа с данными](2-Working-With-Data/README.md) | Темы по очистке и преобразованию данных для решения проблем с отсутствующими, неточными или неполными данными. | [урок](2-Working-With-Data/08-data-preparation/README.md) | [Жасмин](https://www.twitter.com/paladique) |
| 09 | Визуализация количеств | [Визуализация данных](3-Data-Visualization/README.md) | Изучите использование Matplotlib для визуализации данных о птицах 🦆 | [урок](3-Data-Visualization/09-visualization-quantities/README.md) | [Джен](https://twitter.com/jenlooper) |
| 10 | Визуализация распределения данных | [Визуализация данных](3-Data-Visualization/README.md) | Визуализация наблюдений и тенденций в интервале. | [урок](3-Data-Visualization/10-visualization-distributions/README.md) | [Джен](https://twitter.com/jenlooper) |
| 05 | Работа с реляционными данными | [Работа с данными](2-Working-With-Data/README.md) | Введение в реляционные данные и основы исследования и анализа реляционных данных с помощью языка структурированных запросов, известного как SQL (произносится «си-кью-эл»). | [урок](2-Working-With-Data/05-relational-databases/README.md) | [Кристофер](https://www.twitter.com/geektrainer) | | |
| 06 | Работа с NoSQL данными | [Работа с данными](2-Working-With-Data/README.md) | Введение в нереляционные данные, их различные типы и основы исследования и анализа документальных баз данных. | [урок](2-Working-With-Data/06-non-relational/README.md) | [Жасмин](https://twitter.com/paladique)|
| 07 | Работа с Python | [Работа с данными](2-Working-With-Data/README.md) | Основы использования Python для исследования данных с библиотеками, такими как Pandas. Рекомендуется базовое понимание программирования на Python. | [урок](2-Working-With-Data/07-python/README.md) [видео](https://youtu.be/dZjWOGbsN4Y) | [Дмитрий](http://soshnikov.com) |
| 08 | Подготовка данных | [Работа с данными](2-Working-With-Data/README.md) | Темы, касающиеся техник очистки и преобразования данных для решения проблем с отсутствующими, неточными или неполными данными. | [урок](2-Working-With-Data/08-data-preparation/README.md) | [Жасмин](https://www.twitter.com/paladique) |
| 09 | Визуализация количеств | [Визуализация данных](3-Data-Visualization/README.md) | Изучите, как использовать Matplotlib для визуализации данных о птицах 🦆 | [урок](3-Data-Visualization/09-visualization-quantities/README.md) | [Джен](https://twitter.com/jenlooper) |
| 10 | Визуализация распределений данных | [Визуализация данных](3-Data-Visualization/README.md) | Визуализация наблюдений и тенденций в интервале. | [урок](3-Data-Visualization/10-visualization-distributions/README.md) | [Джен](https://twitter.com/jenlooper) |
| 12 | Визуализация связей | [Визуализация данных](3-Data-Visualization/README.md) | Визуализация связей и корреляций между наборами данных и их переменными. | [урок](3-Data-Visualization/12-visualization-relationships/README.md) | [Джен](https://twitter.com/jenlooper) |
| 13 | Значимые визуализации | [Визуализация данных](3-Data-Visualization/README.md) | Приёмы и рекомендации для создания ценных визуализаций для эффективного решения задач и получения инсайтов. | [урок](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Джен](https://twitter.com/jenlooper) |
| 14 | Введение в жизненный цикл науки о данных | [Жизненный цикл](4-Data-Science-Lifecycle/README.md) | Введение в жизненный цикл науки о данных и его первый этап — получение и извлечение данных. | [урок](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Жасмин](https://twitter.com/paladique) |
| 15 | Анализ | [Жизненный цикл](4-Data-Science-Lifecycle/README.md) | Этот этап жизненного цикла науки о данных фокусируется на техниках анализа данных. | [урок](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Жасмин](https://twitter.com/paladique) | | |
| 16 | Коммуникация | [Жизненный цикл](4-Data-Science-Lifecycle/README.md) | Этот этап жизненного цикла науки о данных фокусируется на представлении инсайтов из данных так, чтобы решениям было легче их понять. | [урок](4-Data-Science-Lifecycle/16-communication/README.md) | [Джейлен](https://twitter.com/JalenMcG) | | |
| 17 | Наука о данных в облаке | [Облачные данные](5-Data-Science-In-Cloud/README.md) | Эта серия уроков знакомит с наукой о данных в облаке и её преимуществами. | [урок](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Тиффани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 18 | Наука о данных в облаке | [Облачные данные](5-Data-Science-In-Cloud/README.md) | Обучение моделей с использованием Low Code инструментов. |[урок](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Тиффани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 19 | Наука о данных в облаке | [Облачные данные](5-Data-Science-In-Cloud/README.md) | Развёртывание моделей с помощью Azure Machine Learning Studio. | [урок](5-Data-Science-In-Cloud/19-Azure/README.md)| [Тиффани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 20 | Наука о данных в реальной жизни | [В реальной жизни](6-Data-Science-In-Wild/README.md) | Проекты по науке о данных в реальном мире. | [урок](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Нития](https://twitter.com/nitya) |
| 13 | Значимые визуализации | [Визуализация данных](3-Data-Visualization/README.md) | Техники и рекомендации для создания визуализаций, которые ценны для эффективного решения задач и получения инсайтов. | [урок](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Джен](https://twitter.com/jenlooper) |
| 14 | Введение в жизненный цикл науки о данных | [Жизненный цикл](4-Data-Science-Lifecycle/README.md) | Введение в жизненный цикл науки о данных и его первый этап — сбор и извлечение данных. | [урок](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Жасмин](https://twitter.com/paladique) |
| 15 | Анализ | [Жизненный цикл](4-Data-Science-Lifecycle/README.md) | Этот этап жизненного цикла науки о данных сосредоточен на техниках анализа данных. | [урок](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Жасмин](https://twitter.com/paladique) | | |
| 16 | Коммуникация | [Жизненный цикл](4-Data-Science-Lifecycle/README.md) | Этот этап жизненного цикла науки о данных сосредоточен на представлении выводов из данных таким образом, чтобы обусловить лучшее понимание у принимающих решения. | [урок](4-Data-Science-Lifecycle/16-communication/README.md) | [Джейлен](https://twitter.com/JalenMcG) | | |
| 17 | Наука о данных в облаке | [Данные в облаке](5-Data-Science-In-Cloud/README.md) | Эта серия уроков знакомит с наукой о данных в облаке и её преимуществами. | [урок](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Тиффани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 18 | Наука о данных в облаке | [Данные в облаке](5-Data-Science-In-Cloud/README.md) | Обучение моделей с использованием Low Code инструментов. |[урок](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Тиффани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 19 | Наука о данных в облаке | [Данные в облаке](5-Data-Science-In-Cloud/README.md) | Развёртывание моделей с помощью Azure Machine Learning Studio. | [урок](5-Data-Science-In-Cloud/19-Azure/README.md)| [Тиффани](https://twitter.com/TiffanySouterre) и [Мод](https://twitter.com/maudstweets) |
| 20 | Наука о данных в реальной жизни | [В реальной жизни](6-Data-Science-In-Wild/README.md) | Проекты, основанные на науке о данных в реальном мире. | [урок](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Нитья](https://twitter.com/nitya) |
## GitHub Codespaces
Выполните следующие шаги, чтобы открыть этот пример в Codespace:
1. Нажмите на меню Code и выберите опцию Open with Codespaces.
2. Внизу панели выберите + New codespace.
Для получения дополнительной информации ознакомьтесь с [документацией GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
1. Нажмите на выпадающее меню Code и выберите опцию Open with Codespaces.
2. Выберите + New codespace внизу панели.
Для дополнительной информации смотрите [документацию GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Выполните следующие шаги, чтобы открыть этот репозиторий в контейнере на вашем локальном компьютерес помощью VSCode и расширения VS Code Remote - Containers:
## VSCode Remote - Контейнеры
Выполните следующие шаги, чтобы открыть этот репозиторий в контейнере на локальной машинес помощью VSCode и расширения VS Code Remote - Containers:
1. Если вы впервые используете контейнер для разработки, убедитесь, что ваша система соответствует требованиям (например, установлен Docker) в [руководстве по началу работы](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Если вы используете контейнер разработки впервые, убедитесь, что ваша система соответствует требованиям (например, установлен Docker) в [документации по началу работы](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Для использования этого репозитория вы можете либо открыть репозиторий в изолированном Docker volume:
Чтобы использовать этот репозиторий, вы можете открыть репозиторий в изолированном Docker томе:
**Примечание**: Под капотом будет использоваться команда Remote-Containers: **Clone Repository in Container Volume...** для клонирования исходного кода в Docker volume вместо локальной файловой системы. [Volumes](https://docs.docker.com/storage/volumes/) — предпочтительный механизм для сохранения данных контейнера.
**Примечание**: В основе этого используется команда Remote-Containers: **Clone Repository in Container Volume...**, которая клонирует исходный код в Docker том вместо файловой системы локального компьютера. [Тома](https://docs.docker.com/storage/volumes/) — предпочтительный механизм для сохранения данных контейнера.
Или открыть локально клонированную или скачанную версию репозитория:
Или открыть локально клонированную или загруженную версию репозитория:
- Клонируйте этот репозиторий на локальный диск.
- Клонируйте этот репозиторий на свой локальный диск.
- Нажмите F1 и выберите команду **Remote-Containers: Open Folder in Container...**.
- Выберите клонированную копию этой папки, дождитесь запуска контейнера и приступайте к работе.
## Офлайн-доступ
Вы можете просматривать эту документацию офлайн с помощью [Docsify](https://docsify.js.org/#/). Форкайте этот репозиторий, [установите Docsify](https://docsify.js.org/#/quickstart) на локальной машине, затем в корневой папке репозитория введите `docsify serve`. Сайт будет доступен на порту 3000 на вашем localhost: `localhost:3000`.
Вы можете запускать эту документацию офлайн, используя [Docsify](https://docsify.js.org/#/). Форкните этот репозиторий, [установите Docsify](https://docsify.js.org/#/quickstart) на свой локальный компьютер, затем в корневой папке репозитория введите `docsify serve`. Веб-сайт будет доступен на порту 3000 на вашем локальном хосте: `localhost:3000`.
> Обратите внимание, что ноутбуки не будут отображаться через Docsify, поэтому для работы с ноутбуками запускайте их отдельно в VS Code с поддержкой Python ядра.
> Обратите внимание, что ноутбуки не будут отображаться через Docsify, поэтому для работы с ноутбуками используйте VS Code с Python ядром отдельно.
## Другие учебные программы
Наша команда создаёт и другие учебные программы! Ознакомьтесь с:
Наша команда выпускает и другие учебные программы! Ознакомьтесь с:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Агенты
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Серия по генеративному ИИ
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Серия Copilot
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**Возникли проблемы?** Ознакомьтесь с нашим [руководством по устранению неполадок](TROUBLESHOOTING.md) для решения распространённых проблем.
**Возникли проблемы?** Ознакомьтесь с нашим [Руководством по устранению неполадок](TROUBLESHOOTING.md) для поиска решений распространённых проблем.
Если вы застряли или у вас есть вопросы по созданию AI-приложений, присоединяйтесь к другим учащимся и опытным разработчикам для обсуждения MCP. Это поддерживающее сообщество, где вопросы приветствуются, а знания свободно делятся.
Если вы застряли или у вас есть вопросы по созданию ИИ-приложений, присоединяйтесь к другим учащимся и опытным разработчикам для обсуждений по MCP. Это поддерживающее сообщество, где вопросы приветствуются, а знания свободно делятся.
Этот документ был переведен с помощью сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Несмотря на наши усилия обеспечить точность, просим учитывать, что автоматический перевод может содержать ошибки или неточности. Оригинальный документ на исходном языке следует считать авторитетным источником. Для критически важной информации рекомендуется обращаться к профессиональному переводчику. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.
**Отказ от ответственности**:
Данный документ был переведен с помощью сервиса машинного перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Несмотря на наши усилия по обеспечению точности, имейте в виду, что автоматический перевод может содержать ошибки или неточности. Исходный документ на его оригинальном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется обратиться к профессиональному человеческому переводу. Мы не несем ответственности за любые недоразумения или искажения смысла, возникающие в результате использования данного перевода.