diff --git a/translations/ar/1-Introduction/01-defining-data-science/README.md b/translations/ar/1-Introduction/01-defining-data-science/README.md index e0ad2e0f..458044f5 100644 --- a/translations/ar/1-Introduction/01-defining-data-science/README.md +++ b/translations/ar/1-Introduction/01-defining-data-science/README.md @@ -1,80 +1,36 @@ -# تعريف علم البيانات - -| ![رسم توضيحي من [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | -| :----------------------------------------------------------------------------------------------------: | -| تعريف علم البيانات - _رسم توضيحي من [@nitya](https://twitter.com/nitya)_ | - ---- - -[![فيديو تعريف علم البيانات](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.ar.png)](https://youtu.be/beZ7Mb_oz9I) - -## [اختبار ما قبل المحاضرة](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0) - -## ما هو البيانات؟ -في حياتنا اليومية، نحن محاطون دائمًا بالبيانات. النص الذي تقرأه الآن هو بيانات. قائمة أرقام هواتف أصدقائك في هاتفك الذكي هي بيانات، وكذلك الوقت الحالي المعروض على ساعتك. كبشر، نحن نتعامل مع البيانات بشكل طبيعي من خلال عد النقود التي لدينا أو كتابة رسائل لأصدقائنا. - -ومع ذلك، أصبحت البيانات أكثر أهمية مع ظهور الحواسيب. الدور الأساسي للحواسيب هو إجراء العمليات الحسابية، لكنها تحتاج إلى بيانات للعمل عليها. لذلك، نحن بحاجة إلى فهم كيفية تخزين ومعالجة الحواسيب للبيانات. - -مع ظهور الإنترنت، زاد دور الحواسيب كأجهزة للتعامل مع البيانات. إذا فكرت في الأمر، نحن الآن نستخدم الحواسيب بشكل متزايد لمعالجة البيانات والتواصل بدلاً من العمليات الحسابية الفعلية. عندما نكتب بريدًا إلكترونيًا لصديق أو نبحث عن معلومات على الإنترنت - نحن في الأساس نقوم بإنشاء وتخزين ونقل ومعالجة البيانات. -> هل يمكنك تذكر آخر مرة استخدمت فيها الحاسوب فعليًا لإجراء عملية حسابية؟ - -## ما هو علم البيانات؟ - -في [ويكيبيديا](https://en.wikipedia.org/wiki/Data_science)، يُعرَّف **علم البيانات** بأنه *مجال علمي يستخدم الأساليب العلمية لاستخلاص المعرفة والرؤى من البيانات المنظمة وغير المنظمة، وتطبيق المعرفة والرؤى القابلة للتنفيذ من البيانات عبر مجموعة واسعة من المجالات التطبيقية*. - -تُبرز هذه التعريف النقاط التالية المهمة حول علم البيانات: - -* الهدف الرئيسي لعلم البيانات هو **استخلاص المعرفة** من البيانات، بمعنى آخر - **فهم** البيانات، واكتشاف العلاقات المخفية وبناء **نموذج**. -* يستخدم علم البيانات **الأساليب العلمية**، مثل الاحتمالات والإحصاء. في الواقع، عندما تم تقديم مصطلح *علم البيانات* لأول مرة، جادل البعض بأنه مجرد اسم جديد للإحصاء. ومع ذلك، أصبح من الواضح الآن أن المجال أوسع بكثير. -* يجب تطبيق المعرفة المستخلصة لإنتاج **رؤى قابلة للتنفيذ**، أي رؤى عملية يمكن تطبيقها على مواقف الأعمال الحقيقية. -* يجب أن نكون قادرين على التعامل مع البيانات **المنظمة** و**غير المنظمة**. سنعود لاحقًا في الدورة لمناقشة أنواع البيانات المختلفة. -* **مجال التطبيق** هو مفهوم مهم، وغالبًا ما يحتاج علماء البيانات إلى درجة معينة من الخبرة في مجال المشكلة، مثل: المالية، الطب، التسويق، إلخ. - -> جانب آخر مهم في علم البيانات هو أنه يدرس كيفية جمع البيانات وتخزينها والعمل عليها باستخدام الحواسيب. بينما توفر الإحصائيات الأسس الرياضية، يطبق علم البيانات المفاهيم الرياضية لاستخلاص الرؤى من البيانات. - -إحدى الطرق (المنسوبة إلى [جيم غراي](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) للنظر إلى علم البيانات هي اعتباره نموذجًا منفصلًا للعلم: -* **تجريبي**، حيث نعتمد بشكل أساسي على الملاحظات ونتائج التجارب. -* **نظري**، حيث تنبثق المفاهيم الجديدة من المعرفة العلمية الحالية. -* **حسابي**، حيث نكتشف مبادئ جديدة بناءً على بعض التجارب الحسابية. -* **قائم على البيانات**، يعتمد على اكتشاف العلاقات والأنماط في البيانات. - -## مجالات ذات صلة - -نظرًا لأن البيانات موجودة في كل مكان، فإن علم البيانات نفسه مجال واسع يتداخل مع العديد من التخصصات الأخرى. - ## أنواع البيانات -كما ذكرنا سابقًا، البيانات موجودة في كل مكان. نحن فقط بحاجة إلى التقاطها بالطريقة الصحيحة! من المفيد التمييز بين البيانات **المنظمة** و**غير المنظمة**. الأولى تمثل عادةً في شكل منظم جيدًا، غالبًا كجدول أو عدد من الجداول، بينما الثانية هي مجرد مجموعة من الملفات. أحيانًا يمكننا أيضًا الحديث عن البيانات **شبه المنظمة**، التي تحتوي على نوع من الهيكل الذي قد يختلف بشكل كبير. +كما ذكرنا سابقًا، البيانات موجودة في كل مكان. نحن فقط بحاجة إلى التقاطها بالطريقة الصحيحة! من المفيد التمييز بين البيانات **المهيكلة** و**غير المهيكلة**. البيانات المهيكلة عادةً ما تكون ممثلة في شكل منظم جيدًا، غالبًا كجدول أو عدد من الجداول، بينما البيانات غير المهيكلة هي مجرد مجموعة من الملفات. أحيانًا يمكننا أيضًا الحديث عن البيانات **شبه المهيكلة**، التي تحتوي على نوع من الهيكل الذي قد يختلف بشكل كبير. -| منظمة | شبه منظمة | غير منظمة | -| -------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | ------------------------------------- | -| قائمة بأسماء الأشخاص وأرقام هواتفهم | صفحات ويكيبيديا مع روابط | نص موسوعة بريتانيكا | -| درجة الحرارة في جميع غرف مبنى كل دقيقة خلال العشرين عامًا الماضية | مجموعة من الأوراق العلمية بصيغة JSON تحتوي على المؤلفين، تاريخ النشر، والملخص | ملفات مشتركة تحتوي على مستندات الشركة | -| بيانات العمر والجنس لجميع الأشخاص الذين يدخلون المبنى | صفحات الإنترنت | فيديو خام من كاميرا مراقبة | +| مهيكلة | شبه مهيكلة | غير مهيكلة | +| ------------------------------------------------------------------------ | --------------------------------------------------------------------------------------------- | --------------------------------------- | +| قائمة بأسماء الأشخاص وأرقام هواتفهم | صفحات ويكيبيديا مع روابط | نص موسوعة بريتانيكا | +| درجات الحرارة في جميع غرف المبنى كل دقيقة على مدار العشرين عامًا الماضية | مجموعة من الأوراق العلمية بصيغة JSON مع المؤلفين، تاريخ النشر، والملخص | مشاركة ملفات تحتوي على مستندات الشركة | +| بيانات العمر والجنس لجميع الأشخاص الذين يدخلون المبنى | صفحات الإنترنت | فيديو خام من كاميرا مراقبة | ## من أين تحصل على البيانات -هناك العديد من المصادر الممكنة للبيانات، ومن المستحيل سردها جميعًا! ومع ذلك، دعونا نذكر بعض الأماكن النموذجية التي يمكنك الحصول على البيانات منها: +هناك العديد من المصادر الممكنة للبيانات، وسيكون من المستحيل سردها جميعًا! ومع ذلك، دعونا نذكر بعض الأماكن النموذجية التي يمكنك الحصول على البيانات منها: -* **منظمة** - - **إنترنت الأشياء** (IoT)، بما في ذلك البيانات من أجهزة الاستشعار المختلفة، مثل مستشعرات الحرارة أو الضغط، يوفر الكثير من البيانات المفيدة. على سبيل المثال، إذا كان مبنى مكتبي مجهزًا بأجهزة استشعار IoT، يمكننا التحكم تلقائيًا في التدفئة والإضاءة لتقليل التكاليف. - - **الاستطلاعات** التي نطلب من المستخدمين إكمالها بعد عملية شراء، أو بعد زيارة موقع ويب. +* **مهيكلة** + - **إنترنت الأشياء** (IoT)، بما في ذلك البيانات من مختلف المستشعرات، مثل مستشعرات الحرارة أو الضغط، توفر الكثير من البيانات المفيدة. على سبيل المثال، إذا كان مبنى المكتب مجهزًا بمستشعرات إنترنت الأشياء، يمكننا التحكم تلقائيًا في التدفئة والإضاءة لتقليل التكاليف. + - **استطلاعات الرأي** التي نطلب من المستخدمين إكمالها بعد عملية شراء أو بعد زيارة موقع إلكتروني. - **تحليل السلوك** يمكن أن يساعدنا، على سبيل المثال، في فهم مدى تعمق المستخدم في الموقع، وما هو السبب النموذجي لمغادرة الموقع. -* **غير منظمة** - - **النصوص** يمكن أن تكون مصدرًا غنيًا للرؤى، مثل **درجة الشعور العام**، أو استخراج الكلمات الرئيسية والمعاني الدلالية. - - **الصور** أو **الفيديو**. يمكن استخدام فيديو من كاميرا مراقبة لتقدير حركة المرور على الطريق، وإبلاغ الناس بالاختناقات المرورية المحتملة. - - **سجلات خوادم الويب** يمكن استخدامها لفهم الصفحات الأكثر زيارة على موقعنا، ومدة البقاء فيها. -* **شبه منظمة** - - **رسوم الشبكات الاجتماعية** يمكن أن تكون مصادر رائعة للبيانات حول شخصيات المستخدمين والفعالية المحتملة في نشر المعلومات. +* **غير مهيكلة** + - **النصوص** يمكن أن تكون مصدرًا غنيًا للرؤى، مثل الحصول على **درجة الشعور العام** أو استخراج الكلمات الرئيسية والمعاني الدلالية. + - **الصور** أو **الفيديو**. يمكن استخدام فيديو من كاميرا مراقبة لتقدير حركة المرور على الطريق، وإبلاغ الناس عن الاختناقات المرورية المحتملة. + - **سجلات خوادم الويب** يمكن استخدامها لفهم الصفحات الأكثر زيارة في موقعنا، ومدة بقائها. +* **شبه مهيكلة** + - **رسوم الشبكات الاجتماعية** يمكن أن تكون مصادر رائعة للبيانات حول شخصيات المستخدمين وفعالية نشر المعلومات بينهم. - عندما يكون لدينا مجموعة من الصور من حفلة، يمكننا محاولة استخراج بيانات **ديناميكيات المجموعة** من خلال بناء رسم بياني للأشخاص الذين يلتقطون الصور مع بعضهم البعض. من خلال معرفة المصادر المختلفة للبيانات، يمكنك التفكير في سيناريوهات مختلفة حيث يمكن تطبيق تقنيات علم البيانات لفهم الوضع بشكل أفضل وتحسين العمليات التجارية. @@ -87,11 +43,11 @@ CO_OP_TRANSLATOR_METADATA: ## الرقمنة والتحول الرقمي -في العقد الأخير، بدأت العديد من الشركات في فهم أهمية البيانات عند اتخاذ قرارات الأعمال. لتطبيق مبادئ علم البيانات على إدارة الأعمال، يجب أولاً جمع بعض البيانات، أي ترجمة العمليات التجارية إلى شكل رقمي. يُعرف هذا بـ **الرقمنة**. يمكن أن يؤدي تطبيق تقنيات علم البيانات على هذه البيانات لتوجيه القرارات إلى زيادات كبيرة في الإنتاجية (أو حتى تحول في الأعمال)، يُطلق عليه **التحول الرقمي**. +في العقد الأخير، بدأت العديد من الشركات في فهم أهمية البيانات عند اتخاذ القرارات التجارية. لتطبيق مبادئ علم البيانات على إدارة الأعمال، يجب أولاً جمع بعض البيانات، أي ترجمة العمليات التجارية إلى شكل رقمي. يُعرف هذا بـ **الرقمنة**. تطبيق تقنيات علم البيانات على هذه البيانات لتوجيه القرارات يمكن أن يؤدي إلى زيادات كبيرة في الإنتاجية (أو حتى تغيير جذري في الأعمال)، ويُطلق عليه **التحول الرقمي**. -دعونا نأخذ مثالًا. لنفترض أن لدينا دورة علم بيانات (مثل هذه) نقدمها عبر الإنترنت للطلاب، ونريد استخدام علم البيانات لتحسينها. كيف يمكننا القيام بذلك؟ +لنفكر في مثال. لنفترض أن لدينا دورة علم بيانات (مثل هذه الدورة) نقدمها عبر الإنترنت للطلاب، ونريد استخدام علم البيانات لتحسينها. كيف يمكننا القيام بذلك؟ -يمكننا البدء بسؤال "ما الذي يمكن رقمنته؟" أبسط طريقة ستكون قياس الوقت الذي يستغرقه كل طالب لإكمال كل وحدة، وقياس المعرفة المكتسبة من خلال إعطاء اختبار متعدد الخيارات في نهاية كل وحدة. من خلال حساب متوسط الوقت اللازم للإكمال عبر جميع الطلاب، يمكننا معرفة الوحدات التي تسبب أكبر صعوبة للطلاب والعمل على تبسيطها. +يمكننا البدء بسؤال "ما الذي يمكن رقمنته؟" أبسط طريقة ستكون قياس الوقت الذي يستغرقه كل طالب لإكمال كل وحدة، وقياس المعرفة المكتسبة من خلال تقديم اختبار متعدد الخيارات في نهاية كل وحدة. من خلال حساب متوسط الوقت للإكمال عبر جميع الطلاب، يمكننا معرفة الوحدات التي تسبب أكبر صعوبة للطلاب والعمل على تبسيطها. قد تجادل بأن هذه الطريقة ليست مثالية، لأن الوحدات يمكن أن تكون بأطوال مختلفة. ربما يكون من الأكثر إنصافًا تقسيم الوقت على طول الوحدة (بعدد الأحرف)، ومقارنة تلك القيم بدلاً من ذلك. عندما نبدأ في تحليل نتائج اختبارات الاختيار المتعدد، يمكننا محاولة تحديد المفاهيم التي يجد الطلاب صعوبة في فهمها، واستخدام تلك المعلومات لتحسين المحتوى. للقيام بذلك، نحتاج إلى تصميم الاختبارات بطريقة تجعل كل سؤال يرتبط بمفهوم معين أو جزء من المعرفة. @@ -99,7 +55,7 @@ CO_OP_TRANSLATOR_METADATA: ## 🚀 التحدي -في هذا التحدي، سنحاول العثور على المفاهيم ذات الصلة بمجال علم البيانات من خلال النظر في النصوص. سنأخذ مقالة من ويكيبيديا عن علم البيانات، نقوم بتنزيل النص ومعالجته، ثم نبني سحابة كلمات مثل هذه: +في هذا التحدي، سنحاول العثور على مفاهيم ذات صلة بمجال علم البيانات من خلال النظر في النصوص. سنأخذ مقالة من ويكيبيديا عن علم البيانات، نقوم بتنزيل النص ومعالجته، ثم نبني سحابة كلمات مثل هذه: ![سحابة كلمات لعلم البيانات](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ar.png) @@ -107,18 +63,18 @@ CO_OP_TRANSLATOR_METADATA: > إذا كنت لا تعرف كيفية تشغيل الكود في Jupyter Notebook، ألقِ نظرة على [هذه المقالة](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). -## [اختبار ما بعد المحاضرة](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1) +## [اختبار ما بعد المحاضرة](https://ff-quizzes.netlify.app/en/ds/) ## المهام -* **المهمة 1**: قم بتعديل الكود أعلاه للعثور على المفاهيم ذات الصلة بمجالي **البيانات الضخمة** و **تعلم الآلة** +* **المهمة 1**: قم بتعديل الكود أعلاه للعثور على المفاهيم ذات الصلة بمجالي **البيانات الضخمة** و**تعلم الآلة**. * **المهمة 2**: [فكر في سيناريوهات علم البيانات](assignment.md) ## الشكر -تم تأليف هذا الدرس بكل ♥️ بواسطة [Dmitry Soshnikov](http://soshnikov.com) +تم تأليف هذا الدرس بحب ♥️ بواسطة [Dmitry Soshnikov](http://soshnikov.com) --- **إخلاء المسؤولية**: -تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للحصول على معلومات حساسة أو هامة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة. \ No newline at end of file +تم ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الموثوق. للحصول على معلومات حاسمة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة. \ No newline at end of file diff --git a/translations/bg/1-Introduction/01-defining-data-science/README.md b/translations/bg/1-Introduction/01-defining-data-science/README.md index fed26be6..59e808b3 100644 --- a/translations/bg/1-Introduction/01-defining-data-science/README.md +++ b/translations/bg/1-Introduction/01-defining-data-science/README.md @@ -1,101 +1,57 @@ -# Определение на науката за данни - -| ![ Скица от [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | -| :------------------------------------------------------------------------------------------------: | -| Определение на науката за данни - _Скица от [@nitya](https://twitter.com/nitya)_ | - ---- - -[![Видео за определение на науката за данни](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.bg.png)](https://youtu.be/beZ7Mb_oz9I) - -## [Тест преди лекцията](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0) - -## Какво е данни? -В ежедневието си сме постоянно заобиколени от данни. Текстът, който четете в момента, е данни. Списъкът с телефонни номера на вашите приятели в смартфона ви също е данни, както и текущото време, показано на часовника ви. Като хора, ние естествено работим с данни, като броим парите си или пишем писма на приятелите си. - -С появата на компютрите обаче данните станаха много по-важни. Основната роля на компютрите е да извършват изчисления, но те се нуждаят от данни, за да работят. Затова е необходимо да разберем как компютрите съхраняват и обработват данни. - -С появата на интернет ролята на компютрите като устройства за обработка на данни се увеличи. Ако се замислите, сега използваме компютрите все повече за обработка и комуникация на данни, отколкото за реални изчисления. Когато пишем имейл на приятел или търсим информация в интернет, ние всъщност създаваме, съхраняваме, предаваме и манипулираме данни. -> Можете ли да си спомните последния път, когато сте използвали компютър за реално изчисление? - -## Какво е наука за данни? - -Според [Уикипедия](https://en.wikipedia.org/wiki/Data_science), **науката за данни** се определя като *научна област, която използва научни методи за извличане на знания и прозрения от структурирани и неструктурирани данни и прилага тези знания и практически прозрения в широк спектър от приложения*. - -Това определение подчертава следните важни аспекти на науката за данни: - -* Основната цел на науката за данни е да **извлича знания** от данни, с други думи - да **разбира** данните, да намира скрити връзки и да изгражда **модели**. -* Науката за данни използва **научни методи**, като вероятност и статистика. Всъщност, когато терминът *наука за данни* за първи път беше въведен, някои хора твърдяха, че това е просто ново модерно име за статистика. Днес е ясно, че областта е много по-широка. -* Получените знания трябва да се прилагат за създаване на **практически прозрения**, т.е. практически насоки, които могат да се приложат в реални бизнес ситуации. -* Трябва да можем да работим както със **структурирани**, така и с **неструктурирани** данни. Ще се върнем към обсъждането на различните видове данни по-късно в курса. -* **Областта на приложение** е важен аспект, и учените по данни често се нуждаят от известна степен на експертиза в конкретната проблемна област, например: финанси, медицина, маркетинг и др. - -> Друг важен аспект на науката за данни е, че тя изучава как данните могат да бъдат събирани, съхранявани и обработвани с помощта на компютри. Докато статистиката ни предоставя математическите основи, науката за данни прилага математическите концепции, за да извлече прозрения от данните. - -Един от начините (приписван на [Джим Грей](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) да разглеждаме науката за данни е като отделна парадигма на науката: -* **Емпирична**, при която разчитаме основно на наблюдения и резултати от експерименти -* **Теоретична**, където нови концепции възникват от съществуващи научни знания -* **Изчислителна**, където откриваме нови принципи въз основа на изчислителни експерименти -* **Данни-водена**, базирана на откриване на връзки и модели в данните - -## Други свързани области - -Тъй като данните са навсякъде, науката за данни също е широка област, която докосва много други дисциплини. - ## Видове данни -Както вече споменахме, данните са навсякъде. Просто трябва да ги уловим по правилния начин! Полезно е да разграничим **структурирани** и **неструктурирани** данни. Първите обикновено са представени в добре структурирана форма, често като таблица или множество таблици, докато вторите са просто колекция от файлове. Понякога можем да говорим и за **полуструктурирани** данни, които имат някаква структура, но тя може да варира значително. +Както вече споменахме, данните са навсякъде. Просто трябва да ги уловим по правилния начин! Полезно е да разграничим **структурирани** и **неструктурирани** данни. Първите обикновено са представени в добре организирана форма, често като таблица или множество таблици, докато вторите са просто колекция от файлове. Понякога можем да говорим и за **полуструктурирани** данни, които имат някаква структура, но тя може да варира значително. -| Структурирани | Полуструктурирани | Неструктурирани | -| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- | -------------------------------------- | -| Списък на хора с техните телефонни номера | Страници в Уикипедия с връзки | Текст на Енциклопедия Британика | -| Температура във всички стаи на сграда всяка минута за последните 20 години | Колекция от научни статии във формат JSON с автори, дата на публикуване и резюме | Споделено хранилище с корпоративни документи | -| Данни за възраст и пол на всички хора, влизащи в сградата | Интернет страници | Суров видео поток от камера за наблюдение | +| Структурирани | Полуструктурирани | Неструктурирани | +| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | --------------------------------------- | +| Списък с хора и техните телефонни номера | Страници в Wikipedia с връзки | Текстът на Енциклопедия Британика | +| Температура във всички стаи на сграда всяка минута за последните 20 години | Колекция от научни статии във формат JSON с автори, дата на публикуване и резюме | Споделени файлове с корпоративни документи | +| Данни за възраст и пол на всички хора, влизащи в сградата | Интернет страници | Суров видео поток от камера за наблюдение | -## Откъде да се сдобием с данни +## Откъде да вземем данни -Има много възможни източници на данни и е невъзможно да изброим всички! Въпреки това, нека споменем някои от типичните места, откъдето можете да получите данни: +Има много възможни източници на данни, и би било невъзможно да изброим всички! Но нека споменем някои от типичните места, откъдето можете да получите данни: * **Структурирани** - - **Интернет на нещата** (IoT), включително данни от различни сензори, като сензори за температура или налягане, предоставя много полезни данни. Например, ако офис сграда е оборудвана със сензори IoT, можем автоматично да контролираме отоплението и осветлението, за да минимизираме разходите. + - **Интернет на нещата** (IoT), включително данни от различни сензори, като температурни или сензори за налягане, предоставя много полезни данни. Например, ако офис сграда е оборудвана с IoT сензори, можем автоматично да контролираме отоплението и осветлението, за да минимизираме разходите. - **Анкети**, които молим потребителите да попълнят след покупка или след посещение на уебсайт. - **Анализ на поведението** може, например, да ни помогне да разберем колко дълбоко потребителят навлиза в сайта и каква е типичната причина за напускане на сайта. * **Неструктурирани** - - **Текстове** могат да бъдат богат източник на прозрения, като например обща **оценка на настроението** или извличане на ключови думи и семантично значение. - - **Изображения** или **видео**. Видео от камера за наблюдение може да се използва за оценка на трафика на пътя и информиране на хората за потенциални задръствания. - - **Логове на уеб сървъри** могат да се използват, за да разберем кои страници на нашия сайт се посещават най-често и за колко време. + - **Текстове** могат да бъдат богат източник на информация, като например обща **оценка на настроението** или извличане на ключови думи и семантично значение. + - **Изображения** или **видео**. Видео от камера за наблюдение може да се използва за оценка на трафика на пътя и за информиране на хората за потенциални задръствания. + - **Логове** на уеб сървъри могат да се използват за разбиране кои страници на нашия сайт се посещават най-често и за колко време. * **Полуструктурирани** - **Графи на социални мрежи** могат да бъдат отличен източник на данни за личностите на потребителите и потенциалната ефективност при разпространение на информация. - Когато имаме куп снимки от парти, можем да се опитаме да извлечем данни за **груповата динамика**, като изградим граф на хората, които се снимат заедно. -Като познавате различните възможни източници на данни, можете да се опитате да мислите за различни сценарии, в които техниките на науката за данни могат да се приложат, за да разберете по-добре ситуацията и да подобрите бизнес процесите. +Като познавате различните възможни източници на данни, можете да се опитате да мислите за различни сценарии, в които техниките на науката за данни могат да бъдат приложени, за да разберете ситуацията по-добре и да подобрите бизнес процесите. ## Какво можете да правите с данни В науката за данни се фокусираме върху следните стъпки от пътя на данните: -Разбира се, в зависимост от конкретните данни, някои стъпки може да липсват (например, когато вече имаме данните в база данни или когато не се нуждаем от обучение на модел), или някои стъпки може да се повтарят няколко пъти (като обработката на данни). +Разбира се, в зависимост от конкретните данни, някои стъпки може да липсват (например, когато вече имаме данните в база данни или когато не се нуждаем от обучение на модел), или някои стъпки може да се повторят няколко пъти (като обработката на данни). ## Дигитализация и дигитална трансформация -През последното десетилетие много бизнеси започнаха да разбират важността на данните при вземането на бизнес решения. За да приложим принципите на науката за данни към управлението на бизнес, първо трябва да съберем някакви данни, т.е. да преведем бизнес процесите в дигитална форма. Това е известно като **дигитализация**. Прилагането на техники на науката за данни към тези данни, за да се ръководят решенията, може да доведе до значителни увеличения на производителността (или дори до промяна на бизнес модела), наречено **дигитална трансформация**. +През последното десетилетие много бизнеси започнаха да разбират важността на данните при вземането на бизнес решения. За да приложим принципите на науката за данни към управлението на бизнес, първо трябва да съберем някакви данни, т.е. да преведем бизнес процесите в цифрова форма. Това е известно като **дигитализация**. Прилагането на техники на науката за данни към тези данни за насочване на решения може да доведе до значителни увеличения на производителността (или дори до промяна на бизнес модела), наречено **дигитална трансформация**. Нека разгледаме пример. Да предположим, че имаме курс по наука за данни (като този), който предлагаме онлайн на студенти, и искаме да използваме науката за данни, за да го подобрим. Как можем да го направим? -Можем да започнем, като се запитаме "Какво може да се дигитализира?" Най-простият начин би бил да измерим времето, което всеки студент отделя за завършване на всеки модул, и да измерим придобитите знания, като дадем тест с множество отговори в края на всеки модул. Като изчислим средното време за завършване за всички студенти, можем да разберем кои модули причиняват най-големи затруднения и да работим върху тяхното опростяване. +Можем да започнем с въпроса "Какво може да бъде дигитализирано?" Най-простият начин би бил да измерим времето, което всеки студент отделя за завършване на всеки модул, и да измерим придобитите знания, като дадем тест с множествен избор в края на всеки модул. Като изчислим средното време за завършване за всички студенти, можем да разберем кои модули причиняват най-големи затруднения и да работим върху тяхното опростяване. Може да се твърди, че този подход не е идеален, защото модулите могат да бъдат с различна дължина. Вероятно е по-справедливо да се раздели времето на дължината на модула (в брой символи) и да се сравнят тези стойности вместо това. -Когато започнем да анализираме резултатите от тестове с избор между няколко отговора, можем да се опитаме да определим кои концепции затрудняват учениците и да използваме тази информация, за да подобрим съдържанието. За да направим това, трябва да проектираме тестовете така, че всеки въпрос да се свързва с определена концепция или част от знания. +Когато започнем да анализираме резултатите от тестове с избор на отговор, можем да се опитаме да определим кои концепции затрудняват учениците и да използваме тази информация, за да подобрим съдържанието. За да направим това, трябва да проектираме тестовете така, че всеки въпрос да се свързва с определена концепция или част от знания. -Ако искаме да усложним анализа, можем да начертаем времето, необходимо за завършване на всеки модул, спрямо възрастовата категория на учениците. Може да открием, че за някои възрастови категории е необходимо прекалено много време за завършване на модула или че учениците се отказват преди да го завършат. Това може да ни помогне да предоставим възрастови препоръки за модула и да минимизираме недоволството на хората от неправилни очаквания. +Ако искаме да задълбочим анализа, можем да начертаем времето, необходимо за завършване на всеки модул, спрямо възрастовата категория на учениците. Може да открием, че за някои възрастови категории е необходимо прекалено дълго време за завършване на модула или че учениците се отказват преди да го завършат. Това може да ни помогне да предоставим възрастови препоръки за модула и да минимизираме недоволството на хората от неправилни очаквания. ## 🚀 Предизвикателство @@ -107,7 +63,7 @@ CO_OP_TRANSLATOR_METADATA: > Ако не знаете как да изпълнявате код в Jupyter Notebook, разгледайте [тази статия](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). -## [Тест след лекцията](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1) +## [Тест след лекцията](https://ff-quizzes.netlify.app/en/ds/) ## Задачи diff --git a/translations/bn/1-Introduction/01-defining-data-science/README.md b/translations/bn/1-Introduction/01-defining-data-science/README.md index f016caf9..1c772933 100644 --- a/translations/bn/1-Introduction/01-defining-data-science/README.md +++ b/translations/bn/1-Introduction/01-defining-data-science/README.md @@ -1,37 +1,37 @@ ## ডেটার ধরন -আমরা আগেই উল্লেখ করেছি, ডেটা সর্বত্রই রয়েছে। আমাদের শুধু সঠিকভাবে এটি সংগ্রহ করতে হবে! **স্ট্রাকচারড** এবং **আনস্ট্রাকচারড** ডেটার মধ্যে পার্থক্য করা গুরুত্বপূর্ণ। স্ট্রাকচারড ডেটা সাধারণত একটি সুসংগঠিত আকারে উপস্থাপিত হয়, যেমন একটি টেবিল বা একাধিক টেবিল। অন্যদিকে, আনস্ট্রাকচারড ডেটা হলো ফাইলের একটি সংগ্রহ। কখনও কখনও আমরা **সেমি-স্ট্রাকচারড** ডেটার কথাও বলতে পারি, যার কিছুটা গঠন থাকে, তবে তা অনেকভাবে পরিবর্তিত হতে পারে। +আমরা আগেই উল্লেখ করেছি, ডেটা সর্বত্রই রয়েছে। আমাদের শুধু সঠিকভাবে এটি সংগ্রহ করতে হবে! **স্ট্রাকচারড** এবং **আনস্ট্রাকচারড** ডেটার মধ্যে পার্থক্য করা গুরুত্বপূর্ণ। স্ট্রাকচারড ডেটা সাধারণত একটি সুসংগঠিত আকারে উপস্থাপিত হয়, যেমন একটি টেবিল বা একাধিক টেবিল, যেখানে আনস্ট্রাকচারড ডেটা শুধুমাত্র ফাইলের একটি সংগ্রহ। কখনও কখনও আমরা **সেমি-স্ট্রাকচারড** ডেটার কথাও বলতে পারি, যার কিছুটা গঠন থাকে যা ব্যাপকভাবে পরিবর্তিত হতে পারে। -| স্ট্রাকচারড | সেমি-স্ট্রাকচারড | আনস্ট্রাকচারড | +| স্ট্রাকচারড | সেমি-স্ট্রাকচারড | আনস্ট্রাকচারড | | ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | -| ফোন নম্বরসহ মানুষের তালিকা | উইকিপিডিয়া পেজের লিঙ্কসমূহ | এনসাইক্লোপিডিয়া ব্রিটানিকার টেক্সট | -| গত ২০ বছরে প্রতিটি মিনিটে একটি ভবনের প্রতিটি কক্ষের তাপমাত্রা | JSON ফরম্যাটে বৈজ্ঞানিক প্রবন্ধের সংগ্রহ, যেখানে লেখক, প্রকাশনার তারিখ এবং সারাংশ রয়েছে | কর্পোরেট ডকুমেন্টের ফাইল শেয়ার | -| ভবনে প্রবেশকারী সকল মানুষের বয়স এবং লিঙ্গ সম্পর্কিত ডেটা | ইন্টারনেট পেজ | নজরদারি ক্যামেরার কাঁচা ভিডিও ফিড | +| ফোন নম্বরসহ মানুষের তালিকা | উইকিপিডিয়া পেজগুলো লিঙ্কসহ | এনসাইক্লোপিডিয়া ব্রিটানিকার টেক্সট | +| গত ২০ বছরে প্রতিটি মিনিটে একটি ভবনের সব কক্ষের তাপমাত্রা | JSON ফরম্যাটে বৈজ্ঞানিক প্রবন্ধের সংগ্রহ, যেখানে লেখক, প্রকাশনার তারিখ এবং সারাংশ রয়েছে | কর্পোরেট ডকুমেন্টের ফাইল শেয়ার | +| ভবনে প্রবেশকারী সকল মানুষের বয়স এবং লিঙ্গ সম্পর্কিত ডেটা | ইন্টারনেট পেজ | নজরদারি ক্যামেরার কাঁচা ভিডিও ফিড | ## ডেটা কোথায় পাওয়া যাবে -ডেটার অনেক সম্ভাব্য উৎস রয়েছে, এবং সবগুলো তালিকাভুক্ত করা অসম্ভব! তবে, কিছু সাধারণ জায়গা উল্লেখ করা যাক যেখানে আপনি ডেটা পেতে পারেন: +ডেটার অনেক সম্ভাব্য উৎস রয়েছে, এবং সবগুলো তালিকাভুক্ত করা অসম্ভব! তবে, আসুন কিছু সাধারণ জায়গা উল্লেখ করি যেখানে আপনি ডেটা পেতে পারেন: * **স্ট্রাকচারড** - - **ইন্টারনেট অফ থিংস** (IoT), যেমন বিভিন্ন সেন্সর থেকে পাওয়া ডেটা (তাপমাত্রা বা চাপ সেন্সর), অনেক দরকারী ডেটা সরবরাহ করে। উদাহরণস্বরূপ, যদি একটি অফিস ভবন IoT সেন্সর দিয়ে সজ্জিত থাকে, আমরা স্বয়ংক্রিয়ভাবে গরম এবং আলো নিয়ন্ত্রণ করতে পারি যাতে খরচ কমানো যায়। - - **জরিপ** যা আমরা ব্যবহারকারীদের একটি কেনাকাটার পরে বা একটি ওয়েবসাইট পরিদর্শনের পরে পূরণ করতে বলি। + - **ইন্টারনেট অফ থিংস** (IoT), যেমন বিভিন্ন সেন্সর থেকে ডেটা, যেমন তাপমাত্রা বা চাপ সেন্সর, অনেক দরকারী ডেটা প্রদান করে। উদাহরণস্বরূপ, যদি একটি অফিস ভবন IoT সেন্সর দিয়ে সজ্জিত থাকে, আমরা স্বয়ংক্রিয়ভাবে গরম এবং আলো নিয়ন্ত্রণ করতে পারি যাতে খরচ কমানো যায়। + - **সার্ভে** যা আমরা ব্যবহারকারীদের একটি কেনাকাটা বা একটি ওয়েবসাইট পরিদর্শনের পরে পূরণ করতে বলি। - **আচরণের বিশ্লেষণ** আমাদের বুঝতে সাহায্য করতে পারে যে একজন ব্যবহারকারী একটি সাইটে কতটা গভীরে যায় এবং সাইটটি ছাড়ার সাধারণ কারণ কী। * **আনস্ট্রাকচারড** - **টেক্সট** একটি সমৃদ্ধ তথ্যের উৎস হতে পারে, যেমন সামগ্রিক **সেন্টিমেন্ট স্কোর**, বা কীওয়ার্ড এবং অর্থপূর্ণ তথ্য বের করা। - - **ইমেজ** বা **ভিডিও**। নজরদারি ক্যামেরার একটি ভিডিও রাস্তার ট্রাফিক অনুমান করতে এবং সম্ভাব্য যানজট সম্পর্কে মানুষকে জানাতে ব্যবহার করা যেতে পারে। - - ওয়েব সার্ভার **লগ** আমাদের বুঝতে সাহায্য করতে পারে যে আমাদের সাইটের কোন পেজগুলো সবচেয়ে বেশি পরিদর্শিত হয় এবং কতক্ষণ ধরে। + - **ইমেজ** বা **ভিডিও**। নজরদারি ক্যামেরার একটি ভিডিও রাস্তার ট্রাফিক অনুমান করতে ব্যবহার করা যেতে পারে এবং সম্ভাব্য যানজট সম্পর্কে মানুষকে জানাতে পারে। + - ওয়েব সার্ভারের **লগ** আমাদের বুঝতে সাহায্য করতে পারে যে আমাদের সাইটের কোন পেজগুলো সবচেয়ে বেশি পরিদর্শিত হয় এবং কতক্ষণ ধরে। * সেমি-স্ট্রাকচারড - **সোশ্যাল নেটওয়ার্ক** গ্রাফ ব্যবহারকারীদের ব্যক্তিত্ব এবং তথ্য ছড়িয়ে দেওয়ার সম্ভাব্য কার্যকারিতা সম্পর্কে ডেটার একটি চমৎকার উৎস হতে পারে। - - যখন আমাদের কাছে একটি পার্টির অনেক ছবি থাকে, আমরা **গ্রুপ ডায়নামিকস** ডেটা বের করার চেষ্টা করতে পারি, যেমন একে অপরের সাথে ছবি তোলার মানুষের গ্রাফ তৈরি করে। + - যখন আমাদের কাছে একটি পার্টির অনেক ছবি থাকে, আমরা **গ্রুপ ডায়নামিকস** ডেটা বের করার চেষ্টা করতে পারি, যেমন একে অপরের সাথে ছবি তোলার মানুষের একটি গ্রাফ তৈরি করে। ডেটার বিভিন্ন সম্ভাব্য উৎস সম্পর্কে জেনে, আপনি বিভিন্ন পরিস্থিতি সম্পর্কে চিন্তা করতে পারেন যেখানে ডেটা সায়েন্সের কৌশল প্রয়োগ করে পরিস্থিতি আরও ভালোভাবে বোঝা এবং ব্যবসার প্রক্রিয়া উন্নত করা সম্ভব। @@ -41,38 +41,38 @@ CO_OP_TRANSLATOR_METADATA: ## ডিজিটালাইজেশন এবং ডিজিটাল ট্রান্সফরমেশন -গত দশকে, অনেক ব্যবসা বুঝতে শুরু করেছে যে ব্যবসার সিদ্ধান্ত নেওয়ার ক্ষেত্রে ডেটা কতটা গুরুত্বপূর্ণ। ব্যবসা পরিচালনায় ডেটা সায়েন্সের নীতিগুলো প্রয়োগ করতে হলে প্রথমে কিছু ডেটা সংগ্রহ করতে হবে, অর্থাৎ ব্যবসার প্রক্রিয়াগুলোকে ডিজিটাল আকারে রূপান্তর করতে হবে। এটি **ডিজিটালাইজেশন** নামে পরিচিত। এই ডেটার উপর ডেটা সায়েন্সের কৌশল প্রয়োগ করে সিদ্ধান্ত নেওয়া ব্যবসার উৎপাদনশীলতায় উল্লেখযোগ্য বৃদ্ধি (বা এমনকি ব্যবসার দিক পরিবর্তন) আনতে পারে, যা **ডিজিটাল ট্রান্সফরমেশন** নামে পরিচিত। +গত দশকে, অনেক ব্যবসা সিদ্ধান্ত গ্রহণে ডেটার গুরুত্ব বুঝতে শুরু করেছে। ব্যবসা পরিচালনায় ডেটা সায়েন্সের নীতিগুলো প্রয়োগ করতে হলে প্রথমে কিছু ডেটা সংগ্রহ করতে হবে, অর্থাৎ ব্যবসার প্রক্রিয়াগুলোকে ডিজিটাল আকারে রূপান্তর করতে হবে। এটি **ডিজিটালাইজেশন** নামে পরিচিত। এই ডেটার উপর ডেটা সায়েন্সের কৌশল প্রয়োগ করে সিদ্ধান্ত গ্রহণে উল্লেখযোগ্য উৎপাদনশীলতা বৃদ্ধি (বা এমনকি ব্যবসার পরিবর্তন) ঘটানো সম্ভব, যা **ডিজিটাল ট্রান্সফরমেশন** নামে পরিচিত। চলুন একটি উদাহরণ বিবেচনা করি। ধরুন আমাদের একটি ডেটা সায়েন্স কোর্স রয়েছে (যেমন এই কোর্সটি) যা আমরা অনলাইনে শিক্ষার্থীদের কাছে সরবরাহ করি, এবং আমরা এটি উন্নত করতে ডেটা সায়েন্স ব্যবহার করতে চাই। আমরা কীভাবে এটি করতে পারি? -আমরা শুরু করতে পারি "কী ডিজিটালাইজ করা যেতে পারে?" এই প্রশ্নটি করে। সবচেয়ে সহজ উপায় হতে পারে প্রতিটি শিক্ষার্থীকে প্রতিটি মডিউল সম্পন্ন করতে কত সময় লাগে তা পরিমাপ করা এবং প্রতিটি মডিউলের শেষে একটি মাল্টিপল-চয়েস টেস্ট দিয়ে অর্জিত জ্ঞান পরিমাপ করা। সকল শিক্ষার্থীর গড় সময়-সম্পন্ন করে আমরা জানতে পারি কোন মডিউলগুলো শিক্ষার্থীদের জন্য সবচেয়ে বেশি সমস্যার সৃষ্টি করে এবং সেগুলো সহজ করার জন্য কাজ করতে পারি। -আপনি হয়তো যুক্তি দিতে পারেন যে এই পদ্ধতিটি আদর্শ নয়, কারণ মডিউলগুলোর দৈর্ঘ্য ভিন্ন হতে পারে। সম্ভবত মডিউলের দৈর্ঘ্য (অক্ষরের সংখ্যায়) দিয়ে সময় ভাগ করা এবং সেই মানগুলো তুলনা করা আরও ন্যায্য হবে। -যখন আমরা বহু-বিকল্প প্রশ্নের পরীক্ষার ফলাফল বিশ্লেষণ শুরু করি, তখন আমরা চেষ্টা করতে পারি ছাত্ররা কোন ধারণাগুলি বুঝতে অসুবিধা অনুভব করছে তা নির্ধারণ করতে এবং সেই তথ্য ব্যবহার করে বিষয়বস্তু উন্নত করতে। এটি করার জন্য, আমাদের এমনভাবে পরীক্ষা ডিজাইন করতে হবে যাতে প্রতিটি প্রশ্ন একটি নির্দিষ্ট ধারণা বা জ্ঞানের অংশের সাথে সম্পর্কিত হয়। +আমরা শুরু করতে পারি "কী ডিজিটালাইজ করা যেতে পারে?" এই প্রশ্নটি করে। সবচেয়ে সহজ উপায় হতে পারে প্রতিটি শিক্ষার্থীকে প্রতিটি মডিউল সম্পন্ন করতে কত সময় লাগে তা পরিমাপ করা এবং প্রতিটি মডিউলের শেষে একটি মাল্টিপল-চয়েস টেস্ট দিয়ে অর্জিত জ্ঞান পরিমাপ করা। সকল শিক্ষার্থীর মধ্যে গড় সময়-সম্পন্ন করে আমরা জানতে পারি কোন মডিউলগুলো শিক্ষার্থীদের জন্য সবচেয়ে বেশি সমস্যার সৃষ্টি করে এবং সেগুলো সহজ করার জন্য কাজ করতে পারি। +আপনি যুক্তি দিতে পারেন যে এই পদ্ধতিটি আদর্শ নয়, কারণ মডিউলগুলির দৈর্ঘ্য বিভিন্ন হতে পারে। সম্ভবত মডিউলের দৈর্ঘ্য (অক্ষরের সংখ্যার ভিত্তিতে) অনুযায়ী সময় ভাগ করা এবং সেই মানগুলির তুলনা করা আরও ন্যায্য হবে। +যখন আমরা বহু-বিকল্প প্রশ্নের পরীক্ষার ফলাফল বিশ্লেষণ শুরু করি, তখন আমরা চেষ্টা করতে পারি বুঝতে কোন ধারণাগুলো শিক্ষার্থীদের বুঝতে সমস্যা হচ্ছে এবং সেই তথ্য ব্যবহার করে বিষয়বস্তু উন্নত করতে পারি। এটি করতে হলে, আমাদের পরীক্ষাগুলো এমনভাবে ডিজাইন করতে হবে যাতে প্রতিটি প্রশ্ন একটি নির্দিষ্ট ধারণা বা জ্ঞানের অংশের সাথে সম্পর্কিত হয়। -যদি আমরা আরও জটিল হতে চাই, তবে আমরা প্রতিটি মডিউল সম্পন্ন করতে যে সময় লাগে তা ছাত্রদের বয়স বিভাগের বিপরীতে চিত্রিত করতে পারি। আমরা হয়তো দেখতে পারি যে কিছু বয়স বিভাগের জন্য মডিউলটি সম্পন্ন করতে অপ্রত্যাশিতভাবে দীর্ঘ সময় লাগে, অথবা ছাত্ররা এটি সম্পূর্ণ করার আগেই ছেড়ে দেয়। এটি আমাদের মডিউলের জন্য বয়সের সুপারিশ প্রদান করতে এবং ভুল প্রত্যাশা থেকে মানুষের অসন্তোষ কমাতে সাহায্য করতে পারে। +যদি আমরা আরও জটিল হতে চাই, তাহলে আমরা প্রতিটি মডিউল সম্পন্ন করতে সময়ের পরিমাণ শিক্ষার্থীদের বয়সের ক্যাটাগরির সাথে তুলনা করতে পারি। আমরা হয়তো দেখতে পারি যে কিছু বয়সের ক্যাটাগরির জন্য মডিউল সম্পন্ন করতে অস্বাভাবিকভাবে বেশি সময় লাগে, অথবা শিক্ষার্থীরা এটি সম্পন্ন করার আগেই ছেড়ে দেয়। এটি আমাদের মডিউলের জন্য বয়সের সুপারিশ প্রদান করতে সাহায্য করতে পারে এবং ভুল প্রত্যাশা থেকে মানুষের অসন্তোষ কমাতে পারে। ## 🚀 চ্যালেঞ্জ -এই চ্যালেঞ্জে, আমরা ডেটা সায়েন্স ক্ষেত্রের সাথে সম্পর্কিত ধারণাগুলি খুঁজে বের করার চেষ্টা করব টেক্সট বিশ্লেষণ করে। আমরা ডেটা সায়েন্স সম্পর্কিত একটি উইকিপিডিয়া নিবন্ধ নেব, টেক্সট ডাউনলোড এবং প্রক্রিয়া করব, এবং তারপর একটি ওয়ার্ড ক্লাউড তৈরি করব, যেমন এটি: +এই চ্যালেঞ্জে, আমরা ডেটা সায়েন্স ক্ষেত্রের সাথে সম্পর্কিত ধারণাগুলো খুঁজে বের করার চেষ্টা করব টেক্সট বিশ্লেষণ করে। আমরা ডেটা সায়েন্স সম্পর্কিত একটি উইকিপিডিয়া নিবন্ধ নেব, টেক্সট ডাউনলোড এবং প্রক্রিয়া করব, এবং তারপর একটি ওয়ার্ড ক্লাউড তৈরি করব যা এরকম দেখতে: ![ডেটা সায়েন্সের জন্য ওয়ার্ড ক্লাউড](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.bn.png) -[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') পরিদর্শন করুন কোডটি পড়ার জন্য। আপনি কোডটি চালাতে পারেন এবং এটি কীভাবে রিয়েল টাইমে সমস্ত ডেটা রূপান্তর সম্পাদন করে তা দেখতে পারেন। +[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') পরিদর্শন করুন কোডটি পড়ার জন্য। আপনি কোডটি চালাতে পারেন এবং দেখতে পারেন এটি কীভাবে রিয়েল টাইমে সমস্ত ডেটা রূপান্তর সম্পন্ন করে। -> যদি আপনি জানেন না কীভাবে একটি জুপিটার নোটবুকে কোড চালাতে হয়, তবে [এই নিবন্ধটি](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) দেখুন। +> যদি আপনি জানেন না কীভাবে জুপিটার নোটবুকে কোড চালাতে হয়, তাহলে [এই নিবন্ধটি](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) দেখুন। -## [পোস্ট-লেকচার কুইজ](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1) +## [পোস্ট-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ds/) ## অ্যাসাইনমেন্ট -* **টাস্ক ১**: উপরের কোডটি পরিবর্তন করুন যাতে **বিগ ডেটা** এবং **মেশিন লার্নিং** ক্ষেত্রের সাথে সম্পর্কিত ধারণাগুলি খুঁজে বের করা যায়। -* **টাস্ক ২**: [ডেটা সায়েন্সের দৃশ্যপট নিয়ে ভাবুন](assignment.md) +* **টাস্ক ১**: উপরের কোডটি পরিবর্তন করুন যাতে **বিগ ডেটা** এবং **মেশিন লার্নিং** ক্ষেত্রের সাথে সম্পর্কিত ধারণাগুলো খুঁজে বের করা যায়। +* **টাস্ক ২**: [ডেটা সায়েন্সের পরিস্থিতি নিয়ে চিন্তা করুন](assignment.md) -## কৃতজ্ঞতা +## ক্রেডিট এই পাঠটি ♥️ দিয়ে [দিমিত্রি সশনিকভ](http://soshnikov.com) দ্বারা রচিত হয়েছে। --- **অস্বীকৃতি**: -এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। নথিটির মূল ভাষায় লেখা সংস্করণটিকেই প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদ ব্যবহার করার পরামর্শ দেওয়া হচ্ছে। এই অনুবাদ ব্যবহারের ফলে সৃষ্ট কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই। \ No newline at end of file +এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদ প্রদানের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়বদ্ধ থাকব না। \ No newline at end of file diff --git a/translations/br/1-Introduction/01-defining-data-science/README.md b/translations/br/1-Introduction/01-defining-data-science/README.md index a244f0cc..62b6fa3f 100644 --- a/translations/br/1-Introduction/01-defining-data-science/README.md +++ b/translations/br/1-Introduction/01-defining-data-science/README.md @@ -1,21 +1,21 @@ ## Tipos de Dados -Como já mencionamos, os dados estão em toda parte. Só precisamos capturá-los da maneira certa! É útil distinguir entre **dados estruturados** e **não estruturados**. Os primeiros geralmente são representados em uma forma bem organizada, frequentemente como uma tabela ou várias tabelas, enquanto os últimos são apenas uma coleção de arquivos. Às vezes, também podemos falar sobre **dados semiestruturados**, que possuem algum tipo de estrutura que pode variar bastante. +Como já mencionamos, os dados estão em toda parte. Só precisamos capturá-los da maneira certa! É útil distinguir entre **dados estruturados** e **não estruturados**. Os primeiros geralmente são representados em uma forma bem estruturada, frequentemente como uma tabela ou várias tabelas, enquanto os últimos são apenas uma coleção de arquivos. Às vezes, também podemos falar sobre **dados semiestruturados**, que possuem algum tipo de estrutura que pode variar bastante. -| Estruturados | Semiestruturados | Não estruturados | +| Estruturados | Semiestruturados | Não estruturados | | ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | | Lista de pessoas com seus números de telefone | Páginas da Wikipedia com links | Texto da Enciclopédia Britannica | | Temperatura em todos os cômodos de um prédio a cada minuto nos últimos 20 anos | Coleção de artigos científicos em formato JSON com autores, data de publicação e resumo | Compartilhamento de arquivos com documentos corporativos | -| Dados de idade e gênero de todas as pessoas entrando no prédio | Páginas da Internet | Vídeo bruto de uma câmera de vigilância | +| Dados de idade e gênero de todas as pessoas entrando no prédio | Páginas da Internet | Vídeo bruto de uma câmera de vigilância | ## Onde obter Dados @@ -30,24 +30,24 @@ Existem muitas fontes possíveis de dados, e seria impossível listar todas elas - **Imagens** ou **Vídeos**. Um vídeo de uma câmera de vigilância pode ser usado para estimar o tráfego na estrada e informar as pessoas sobre possíveis congestionamentos. - **Logs** de servidores web podem ser usados para entender quais páginas do nosso site são mais visitadas e por quanto tempo. * **Semiestruturados** - - **Grafos de Redes Sociais** podem ser ótimas fontes de dados sobre personalidades de usuários e eficácia potencial na disseminação de informações. + - **Grafos de Redes Sociais** podem ser ótimas fontes de dados sobre personalidades de usuários e potencial eficácia na disseminação de informações. - Quando temos um monte de fotografias de uma festa, podemos tentar extrair dados de **Dinâmica de Grupo** construindo um grafo de pessoas tirando fotos umas com as outras. Ao conhecer diferentes fontes possíveis de dados, você pode tentar pensar em diferentes cenários onde técnicas de ciência de dados podem ser aplicadas para entender melhor a situação e melhorar os processos de negócios. ## O que você pode fazer com Dados -Na Ciência de Dados, focamos nas seguintes etapas da jornada dos dados: +Na Ciência de Dados, focamos nos seguintes passos da jornada dos dados: -Claro, dependendo dos dados reais, algumas etapas podem estar ausentes (por exemplo, quando já temos os dados no banco de dados ou quando não precisamos de treinamento de modelo), ou algumas etapas podem ser repetidas várias vezes (como o processamento de dados). +Claro, dependendo dos dados reais, alguns passos podem estar ausentes (por exemplo, quando já temos os dados no banco de dados ou quando não precisamos de treinamento de modelo), ou alguns passos podem ser repetidos várias vezes (como o processamento de dados). ## Digitalização e Transformação Digital -Na última década, muitas empresas começaram a entender a importância dos dados na tomada de decisões de negócios. Para aplicar os princípios da ciência de dados na gestão de um negócio, primeiro é necessário coletar alguns dados, ou seja, traduzir os processos de negócios para uma forma digital. Isso é conhecido como **digitalização**. Aplicar técnicas de ciência de dados a esses dados para orientar decisões pode levar a aumentos significativos na produtividade (ou até mesmo a uma mudança de direção nos negócios), chamado de **transformação digital**. +Na última década, muitas empresas começaram a entender a importância dos dados na tomada de decisões de negócios. Para aplicar os princípios da ciência de dados na gestão de um negócio, primeiro é necessário coletar alguns dados, ou seja, traduzir os processos de negócios em forma digital. Isso é conhecido como **digitalização**. Aplicar técnicas de ciência de dados a esses dados para orientar decisões pode levar a aumentos significativos na produtividade (ou até mesmo a uma mudança de direção nos negócios), chamado de **transformação digital**. Vamos considerar um exemplo. Suponha que temos um curso de ciência de dados (como este) que oferecemos online para estudantes, e queremos usar ciência de dados para melhorá-lo. Como podemos fazer isso? -Podemos começar perguntando "O que pode ser digitalizado?" A maneira mais simples seria medir o tempo que cada aluno leva para completar cada módulo e medir o conhecimento adquirido dando um teste de múltipla escolha ao final de cada módulo. Ao calcular a média do tempo de conclusão entre todos os alunos, podemos descobrir quais módulos causam mais dificuldades e trabalhar para simplificá-los. +Podemos começar perguntando "O que pode ser digitalizado?" A maneira mais simples seria medir o tempo que cada aluno leva para completar cada módulo e medir o conhecimento adquirido dando um teste de múltipla escolha no final de cada módulo. Ao calcular a média do tempo de conclusão entre todos os alunos, podemos descobrir quais módulos causam mais dificuldades e trabalhar para simplificá-los. Você pode argumentar que essa abordagem não é ideal, porque os módulos podem ter comprimentos diferentes. Provavelmente seria mais justo dividir o tempo pelo comprimento do módulo (em número de caracteres) e comparar esses valores em vez disso. Quando começamos a analisar os resultados de testes de múltipla escolha, podemos tentar determinar quais conceitos os alunos têm dificuldade em entender e usar essas informações para melhorar o conteúdo. Para isso, precisamos projetar os testes de forma que cada pergunta esteja vinculada a um determinado conceito ou bloco de conhecimento. @@ -61,13 +61,13 @@ Neste desafio, tentaremos encontrar conceitos relevantes para o campo de Ciênci Visite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') para ler o código. Você também pode executar o código e ver como ele realiza todas as transformações de dados em tempo real. -> Se você não sabe como executar código em um Jupyter Notebook, confira [este artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). +> Se você não sabe como executar código em um Jupyter Notebook, dê uma olhada neste [artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). -## [Quiz pós-aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1) +## [Quiz pós-aula](https://ff-quizzes.netlify.app/en/ds/) ## Tarefas -* **Tarefa 1**: Modifique o código acima para descobrir conceitos relacionados aos campos de **Big Data** e **Machine Learning** +* **Tarefa 1**: Modifique o código acima para descobrir conceitos relacionados aos campos de **Big Data** e **Machine Learning** * **Tarefa 2**: [Pense em Cenários de Ciência de Dados](assignment.md) ## Créditos diff --git a/translations/cs/1-Introduction/01-defining-data-science/README.md b/translations/cs/1-Introduction/01-defining-data-science/README.md index 495affce..fd0455bf 100644 --- a/translations/cs/1-Introduction/01-defining-data-science/README.md +++ b/translations/cs/1-Introduction/01-defining-data-science/README.md @@ -1,55 +1,55 @@ ## Typy dat -Jak jsme již zmínili, data jsou všude kolem nás. Stačí je jen správně zachytit! Je užitečné rozlišovat mezi **strukturovanými** a **nestrukturovanými** daty. Strukturovaná data jsou obvykle reprezentována v nějaké dobře organizované formě, často jako tabulka nebo více tabulek, zatímco nestrukturovaná data jsou jen sbírkou souborů. Někdy také mluvíme o **polostrukturovaných** datech, která mají určitý druh struktury, jež se však může značně lišit. +Jak jsme již zmínili, data jsou všude kolem nás. Stačí je jen správně zachytit! Je užitečné rozlišovat mezi **strukturovanými** a **nestrukturovanými** daty. Strukturovaná data jsou obvykle reprezentována v dobře organizované formě, často jako tabulka nebo několik tabulek, zatímco nestrukturovaná data jsou jen sbírkou souborů. Někdy můžeme také hovořit o **polostrukturovaných** datech, která mají určitý druh struktury, jež se může značně lišit. | Strukturovaná | Polostrukturovaná | Nestrukturovaná | -| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------- | --------------------------------------- | -| Seznam lidí s jejich telefonními čísly | Stránky Wikipedie s odkazy | Text Encyklopedie Britannica | -| Teplota ve všech místnostech budovy každou minutu za posledních 20 let | Sbírka vědeckých článků ve formátu JSON s autory, datem publikace a abstraktem | Sdílené soubory s firemními dokumenty | -| Data o věku a pohlaví všech lidí vstupujících do budovy | Internetové stránky | Surový videozáznam z bezpečnostní kamery | +| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------- | -------------------------------------- | +| Seznam lidí s jejich telefonními čísly | Stránky Wikipedie s odkazy | Text Encyklopedie Britannica | +| Teplota ve všech místnostech budovy každou minutu za posledních 20 let | Sbírka vědeckých článků ve formátu JSON s autory, datem publikace a abstraktem | Sdílené soubory s firemními dokumenty | +| Data o věku a pohlaví všech lidí vstupujících do budovy | Internetové stránky | Surový videozáznam z bezpečnostní kamery | ## Kde získat data -Existuje mnoho možných zdrojů dat, a je nemožné je všechny vyjmenovat! Nicméně zmíníme některé typické zdroje, odkud můžete data získat: +Existuje mnoho možných zdrojů dat, a je nemožné je všechny vyjmenovat! Nicméně zmíníme některé typické místa, kde můžete data získat: * **Strukturovaná** - - **Internet věcí** (IoT), včetně dat z různých senzorů, jako jsou teplotní nebo tlakové senzory, poskytuje mnoho užitečných dat. Například pokud je kancelářská budova vybavena IoT senzory, můžeme automaticky řídit vytápění a osvětlení, abychom minimalizovali náklady. - - **Průzkumy**, které žádáme uživatele vyplnit po nákupu nebo po návštěvě webové stránky. - - **Analýza chování** může například pomoci pochopit, jak hluboko uživatel prochází webovou stránku a jaký je typický důvod jejího opuštění. + - **Internet věcí** (IoT), včetně dat z různých senzorů, jako jsou senzory teploty nebo tlaku, poskytuje mnoho užitečných dat. Například pokud je kancelářská budova vybavena IoT senzory, můžeme automaticky řídit vytápění a osvětlení, abychom minimalizovali náklady. + - **Dotazníky**, které žádáme uživatele vyplnit po nákupu nebo po návštěvě webové stránky. + - **Analýza chování** může například pomoci pochopit, jak hluboko uživatel proniká na webovou stránku a jaký je typický důvod jejího opuštění. * **Nestrukturovaná** - - **Texty** mohou být bohatým zdrojem poznatků, například celkového **skóre sentimentu** nebo extrakce klíčových slov a sémantického významu. - - **Obrázky** nebo **videa**. Video z bezpečnostní kamery může být použito k odhadu dopravní situace na silnici a k informování lidí o možných dopravních zácpách. - - **Logy** webových serverů mohou být použity k pochopení, které stránky našeho webu jsou nejčastěji navštěvovány a jak dlouho. + - **Texty** mohou být bohatým zdrojem poznatků, jako je celkový **skóre sentimentu** nebo extrakce klíčových slov a sémantického významu. + - **Obrázky** nebo **video**. Video z bezpečnostní kamery může být použito k odhadu provozu na silnici a informování lidí o možných dopravních zácpách. + - **Logy** webového serveru mohou být použity k pochopení, které stránky našeho webu jsou nejčastěji navštěvovány a jak dlouho. * **Polostrukturovaná** - - **Grafy sociálních sítí** mohou být skvělým zdrojem dat o osobnostech uživatelů a jejich potenciální efektivitě při šíření informací. - - Pokud máme sbírku fotografií z večírku, můžeme se pokusit extrahovat data o **skupinové dynamice** vytvořením grafu lidí, kteří se fotili spolu. + - **Grafy sociálních sítí** mohou být skvělým zdrojem dat o osobnostech uživatelů a potenciální efektivitě šíření informací. + - Když máme sbírku fotografií z večírku, můžeme se pokusit extrahovat data o **skupinové dynamice** vytvořením grafu lidí, kteří se fotí spolu. -Znalost různých možných zdrojů dat vám umožní přemýšlet o různých scénářích, kde lze aplikovat techniky datové vědy k lepšímu pochopení situace a ke zlepšení obchodních procesů. +Znalost různých možných zdrojů dat vám umožní přemýšlet o různých scénářích, kde lze aplikovat techniky datové vědy k lepšímu pochopení situace a zlepšení obchodních procesů. ## Co můžete dělat s daty -V datové vědě se zaměřujeme na následující kroky v práci s daty: +V datové vědě se zaměřujeme na následující kroky v cestě dat: -Samozřejmě, v závislosti na konkrétních datech mohou některé kroky chybět (např. když už máme data v databázi nebo když nepotřebujeme trénovat model), nebo se některé kroky mohou opakovat několikrát (například zpracování dat). +Samozřejmě, v závislosti na konkrétních datech mohou některé kroky chybět (např. když už máme data v databázi nebo když nepotřebujeme trénovat model), nebo mohou být některé kroky opakovány několikrát (například zpracování dat). ## Digitalizace a digitální transformace -V posledním desetiletí si mnoho podniků začalo uvědomovat důležitost dat při rozhodování. Aby bylo možné aplikovat principy datové vědy na řízení podniku, je nejprve nutné shromáždit nějaká data, tj. převést obchodní procesy do digitální podoby. To se nazývá **digitalizace**. Použití technik datové vědy na tato data k usnadnění rozhodování může vést k výraznému zvýšení produktivity (nebo dokonce k zásadní změně podnikání), což se nazývá **digitální transformace**. +V posledním desetiletí si mnoho podniků začalo uvědomovat důležitost dat při rozhodování. Aby bylo možné aplikovat principy datové vědy na řízení podniku, je nejprve nutné shromáždit nějaká data, tj. převést obchodní procesy do digitální podoby. Tomu se říká **digitalizace**. Použití technik datové vědy na tato data k usměrnění rozhodování může vést k významnému zvýšení produktivity (nebo dokonce k zásadní změně podnikání), což se nazývá **digitální transformace**. -Podívejme se na příklad. Představme si, že máme kurz datové vědy (jako je tento), který poskytujeme online studentům, a chceme jej pomocí datové vědy zlepšit. Jak to můžeme udělat? +Uvažujme příklad. Předpokládejme, že máme kurz datové vědy (jako tento), který poskytujeme online studentům, a chceme jej pomocí datové vědy zlepšit. Jak to můžeme udělat? -Můžeme začít otázkou „Co lze digitalizovat?“ Nejjednodušší způsob by byl měřit čas, který každý student potřebuje k dokončení každého modulu, a měřit získané znalosti pomocí testu s výběrem odpovědí na konci každého modulu. Průměrováním času potřebného k dokončení u všech studentů můžeme zjistit, které moduly studentům způsobují největší potíže, a pracovat na jejich zjednodušení. +Můžeme začít otázkou „Co lze digitalizovat?“ Nejjednodušší způsob by byl měřit čas, který každý student potřebuje k dokončení každého modulu, a měřit získané znalosti pomocí testu s výběrem odpovědí na konci každého modulu. Průměrováním času potřebného k dokončení mezi všemi studenty můžeme zjistit, které moduly studentům způsobují největší potíže, a pracovat na jejich zjednodušení. Můžete namítnout, že tento přístup není ideální, protože moduly mohou mít různou délku. Pravděpodobně by bylo spravedlivější rozdělit čas podle délky modulu (v počtu znaků) a porovnat tyto hodnoty místo toho. -Když začneme analyzovat výsledky testů s výběrem odpovědí, můžeme se pokusit zjistit, které koncepty studentům dělají potíže, a využít tyto informace k vylepšení obsahu. Abychom toho dosáhli, musíme navrhnout testy tak, aby každá otázka odpovídala určitému konceptu nebo části znalostí. +Když začneme analyzovat výsledky testů s výběrem odpovědí, můžeme se pokusit zjistit, které koncepty dělají studentům problémy, a využít tyto informace k vylepšení obsahu. Abychom toho dosáhli, musíme navrhnout testy tak, aby každá otázka odpovídala určitému konceptu nebo části znalostí. Pokud chceme být ještě složitější, můžeme vykreslit čas potřebný na každý modul proti věkové kategorii studentů. Můžeme zjistit, že pro některé věkové kategorie trvá nepřiměřeně dlouho dokončit modul, nebo že studenti odpadnou před jeho dokončením. To nám může pomoci poskytnout věková doporučení pro modul a minimalizovat nespokojenost lidí z nesprávných očekávání. @@ -63,11 +63,11 @@ Navštivte [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defin > Pokud nevíte, jak spustit kód v Jupyter Notebooku, podívejte se na [tento článek](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). -## [Kvíz po přednášce](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1) +## [Kvíz po přednášce](https://ff-quizzes.netlify.app/en/ds/) ## Úkoly -* **Úkol 1**: Upravte výše uvedený kód, abyste zjistili související koncepty pro oblasti **Big Data** a **Machine Learning** +* **Úkol 1**: Upravte výše uvedený kód, abyste našli související koncepty pro oblasti **Big Data** a **Machine Learning** * **Úkol 2**: [Přemýšlejte o scénářích Data Science](assignment.md) ## Poděkování @@ -77,4 +77,4 @@ Tuto lekci vytvořil s ♥️ [Dmitry Soshnikov](http://soshnikov.com) --- **Prohlášení**: -Tento dokument byl přeložen pomocí služby AI pro překlady [Co-op Translator](https://github.com/Azure/co-op-translator). Ačkoli se snažíme o přesnost, mějte na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádné nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu. \ No newline at end of file +Tento dokument byl přeložen pomocí služby pro automatický překlad [Co-op Translator](https://github.com/Azure/co-op-translator). I když se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádné nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu. \ No newline at end of file diff --git a/translations/da/1-Introduction/01-defining-data-science/README.md b/translations/da/1-Introduction/01-defining-data-science/README.md index db346adb..f88b14f8 100644 --- a/translations/da/1-Introduction/01-defining-data-science/README.md +++ b/translations/da/1-Introduction/01-defining-data-science/README.md @@ -1,73 +1,75 @@ ## Typer af Data -Som vi allerede har nævnt, er data overalt. Vi skal bare indfange det på den rigtige måde! Det er nyttigt at skelne mellem **struktureret** og **ustruktureret** data. Førstnævnte er typisk repræsenteret i en velstruktureret form, ofte som en tabel eller flere tabeller, mens sidstnævnte blot er en samling af filer. Nogle gange kan vi også tale om **semistruktureret** data, som har en form for struktur, der kan variere meget. +Som vi allerede har nævnt, er data overalt. Vi skal bare fange det på den rigtige måde! Det er nyttigt at skelne mellem **struktureret** og **ustruktureret** data. Struktureret data er typisk repræsenteret i en velorganiseret form, ofte som en tabel eller flere tabeller, mens ustruktureret data blot er en samling af filer. Nogle gange kan vi også tale om **semistruktureret** data, som har en form for struktur, der kan variere meget. | Struktureret | Semistruktureret | Ustruktureret | | ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | | Liste over personer med deres telefonnumre | Wikipedia-sider med links | Teksten fra Encyclopedia Britannica | -| Temperatur i alle rum i en bygning hvert minut de sidste 20 år | Samling af videnskabelige artikler i JSON-format med forfattere, udgivelsesdato og abstrakt | Fildeling med virksomheds-dokumenter | -| Data om alder og køn på alle personer, der går ind i bygningen | Internetsider | Rå videofeed fra overvågningskamera | +| Temperatur i alle rum i en bygning hvert minut de sidste 20 år | Samling af videnskabelige artikler i JSON-format med forfattere, udgivelsesdato og abstrakt | Filarkiv med virksomheds-dokumenter | +| Data om alder og køn for alle personer, der går ind i bygningen | Internet-sider | Rå videooptagelser fra overvågningskamera | ## Hvor kan man få Data -Der er mange mulige kilder til data, og det vil være umuligt at nævne dem alle! Men lad os nævne nogle af de typiske steder, hvor du kan få data: +Der er mange mulige kilder til data, og det vil være umuligt at liste dem alle! Men lad os nævne nogle af de typiske steder, hvor du kan få data: * **Struktureret** - - **Internet of Things** (IoT), herunder data fra forskellige sensorer som temperatur- eller tryksensorer, leverer en masse nyttige data. For eksempel, hvis en kontorbygning er udstyret med IoT-sensorer, kan vi automatisk styre opvarmning og belysning for at minimere omkostningerne. - - **Spørgeskemaer**, som vi beder brugere udfylde efter et køb eller efter at have besøgt en hjemmeside. + - **Internet of Things** (IoT), inklusive data fra forskellige sensorer som temperatur- eller tryksensorer, giver en masse nyttige data. For eksempel, hvis en kontorbygning er udstyret med IoT-sensorer, kan vi automatisk styre opvarmning og belysning for at minimere omkostningerne. + - **Spørgeskemaer**, som vi beder brugere om at udfylde efter et køb eller efter at have besøgt en hjemmeside. - **Adfærdsanalyse** kan for eksempel hjælpe os med at forstå, hvor dybt en bruger går ind på en hjemmeside, og hvad der typisk får dem til at forlade siden. * **Ustruktureret** - - **Tekster** kan være en rig kilde til indsigt, såsom en overordnet **stemningsscore** eller udtrækning af nøgleord og semantisk betydning. - - **Billeder** eller **Videoer**. En video fra et overvågningskamera kan bruges til at estimere trafik på vejen og informere folk om potentielle trafikpropper. - - Webserver-**logfiler** kan bruges til at forstå, hvilke sider på vores hjemmeside der oftest besøges, og hvor længe. + - **Tekster** kan være en rig kilde til indsigt, såsom en samlet **sentimentscore** eller udtrækning af nøgleord og semantisk betydning. + - **Billeder** eller **Video**. En video fra et overvågningskamera kan bruges til at estimere trafik på vejen og informere folk om potentielle trafikpropper. + - Webserver **Logs** kan bruges til at forstå, hvilke sider på vores hjemmeside der oftest besøges, og hvor længe. * **Semistruktureret** - - **Sociale netværks**grafer kan være fremragende kilder til data om brugeres personligheder og deres potentielle effektivitet i at sprede information. - - Når vi har en samling fotografier fra en fest, kan vi forsøge at udtrække data om **gruppedynamik** ved at bygge en graf over personer, der tager billeder sammen. + - **Sociale netværks** grafer kan være fremragende kilder til data om brugerpersonligheder og potentiel effektivitet i at sprede information. + - Når vi har en samling fotografier fra en fest, kan vi forsøge at udtrække data om **gruppedynamik** ved at opbygge en graf over personer, der tager billeder sammen. -Ved at kende til forskellige mulige datakilder kan du overveje forskellige scenarier, hvor data science-teknikker kan anvendes til at forstå situationen bedre og forbedre forretningsprocesser. +Ved at kende til forskellige mulige datakilder kan du prøve at tænke på forskellige scenarier, hvor data science-teknikker kan anvendes til at forstå situationen bedre og forbedre forretningsprocesser. ## Hvad kan du gøre med Data -Inden for Data Science fokuserer vi på følgende trin i datarejsen: +I Data Science fokuserer vi på følgende trin i datarejsen: -Selvfølgelig, afhængigt af de faktiske data, kan nogle trin mangle (f.eks. når vi allerede har data i databasen, eller når vi ikke har brug for modeltræning), eller nogle trin kan gentages flere gange (såsom databehandling). +Selvfølgelig, afhængigt af den faktiske data, kan nogle trin mangle (f.eks. når vi allerede har data i databasen, eller når vi ikke behøver modeltræning), eller nogle trin kan gentages flere gange (såsom databehandling). ## Digitalisering og Digital Transformation -I det sidste årti er mange virksomheder begyndt at forstå vigtigheden af data, når de træffer forretningsbeslutninger. For at anvende data science-principper på en virksomhed skal man først indsamle nogle data, dvs. oversætte forretningsprocesser til digital form. Dette kaldes **digitalisering**. Anvendelse af data science-teknikker på disse data til at vejlede beslutninger kan føre til betydelige produktivitetsforøgelser (eller endda en forretningsdrejning), hvilket kaldes **digital transformation**. +I det sidste årti er mange virksomheder begyndt at forstå vigtigheden af data, når de træffer forretningsbeslutninger. For at anvende data science-principper på en virksomhed skal man først indsamle noget data, dvs. oversætte forretningsprocesser til digital form. Dette kaldes **digitalisering**. Anvendelse af data science-teknikker på denne data til at vejlede beslutninger kan føre til betydelige produktivitetsforøgelser (eller endda en forretningsmæssig omstilling), kaldet **digital transformation**. Lad os tage et eksempel. Antag, at vi har et data science-kursus (som dette), som vi leverer online til studerende, og vi ønsker at bruge data science til at forbedre det. Hvordan kan vi gøre det? -Vi kan starte med at spørge: "Hvad kan digitaliseres?" Den enkleste måde ville være at måle, hvor lang tid det tager hver studerende at gennemføre hvert modul, og måle den opnåede viden ved at give en multiple-choice-test i slutningen af hvert modul. Ved at gennemsnitliggøre gennemførelsestiden på tværs af alle studerende kan vi finde ud af, hvilke moduler der giver de studerende flest udfordringer, og arbejde på at forenkle dem. -> Du kan måske argumentere for, at denne tilgang ikke er ideel, fordi moduler kan have forskellige længder. Det er sandsynligvis mere retfærdigt at opdele tiden med modulets længde (i antal tegn) og sammenligne disse værdier i stedet. -Når vi begynder at analysere resultaterne af multiple-choice tests, kan vi forsøge at identificere, hvilke begreber eleverne har svært ved at forstå, og bruge den information til at forbedre indholdet. For at gøre dette skal vi designe tests på en måde, hvor hvert spørgsmål knyttes til et bestemt begreb eller en vidensdel. +Vi kan starte med at spørge: "Hvad kan digitaliseres?" Den enkleste måde ville være at måle den tid, det tager hver studerende at gennemføre hver modul, og måle den opnåede viden ved at give en multiple-choice test i slutningen af hver modul. Ved at beregne gennemsnitlig gennemførselstid på tværs af alle studerende kan vi finde ud af, hvilke moduler der giver de største udfordringer for studerende, og arbejde på at gøre dem enklere. +Du kan måske argumentere for, at denne tilgang ikke er ideel, fordi moduler kan have forskellige længder. Det er sandsynligvis mere retfærdigt at opdele tiden efter længden af modulet (i antal tegn) og sammenligne disse værdier i stedet. +Når vi begynder at analysere resultaterne af multiple-choice tests, kan vi forsøge at finde ud af, hvilke begreber eleverne har svært ved at forstå, og bruge den information til at forbedre indholdet. For at gøre det skal vi designe tests på en måde, hvor hvert spørgsmål knyttes til et bestemt begreb eller en vidensdel. -Hvis vi vil gøre det endnu mere komplekst, kan vi plotte den tid, der bruges på hvert modul, mod elevernes alderskategori. Vi kan finde ud af, at det for nogle alderskategorier tager uforholdsmæssigt lang tid at gennemføre modulet, eller at eleverne dropper ud, før de fuldfører det. Dette kan hjælpe os med at give aldersanbefalinger for modulet og minimere folks utilfredshed på grund af forkerte forventninger. +Hvis vi vil gøre det endnu mere avanceret, kan vi plotte den tid, der bruges på hvert modul, mod elevernes alderskategori. Vi kunne opdage, at det for nogle alderskategorier tager uforholdsmæssigt lang tid at gennemføre modulet, eller at eleverne falder fra, før de bliver færdige. Dette kan hjælpe os med at give aldersanbefalinger for modulet og minimere folks utilfredshed på grund af forkerte forventninger. ## 🚀 Udfordring -I denne udfordring vil vi forsøge at finde begreber, der er relevante for området Data Science, ved at kigge på tekster. Vi vil tage en Wikipedia-artikel om Data Science, downloade og behandle teksten og derefter bygge en ordsky som denne: +I denne udfordring vil vi forsøge at finde begreber, der er relevante for området Data Science, ved at kigge på tekster. Vi vil tage en Wikipedia-artikel om Data Science, downloade og bearbejde teksten og derefter bygge en ordsky som denne: ![Ordsky for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.da.png) -Besøg [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') for at gennemgå koden. Du kan også køre koden og se, hvordan den udfører alle datatransformationer i realtid. +Besøg [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') for at læse koden igennem. Du kan også køre koden og se, hvordan den udfører alle datatransformationer i realtid. -> Hvis du ikke ved, hvordan man kører kode i en Jupyter Notebook, kan du læse [denne artikel](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). +> Hvis du ikke ved, hvordan man kører kode i en Jupyter Notebook, kan du læse denne artikel: [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). -## [Quiz efter forelæsning](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1) + + +## [Quiz efter forelæsning](https://ff-quizzes.netlify.app/en/ds/) ## Opgaver -* **Opgave 1**: Modificer koden ovenfor for at finde relaterede begreber for områderne **Big Data** og **Machine Learning** +* **Opgave 1**: Tilpas koden ovenfor for at finde relaterede begreber for områderne **Big Data** og **Machine Learning** * **Opgave 2**: [Tænk over Data Science-scenarier](assignment.md) ## Kreditering @@ -77,4 +79,4 @@ Denne lektion er skrevet med ♥️ af [Dmitry Soshnikov](http://soshnikov.com) --- **Ansvarsfraskrivelse**: -Dette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det originale dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi er ikke ansvarlige for eventuelle misforståelser eller fejltolkninger, der måtte opstå som følge af brugen af denne oversættelse. \ No newline at end of file +Dette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det originale dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi er ikke ansvarlige for eventuelle misforståelser eller fejltolkninger, der opstår som følge af brugen af denne oversættelse. \ No newline at end of file diff --git a/translations/de/1-Introduction/01-defining-data-science/README.md b/translations/de/1-Introduction/01-defining-data-science/README.md index 2e82f9d6..b6ee4e23 100644 --- a/translations/de/1-Introduction/01-defining-data-science/README.md +++ b/translations/de/1-Introduction/01-defining-data-science/README.md @@ -1,8 +1,8 @@ -We can also analyze the test results to identify which questions are most often answered incorrectly. This could indicate areas where the material might need to be clarified or expanded. Additionally, we could track how students interact with the course content—such as which videos they replay, which sections they skip, or how often they participate in discussions. This data could help us understand how students engage with the material and identify opportunities to make the course more engaging and effective. +Of course, we can go further. For example, we could analyze the test results to identify which specific questions are most often answered incorrectly. This could help us pinpoint areas where the material might need to be clarified or expanded. Additionally, we could track how students navigate through the course, such as which sections they revisit or skip, to better understand their learning patterns. -By collecting and analyzing this data, we are essentially digitizing the learning process. Once we have this data, we can apply data science techniques to gain insights and make informed decisions about how to improve the course. This is an example of digital transformation in education. +By collecting and analyzing this data, we can make informed decisions to improve the course structure, content, and delivery. This is a simple example of how digitalization (collecting data about the course) and digital transformation (using that data to improve the course) can work together to enhance outcomes. -Digital transformation is not limited to education—it can be applied to virtually any industry. For example: +## Summary -- In **healthcare**, digital transformation might involve using patient data to predict disease outbreaks or personalize treatment plans. -- In **retail**, it could mean analyzing customer purchase data to optimize inventory or create personalized marketing campaigns. -- In **manufacturing**, it might involve using sensor data from machines to predict maintenance needs and reduce downtime. +Data is everywhere, and its importance has grown significantly with the advent of computers and the Internet. Data science is the field that helps us extract knowledge and actionable insights from data, using scientific methods and computational tools. It operates on structured, semi-structured, and unstructured data, and spans a wide range of application domains. -The key idea is that by digitizing processes and applying data science, businesses can gain valuable insights, improve efficiency, and make better decisions. -You might say this method isn't perfect, as modules can vary in length. It might be more reasonable to divide the time by the module's length (measured in the number of characters) and compare those results instead. -When we start analyzing the results of multiple-choice tests, we can try to identify which concepts students struggle to understand and use that information to improve the content. To achieve this, we need to design tests so that each question corresponds to a specific concept or piece of knowledge. +Understanding the types of data, where to find it, and how to use it effectively is key to leveraging data science. By applying these principles, businesses and individuals can make better decisions, optimize processes, and even transform the way they operate. +You might argue that this approach isn't perfect, as modules can vary in length. It would probably be fairer to divide the time by the module's length (measured in the number of characters) and compare those values instead. +When analyzing the results of multiple-choice tests, we can identify concepts that students struggle to understand and use this information to improve the content. To achieve this, tests should be designed so that each question corresponds to a specific concept or piece of knowledge. -If we want to go a step further, we can compare the time taken for each module with the age category of the students. We might discover that for certain age groups, it takes an unusually long time to complete the module, or that students drop out before finishing it. This can help us provide age-appropriate recommendations for the module and reduce dissatisfaction caused by unmet expectations. +For a more advanced approach, we can compare the time taken to complete each module with the age group of the students. This might reveal that certain age groups take an unusually long time to finish a module or that students drop out before completing it. Such insights can help us recommend appropriate age groups for the module and reduce dissatisfaction caused by mismatched expectations. ## 🚀 Challenge -In this challenge, we will try to identify concepts relevant to the field of Data Science by analyzing texts. We will take a Wikipedia article on Data Science, download and process the text, and then create a word cloud like this one: +In this challenge, we will identify concepts related to the field of Data Science by analyzing texts. We'll use a Wikipedia article on Data Science, download and process the text, and then create a word cloud similar to this one: -![Word Cloud for Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.en.png) -Visit [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') to review the code. You can also run the code and observe how it performs all the data transformations in real time. +Check out [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') to explore the code. You can also run the code to see how it performs all data transformations in real time. -> If you are unfamiliar with running code in a Jupyter Notebook, check out [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). +> If you're unfamiliar with running code in a Jupyter Notebook, refer to [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). -## [Post-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1) +## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ds/) ## Assignments diff --git a/translations/en/1-Introduction/01-defining-data-science/notebook.ipynb b/translations/en/1-Introduction/01-defining-data-science/notebook.ipynb new file mode 100644 index 00000000..501951f6 --- /dev/null +++ b/translations/en/1-Introduction/01-defining-data-science/notebook.ipynb @@ -0,0 +1,431 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "source": [ + "# Challenge: Analyzing Text about Data Science\n", + "\n", + "In this example, let's do a simple exercise that includes all the steps of a typical data science process. You don't need to write any code; you can simply click on the cells below to run them and observe the results. As a challenge, you're encouraged to test this code with different data.\n", + "\n", + "## Goal\n", + "\n", + "In this lesson, we've been discussing various concepts related to Data Science. Let's explore more related concepts by performing **text mining**. We'll start with a text about Data Science, extract keywords from it, and then attempt to visualize the results.\n", + "\n", + "For the text, we'll use the Wikipedia page on Data Science:\n" + ], + "metadata": {} + }, + { + "cell_type": "markdown", + "source": [], + "metadata": {} + }, + { + "cell_type": "code", + "execution_count": 62, + "source": [ + "url = 'https://en.wikipedia.org/wiki/Data_science'" + ], + "outputs": [], + "metadata": {} + }, + { + "cell_type": "markdown", + "source": [ + "## Step 1: Obtaining the Data\n", + "\n", + "The first step in any data science process is obtaining the data. We'll use the `requests` library for this:\n" + ], + "metadata": {} + }, + { + "cell_type": "code", + "execution_count": 63, + "source": [ + "import requests\r\n", + "\r\n", + "text = requests.get(url).content.decode('utf-8')\r\n", + "print(text[:1000])" + ], + "outputs": [ + { + "output_type": "stream", + "name": "stdout", + "text": [ + "\n", + "\n", + "\n", + "\n", + "Data science - Wikipedia\n", + "