🌐 Update translations via Co-op Translator

pull/643/head
leestott 3 weeks ago committed by GitHub
parent 2926383f96
commit 29fa7e1c12

@ -1,80 +1,36 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-27T08:58:46+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:00:17+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "ar"
}
-->
# تعريف علم البيانات
| ![رسم توضيحي من [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------: |
| تعريف علم البيانات - _رسم توضيحي من [@nitya](https://twitter.com/nitya)_ |
---
[![فيديو تعريف علم البيانات](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.ar.png)](https://youtu.be/beZ7Mb_oz9I)
## [اختبار ما قبل المحاضرة](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## ما هو البيانات؟
في حياتنا اليومية، نحن محاطون دائمًا بالبيانات. النص الذي تقرأه الآن هو بيانات. قائمة أرقام هواتف أصدقائك في هاتفك الذكي هي بيانات، وكذلك الوقت الحالي المعروض على ساعتك. كبشر، نحن نتعامل مع البيانات بشكل طبيعي من خلال عد النقود التي لدينا أو كتابة رسائل لأصدقائنا.
ومع ذلك، أصبحت البيانات أكثر أهمية مع ظهور الحواسيب. الدور الأساسي للحواسيب هو إجراء العمليات الحسابية، لكنها تحتاج إلى بيانات للعمل عليها. لذلك، نحن بحاجة إلى فهم كيفية تخزين ومعالجة الحواسيب للبيانات.
مع ظهور الإنترنت، زاد دور الحواسيب كأجهزة للتعامل مع البيانات. إذا فكرت في الأمر، نحن الآن نستخدم الحواسيب بشكل متزايد لمعالجة البيانات والتواصل بدلاً من العمليات الحسابية الفعلية. عندما نكتب بريدًا إلكترونيًا لصديق أو نبحث عن معلومات على الإنترنت - نحن في الأساس نقوم بإنشاء وتخزين ونقل ومعالجة البيانات.
> هل يمكنك تذكر آخر مرة استخدمت فيها الحاسوب فعليًا لإجراء عملية حسابية؟
## ما هو علم البيانات؟
في [ويكيبيديا](https://en.wikipedia.org/wiki/Data_science)، يُعرَّف **علم البيانات** بأنه *مجال علمي يستخدم الأساليب العلمية لاستخلاص المعرفة والرؤى من البيانات المنظمة وغير المنظمة، وتطبيق المعرفة والرؤى القابلة للتنفيذ من البيانات عبر مجموعة واسعة من المجالات التطبيقية*.
تُبرز هذه التعريف النقاط التالية المهمة حول علم البيانات:
* الهدف الرئيسي لعلم البيانات هو **استخلاص المعرفة** من البيانات، بمعنى آخر - **فهم** البيانات، واكتشاف العلاقات المخفية وبناء **نموذج**.
* يستخدم علم البيانات **الأساليب العلمية**، مثل الاحتمالات والإحصاء. في الواقع، عندما تم تقديم مصطلح *علم البيانات* لأول مرة، جادل البعض بأنه مجرد اسم جديد للإحصاء. ومع ذلك، أصبح من الواضح الآن أن المجال أوسع بكثير.
* يجب تطبيق المعرفة المستخلصة لإنتاج **رؤى قابلة للتنفيذ**، أي رؤى عملية يمكن تطبيقها على مواقف الأعمال الحقيقية.
* يجب أن نكون قادرين على التعامل مع البيانات **المنظمة** و**غير المنظمة**. سنعود لاحقًا في الدورة لمناقشة أنواع البيانات المختلفة.
* **مجال التطبيق** هو مفهوم مهم، وغالبًا ما يحتاج علماء البيانات إلى درجة معينة من الخبرة في مجال المشكلة، مثل: المالية، الطب، التسويق، إلخ.
> جانب آخر مهم في علم البيانات هو أنه يدرس كيفية جمع البيانات وتخزينها والعمل عليها باستخدام الحواسيب. بينما توفر الإحصائيات الأسس الرياضية، يطبق علم البيانات المفاهيم الرياضية لاستخلاص الرؤى من البيانات.
إحدى الطرق (المنسوبة إلى [جيم غراي](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) للنظر إلى علم البيانات هي اعتباره نموذجًا منفصلًا للعلم:
* **تجريبي**، حيث نعتمد بشكل أساسي على الملاحظات ونتائج التجارب.
* **نظري**، حيث تنبثق المفاهيم الجديدة من المعرفة العلمية الحالية.
* **حسابي**، حيث نكتشف مبادئ جديدة بناءً على بعض التجارب الحسابية.
* **قائم على البيانات**، يعتمد على اكتشاف العلاقات والأنماط في البيانات.
## مجالات ذات صلة
نظرًا لأن البيانات موجودة في كل مكان، فإن علم البيانات نفسه مجال واسع يتداخل مع العديد من التخصصات الأخرى.
## أنواع البيانات
كما ذكرنا سابقًا، البيانات موجودة في كل مكان. نحن فقط بحاجة إلى التقاطها بالطريقة الصحيحة! من المفيد التمييز بين البيانات **المنظمة** و**غير المنظمة**. الأولى تمثل عادةً في شكل منظم جيدًا، غالبًا كجدول أو عدد من الجداول، بينما الثانية هي مجرد مجموعة من الملفات. أحيانًا يمكننا أيضًا الحديث عن البيانات **شبه المنظمة**، التي تحتوي على نوع من الهيكل الذي قد يختلف بشكل كبير.
كما ذكرنا سابقًا، البيانات موجودة في كل مكان. نحن فقط بحاجة إلى التقاطها بالطريقة الصحيحة! من المفيد التمييز بين البيانات **المهيكلة** و**غير المهيكلة**. البيانات المهيكلة عادةً ما تكون ممثلة في شكل منظم جيدًا، غالبًا كجدول أو عدد من الجداول، بينما البيانات غير المهيكلة هي مجرد مجموعة من الملفات. أحيانًا يمكننا أيضًا الحديث عن البيانات **شبه المهيكلة**، التي تحتوي على نوع من الهيكل الذي قد يختلف بشكل كبير.
| منظمة | شبه منظمة | غير منظمة |
| -------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | ------------------------------------- |
| مهيكلة | شبه مهيكلة | غير مهيكلة |
| ------------------------------------------------------------------------ | --------------------------------------------------------------------------------------------- | --------------------------------------- |
| قائمة بأسماء الأشخاص وأرقام هواتفهم | صفحات ويكيبيديا مع روابط | نص موسوعة بريتانيكا |
| درجة الحرارة في جميع غرف مبنى كل دقيقة خلال العشرين عامًا الماضية | مجموعة من الأوراق العلمية بصيغة JSON تحتوي على المؤلفين، تاريخ النشر، والملخص | ملفات مشتركة تحتوي على مستندات الشركة |
| درجات الحرارة في جميع غرف المبنى كل دقيقة على مدار العشرين عامًا الماضية | مجموعة من الأوراق العلمية بصيغة JSON مع المؤلفين، تاريخ النشر، والملخص | مشاركة ملفات تحتوي على مستندات الشركة |
| بيانات العمر والجنس لجميع الأشخاص الذين يدخلون المبنى | صفحات الإنترنت | فيديو خام من كاميرا مراقبة |
## من أين تحصل على البيانات
هناك العديد من المصادر الممكنة للبيانات، ومن المستحيل سردها جميعًا! ومع ذلك، دعونا نذكر بعض الأماكن النموذجية التي يمكنك الحصول على البيانات منها:
هناك العديد من المصادر الممكنة للبيانات، وسيكون من المستحيل سردها جميعًا! ومع ذلك، دعونا نذكر بعض الأماكن النموذجية التي يمكنك الحصول على البيانات منها:
* **منظمة**
- **إنترنت الأشياء** (IoT)، بما في ذلك البيانات من أجهزة الاستشعار المختلفة، مثل مستشعرات الحرارة أو الضغط، يوفر الكثير من البيانات المفيدة. على سبيل المثال، إذا كان مبنى مكتبي مجهزًا بأجهزة استشعار IoT، يمكننا التحكم تلقائيًا في التدفئة والإضاءة لتقليل التكاليف.
- **الاستطلاعات** التي نطلب من المستخدمين إكمالها بعد عملية شراء، أو بعد زيارة موقع ويب.
* **مهيكلة**
- **إنترنت الأشياء** (IoT)، بما في ذلك البيانات من مختلف المستشعرات، مثل مستشعرات الحرارة أو الضغط، توفر الكثير من البيانات المفيدة. على سبيل المثال، إذا كان مبنى المكتب مجهزًا بمستشعرات إنترنت الأشياء، يمكننا التحكم تلقائيًا في التدفئة والإضاءة لتقليل التكاليف.
- **استطلاعات الرأي** التي نطلب من المستخدمين إكمالها بعد عملية شراء أو بعد زيارة موقع إلكتروني.
- **تحليل السلوك** يمكن أن يساعدنا، على سبيل المثال، في فهم مدى تعمق المستخدم في الموقع، وما هو السبب النموذجي لمغادرة الموقع.
* **غير منظمة**
- **النصوص** يمكن أن تكون مصدرًا غنيًا للرؤى، مثل **درجة الشعور العام**، أو استخراج الكلمات الرئيسية والمعاني الدلالية.
- **الصور** أو **الفيديو**. يمكن استخدام فيديو من كاميرا مراقبة لتقدير حركة المرور على الطريق، وإبلاغ الناس بالاختناقات المرورية المحتملة.
- **سجلات خوادم الويب** يمكن استخدامها لفهم الصفحات الأكثر زيارة على موقعنا، ومدة البقاء فيها.
* **شبه منظمة**
- **رسوم الشبكات الاجتماعية** يمكن أن تكون مصادر رائعة للبيانات حول شخصيات المستخدمين والفعالية المحتملة في نشر المعلومات.
* **غير مهيكلة**
- **النصوص** يمكن أن تكون مصدرًا غنيًا للرؤى، مثل الحصول على **درجة الشعور العام** أو استخراج الكلمات الرئيسية والمعاني الدلالية.
- **الصور** أو **الفيديو**. يمكن استخدام فيديو من كاميرا مراقبة لتقدير حركة المرور على الطريق، وإبلاغ الناس عن الاختناقات المرورية المحتملة.
- **سجلات خوادم الويب** يمكن استخدامها لفهم الصفحات الأكثر زيارة في موقعنا، ومدة بقائها.
* **شبه مهيكلة**
- **رسوم الشبكات الاجتماعية** يمكن أن تكون مصادر رائعة للبيانات حول شخصيات المستخدمين وفعالية نشر المعلومات بينهم.
- عندما يكون لدينا مجموعة من الصور من حفلة، يمكننا محاولة استخراج بيانات **ديناميكيات المجموعة** من خلال بناء رسم بياني للأشخاص الذين يلتقطون الصور مع بعضهم البعض.
من خلال معرفة المصادر المختلفة للبيانات، يمكنك التفكير في سيناريوهات مختلفة حيث يمكن تطبيق تقنيات علم البيانات لفهم الوضع بشكل أفضل وتحسين العمليات التجارية.
@ -87,11 +43,11 @@ CO_OP_TRANSLATOR_METADATA:
## الرقمنة والتحول الرقمي
في العقد الأخير، بدأت العديد من الشركات في فهم أهمية البيانات عند اتخاذ قرارات الأعمال. لتطبيق مبادئ علم البيانات على إدارة الأعمال، يجب أولاً جمع بعض البيانات، أي ترجمة العمليات التجارية إلى شكل رقمي. يُعرف هذا بـ **الرقمنة**. يمكن أن يؤدي تطبيق تقنيات علم البيانات على هذه البيانات لتوجيه القرارات إلى زيادات كبيرة في الإنتاجية (أو حتى تحول في الأعمال)، يُطلق عليه **التحول الرقمي**.
في العقد الأخير، بدأت العديد من الشركات في فهم أهمية البيانات عند اتخاذ القرارات التجارية. لتطبيق مبادئ علم البيانات على إدارة الأعمال، يجب أولاً جمع بعض البيانات، أي ترجمة العمليات التجارية إلى شكل رقمي. يُعرف هذا بـ **الرقمنة**. تطبيق تقنيات علم البيانات على هذه البيانات لتوجيه القرارات يمكن أن يؤدي إلى زيادات كبيرة في الإنتاجية (أو حتى تغيير جذري في الأعمال)، ويُطلق عليه **التحول الرقمي**.
دعونا نأخذ مثالًا. لنفترض أن لدينا دورة علم بيانات (مثل هذه) نقدمها عبر الإنترنت للطلاب، ونريد استخدام علم البيانات لتحسينها. كيف يمكننا القيام بذلك؟
لنفكر في مثال. لنفترض أن لدينا دورة علم بيانات (مثل هذه الدورة) نقدمها عبر الإنترنت للطلاب، ونريد استخدام علم البيانات لتحسينها. كيف يمكننا القيام بذلك؟
يمكننا البدء بسؤال "ما الذي يمكن رقمنته؟" أبسط طريقة ستكون قياس الوقت الذي يستغرقه كل طالب لإكمال كل وحدة، وقياس المعرفة المكتسبة من خلال إعطاء اختبار متعدد الخيارات في نهاية كل وحدة. من خلال حساب متوسط الوقت اللازم للإكمال عبر جميع الطلاب، يمكننا معرفة الوحدات التي تسبب أكبر صعوبة للطلاب والعمل على تبسيطها.
يمكننا البدء بسؤال "ما الذي يمكن رقمنته؟" أبسط طريقة ستكون قياس الوقت الذي يستغرقه كل طالب لإكمال كل وحدة، وقياس المعرفة المكتسبة من خلال تقديم اختبار متعدد الخيارات في نهاية كل وحدة. من خلال حساب متوسط الوقت للإكمال عبر جميع الطلاب، يمكننا معرفة الوحدات التي تسبب أكبر صعوبة للطلاب والعمل على تبسيطها.
قد تجادل بأن هذه الطريقة ليست مثالية، لأن الوحدات يمكن أن تكون بأطوال مختلفة. ربما يكون من الأكثر إنصافًا تقسيم الوقت على طول الوحدة (بعدد الأحرف)، ومقارنة تلك القيم بدلاً من ذلك.
عندما نبدأ في تحليل نتائج اختبارات الاختيار المتعدد، يمكننا محاولة تحديد المفاهيم التي يجد الطلاب صعوبة في فهمها، واستخدام تلك المعلومات لتحسين المحتوى. للقيام بذلك، نحتاج إلى تصميم الاختبارات بطريقة تجعل كل سؤال يرتبط بمفهوم معين أو جزء من المعرفة.
@ -99,7 +55,7 @@ CO_OP_TRANSLATOR_METADATA:
## 🚀 التحدي
في هذا التحدي، سنحاول العثور على المفاهيم ذات الصلة بمجال علم البيانات من خلال النظر في النصوص. سنأخذ مقالة من ويكيبيديا عن علم البيانات، نقوم بتنزيل النص ومعالجته، ثم نبني سحابة كلمات مثل هذه:
في هذا التحدي، سنحاول العثور على مفاهيم ذات صلة بمجال علم البيانات من خلال النظر في النصوص. سنأخذ مقالة من ويكيبيديا عن علم البيانات، نقوم بتنزيل النص ومعالجته، ثم نبني سحابة كلمات مثل هذه:
![سحابة كلمات لعلم البيانات](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ar.png)
@ -107,18 +63,18 @@ CO_OP_TRANSLATOR_METADATA:
> إذا كنت لا تعرف كيفية تشغيل الكود في Jupyter Notebook، ألقِ نظرة على [هذه المقالة](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [اختبار ما بعد المحاضرة](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [اختبار ما بعد المحاضرة](https://ff-quizzes.netlify.app/en/ds/)
## المهام
* **المهمة 1**: قم بتعديل الكود أعلاه للعثور على المفاهيم ذات الصلة بمجالي **البيانات الضخمة** و **تعلم الآلة**
* **المهمة 1**: قم بتعديل الكود أعلاه للعثور على المفاهيم ذات الصلة بمجالي **البيانات الضخمة** و**تعلم الآلة**.
* **المهمة 2**: [فكر في سيناريوهات علم البيانات](assignment.md)
## الشكر
تم تأليف هذا الدرس بكل ♥️ بواسطة [Dmitry Soshnikov](http://soshnikov.com)
تم تأليف هذا الدرس بحب ♥️ بواسطة [Dmitry Soshnikov](http://soshnikov.com)
---
**إخلاء المسؤولية**:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للحصول على معلومات حساسة أو هامة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.
تم ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الموثوق. للحصول على معلومات حاسمة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.

@ -1,101 +1,57 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-26T15:23:39+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:30:00+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "bg"
}
-->
# Определение на науката за данни
| ![ Скица от [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) |
| :------------------------------------------------------------------------------------------------: |
| Определение на науката за данни - _Скица от [@nitya](https://twitter.com/nitya)_ |
---
[![Видео за определение на науката за данни](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.bg.png)](https://youtu.be/beZ7Mb_oz9I)
## [Тест преди лекцията](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## Какво е данни?
В ежедневието си сме постоянно заобиколени от данни. Текстът, който четете в момента, е данни. Списъкът с телефонни номера на вашите приятели в смартфона ви също е данни, както и текущото време, показано на часовника ви. Като хора, ние естествено работим с данни, като броим парите си или пишем писма на приятелите си.
С появата на компютрите обаче данните станаха много по-важни. Основната роля на компютрите е да извършват изчисления, но те се нуждаят от данни, за да работят. Затова е необходимо да разберем как компютрите съхраняват и обработват данни.
С появата на интернет ролята на компютрите като устройства за обработка на данни се увеличи. Ако се замислите, сега използваме компютрите все повече за обработка и комуникация на данни, отколкото за реални изчисления. Когато пишем имейл на приятел или търсим информация в интернет, ние всъщност създаваме, съхраняваме, предаваме и манипулираме данни.
> Можете ли да си спомните последния път, когато сте използвали компютър за реално изчисление?
## Какво е наука за данни?
Според [Уикипедия](https://en.wikipedia.org/wiki/Data_science), **науката за данни** се определя като *научна област, която използва научни методи за извличане на знания и прозрения от структурирани и неструктурирани данни и прилага тези знания и практически прозрения в широк спектър от приложения*.
Това определение подчертава следните важни аспекти на науката за данни:
* Основната цел на науката за данни е да **извлича знания** от данни, с други думи - да **разбира** данните, да намира скрити връзки и да изгражда **модели**.
* Науката за данни използва **научни методи**, като вероятност и статистика. Всъщност, когато терминът *наука за данни* за първи път беше въведен, някои хора твърдяха, че това е просто ново модерно име за статистика. Днес е ясно, че областта е много по-широка.
* Получените знания трябва да се прилагат за създаване на **практически прозрения**, т.е. практически насоки, които могат да се приложат в реални бизнес ситуации.
* Трябва да можем да работим както със **структурирани**, така и с **неструктурирани** данни. Ще се върнем към обсъждането на различните видове данни по-късно в курса.
* **Областта на приложение** е важен аспект, и учените по данни често се нуждаят от известна степен на експертиза в конкретната проблемна област, например: финанси, медицина, маркетинг и др.
> Друг важен аспект на науката за данни е, че тя изучава как данните могат да бъдат събирани, съхранявани и обработвани с помощта на компютри. Докато статистиката ни предоставя математическите основи, науката за данни прилага математическите концепции, за да извлече прозрения от данните.
Един от начините (приписван на [Джим Грей](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) да разглеждаме науката за данни е като отделна парадигма на науката:
* **Емпирична**, при която разчитаме основно на наблюдения и резултати от експерименти
* **Теоретична**, където нови концепции възникват от съществуващи научни знания
* **Изчислителна**, където откриваме нови принципи въз основа на изчислителни експерименти
* **Данни-водена**, базирана на откриване на връзки и модели в данните
## Други свързани области
Тъй като данните са навсякъде, науката за данни също е широка област, която докосва много други дисциплини.
## Видове данни
Както вече споменахме, данните са навсякъде. Просто трябва да ги уловим по правилния начин! Полезно е да разграничим **структурирани** и **неструктурирани** данни. Първите обикновено са представени в добре структурирана форма, често като таблица или множество таблици, докато вторите са просто колекция от файлове. Понякога можем да говорим и за **полуструктурирани** данни, които имат някаква структура, но тя може да варира значително.
Както вече споменахме, данните са навсякъде. Просто трябва да ги уловим по правилния начин! Полезно е да разграничим **структурирани** и **неструктурирани** данни. Първите обикновено са представени в добре организирана форма, често като таблица или множество таблици, докато вторите са просто колекция от файлове. Понякога можем да говорим и за **полуструктурирани** данни, които имат някаква структура, но тя може да варира значително.
| Структурирани | Полуструктурирани | Неструктурирани |
| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- | -------------------------------------- |
| Списък на хора с техните телефонни номера | Страници в Уикипедия с връзки | Текст на Енциклопедия Британика |
| Температура във всички стаи на сграда всяка минута за последните 20 години | Колекция от научни статии във формат JSON с автори, дата на публикуване и резюме | Споделено хранилище с корпоративни документи |
| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | --------------------------------------- |
| Списък с хора и техните телефонни номера | Страници в Wikipedia с връзки | Текстът на Енциклопедия Британика |
| Температура във всички стаи на сграда всяка минута за последните 20 години | Колекция от научни статии във формат JSON с автори, дата на публикуване и резюме | Споделени файлове с корпоративни документи |
| Данни за възраст и пол на всички хора, влизащи в сградата | Интернет страници | Суров видео поток от камера за наблюдение |
## Откъде да се сдобием с данни
## Откъде да вземем данни
Има много възможни източници на данни и е невъзможно да изброим всички! Въпреки това, нека споменем някои от типичните места, откъдето можете да получите данни:
Има много възможни източници на данни, и би било невъзможно да изброим всички! Но нека споменем някои от типичните места, откъдето можете да получите данни:
* **Структурирани**
- **Интернет на нещата** (IoT), включително данни от различни сензори, като сензори за температура или налягане, предоставя много полезни данни. Например, ако офис сграда е оборудвана със сензори IoT, можем автоматично да контролираме отоплението и осветлението, за да минимизираме разходите.
- **Интернет на нещата** (IoT), включително данни от различни сензори, като температурни или сензори за налягане, предоставя много полезни данни. Например, ако офис сграда е оборудвана с IoT сензори, можем автоматично да контролираме отоплението и осветлението, за да минимизираме разходите.
- **Анкети**, които молим потребителите да попълнят след покупка или след посещение на уебсайт.
- **Анализ на поведението** може, например, да ни помогне да разберем колко дълбоко потребителят навлиза в сайта и каква е типичната причина за напускане на сайта.
* **Неструктурирани**
- **Текстове** могат да бъдат богат източник на прозрения, като например обща **оценка на настроението** или извличане на ключови думи и семантично значение.
- **Изображения** или **видео**. Видео от камера за наблюдение може да се използва за оценка на трафика на пътя и информиране на хората за потенциални задръствания.
- **Логове на уеб сървъри** могат да се използват, за да разберем кои страници на нашия сайт се посещават най-често и за колко време.
- **Текстове** могат да бъдат богат източник на информация, като например обща **оценка на настроението** или извличане на ключови думи и семантично значение.
- **Изображения** или **видео**. Видео от камера за наблюдение може да се използва за оценка на трафика на пътя и за информиране на хората за потенциални задръствания.
- **Логове** на уеб сървъри могат да се използват за разбиране кои страници на нашия сайт се посещават най-често и за колко време.
* **Полуструктурирани**
- **Графи на социални мрежи** могат да бъдат отличен източник на данни за личностите на потребителите и потенциалната ефективност при разпространение на информация.
- Когато имаме куп снимки от парти, можем да се опитаме да извлечем данни за **груповата динамика**, като изградим граф на хората, които се снимат заедно.
Като познавате различните възможни източници на данни, можете да се опитате да мислите за различни сценарии, в които техниките на науката за данни могат да се приложат, за да разберете по-добре ситуацията и да подобрите бизнес процесите.
Като познавате различните възможни източници на данни, можете да се опитате да мислите за различни сценарии, в които техниките на науката за данни могат да бъдат приложени, за да разберете ситуацията по-добре и да подобрите бизнес процесите.
## Какво можете да правите с данни
В науката за данни се фокусираме върху следните стъпки от пътя на данните:
Разбира се, в зависимост от конкретните данни, някои стъпки може да липсват (например, когато вече имаме данните в база данни или когато не се нуждаем от обучение на модел), или някои стъпки може да се повтарят няколко пъти (като обработката на данни).
Разбира се, в зависимост от конкретните данни, някои стъпки може да липсват (например, когато вече имаме данните в база данни или когато не се нуждаем от обучение на модел), или някои стъпки може да се повторят няколко пъти (като обработката на данни).
## Дигитализация и дигитална трансформация
През последното десетилетие много бизнеси започнаха да разбират важността на данните при вземането на бизнес решения. За да приложим принципите на науката за данни към управлението на бизнес, първо трябва да съберем някакви данни, т.е. да преведем бизнес процесите в дигитална форма. Това е известно като **дигитализация**. Прилагането на техники на науката за данни към тези данни, за да се ръководят решенията, може да доведе до значителни увеличения на производителността (или дори до промяна на бизнес модела), наречено **дигитална трансформация**.
През последното десетилетие много бизнеси започнаха да разбират важността на данните при вземането на бизнес решения. За да приложим принципите на науката за данни към управлението на бизнес, първо трябва да съберем някакви данни, т.е. да преведем бизнес процесите в цифрова форма. Това е известно като **дигитализация**. Прилагането на техники на науката за данни към тези данни за насочване на решения може да доведе до значителни увеличения на производителността (или дори до промяна на бизнес модела), наречено **дигитална трансформация**.
Нека разгледаме пример. Да предположим, че имаме курс по наука за данни (като този), който предлагаме онлайн на студенти, и искаме да използваме науката за данни, за да го подобрим. Как можем да го направим?
Можем да започнем, като се запитаме "Какво може да се дигитализира?" Най-простият начин би бил да измерим времето, което всеки студент отделя за завършване на всеки модул, и да измерим придобитите знания, като дадем тест с множество отговори в края на всеки модул. Като изчислим средното време за завършване за всички студенти, можем да разберем кои модули причиняват най-големи затруднения и да работим върху тяхното опростяване.
Можем да започнем с въпроса "Какво може да бъде дигитализирано?" Най-простият начин би бил да измерим времето, което всеки студент отделя за завършване на всеки модул, и да измерим придобитите знания, като дадем тест с множествен избор в края на всеки модул. Като изчислим средното време за завършване за всички студенти, можем да разберем кои модули причиняват най-големи затруднения и да работим върху тяхното опростяване.
Може да се твърди, че този подход не е идеален, защото модулите могат да бъдат с различна дължина. Вероятно е по-справедливо да се раздели времето на дължината на модула (в брой символи) и да се сравнят тези стойности вместо това.
Когато започнем да анализираме резултатите от тестове с избор между няколко отговора, можем да се опитаме да определим кои концепции затрудняват учениците и да използваме тази информация, за да подобрим съдържанието. За да направим това, трябва да проектираме тестовете така, че всеки въпрос да се свързва с определена концепция или част от знания.
Когато започнем да анализираме резултатите от тестове с избор на отговор, можем да се опитаме да определим кои концепции затрудняват учениците и да използваме тази информация, за да подобрим съдържанието. За да направим това, трябва да проектираме тестовете така, че всеки въпрос да се свързва с определена концепция или част от знания.
Ако искаме да усложним анализа, можем да начертаем времето, необходимо за завършване на всеки модул, спрямо възрастовата категория на учениците. Може да открием, че за някои възрастови категории е необходимо прекалено много време за завършване на модула или че учениците се отказват преди да го завършат. Това може да ни помогне да предоставим възрастови препоръки за модула и да минимизираме недоволството на хората от неправилни очаквания.
Ако искаме да задълбочим анализа, можем да начертаем времето, необходимо за завършване на всеки модул, спрямо възрастовата категория на учениците. Може да открием, че за някои възрастови категории е необходимо прекалено дълго време за завършване на модула или че учениците се отказват преди да го завършат. Това може да ни помогне да предоставим възрастови препоръки за модула и да минимизираме недоволството на хората от неправилни очаквания.
## 🚀 Предизвикателство
@ -107,7 +63,7 @@ CO_OP_TRANSLATOR_METADATA:
> Ако не знаете как да изпълнявате код в Jupyter Notebook, разгледайте [тази статия](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Тест след лекцията](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Тест след лекцията](https://ff-quizzes.netlify.app/en/ds/)
## Задачи

@ -1,37 +1,37 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-27T09:02:20+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:08:26+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "bn"
}
-->
## ডেটার ধরন
আমরা আগেই উল্লেখ করেছি, ডেটা সর্বত্রই রয়েছে। আমাদের শুধু সঠিকভাবে এটি সংগ্রহ করতে হবে! **স্ট্রাকচারড** এবং **আনস্ট্রাকচারড** ডেটার মধ্যে পার্থক্য করা গুরুত্বপূর্ণ। স্ট্রাকচারড ডেটা সাধারণত একটি সুসংগঠিত আকারে উপস্থাপিত হয়, যেমন একটি টেবিল বা একাধিক টেবিল। অন্যদিকে, আনস্ট্রাকচারড ডেটা হলো ফাইলের একটি সংগ্রহ। কখনও কখনও আমরা **সেমি-স্ট্রাকচারড** ডেটার কথাও বলতে পারি, যার কিছুটা গঠন থাকে, তবে তা অনেকভাবে পরিবর্তিত হতে পারে।
আমরা আগেই উল্লেখ করেছি, ডেটা সর্বত্রই রয়েছে। আমাদের শুধু সঠিকভাবে এটি সংগ্রহ করতে হবে! **স্ট্রাকচারড** এবং **আনস্ট্রাকচারড** ডেটার মধ্যে পার্থক্য করা গুরুত্বপূর্ণ। স্ট্রাকচারড ডেটা সাধারণত একটি সুসংগঠিত আকারে উপস্থাপিত হয়, যেমন একটি টেবিল বা একাধিক টেবিল, যেখানে আনস্ট্রাকচারড ডেটা শুধুমাত্র ফাইলের একটি সংগ্রহ। কখনও কখনও আমরা **সেমি-স্ট্রাকচারড** ডেটার কথাও বলতে পারি, যার কিছুটা গঠন থাকে যা ব্যাপকভাবে পরিবর্তিত হতে পারে।
| স্ট্রাকচারড | সেমি-স্ট্রাকচারড | আনস্ট্রাকচারড |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| ফোন নম্বরসহ মানুষের তালিকা | উইকিপিডিয়া পেজের লিঙ্কসমূহ | এনসাইক্লোপিডিয়া ব্রিটানিকার টেক্সট |
| গত ২০ বছরে প্রতিটি মিনিটে একটি ভবনের প্রতিটি কক্ষের তাপমাত্রা | JSON ফরম্যাটে বৈজ্ঞানিক প্রবন্ধের সংগ্রহ, যেখানে লেখক, প্রকাশনার তারিখ এবং সারাংশ রয়েছে | কর্পোরেট ডকুমেন্টের ফাইল শেয়ার |
| ফোন নম্বরসহ মানুষের তালিকা | উইকিপিডিয়া পেজগুলো লিঙ্কসহ | এনসাইক্লোপিডিয়া ব্রিটানিকার টেক্সট |
| গত ২০ বছরে প্রতিটি মিনিটে একটি ভবনের সব কক্ষের তাপমাত্রা | JSON ফরম্যাটে বৈজ্ঞানিক প্রবন্ধের সংগ্রহ, যেখানে লেখক, প্রকাশনার তারিখ এবং সারাংশ রয়েছে | কর্পোরেট ডকুমেন্টের ফাইল শেয়ার |
| ভবনে প্রবেশকারী সকল মানুষের বয়স এবং লিঙ্গ সম্পর্কিত ডেটা | ইন্টারনেট পেজ | নজরদারি ক্যামেরার কাঁচা ভিডিও ফিড |
## ডেটা কোথায় পাওয়া যাবে
ডেটার অনেক সম্ভাব্য উৎস রয়েছে, এবং সবগুলো তালিকাভুক্ত করা অসম্ভব! তবে, কিছু সাধারণ জায়গা উল্লেখ করা যাক যেখানে আপনি ডেটা পেতে পারেন:
ডেটার অনেক সম্ভাব্য উৎস রয়েছে, এবং সবগুলো তালিকাভুক্ত করা অসম্ভব! তবে, আসুন কিছু সাধারণ জায়গা উল্লেখ করি যেখানে আপনি ডেটা পেতে পারেন:
* **স্ট্রাকচারড**
- **ইন্টারনেট অফ থিংস** (IoT), যেমন বিভিন্ন সেন্সর থেকে পাওয়া ডেটা (তাপমাত্রা বা চাপ সেন্সর), অনেক দরকারী ডেটা সরবরাহ করে। উদাহরণস্বরূপ, যদি একটি অফিস ভবন IoT সেন্সর দিয়ে সজ্জিত থাকে, আমরা স্বয়ংক্রিয়ভাবে গরম এবং আলো নিয়ন্ত্রণ করতে পারি যাতে খরচ কমানো যায়।
- **জরিপ** যা আমরা ব্যবহারকারীদের একটি কেনাকাটার পরে বা একটি ওয়েবসাইট পরিদর্শনের পরে পূরণ করতে বলি।
- **ইন্টারনেট অফ থিংস** (IoT), যেমন বিভিন্ন সেন্সর থেকে ডেটা, যেমন তাপমাত্রা বা চাপ সেন্সর, অনেক দরকারী ডেটা প্রদান করে। উদাহরণস্বরূপ, যদি একটি অফিস ভবন IoT সেন্সর দিয়ে সজ্জিত থাকে, আমরা স্বয়ংক্রিয়ভাবে গরম এবং আলো নিয়ন্ত্রণ করতে পারি যাতে খরচ কমানো যায়।
- **সার্ভে** যা আমরা ব্যবহারকারীদের একটি কেনাকাটা বা একটি ওয়েবসাইট পরিদর্শনের পরে পূরণ করতে বলি।
- **আচরণের বিশ্লেষণ** আমাদের বুঝতে সাহায্য করতে পারে যে একজন ব্যবহারকারী একটি সাইটে কতটা গভীরে যায় এবং সাইটটি ছাড়ার সাধারণ কারণ কী।
* **আনস্ট্রাকচারড**
- **টেক্সট** একটি সমৃদ্ধ তথ্যের উৎস হতে পারে, যেমন সামগ্রিক **সেন্টিমেন্ট স্কোর**, বা কীওয়ার্ড এবং অর্থপূর্ণ তথ্য বের করা।
- **ইমেজ** বা **ভিডিও**। নজরদারি ক্যামেরার একটি ভিডিও রাস্তার ট্রাফিক অনুমান করতে এবং সম্ভাব্য যানজট সম্পর্কে মানুষকে জানাতে ব্যবহার করা যেতে পারে।
- ওয়েব সার্ভার **লগ** আমাদের বুঝতে সাহায্য করতে পারে যে আমাদের সাইটের কোন পেজগুলো সবচেয়ে বেশি পরিদর্শিত হয় এবং কতক্ষণ ধরে।
- **ইমেজ** বা **ভিডিও**। নজরদারি ক্যামেরার একটি ভিডিও রাস্তার ট্রাফিক অনুমান করতে ব্যবহার করা যেতে পারে এবং সম্ভাব্য যানজট সম্পর্কে মানুষকে জানাতে পারে।
- ওয়েব সার্ভারের **লগ** আমাদের বুঝতে সাহায্য করতে পারে যে আমাদের সাইটের কোন পেজগুলো সবচেয়ে বেশি পরিদর্শিত হয় এবং কতক্ষণ ধরে।
* সেমি-স্ট্রাকচারড
- **সোশ্যাল নেটওয়ার্ক** গ্রাফ ব্যবহারকারীদের ব্যক্তিত্ব এবং তথ্য ছড়িয়ে দেওয়ার সম্ভাব্য কার্যকারিতা সম্পর্কে ডেটার একটি চমৎকার উৎস হতে পারে।
- যখন আমাদের কাছে একটি পার্টির অনেক ছবি থাকে, আমরা **গ্রুপ ডায়নামিকস** ডেটা বের করার চেষ্টা করতে পারি, যেমন একে অপরের সাথে ছবি তোলার মানুষের গ্রাফ তৈরি করে।
- যখন আমাদের কাছে একটি পার্টির অনেক ছবি থাকে, আমরা **গ্রুপ ডায়নামিকস** ডেটা বের করার চেষ্টা করতে পারি, যেমন একে অপরের সাথে ছবি তোলার মানুষের একটি গ্রাফ তৈরি করে।
ডেটার বিভিন্ন সম্ভাব্য উৎস সম্পর্কে জেনে, আপনি বিভিন্ন পরিস্থিতি সম্পর্কে চিন্তা করতে পারেন যেখানে ডেটা সায়েন্সের কৌশল প্রয়োগ করে পরিস্থিতি আরও ভালোভাবে বোঝা এবং ব্যবসার প্রক্রিয়া উন্নত করা সম্ভব।
@ -41,38 +41,38 @@ CO_OP_TRANSLATOR_METADATA:
## ডিজিটালাইজেশন এবং ডিজিটাল ট্রান্সফরমেশন
গত দশকে, অনেক ব্যবসা বুঝতে শুরু করেছে যে ব্যবসার সিদ্ধান্ত নেওয়ার ক্ষেত্রে ডেটা কতটা গুরুত্বপূর্ণ। ব্যবসা পরিচালনায় ডেটা সায়েন্সের নীতিগুলো প্রয়োগ করতে হলে প্রথমে কিছু ডেটা সংগ্রহ করতে হবে, অর্থাৎ ব্যবসার প্রক্রিয়াগুলোকে ডিজিটাল আকারে রূপান্তর করতে হবে। এটি **ডিজিটালাইজেশন** নামে পরিচিত। এই ডেটার উপর ডেটা সায়েন্সের কৌশল প্রয়োগ করে সিদ্ধান্ত নেওয়া ব্যবসার উৎপাদনশীলতায় উল্লেখযোগ্য বৃদ্ধি (বা এমনকি ব্যবসার দিক পরিবর্তন) আনতে পারে, যা **ডিজিটাল ট্রান্সফরমেশন** নামে পরিচিত।
গত দশকে, অনেক ব্যবসা সিদ্ধান্ত গ্রহণে ডেটার গুরুত্ব বুঝতে শুরু করেছে। ব্যবসা পরিচালনায় ডেটা সায়েন্সের নীতিগুলো প্রয়োগ করতে হলে প্রথমে কিছু ডেটা সংগ্রহ করতে হবে, অর্থাৎ ব্যবসার প্রক্রিয়াগুলোকে ডিজিটাল আকারে রূপান্তর করতে হবে। এটি **ডিজিটালাইজেশন** নামে পরিচিত। এই ডেটার উপর ডেটা সায়েন্সের কৌশল প্রয়োগ করে সিদ্ধান্ত গ্রহণে উল্লেখযোগ্য উৎপাদনশীলতা বৃদ্ধি (বা এমনকি ব্যবসার পরিবর্তন) ঘটানো সম্ভব, যা **ডিজিটাল ট্রান্সফরমেশন** নামে পরিচিত।
চলুন একটি উদাহরণ বিবেচনা করি। ধরুন আমাদের একটি ডেটা সায়েন্স কোর্স রয়েছে (যেমন এই কোর্সটি) যা আমরা অনলাইনে শিক্ষার্থীদের কাছে সরবরাহ করি, এবং আমরা এটি উন্নত করতে ডেটা সায়েন্স ব্যবহার করতে চাই। আমরা কীভাবে এটি করতে পারি?
আমরা শুরু করতে পারি "কী ডিজিটালাইজ করা যেতে পারে?" এই প্রশ্নটি করে। সবচেয়ে সহজ উপায় হতে পারে প্রতিটি শিক্ষার্থীকে প্রতিটি মডিউল সম্পন্ন করতে কত সময় লাগে তা পরিমাপ করা এবং প্রতিটি মডিউলের শেষে একটি মাল্টিপল-চয়েস টেস্ট দিয়ে অর্জিত জ্ঞান পরিমাপ করা। সকল শিক্ষার্থীর গড় সময়-সম্পন্ন করে আমরা জানতে পারি কোন মডিউলগুলো শিক্ষার্থীদের জন্য সবচেয়ে বেশি সমস্যার সৃষ্টি করে এবং সেগুলো সহজ করার জন্য কাজ করতে পারি।
আপনি হয়তো যুক্তি দিতে পারেন যে এই পদ্ধতিটি আদর্শ নয়, কারণ মডিউলগুলোর দৈর্ঘ্য ভিন্ন হতে পারে। সম্ভবত মডিউলের দৈর্ঘ্য (অক্ষরের সংখ্যায়) দিয়ে সময় ভাগ করা এবং সেই মানগুলো তুলনা করা আরও ন্যায্য হবে।
যখন আমরা বহু-বিকল্প প্রশ্নের পরীক্ষার ফলাফল বিশ্লেষণ শুরু করি, তখন আমরা চেষ্টা করতে পারি ছাত্ররা কোন ধারণাগুলি বুঝতে অসুবিধা অনুভব করছে তা নির্ধারণ করতে এবং সেই তথ্য ব্যবহার করে বিষয়বস্তু উন্নত করতে। এটি করার জন্য, আমাদের এমনভাবে পরীক্ষা ডিজাইন করতে হবে যাতে প্রতিটি প্রশ্ন একটি নির্দিষ্ট ধারণা বা জ্ঞানের অংশের সাথে সম্পর্কিত হয়।
আমরা শুরু করতে পারি "কী ডিজিটালাইজ করা যেতে পারে?" এই প্রশ্নটি করে। সবচেয়ে সহজ উপায় হতে পারে প্রতিটি শিক্ষার্থীকে প্রতিটি মডিউল সম্পন্ন করতে কত সময় লাগে তা পরিমাপ করা এবং প্রতিটি মডিউলের শেষে একটি মাল্টিপল-চয়েস টেস্ট দিয়ে অর্জিত জ্ঞান পরিমাপ করা। সকল শিক্ষার্থীর মধ্যে গড় সময়-সম্পন্ন করে আমরা জানতে পারি কোন মডিউলগুলো শিক্ষার্থীদের জন্য সবচেয়ে বেশি সমস্যার সৃষ্টি করে এবং সেগুলো সহজ করার জন্য কাজ করতে পারি।
আপনি যুক্তি দিতে পারেন যে এই পদ্ধতিটি আদর্শ নয়, কারণ মডিউলগুলির দৈর্ঘ্য বিভিন্ন হতে পারে। সম্ভবত মডিউলের দৈর্ঘ্য (অক্ষরের সংখ্যার ভিত্তিতে) অনুযায়ী সময় ভাগ করা এবং সেই মানগুলির তুলনা করা আরও ন্যায্য হবে।
যখন আমরা বহু-বিকল্প প্রশ্নের পরীক্ষার ফলাফল বিশ্লেষণ শুরু করি, তখন আমরা চেষ্টা করতে পারি বুঝতে কোন ধারণাগুলো শিক্ষার্থীদের বুঝতে সমস্যা হচ্ছে এবং সেই তথ্য ব্যবহার করে বিষয়বস্তু উন্নত করতে পারি। এটি করতে হলে, আমাদের পরীক্ষাগুলো এমনভাবে ডিজাইন করতে হবে যাতে প্রতিটি প্রশ্ন একটি নির্দিষ্ট ধারণা বা জ্ঞানের অংশের সাথে সম্পর্কিত হয়।
যদি আমরা আরও জটিল হতে চাই, তবে আমরা প্রতিটি মডিউল সম্পন্ন করতে যে সময় লাগে তা ছাত্রদের বয়স বিভাগের বিপরীতে চিত্রিত করতে পারি। আমরা হয়তো দেখতে পারি যে কিছু বয়স বিভাগের জন্য মডিউলটি সম্পন্ন করতে অপ্রত্যাশিতভাবে দীর্ঘ সময় লাগে, অথবা ছাত্ররা এটি সম্পূর্ণ করার আগেই ছেড়ে দেয়। এটি আমাদের মডিউলের জন্য বয়সের সুপারিশ প্রদান করতে এবং ভুল প্রত্যাশা থেকে মানুষের অসন্তোষ কমাতে সাহায্য করতে পারে।
যদি আমরা আরও জটিল হতে চাই, তাহলে আমরা প্রতিটি মডিউল সম্পন্ন করতে সময়ের পরিমাণ শিক্ষার্থীদের বয়সের ক্যাটাগরির সাথে তুলনা করতে পারি। আমরা হয়তো দেখতে পারি যে কিছু বয়সের ক্যাটাগরির জন্য মডিউল সম্পন্ন করতে অস্বাভাবিকভাবে বেশি সময় লাগে, অথবা শিক্ষার্থীরা এটি সম্পন্ন করার আগেই ছেড়ে দেয়। এটি আমাদের মডিউলের জন্য বয়সের সুপারিশ প্রদান করতে সাহায্য করতে পারে এবং ভুল প্রত্যাশা থেকে মানুষের অসন্তোষ কমাতে পারে।
## 🚀 চ্যালেঞ্জ
এই চ্যালেঞ্জে, আমরা ডেটা সায়েন্স ক্ষেত্রের সাথে সম্পর্কিত ধারণাগুলি খুঁজে বের করার চেষ্টা করব টেক্সট বিশ্লেষণ করে। আমরা ডেটা সায়েন্স সম্পর্কিত একটি উইকিপিডিয়া নিবন্ধ নেব, টেক্সট ডাউনলোড এবং প্রক্রিয়া করব, এবং তারপর একটি ওয়ার্ড ক্লাউড তৈরি করব, যেমন এটি:
এই চ্যালেঞ্জে, আমরা ডেটা সায়েন্স ক্ষেত্রের সাথে সম্পর্কিত ধারণাগুল খুঁজে বের করার চেষ্টা করব টেক্সট বিশ্লেষণ করে। আমরা ডেটা সায়েন্স সম্পর্কিত একটি উইকিপিডিয়া নিবন্ধ নেব, টেক্সট ডাউনলোড এবং প্রক্রিয়া করব, এবং তারপর একটি ওয়ার্ড ক্লাউড তৈরি করব যা এরকম দেখতে:
![ডেটা সায়েন্সের জন্য ওয়ার্ড ক্লাউড](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.bn.png)
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') পরিদর্শন করুন কোডটি পড়ার জন্য। আপনি কোডটি চালাতে পারেন এবং এটি কীভাবে রিয়েল টাইমে সমস্ত ডেটা রূপান্তর সম্পাদন করে তা দেখতে পারেন
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') পরিদর্শন করুন কোডটি পড়ার জন্য। আপনি কোডটি চালাতে পারেন এবং দেখতে পারেন এটি কীভাবে রিয়েল টাইমে সমস্ত ডেটা রূপান্তর সম্পন্ন করে
> যদি আপনি জানেন না কীভাবে একটি জুপিটার নোটবুকে কোড চালাতে হয়, তে [এই নিবন্ধটি](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) দেখুন।
> যদি আপনি জানেন না কীভাবে জুপিটার নোটবুকে কোড চালাতে হয়, তাহলে [এই নিবন্ধটি](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) দেখুন।
## [পোস্ট-লেকচার কুইজ](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [পোস্ট-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ds/)
## অ্যাসাইনমেন্ট
* **টাস্ক ১**: উপরের কোডটি পরিবর্তন করুন যাতে **বিগ ডেটা** এবং **মেশিন লার্নিং** ক্ষেত্রের সাথে সম্পর্কিত ধারণাগুলি খুঁজে বের করা যায়।
* **টাস্ক ২**: [ডেটা সায়েন্সের দৃশ্যপট নিয়ে ভাবুন](assignment.md)
* **টাস্ক ১**: উপরের কোডটি পরিবর্তন করুন যাতে **বিগ ডেটা** এবং **মেশিন লার্নিং** ক্ষেত্রের সাথে সম্পর্কিত ধারণাগুল খুঁজে বের করা যায়।
* **টাস্ক ২**: [ডেটা সায়েন্সের পরিস্থিতি নিয়ে চিন্তা করুন](assignment.md)
## কৃতজ্ঞতা
## ক্রেডিট
এই পাঠটি ♥️ দিয়ে [দিমিত্রি সশনিকভ](http://soshnikov.com) দ্বারা রচিত হয়েছে।
---
**অস্বীকৃতি**:
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। নথিটির মূল ভাষায় লেখা সংস্করণটিকেই প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদ ব্যবহার করার পরামর্শ দেওয়া হচ্ছে। এই অনুবাদ ব্যবহারের ফলে সৃষ্ট কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদ প্রদানের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়বদ্ধ থাকব না

@ -1,15 +1,15 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-27T17:16:27+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:13:07+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "br"
}
-->
## Tipos de Dados
Como já mencionamos, os dados estão em toda parte. Só precisamos capturá-los da maneira certa! É útil distinguir entre **dados estruturados** e **não estruturados**. Os primeiros geralmente são representados em uma forma bem organizada, frequentemente como uma tabela ou várias tabelas, enquanto os últimos são apenas uma coleção de arquivos. Às vezes, também podemos falar sobre **dados semiestruturados**, que possuem algum tipo de estrutura que pode variar bastante.
Como já mencionamos, os dados estão em toda parte. Só precisamos capturá-los da maneira certa! É útil distinguir entre **dados estruturados** e **não estruturados**. Os primeiros geralmente são representados em uma forma bem estruturada, frequentemente como uma tabela ou várias tabelas, enquanto os últimos são apenas uma coleção de arquivos. Às vezes, também podemos falar sobre **dados semiestruturados**, que possuem algum tipo de estrutura que pode variar bastante.
| Estruturados | Semiestruturados | Não estruturados |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
@ -30,24 +30,24 @@ Existem muitas fontes possíveis de dados, e seria impossível listar todas elas
- **Imagens** ou **Vídeos**. Um vídeo de uma câmera de vigilância pode ser usado para estimar o tráfego na estrada e informar as pessoas sobre possíveis congestionamentos.
- **Logs** de servidores web podem ser usados para entender quais páginas do nosso site são mais visitadas e por quanto tempo.
* **Semiestruturados**
- **Grafos de Redes Sociais** podem ser ótimas fontes de dados sobre personalidades de usuários e eficácia potencial na disseminação de informações.
- **Grafos de Redes Sociais** podem ser ótimas fontes de dados sobre personalidades de usuários e potencial eficácia na disseminação de informações.
- Quando temos um monte de fotografias de uma festa, podemos tentar extrair dados de **Dinâmica de Grupo** construindo um grafo de pessoas tirando fotos umas com as outras.
Ao conhecer diferentes fontes possíveis de dados, você pode tentar pensar em diferentes cenários onde técnicas de ciência de dados podem ser aplicadas para entender melhor a situação e melhorar os processos de negócios.
## O que você pode fazer com Dados
Na Ciência de Dados, focamos nas seguintes etapas da jornada dos dados:
Na Ciência de Dados, focamos nos seguintes passos da jornada dos dados:
Claro, dependendo dos dados reais, algumas etapas podem estar ausentes (por exemplo, quando já temos os dados no banco de dados ou quando não precisamos de treinamento de modelo), ou algumas etapas podem ser repetidas várias vezes (como o processamento de dados).
Claro, dependendo dos dados reais, alguns passos podem estar ausentes (por exemplo, quando já temos os dados no banco de dados ou quando não precisamos de treinamento de modelo), ou alguns passos podem ser repetidos várias vezes (como o processamento de dados).
## Digitalização e Transformação Digital
Na última década, muitas empresas começaram a entender a importância dos dados na tomada de decisões de negócios. Para aplicar os princípios da ciência de dados na gestão de um negócio, primeiro é necessário coletar alguns dados, ou seja, traduzir os processos de negócios para uma forma digital. Isso é conhecido como **digitalização**. Aplicar técnicas de ciência de dados a esses dados para orientar decisões pode levar a aumentos significativos na produtividade (ou até mesmo a uma mudança de direção nos negócios), chamado de **transformação digital**.
Na última década, muitas empresas começaram a entender a importância dos dados na tomada de decisões de negócios. Para aplicar os princípios da ciência de dados na gestão de um negócio, primeiro é necessário coletar alguns dados, ou seja, traduzir os processos de negócios em forma digital. Isso é conhecido como **digitalização**. Aplicar técnicas de ciência de dados a esses dados para orientar decisões pode levar a aumentos significativos na produtividade (ou até mesmo a uma mudança de direção nos negócios), chamado de **transformação digital**.
Vamos considerar um exemplo. Suponha que temos um curso de ciência de dados (como este) que oferecemos online para estudantes, e queremos usar ciência de dados para melhorá-lo. Como podemos fazer isso?
Podemos começar perguntando "O que pode ser digitalizado?" A maneira mais simples seria medir o tempo que cada aluno leva para completar cada módulo e medir o conhecimento adquirido dando um teste de múltipla escolha ao final de cada módulo. Ao calcular a média do tempo de conclusão entre todos os alunos, podemos descobrir quais módulos causam mais dificuldades e trabalhar para simplificá-los.
Podemos começar perguntando "O que pode ser digitalizado?" A maneira mais simples seria medir o tempo que cada aluno leva para completar cada módulo e medir o conhecimento adquirido dando um teste de múltipla escolha no final de cada módulo. Ao calcular a média do tempo de conclusão entre todos os alunos, podemos descobrir quais módulos causam mais dificuldades e trabalhar para simplificá-los.
Você pode argumentar que essa abordagem não é ideal, porque os módulos podem ter comprimentos diferentes. Provavelmente seria mais justo dividir o tempo pelo comprimento do módulo (em número de caracteres) e comparar esses valores em vez disso.
Quando começamos a analisar os resultados de testes de múltipla escolha, podemos tentar determinar quais conceitos os alunos têm dificuldade em entender e usar essas informações para melhorar o conteúdo. Para isso, precisamos projetar os testes de forma que cada pergunta esteja vinculada a um determinado conceito ou bloco de conhecimento.
@ -61,9 +61,9 @@ Neste desafio, tentaremos encontrar conceitos relevantes para o campo de Ciênci
Visite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') para ler o código. Você também pode executar o código e ver como ele realiza todas as transformações de dados em tempo real.
> Se você não sabe como executar código em um Jupyter Notebook, confira [este artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
> Se você não sabe como executar código em um Jupyter Notebook, dê uma olhada neste [artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Quiz pós-aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Quiz pós-aula](https://ff-quizzes.netlify.app/en/ds/)
## Tarefas

@ -1,55 +1,55 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-26T15:20:25+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:27:31+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "cs"
}
-->
## Typy dat
Jak jsme již zmínili, data jsou všude kolem nás. Stačí je jen správně zachytit! Je užitečné rozlišovat mezi **strukturovanými** a **nestrukturovanými** daty. Strukturovaná data jsou obvykle reprezentována v nějaké dobře organizované formě, často jako tabulka nebo více tabulek, zatímco nestrukturovaná data jsou jen sbírkou souborů. Někdy také mluvíme o **polostrukturovaných** datech, která mají určitý druh struktury, jež se však může značně lišit.
Jak jsme již zmínili, data jsou všude kolem nás. Stačí je jen správně zachytit! Je užitečné rozlišovat mezi **strukturovanými** a **nestrukturovanými** daty. Strukturovaná data jsou obvykle reprezentována v dobře organizované formě, často jako tabulka nebo několik tabulek, zatímco nestrukturovaná data jsou jen sbírkou souborů. Někdy můžeme také hovořit o **polostrukturovaných** datech, která mají určitý druh struktury, jež se může značně lišit.
| Strukturovaná | Polostrukturovaná | Nestrukturovaná |
| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------- | --------------------------------------- |
| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------- | -------------------------------------- |
| Seznam lidí s jejich telefonními čísly | Stránky Wikipedie s odkazy | Text Encyklopedie Britannica |
| Teplota ve všech místnostech budovy každou minutu za posledních 20 let | Sbírka vědeckých článků ve formátu JSON s autory, datem publikace a abstraktem | Sdílené soubory s firemními dokumenty |
| Data o věku a pohlaví všech lidí vstupujících do budovy | Internetové stránky | Surový videozáznam z bezpečnostní kamery |
## Kde získat data
Existuje mnoho možných zdrojů dat, a je nemožné je všechny vyjmenovat! Nicméně zmíníme některé typické zdroje, odkud můžete data získat:
Existuje mnoho možných zdrojů dat, a je nemožné je všechny vyjmenovat! Nicméně zmíníme některé typické místa, kde můžete data získat:
* **Strukturovaná**
- **Internet věcí** (IoT), včetně dat z různých senzorů, jako jsou teplotní nebo tlakové senzory, poskytuje mnoho užitečných dat. Například pokud je kancelářská budova vybavena IoT senzory, můžeme automaticky řídit vytápění a osvětlení, abychom minimalizovali náklady.
- **Průzkumy**, které žádáme uživatele vyplnit po nákupu nebo po návštěvě webové stránky.
- **Analýza chování** může například pomoci pochopit, jak hluboko uživatel prochází webovou stránku a jaký je typický důvod jejího opuštění.
- **Internet věcí** (IoT), včetně dat z různých senzorů, jako jsou senzory teploty nebo tlaku, poskytuje mnoho užitečných dat. Například pokud je kancelářská budova vybavena IoT senzory, můžeme automaticky řídit vytápění a osvětlení, abychom minimalizovali náklady.
- **Dotazníky**, které žádáme uživatele vyplnit po nákupu nebo po návštěvě webové stránky.
- **Analýza chování** může například pomoci pochopit, jak hluboko uživatel proniká na webovou stránku a jaký je typický důvod jejího opuštění.
* **Nestrukturovaná**
- **Texty** mohou být bohatým zdrojem poznatků, například celkového **skóre sentimentu** nebo extrakce klíčových slov a sémantického významu.
- **Obrázky** nebo **videa**. Video z bezpečnostní kamery může být použito k odhadu dopravní situace na silnici a k informování lidí o možných dopravních zácpách.
- **Logy** webových serverů mohou být použity k pochopení, které stránky našeho webu jsou nejčastěji navštěvovány a jak dlouho.
- **Texty** mohou být bohatým zdrojem poznatků, jako je celkový **skóre sentimentu** nebo extrakce klíčových slov a sémantického významu.
- **Obrázky** nebo **video**. Video z bezpečnostní kamery může být použito k odhadu provozu na silnici a informování lidí o možných dopravních zácpách.
- **Logy** webového serveru mohou být použity k pochopení, které stránky našeho webu jsou nejčastěji navštěvovány a jak dlouho.
* **Polostrukturovaná**
- **Grafy sociálních sítí** mohou být skvělým zdrojem dat o osobnostech uživatelů a jejich potenciální efektivitě při šíření informací.
- Pokud máme sbírku fotografií z večírku, můžeme se pokusit extrahovat data o **skupinové dynamice** vytvořením grafu lidí, kteří se fotili spolu.
- **Grafy sociálních sítí** mohou být skvělým zdrojem dat o osobnostech uživatelů a potenciální efektivitě šíření informací.
- Když máme sbírku fotografií z večírku, můžeme se pokusit extrahovat data o **skupinové dynamice** vytvořením grafu lidí, kteří se fotí spolu.
Znalost různých možných zdrojů dat vám umožní přemýšlet o různých scénářích, kde lze aplikovat techniky datové vědy k lepšímu pochopení situace a ke zlepšení obchodních procesů.
Znalost různých možných zdrojů dat vám umožní přemýšlet o různých scénářích, kde lze aplikovat techniky datové vědy k lepšímu pochopení situace a zlepšení obchodních procesů.
## Co můžete dělat s daty
V datové vědě se zaměřujeme na následující kroky v práci s daty:
V datové vědě se zaměřujeme na následující kroky v cestě dat:
Samozřejmě, v závislosti na konkrétních datech mohou některé kroky chybět (např. když už máme data v databázi nebo když nepotřebujeme trénovat model), nebo se některé kroky mohou opakovat několikrát (například zpracování dat).
Samozřejmě, v závislosti na konkrétních datech mohou některé kroky chybět (např. když už máme data v databázi nebo když nepotřebujeme trénovat model), nebo mohou být některé kroky opakovány několikrát (například zpracování dat).
## Digitalizace a digitální transformace
V posledním desetiletí si mnoho podniků začalo uvědomovat důležitost dat při rozhodování. Aby bylo možné aplikovat principy datové vědy na řízení podniku, je nejprve nutné shromáždit nějaká data, tj. převést obchodní procesy do digitální podoby. To se nazývá **digitalizace**. Použití technik datové vědy na tato data k usnadnění rozhodování může vést k výraznému zvýšení produktivity (nebo dokonce k zásadní změně podnikání), což se nazývá **digitální transformace**.
V posledním desetiletí si mnoho podniků začalo uvědomovat důležitost dat při rozhodování. Aby bylo možné aplikovat principy datové vědy na řízení podniku, je nejprve nutné shromáždit nějaká data, tj. převést obchodní procesy do digitální podoby. Tomu se říká **digitalizace**. Použití technik datové vědy na tato data k usměrnění rozhodování může vést k významnému zvýšení produktivity (nebo dokonce k zásadní změně podnikání), což se nazývá **digitální transformace**.
Podívejme se na příklad. Představme si, že máme kurz datové vědy (jako je tento), který poskytujeme online studentům, a chceme jej pomocí datové vědy zlepšit. Jak to můžeme udělat?
Uvažujme příklad. Předpokládejme, že máme kurz datové vědy (jako tento), který poskytujeme online studentům, a chceme jej pomocí datové vědy zlepšit. Jak to můžeme udělat?
Můžeme začít otázkou „Co lze digitalizovat?“ Nejjednodušší způsob by byl měřit čas, který každý student potřebuje k dokončení každého modulu, a měřit získané znalosti pomocí testu s výběrem odpovědí na konci každého modulu. Průměrováním času potřebného k dokončení u všech studentů můžeme zjistit, které moduly studentům způsobují největší potíže, a pracovat na jejich zjednodušení.
Můžeme začít otázkou „Co lze digitalizovat?“ Nejjednodušší způsob by byl měřit čas, který každý student potřebuje k dokončení každého modulu, a měřit získané znalosti pomocí testu s výběrem odpovědí na konci každého modulu. Průměrováním času potřebného k dokončení mezi všemi studenty můžeme zjistit, které moduly studentům způsobují největší potíže, a pracovat na jejich zjednodušení.
Můžete namítnout, že tento přístup není ideální, protože moduly mohou mít různou délku. Pravděpodobně by bylo spravedlivější rozdělit čas podle délky modulu (v počtu znaků) a porovnat tyto hodnoty místo toho.
Když začneme analyzovat výsledky testů s výběrem odpovědí, můžeme se pokusit zjistit, které koncepty studentům dělají potíže, a využít tyto informace k vylepšení obsahu. Abychom toho dosáhli, musíme navrhnout testy tak, aby každá otázka odpovídala určitému konceptu nebo části znalostí.
Když začneme analyzovat výsledky testů s výběrem odpovědí, můžeme se pokusit zjistit, které koncepty dělají studentům problémy, a využít tyto informace k vylepšení obsahu. Abychom toho dosáhli, musíme navrhnout testy tak, aby každá otázka odpovídala určitému konceptu nebo části znalostí.
Pokud chceme být ještě složitější, můžeme vykreslit čas potřebný na každý modul proti věkové kategorii studentů. Můžeme zjistit, že pro některé věkové kategorie trvá nepřiměřeně dlouho dokončit modul, nebo že studenti odpadnou před jeho dokončením. To nám může pomoci poskytnout věková doporučení pro modul a minimalizovat nespokojenost lidí z nesprávných očekávání.
@ -63,11 +63,11 @@ Navštivte [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defin
> Pokud nevíte, jak spustit kód v Jupyter Notebooku, podívejte se na [tento článek](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Kvíz po přednášce](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Kvíz po přednášce](https://ff-quizzes.netlify.app/en/ds/)
## Úkoly
* **Úkol 1**: Upravte výše uvedený kód, abyste zjistili související koncepty pro oblasti **Big Data** a **Machine Learning**
* **Úkol 1**: Upravte výše uvedený kód, abyste našli související koncepty pro oblasti **Big Data** a **Machine Learning**
* **Úkol 2**: [Přemýšlejte o scénářích Data Science](assignment.md)
## Poděkování
@ -77,4 +77,4 @@ Tuto lekci vytvořil s ♥️ [Dmitry Soshnikov](http://soshnikov.com)
---
**Prohlášení**:
Tento dokument byl přeložen pomocí služby AI pro překlady [Co-op Translator](https://github.com/Azure/co-op-translator). Ačkoli se snažíme o přesnost, mějte na paměti, že automatizované překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádné nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.
Tento dokument byl přeložen pomocí služby pro automatický překlad [Co-op Translator](https://github.com/Azure/co-op-translator). I když se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádné nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.

@ -1,73 +1,75 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-26T21:31:43+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:19:07+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "da"
}
-->
## Typer af Data
Som vi allerede har nævnt, er data overalt. Vi skal bare indfange det på den rigtige måde! Det er nyttigt at skelne mellem **struktureret** og **ustruktureret** data. Førstnævnte er typisk repræsenteret i en velstruktureret form, ofte som en tabel eller flere tabeller, mens sidstnævnte blot er en samling af filer. Nogle gange kan vi også tale om **semistruktureret** data, som har en form for struktur, der kan variere meget.
Som vi allerede har nævnt, er data overalt. Vi skal bare fange det på den rigtige måde! Det er nyttigt at skelne mellem **struktureret** og **ustruktureret** data. Struktureret data er typisk repræsenteret i en velorganiseret form, ofte som en tabel eller flere tabeller, mens ustruktureret data blot er en samling af filer. Nogle gange kan vi også tale om **semistruktureret** data, som har en form for struktur, der kan variere meget.
| Struktureret | Semistruktureret | Ustruktureret |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| Liste over personer med deres telefonnumre | Wikipedia-sider med links | Teksten fra Encyclopedia Britannica |
| Temperatur i alle rum i en bygning hvert minut de sidste 20 år | Samling af videnskabelige artikler i JSON-format med forfattere, udgivelsesdato og abstrakt | Fildeling med virksomheds-dokumenter |
| Data om alder og køn alle personer, der går ind i bygningen | Internetsider | Rå videofeed fra overvågningskamera |
| Temperatur i alle rum i en bygning hvert minut de sidste 20 år | Samling af videnskabelige artikler i JSON-format med forfattere, udgivelsesdato og abstrakt | Filarkiv med virksomheds-dokumenter |
| Data om alder og køn for alle personer, der går ind i bygningen | Internet-sider | Rå videooptagelser fra overvågningskamera |
## Hvor kan man få Data
Der er mange mulige kilder til data, og det vil være umuligt at nævne dem alle! Men lad os nævne nogle af de typiske steder, hvor du kan få data:
Der er mange mulige kilder til data, og det vil være umuligt at liste dem alle! Men lad os nævne nogle af de typiske steder, hvor du kan få data:
* **Struktureret**
- **Internet of Things** (IoT), herunder data fra forskellige sensorer som temperatur- eller tryksensorer, leverer en masse nyttige data. For eksempel, hvis en kontorbygning er udstyret med IoT-sensorer, kan vi automatisk styre opvarmning og belysning for at minimere omkostningerne.
- **Spørgeskemaer**, som vi beder brugere udfylde efter et køb eller efter at have besøgt en hjemmeside.
- **Internet of Things** (IoT), inklusive data fra forskellige sensorer som temperatur- eller tryksensorer, giver en masse nyttige data. For eksempel, hvis en kontorbygning er udstyret med IoT-sensorer, kan vi automatisk styre opvarmning og belysning for at minimere omkostningerne.
- **Spørgeskemaer**, som vi beder brugere om at udfylde efter et køb eller efter at have besøgt en hjemmeside.
- **Adfærdsanalyse** kan for eksempel hjælpe os med at forstå, hvor dybt en bruger går ind på en hjemmeside, og hvad der typisk får dem til at forlade siden.
* **Ustruktureret**
- **Tekster** kan være en rig kilde til indsigt, såsom en overordnet **stemningsscore** eller udtrækning af nøgleord og semantisk betydning.
- **Billeder** eller **Videoer**. En video fra et overvågningskamera kan bruges til at estimere trafik på vejen og informere folk om potentielle trafikpropper.
- Webserver-**logfiler** kan bruges til at forstå, hvilke sider på vores hjemmeside der oftest besøges, og hvor længe.
- **Tekster** kan være en rig kilde til indsigt, såsom en samlet **sentimentscore** eller udtrækning af nøgleord og semantisk betydning.
- **Billeder** eller **Video**. En video fra et overvågningskamera kan bruges til at estimere trafik på vejen og informere folk om potentielle trafikpropper.
- Webserver **Logs** kan bruges til at forstå, hvilke sider på vores hjemmeside der oftest besøges, og hvor længe.
* **Semistruktureret**
- **Sociale netværks**grafer kan være fremragende kilder til data om brugeres personligheder og deres potentielle effektivitet i at sprede information.
- Når vi har en samling fotografier fra en fest, kan vi forsøge at udtrække data om **gruppedynamik** ved at bygge en graf over personer, der tager billeder sammen.
- **Sociale netværks** grafer kan være fremragende kilder til data om brugerpersonligheder og potentiel effektivitet i at sprede information.
- Når vi har en samling fotografier fra en fest, kan vi forsøge at udtrække data om **gruppedynamik** ved at opbygge en graf over personer, der tager billeder sammen.
Ved at kende til forskellige mulige datakilder kan du overveje forskellige scenarier, hvor data science-teknikker kan anvendes til at forstå situationen bedre og forbedre forretningsprocesser.
Ved at kende til forskellige mulige datakilder kan du prøve at tænke på forskellige scenarier, hvor data science-teknikker kan anvendes til at forstå situationen bedre og forbedre forretningsprocesser.
## Hvad kan du gøre med Data
Inden for Data Science fokuserer vi på følgende trin i datarejsen:
I Data Science fokuserer vi på følgende trin i datarejsen:
Selvfølgelig, afhængigt af de faktiske data, kan nogle trin mangle (f.eks. når vi allerede har data i databasen, eller når vi ikke har brug for modeltræning), eller nogle trin kan gentages flere gange (såsom databehandling).
Selvfølgelig, afhængigt af den faktiske data, kan nogle trin mangle (f.eks. når vi allerede har data i databasen, eller når vi ikke behøver modeltræning), eller nogle trin kan gentages flere gange (såsom databehandling).
## Digitalisering og Digital Transformation
I det sidste årti er mange virksomheder begyndt at forstå vigtigheden af data, når de træffer forretningsbeslutninger. For at anvende data science-principper på en virksomhed skal man først indsamle nogle data, dvs. oversætte forretningsprocesser til digital form. Dette kaldes **digitalisering**. Anvendelse af data science-teknikker på disse data til at vejlede beslutninger kan føre til betydelige produktivitetsforøgelser (eller endda en forretningsdrejning), hvilket kaldes **digital transformation**.
I det sidste årti er mange virksomheder begyndt at forstå vigtigheden af data, når de træffer forretningsbeslutninger. For at anvende data science-principper på en virksomhed skal man først indsamle noget data, dvs. oversætte forretningsprocesser til digital form. Dette kaldes **digitalisering**. Anvendelse af data science-teknikker på denne data til at vejlede beslutninger kan føre til betydelige produktivitetsforøgelser (eller endda en forretningsmæssig omstilling), kaldet **digital transformation**.
Lad os tage et eksempel. Antag, at vi har et data science-kursus (som dette), som vi leverer online til studerende, og vi ønsker at bruge data science til at forbedre det. Hvordan kan vi gøre det?
Vi kan starte med at spørge: "Hvad kan digitaliseres?" Den enkleste måde ville være at måle, hvor lang tid det tager hver studerende at gennemføre hvert modul, og måle den opnåede viden ved at give en multiple-choice-test i slutningen af hvert modul. Ved at gennemsnitliggøre gennemførelsestiden på tværs af alle studerende kan vi finde ud af, hvilke moduler der giver de studerende flest udfordringer, og arbejde på at forenkle dem.
> Du kan måske argumentere for, at denne tilgang ikke er ideel, fordi moduler kan have forskellige længder. Det er sandsynligvis mere retfærdigt at opdele tiden med modulets længde (i antal tegn) og sammenligne disse værdier i stedet.
Når vi begynder at analysere resultaterne af multiple-choice tests, kan vi forsøge at identificere, hvilke begreber eleverne har svært ved at forstå, og bruge den information til at forbedre indholdet. For at gøre dette skal vi designe tests på en måde, hvor hvert spørgsmål knyttes til et bestemt begreb eller en vidensdel.
Vi kan starte med at spørge: "Hvad kan digitaliseres?" Den enkleste måde ville være at måle den tid, det tager hver studerende at gennemføre hver modul, og måle den opnåede viden ved at give en multiple-choice test i slutningen af hver modul. Ved at beregne gennemsnitlig gennemførselstid på tværs af alle studerende kan vi finde ud af, hvilke moduler der giver de største udfordringer for studerende, og arbejde på at gøre dem enklere.
Du kan måske argumentere for, at denne tilgang ikke er ideel, fordi moduler kan have forskellige længder. Det er sandsynligvis mere retfærdigt at opdele tiden efter længden af modulet (i antal tegn) og sammenligne disse værdier i stedet.
Når vi begynder at analysere resultaterne af multiple-choice tests, kan vi forsøge at finde ud af, hvilke begreber eleverne har svært ved at forstå, og bruge den information til at forbedre indholdet. For at gøre det skal vi designe tests på en måde, hvor hvert spørgsmål knyttes til et bestemt begreb eller en vidensdel.
Hvis vi vil gøre det endnu mere komplekst, kan vi plotte den tid, der bruges på hvert modul, mod elevernes alderskategori. Vi kan finde ud af, at det for nogle alderskategorier tager uforholdsmæssigt lang tid at gennemføre modulet, eller at eleverne dropper ud, før de fuldfører det. Dette kan hjælpe os med at give aldersanbefalinger for modulet og minimere folks utilfredshed på grund af forkerte forventninger.
Hvis vi vil gøre det endnu mere avanceret, kan vi plotte den tid, der bruges på hvert modul, mod elevernes alderskategori. Vi kunne opdage, at det for nogle alderskategorier tager uforholdsmæssigt lang tid at gennemføre modulet, eller at eleverne falder fra, før de bliver færdige. Dette kan hjælpe os med at give aldersanbefalinger for modulet og minimere folks utilfredshed på grund af forkerte forventninger.
## 🚀 Udfordring
I denne udfordring vil vi forsøge at finde begreber, der er relevante for området Data Science, ved at kigge på tekster. Vi vil tage en Wikipedia-artikel om Data Science, downloade og behandle teksten og derefter bygge en ordsky som denne:
I denne udfordring vil vi forsøge at finde begreber, der er relevante for området Data Science, ved at kigge på tekster. Vi vil tage en Wikipedia-artikel om Data Science, downloade og bearbejde teksten og derefter bygge en ordsky som denne:
![Ordsky for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.da.png)
Besøg [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') for at gennemgå koden. Du kan også køre koden og se, hvordan den udfører alle datatransformationer i realtid.
Besøg [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') for at læse koden igennem. Du kan også køre koden og se, hvordan den udfører alle datatransformationer i realtid.
> Hvis du ikke ved, hvordan man kører kode i en Jupyter Notebook, kan du læse [denne artikel](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
> Hvis du ikke ved, hvordan man kører kode i en Jupyter Notebook, kan du læse denne artikel: [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Quiz efter forelæsning](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Quiz efter forelæsning](https://ff-quizzes.netlify.app/en/ds/)
## Opgaver
* **Opgave 1**: Modificer koden ovenfor for at finde relaterede begreber for områderne **Big Data** og **Machine Learning**
* **Opgave 1**: Tilpas koden ovenfor for at finde relaterede begreber for områderne **Big Data** og **Machine Learning**
* **Opgave 2**: [Tænk over Data Science-scenarier](assignment.md)
## Kreditering
@ -77,4 +79,4 @@ Denne lektion er skrevet med ♥️ af [Dmitry Soshnikov](http://soshnikov.com)
---
**Ansvarsfraskrivelse**:
Dette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det originale dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi er ikke ansvarlige for eventuelle misforståelser eller fejltolkninger, der måtte opstå som følge af brugen af denne oversættelse.
Dette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det originale dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi er ikke ansvarlige for eventuelle misforståelser eller fejltolkninger, der opstår som følge af brugen af denne oversættelse.

@ -1,8 +1,8 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-24T21:27:38+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T19:58:41+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "de"
}
@ -12,25 +12,25 @@ CO_OP_TRANSLATOR_METADATA:
Wie bereits erwähnt, sind Daten überall. Wir müssen sie nur auf die richtige Weise erfassen! Es ist hilfreich, zwischen **strukturierten** und **unstrukturierten** Daten zu unterscheiden. Erstere werden typischerweise in einer gut strukturierten Form dargestellt, oft als Tabelle oder mehrere Tabellen, während letztere einfach eine Sammlung von Dateien sind. Manchmal sprechen wir auch von **halbstrukturierten** Daten, die eine gewisse Struktur aufweisen, die jedoch stark variieren kann.
| Strukturiert | Halbstrukturiert | Unstrukturiert |
| ---------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------ | --------------------------------------- |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| Liste von Personen mit ihren Telefonnummern | Wikipedia-Seiten mit Links | Text der Encyclopedia Britannica |
| Temperatur in allen Räumen eines Gebäudes jede Minute der letzten 20 Jahre | Sammlung wissenschaftlicher Artikel im JSON-Format mit Autoren, Veröffentlichungsdatum und Abstract | Dateifreigabe mit Unternehmensdokumenten |
| Daten zu Alter und Geschlecht aller Personen, die das Gebäude betreten | Internetseiten | Rohes Videomaterial von Überwachungskameras |
## Woher man Daten bekommt
## Woher bekommt man Daten?
Es gibt viele mögliche Quellen für Daten, und es wäre unmöglich, alle aufzuzählen! Dennoch wollen wir einige typische Orte erwähnen, an denen man Daten finden kann:
* **Strukturiert**
- **Internet der Dinge** (IoT), einschließlich Daten von verschiedenen Sensoren wie Temperatur- oder Drucksensoren, liefert viele nützliche Daten. Zum Beispiel kann ein Bürogebäude mit IoT-Sensoren ausgestattet werden, um Heizung und Beleuchtung automatisch zu steuern und Kosten zu minimieren.
- **Internet of Things** (IoT), einschließlich Daten von verschiedenen Sensoren wie Temperatur- oder Drucksensoren, liefert viele nützliche Daten. Zum Beispiel kann ein Bürogebäude mit IoT-Sensoren ausgestattet werden, um automatisch Heizung und Beleuchtung zu steuern und so Kosten zu minimieren.
- **Umfragen**, die wir Nutzer nach einem Kauf oder nach dem Besuch einer Website ausfüllen lassen.
- **Verhaltensanalysen** können uns beispielsweise helfen zu verstehen, wie tief ein Nutzer in eine Website eintaucht und was der typische Grund für das Verlassen der Seite ist.
* **Unstrukturiert**
- **Texte** können eine reiche Quelle von Erkenntnissen sein, wie etwa eine allgemeine **Stimmungsbewertung** oder das Extrahieren von Schlüsselwörtern und semantischen Bedeutungen.
- **Texte** können eine reiche Quelle für Erkenntnisse sein, wie etwa eine allgemeine **Stimmungsbewertung** oder das Extrahieren von Schlüsselwörtern und semantischen Bedeutungen.
- **Bilder** oder **Videos**. Ein Video von einer Überwachungskamera kann verwendet werden, um den Verkehr auf der Straße zu schätzen und Menschen über mögliche Staus zu informieren.
- **Protokolle** von Webservern können genutzt werden, um zu verstehen, welche Seiten unserer Website am häufigsten besucht werden und wie lange.
* **Halbstrukturiert**
- **Soziale Netzwerke** können großartige Datenquellen über Benutzerpersönlichkeiten und die potenzielle Effektivität bei der Verbreitung von Informationen sein.
- **Soziale Netzwerke** können großartige Datenquellen über Persönlichkeitsmerkmale von Nutzern und deren potenzielle Effektivität beim Verbreiten von Informationen sein.
- Wenn wir eine Sammlung von Fotos von einer Party haben, können wir versuchen, **Gruppendynamik**-Daten zu extrahieren, indem wir ein Netzwerk von Personen erstellen, die miteinander fotografiert wurden.
Indem man verschiedene mögliche Datenquellen kennt, kann man über verschiedene Szenarien nachdenken, in denen Datenwissenschaftstechniken angewendet werden können, um die Situation besser zu verstehen und Geschäftsprozesse zu verbessern.
@ -43,36 +43,38 @@ Natürlich können je nach den tatsächlichen Daten einige Schritte fehlen (z. B
## Digitalisierung und digitale Transformation
In den letzten zehn Jahren haben viele Unternehmen begonnen, die Bedeutung von Daten bei Geschäftsentscheidungen zu erkennen. Um Prinzipien der Datenwissenschaft auf ein Unternehmen anzuwenden, muss zunächst eine Datenerfassung erfolgen, d. h. Geschäftsprozesse müssen in digitale Form übersetzt werden. Dies wird als **Digitalisierung** bezeichnet. Die Anwendung von Datenwissenschaftstechniken auf diese Daten zur Entscheidungsfindung kann zu erheblichen Produktivitätssteigerungen (oder sogar zu einer Neuausrichtung des Geschäfts) führen, was als **digitale Transformation** bezeichnet wird.
In den letzten zehn Jahren haben viele Unternehmen begonnen, die Bedeutung von Daten bei Geschäftsentscheidungen zu erkennen. Um Prinzipien der Datenwissenschaft auf ein Unternehmen anzuwenden, muss zunächst eine Datenerfassung erfolgen, d. h. Geschäftsprozesse müssen in digitale Form übersetzt werden. Dies wird als **Digitalisierung** bezeichnet. Die Anwendung von Datenwissenschaftstechniken auf diese Daten, um Entscheidungen zu lenken, kann zu erheblichen Produktivitätssteigerungen (oder sogar zu einer Neuausrichtung des Geschäfts) führen, was als **digitale Transformation** bezeichnet wird.
Betrachten wir ein Beispiel. Angenommen, wir haben einen Datenwissenschaftskurs (wie diesen hier), den wir online an Studierende vermitteln, und wir möchten Datenwissenschaft nutzen, um ihn zu verbessern. Wie können wir das tun?
Wir könnten damit beginnen, uns zu fragen: "Was kann digitalisiert werden?" Der einfachste Weg wäre, die Zeit zu messen, die jeder Studierende benötigt, um jedes Modul abzuschließen, und das erworbene Wissen durch einen Multiple-Choice-Test am Ende jedes Moduls zu bewerten. Indem wir die Abschlusszeiten aller Studierenden mitteln, können wir herausfinden, welche Module den Studierenden die größten Schwierigkeiten bereiten, und daran arbeiten, sie zu vereinfachen.
Man könnte argumentieren, dass dieser Ansatz nicht ideal ist, da Module unterschiedlich lang sein können. Es wäre wahrscheinlich gerechter, die Zeit durch die Länge des Moduls (in Anzahl der Zeichen) zu teilen und stattdessen diese Werte zu vergleichen.
Wenn wir beginnen, die Ergebnisse von Multiple-Choice-Tests zu analysieren, können wir versuchen herauszufinden, welche Konzepte den Schülern Schwierigkeiten bereiten, und diese Informationen nutzen, um die Inhalte zu verbessern. Dazu müssen wir Tests so gestalten, dass jede Frage einem bestimmten Konzept oder Wissensbereich zugeordnet werden kann.
Wenn wir beginnen, die Ergebnisse von Multiple-Choice-Tests zu analysieren, können wir versuchen herauszufinden, welche Konzepte den Schülern Schwierigkeiten bereiten, und diese Informationen nutzen, um die Inhalte zu verbessern. Um dies zu erreichen, müssen wir Tests so gestalten, dass jede Frage einem bestimmten Konzept oder Wissensbereich zugeordnet werden kann.
Wenn wir es noch komplexer machen wollen, können wir die benötigte Zeit für jedes Modul gegen die Alterskategorie der Schüler auftragen. Wir könnten herausfinden, dass es für einige Alterskategorien unangemessen lange dauert, ein Modul abzuschließen, oder dass Schüler abbrechen, bevor sie es beenden. Dies kann uns helfen, Altersempfehlungen für das Modul zu geben und die Unzufriedenheit durch falsche Erwartungen zu minimieren.
Wenn wir es noch komplexer machen wollen, können wir die benötigte Zeit für jedes Modul gegen die Alterskategorie der Schüler auftragen. Dabei könnten wir feststellen, dass es für einige Alterskategorien unangemessen lange dauert, ein Modul abzuschließen, oder dass Schüler abbrechen, bevor sie es beendet haben. Dies kann uns helfen, Altersempfehlungen für das Modul zu geben und die Unzufriedenheit der Menschen durch falsche Erwartungen zu minimieren.
## 🚀 Herausforderung
In dieser Herausforderung werden wir versuchen, Konzepte, die für den Bereich der Datenwissenschaft relevant sind, durch die Analyse von Texten zu finden. Wir werden einen Wikipedia-Artikel über Datenwissenschaft nehmen, den Text herunterladen und verarbeiten und dann eine Wortwolke wie diese erstellen:
In dieser Herausforderung werden wir versuchen, relevante Konzepte für den Bereich Data Science zu finden, indem wir Texte analysieren. Wir werden einen Wikipedia-Artikel über Data Science nehmen, den Text herunterladen und verarbeiten und anschließend eine Wortwolke wie diese erstellen:
![Wortwolke für Datenwissenschaft](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.de.png)
![Wortwolke für Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.de.png)
Besuche [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), um den Code durchzulesen. Du kannst den Code auch ausführen und sehen, wie er alle Datenumwandlungen in Echtzeit durchführt.
Besuche [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), um den Code durchzulesen. Du kannst den Code auch ausführen und sehen, wie er alle Datentransformationen in Echtzeit durchführt.
> Wenn du nicht weißt, wie man Code in einem Jupyter Notebook ausführt, schau dir [diesen Artikel](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) an.
## [Quiz nach der Vorlesung](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Quiz nach der Vorlesung](https://ff-quizzes.netlify.app/en/ds/)
## Aufgaben
* **Aufgabe 1**: Ändere den obigen Code, um verwandte Konzepte für die Bereiche **Big Data** und **Maschinelles Lernen** zu finden.
* **Aufgabe 2**: [Denke über Szenarien in der Datenwissenschaft nach](assignment.md)
* **Aufgabe 1**: Ändere den oben genannten Code, um verwandte Konzepte für die Bereiche **Big Data** und **Machine Learning** zu finden.
* **Aufgabe 2**: [Denke über Data-Science-Szenarien nach](assignment.md)
## Credits
Diese Lektion wurde mit ♥️ von [Dmitry Soshnikov](http://soshnikov.com) verfasst.
---
**Haftungsausschluss**:
Dieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben.

@ -1,8 +1,8 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-26T21:28:57+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:16:32+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "el"
}
@ -17,85 +17,43 @@ CO_OP_TRANSLATOR_METADATA:
## Τι είναι η Επιστήμη Δεδομένων;
Στη [Wikipedia](https://en.wikipedia.org/wiki/Data_science), η **Επιστήμη Δεδομένων** ορίζεται ως *ένα επιστημονικό πεδίο που χρησιμοποιεί επιστημονικές μεθόδους για να εξάγει γνώση και πληροφορίες από δομημένα και μη δομημένα δεδομένα, και να εφαρμόζει τη γνώση και τις εφαρμόσιμες πληροφορίες από δεδομένα σε ένα ευρύ φάσμα εφαρμογών*.
Σύμφωνα με τη [Wikipedia](https://en.wikipedia.org/wiki/Data_science), η **Επιστήμη Δεδομένων** ορίζεται ως *ένα επιστημονικό πεδίο που χρησιμοποιεί επιστημονικές μεθόδους για να εξάγει γνώση και πληροφορίες από δομημένα και μη δομημένα δεδομένα, και να εφαρμόζει τη γνώση και τις εφαρμόσιμες πληροφορίες από δεδομένα σε ένα ευρύ φάσμα εφαρμογών*.
Αυτός ο ορισμός υπογραμμίζει τα εξής σημαντικά σημεία της επιστήμης δεδομένων:
* Ο κύριος στόχος της επιστήμης δεδομένων είναι να **εξάγει γνώση** από δεδομένα, δηλαδή να **κατανοήσει** τα δεδομένα, να βρει κρυφές σχέσεις και να δημιουργήσει ένα **μοντέλο**.
* Η επιστήμη δεδομένων χρησιμοποιεί **επιστημονικές μεθόδους**, όπως η πιθανότητα και η στατιστική. Στην πραγματικότητα, όταν ο όρος *επιστήμη δεδομένων* εισήχθη για πρώτη φορά, κάποιοι υποστήριξαν ότι ήταν απλώς ένα νέο εντυπωσιακό όνομα για τη στατιστική. Σήμερα είναι προφανές ότι το πεδίο είναι πολύ ευρύτερο.
* Η επιστήμη δεδομένων χρησιμοποιεί **επιστημονικές μεθόδους**, όπως η πιθανότητα και η στατιστική. Στην πραγματικότητα, όταν ο όρος *επιστήμη δεδομένων* εισήχθη για πρώτη φορά, κάποιοι υποστήριξαν ότι ήταν απλώς ένα νέο μοντέρνο όνομα για τη στατιστική. Σήμερα είναι προφανές ότι το πεδίο είναι πολύ ευρύτερο.
* Η γνώση που αποκτάται πρέπει να εφαρμόζεται για να παράγει **εφαρμόσιμες πληροφορίες**, δηλαδή πρακτικές πληροφορίες που μπορούν να εφαρμοστούν σε πραγματικές επιχειρηματικές καταστάσεις.
* Πρέπει να μπορούμε να λειτουργούμε τόσο με **δομημένα** όσο και με **μη δομημένα** δεδομένα. Θα επιστρέψουμε για να συζητήσουμε τους διαφορετικούς τύπους δεδομένων αργότερα στο μάθημα.
* Η **περιοχή εφαρμογής** είναι μια σημαντική έννοια, και οι επιστήμονες δεδομένων συχνά χρειάζονται τουλάχιστον κάποιο βαθμό εξειδίκευσης στον τομέα του προβλήματος, όπως χρηματοοικονομικά, ιατρική, μάρκετινγκ κ.λπ.
* Η **περιοχή εφαρμογής** είναι μια σημαντική έννοια, και οι επιστήμονες δεδομένων συχνά χρειάζονται τουλάχιστον κάποιο βαθμό εξειδίκευσης στον τομέα του προβλήματος, για παράδειγμα: χρηματοοικονομικά, ιατρική, μάρκετινγκ κ.λπ.
> Ένα άλλο σημαντικό στοιχείο της Επιστήμης Δεδομένων είναι ότι μελετά πώς τα δεδομένα μπορούν να συλλέγονται, να αποθηκεύονται και να λειτουργούν μέσω υπολογιστών. Ενώ η στατιστική μας δίνει μαθηματικά θεμέλια, η επιστήμη δεδομένων εφαρμόζει μαθηματικές έννοιες για να αντλήσει πραγματικά πληροφορίες από δεδομένα.
> Ένα άλλο σημαντικό στοιχείο της Επιστήμης Δεδομένων είναι ότι μελετά πώς τα δεδομένα μπορούν να συλλέγονται, να αποθηκεύονται και να λειτουργούν μέσω υπολογιστών. Ενώ η στατιστική μας δίνει μαθηματικά θεμέλια, η επιστήμη δεδομένων εφαρμόζει μαθηματικές έννοιες για να εξάγει πραγματικά πληροφορίες από δεδομένα.
Μία από τις προσεγγίσεις (αποδίδεται στον [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) για να δούμε την επιστήμη δεδομένων είναι να τη θεωρήσουμε ως ένα ξεχωριστό παράδειγμα επιστήμης:
* **Εμπειρική**, όπου βασιζόμαστε κυρίως σε παρατηρήσεις και αποτελέσματα πειραμάτων
* **Θεωρητική**, όπου νέες έννοιες προκύπτουν από την υπάρχουσα επιστημονική γνώση
* **Υπολογιστική**, όπου ανακαλύπτουμε νέες αρχές βάσει υπολογιστικών πειραμάτων
* **Βασισμένη στα Δεδομένα**, όπου ανακαλύπτουμε σχέσεις και μοτίβα στα δεδομένα
* **Καθοδηγούμενη από Δεδομένα**, βασισμένη στην ανακάλυψη σχέσεων και μοτίβων στα δεδομένα
## Άλλα Σχετικά Πεδία
## Συναφή Πεδία
Επειδή τα δεδομένα είναι πανταχού παρόντα, η επιστήμη δεδομένων είναι επίσης ένα ευρύ πεδίο που αγγίζει πολλές άλλες επιστήμες.
Μπορεί να υποστηρίξετε ότι αυτή η προσέγγιση δεν είναι ιδανική, επειδή τα modules μπορεί να έχουν διαφορετικά μήκη. Ίσως είναι πιο δίκαιο να διαιρέσετε τον χρόνο με το μήκος του module (σε αριθμό χαρακτήρων) και να συγκρίνετε αυτές τις τιμές αντί.
Όταν αρχίζουμε να αναλύουμε τα αποτελέσματα από τεστ πολλαπλών επιλογών, μπορούμε να προσπαθήσουμε να προσδιορίσουμε ποιες έννοιες δυσκολεύονται να κατανοήσουν οι μαθητές και να χρησιμοποιήσουμε αυτές τις πληροφορίες για να βελτιώσουμε το περιεχόμενο. Για να το πετύχουμε αυτό, πρέπει να σχεδιάσουμε τα τεστ με τέτοιο τρόπο ώστε κάθε ερώτηση να αντιστοιχεί σε μια συγκεκριμένη έννοια ή κομμάτι γνώσης.
## Τύποι Δεδομένων
Όπως έχουμε ήδη αναφέρει, τα δεδομένα είναι παντού. Αρκεί να τα καταγράψουμε με τον σωστό τρόπο! Είναι χρήσιμο να διακρίνουμε μεταξύ **δομημένων** και **μη δομημένων** δεδομένων. Τα πρώτα συνήθως παρουσιάζονται σε κάποια καλά δομημένη μορφή, συχνά ως πίνακας ή αριθμός πινάκων, ενώ τα δεύτερα είναι απλώς μια συλλογή αρχείων. Μερικές φορές μπορούμε επίσης να μιλήσουμε για **ημι-δομημένα** δεδομένα, που έχουν κάποιο είδος δομής που μπορεί να διαφέρει σημαντικά.
| Δομημένα | Ημι-δομημένα | Μη δομημένα |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| Λίστα ανθρώπων με τους αριθμούς τηλεφώνου τους | Σελίδες Wikipedia με συνδέσμους | Κείμενο της Εγκυκλοπαίδειας Britannica |
| Θερμοκρασία σε όλα τα δωμάτια ενός κτιρίου κάθε λεπτό για τα τελευταία 20 χρόνια | Συλλογή επιστημονικών άρθρων σε μορφή JSON με συγγραφείς, ημερομηνία δημοσίευσης και περίληψη | Κοινόχρηστα αρχεία με εταιρικά έγγραφα |
| Δεδομένα για ηλικία και φύλο όλων των ανθρώπων που εισέρχονται στο κτίριο | Σελίδες Διαδικτύου | Ακατέργαστο βίντεο από κάμερα παρακολούθησης |
## Πού να βρείτε Δεδομένα
Υπάρχουν πολλές πιθανές πηγές δεδομένων, και θα ήταν αδύνατο να τις απαριθμήσουμε όλες! Ωστόσο, ας αναφέρουμε μερικά από τα τυπικά μέρη όπου μπορείτε να βρείτε δεδομένα:
* **Δομημένα**
- **Internet of Things** (IoT), συμπεριλαμβανομένων δεδομένων από διάφορους αισθητήρες, όπως αισθητήρες θερμοκρασίας ή πίεσης, παρέχει πολλά χρήσιμα δεδομένα. Για παράδειγμα, αν ένα κτίριο γραφείων είναι εξοπλισμένο με αισθητήρες IoT, μπορούμε να ελέγξουμε αυτόματα τη θέρμανση και τον φωτισμό για να ελαχιστοποιήσουμε το κόστος.
- **Έρευνες** που ζητάμε από τους χρήστες να συμπληρώσουν μετά από μια αγορά ή μετά από επίσκεψη σε έναν ιστότοπο.
- **Ανάλυση συμπεριφοράς** μπορεί, για παράδειγμα, να μας βοηθήσει να κατανοήσουμε πόσο βαθιά ένας χρήστης εξερευνά έναν ιστότοπο και ποιος είναι ο τυπικός λόγος για την αποχώρησή του.
* **Μη δομημένα**
- **Κείμενα** μπορούν να αποτελέσουν πλούσια πηγή πληροφοριών, όπως συνολική **βαθμολογία συναισθήματος** ή εξαγωγή λέξεων-κλειδιών και σημασιολογικού νοήματος.
- **Εικόνες** ή **Βίντεο**. Ένα βίντεο από μια κάμερα παρακολούθησης μπορεί να χρησιμοποιηθεί για να εκτιμήσει την κυκλοφορία στον δρόμο και να ενημερώσει τους ανθρώπους για πιθανές κυκλοφοριακές συμφόρησεις.
- **Αρχεία καταγραφής** από διακομιστές ιστού μπορούν να χρησιμοποιηθούν για να κατανοήσουμε ποιες σελίδες του ιστότοπού μας επισκέπτονται πιο συχνά και για πόσο χρόνο.
* Ημι-δομημένα
- **Γραφήματα κοινωνικών δικτύων** μπορούν να αποτελέσουν εξαιρετικές πηγές δεδομένων για τις προσωπικότητες των χρηστών και την πιθανή αποτελεσματικότητα στη διάδοση πληροφοριών.
- Όταν έχουμε μια συλλογή φωτογραφιών από ένα πάρτι, μπορούμε να προσπαθήσουμε να εξαγάγουμε δεδομένα **ομαδικής δυναμικής** δημιουργώντας ένα γράφημα ανθρώπων που βγάζουν φωτογραφίες μαζί.
Γνωρίζοντας τις διάφορες πιθανές πηγές δεδομένων, μπορείτε να σκεφτείτε διαφορετικά σενάρια όπου οι τεχνικές επιστήμης δεδομένων μπορούν να εφαρμοστούν για να κατανοήσετε καλύτερα την κατάσταση και να βελτιώσετε τις επιχειρηματικές διαδικασίες.
## Τι μπορείτε να κάνετε με τα Δεδομένα
Στην Επιστήμη Δεδομένων, εστιάζουμε στα εξής βήματα της πορείας των δεδομένων:
Φυσικά, ανάλογα με τα δεδομένα, κάποια βήματα μπορεί να λείπουν (π.χ., όταν έχουμε ήδη τα δεδομένα στη βάση δεδομένων ή όταν δεν χρειάζεται εκπαίδευση μοντέλου), ή κάποια βήματα μπορεί να επαναληφθούν αρκετές φορές (όπως η επεξεργασία δεδομένων).
## Ψηφιοποίηση και Ψηφιακός Μετασχηματισμός
Την τελευταία δεκαετία, πολλές επιχειρήσεις άρχισαν να κατανοούν τη σημασία των δεδομένων στη λήψη επιχειρηματικών αποφάσεων. Για να εφαρμόσει κανείς τις αρχές της επιστήμης δεδομένων στη λειτουργία μιας επιχείρησης, πρέπει πρώτα να συλλέξει κάποια δεδομένα, δηλαδή να μετατρέψει τις επιχειρηματικές διαδικασίες σε ψηφιακή μορφή. Αυτό είναι γνωστό ως **ψηφιοποίηση**. Η εφαρμογή τεχνικών επιστήμης δεδομένων σε αυτά τα δεδομένα για τη λήψη αποφάσεων μπορεί να οδηγήσει σε σημαντικές αυξήσεις παραγωγικότητας (ή ακόμα και σε αλλαγή κατεύθυνσης της επιχείρησης), που ονομάζεται **ψηφιακός μετασχηματισμός**.
Ας εξετάσουμε ένα παράδειγμα. Ας υποθέσουμε ότι έχουμε ένα μάθημα επιστήμης δεδομένων (όπως αυτό) που παραδίδουμε διαδικτυακά στους φοιτητές και θέλουμε να χρησιμοποιήσουμε την επιστήμη δεδομένων για να το βελτιώσουμε. Πώς μπορούμε να το κάνουμε;
Μπορούμε να ξεκινήσουμε ρωτώντας "Τι μπορεί να ψηφιοποιηθεί;" Ο απλούστερος τρόπος θα ήταν να μετρήσουμε τον χρόνο που χρειάζεται κάθε φοιτητής για να ολοκληρώσει κάθε ενότητα και να μετρήσουμε τη γνώση που αποκτήθηκε δίνοντας ένα τεστ πολλαπλών επιλογών στο τέλος κάθε ενότητας. Με τον μέσο όρο του χρόνου ολοκλήρωσης όλων των φοιτητών, μπορούμε να εντοπίσουμε ποιες ενότητες προκαλούν τις μεγαλύτερες δυσκολίες στους φοιτητές και να εργαστούμε για την απλοποίησή τους.
Μπορείτε να υποστηρίξετε ότι αυτή η προσέγγιση δεν είναι ιδανική, επειδή τα modules μπορεί να έχουν διαφορετικά μήκη. Ίσως είναι πιο δίκαιο να διαιρέσετε τον χρόνο με το μήκος του module (σε αριθμό χαρακτήρων) και να συγκρίνετε αυτές τις τιμές αντί για αυτό.
Όταν ξεκινάμε να αναλύουμε τα αποτελέσματα από τεστ πολλαπλών επιλογών, μπορούμε να προσπαθήσουμε να προσδιορίσουμε ποιες έννοιες δυσκολεύονται να κατανοήσουν οι μαθητές και να χρησιμοποιήσουμε αυτές τις πληροφορίες για να βελτιώσουμε το περιεχόμενο. Για να το πετύχουμε αυτό, πρέπει να σχεδιάσουμε τα τεστ με τέτοιο τρόπο ώστε κάθε ερώτηση να αντιστοιχεί σε μια συγκεκριμένη έννοια ή κομμάτι γνώσης.
Αν θέλουμε να γίνουμε ακόμα πιο περίπλοκοι, μπορούμε να σχεδιάσουμε τον χρόνο που απαιτείται για κάθε ενότητα σε σχέση με την ηλικιακή κατηγορία των μαθητών. Ίσως ανακαλύψουμε ότι για ορισμένες ηλικιακές κατηγορίες απαιτείται υπερβολικά πολύς χρόνος για την ολοκλήρωση της ενότητας ή ότι οι μαθητές εγκαταλείπουν πριν την ολοκληρώσουν. Αυτό μπορεί να μας βοηθήσει να παρέχουμε συστάσεις ηλικίας για την ενότητα και να ελαχιστοποιήσουμε τη δυσαρέσκεια των ανθρώπων από λανθασμένες προσδοκίες.
Αν θέλουμε να γίνουμε ακόμα πιο περίπλοκοι, μπορούμε να σχεδιάσουμε το χρόνο που απαιτείται για κάθε ενότητα σε σχέση με την ηλικιακή κατηγορία των μαθητών. Ίσως ανακαλύψουμε ότι για ορισμένες ηλικιακές κατηγορίες χρειάζεται υπερβολικά πολύς χρόνος για να ολοκληρωθεί η ενότητα ή ότι οι μαθητές εγκαταλείπουν πριν την ολοκληρώσουν. Αυτό μπορεί να μας βοηθήσει να παρέχουμε συστάσεις ηλικίας για την ενότητα και να ελαχιστοποιήσουμε τη δυσαρέσκεια των ανθρώπων από λανθασμένες προσδοκίες.
## 🚀 Πρόκληση
Σε αυτή την πρόκληση, θα προσπαθήσουμε να βρούμε έννοιες που σχετίζονται με τον τομέα της Επιστήμης Δεδομένων εξετάζοντας κείμενα. Θα πάρουμε ένα άρθρο της Wikipedia για την Επιστήμη Δεδομένων, θα κατεβάσουμε και θα επεξεργαστούμε το κείμενο, και στη συνέχεια θα δημιουργήσουμε ένα σύννεφο λέξεων όπως αυτό:
![Σύννεφο Λέξεων για την Επιστήμη Δεδομένων](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.el.png)
![Σύννεφο λέξεων για την Επιστήμη Δεδομένων](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.el.png)
Επισκεφθείτε το [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') για να διαβάσετε τον κώδικα. Μπορείτε επίσης να εκτελέσετε τον κώδικα και να δείτε πώς πραγματοποιεί όλες τις μετατροπές δεδομένων σε πραγματικό χρόνο.
Επισκεφθείτε το [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') για να διαβάσετε τον κώδικα. Μπορείτε επίσης να εκτελέσετε τον κώδικα και να δείτε πώς πραγματοποιεί όλες τις μετασχηματίσεις δεδομένων σε πραγματικό χρόνο.
> Αν δεν γνωρίζετε πώς να εκτελέσετε κώδικα σε ένα Jupyter Notebook, ρίξτε μια ματιά σε [αυτό το άρθρο](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Κουίζ μετά το μάθημα](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Κουίζ μετά το μάθημα](https://ff-quizzes.netlify.app/en/ds/)
## Εργασίες
@ -109,4 +67,4 @@ CO_OP_TRANSLATOR_METADATA:
---
**Αποποίηση ευθύνης**:
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης [Co-op Translator](https://github.com/Azure/co-op-translator). Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτοματοποιημένες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης AI [Co-op Translator](https://github.com/Azure/co-op-translator). Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτοματοποιημένες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.

@ -1,39 +1,37 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-31T11:09:34+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T19:56:26+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "en"
}
-->
We can also analyze the test results to identify which questions are most often answered incorrectly. This could indicate areas where the material might need to be clarified or expanded. Additionally, we could track how students interact with the course content—such as which videos they replay, which sections they skip, or how often they participate in discussions. This data could help us understand how students engage with the material and identify opportunities to make the course more engaging and effective.
Of course, we can go further. For example, we could analyze the test results to identify which specific questions are most often answered incorrectly. This could help us pinpoint areas where the material might need to be clarified or expanded. Additionally, we could track how students navigate through the course, such as which sections they revisit or skip, to better understand their learning patterns.
By collecting and analyzing this data, we are essentially digitizing the learning process. Once we have this data, we can apply data science techniques to gain insights and make informed decisions about how to improve the course. This is an example of digital transformation in education.
By collecting and analyzing this data, we can make informed decisions to improve the course structure, content, and delivery. This is a simple example of how digitalization (collecting data about the course) and digital transformation (using that data to improve the course) can work together to enhance outcomes.
Digital transformation is not limited to education—it can be applied to virtually any industry. For example:
## Summary
- In **healthcare**, digital transformation might involve using patient data to predict disease outbreaks or personalize treatment plans.
- In **retail**, it could mean analyzing customer purchase data to optimize inventory or create personalized marketing campaigns.
- In **manufacturing**, it might involve using sensor data from machines to predict maintenance needs and reduce downtime.
Data is everywhere, and its importance has grown significantly with the advent of computers and the Internet. Data science is the field that helps us extract knowledge and actionable insights from data, using scientific methods and computational tools. It operates on structured, semi-structured, and unstructured data, and spans a wide range of application domains.
The key idea is that by digitizing processes and applying data science, businesses can gain valuable insights, improve efficiency, and make better decisions.
You might say this method isn't perfect, as modules can vary in length. It might be more reasonable to divide the time by the module's length (measured in the number of characters) and compare those results instead.
When we start analyzing the results of multiple-choice tests, we can try to identify which concepts students struggle to understand and use that information to improve the content. To achieve this, we need to design tests so that each question corresponds to a specific concept or piece of knowledge.
Understanding the types of data, where to find it, and how to use it effectively is key to leveraging data science. By applying these principles, businesses and individuals can make better decisions, optimize processes, and even transform the way they operate.
You might argue that this approach isn't perfect, as modules can vary in length. It would probably be fairer to divide the time by the module's length (measured in the number of characters) and compare those values instead.
When analyzing the results of multiple-choice tests, we can identify concepts that students struggle to understand and use this information to improve the content. To achieve this, tests should be designed so that each question corresponds to a specific concept or piece of knowledge.
If we want to go a step further, we can compare the time taken for each module with the age category of the students. We might discover that for certain age groups, it takes an unusually long time to complete the module, or that students drop out before finishing it. This can help us provide age-appropriate recommendations for the module and reduce dissatisfaction caused by unmet expectations.
For a more advanced approach, we can compare the time taken to complete each module with the age group of the students. This might reveal that certain age groups take an unusually long time to finish a module or that students drop out before completing it. Such insights can help us recommend appropriate age groups for the module and reduce dissatisfaction caused by mismatched expectations.
## 🚀 Challenge
In this challenge, we will try to identify concepts relevant to the field of Data Science by analyzing texts. We will take a Wikipedia article on Data Science, download and process the text, and then create a word cloud like this one:
In this challenge, we will identify concepts related to the field of Data Science by analyzing texts. We'll use a Wikipedia article on Data Science, download and process the text, and then create a word cloud similar to this one:
![Word Cloud for Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png)
![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.en.png)
Visit [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') to review the code. You can also run the code and observe how it performs all the data transformations in real time.
Check out [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') to explore the code. You can also run the code to see how it performs all data transformations in real time.
> If you are unfamiliar with running code in a Jupyter Notebook, check out [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
> If you're unfamiliar with running code in a Jupyter Notebook, refer to [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Post-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ds/)
## Assignments

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

@ -0,0 +1,264 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"## Introduction to Probability and Statistics\n",
"## Assignment\n",
"\n",
"In this assignment, we will use the dataset of diabetes patients obtained [from here](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html).\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 13,
"source": [
"import pandas as pd\r\n",
"import numpy as np\r\n",
"\r\n",
"df = pd.read_csv(\"../../data/diabetes.tsv\",sep='\\t')\r\n",
"df.head()"
],
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
" AGE SEX BMI BP S1 S2 S3 S4 S5 S6 Y\n",
"0 59 2 32.1 101.0 157 93.2 38.0 4.0 4.8598 87 151\n",
"1 48 1 21.6 87.0 183 103.2 70.0 3.0 3.8918 69 75\n",
"2 72 2 30.5 93.0 156 93.6 41.0 4.0 4.6728 85 141\n",
"3 24 1 25.3 84.0 198 131.4 40.0 5.0 4.8903 89 206\n",
"4 50 1 23.0 101.0 192 125.4 52.0 4.0 4.2905 80 135"
],
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>AGE</th>\n",
" <th>SEX</th>\n",
" <th>BMI</th>\n",
" <th>BP</th>\n",
" <th>S1</th>\n",
" <th>S2</th>\n",
" <th>S3</th>\n",
" <th>S4</th>\n",
" <th>S5</th>\n",
" <th>S6</th>\n",
" <th>Y</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>59</td>\n",
" <td>2</td>\n",
" <td>32.1</td>\n",
" <td>101.0</td>\n",
" <td>157</td>\n",
" <td>93.2</td>\n",
" <td>38.0</td>\n",
" <td>4.0</td>\n",
" <td>4.8598</td>\n",
" <td>87</td>\n",
" <td>151</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>48</td>\n",
" <td>1</td>\n",
" <td>21.6</td>\n",
" <td>87.0</td>\n",
" <td>183</td>\n",
" <td>103.2</td>\n",
" <td>70.0</td>\n",
" <td>3.0</td>\n",
" <td>3.8918</td>\n",
" <td>69</td>\n",
" <td>75</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>72</td>\n",
" <td>2</td>\n",
" <td>30.5</td>\n",
" <td>93.0</td>\n",
" <td>156</td>\n",
" <td>93.6</td>\n",
" <td>41.0</td>\n",
" <td>4.0</td>\n",
" <td>4.6728</td>\n",
" <td>85</td>\n",
" <td>141</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>24</td>\n",
" <td>1</td>\n",
" <td>25.3</td>\n",
" <td>84.0</td>\n",
" <td>198</td>\n",
" <td>131.4</td>\n",
" <td>40.0</td>\n",
" <td>5.0</td>\n",
" <td>4.8903</td>\n",
" <td>89</td>\n",
" <td>206</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>50</td>\n",
" <td>1</td>\n",
" <td>23.0</td>\n",
" <td>101.0</td>\n",
" <td>192</td>\n",
" <td>125.4</td>\n",
" <td>52.0</td>\n",
" <td>4.0</td>\n",
" <td>4.2905</td>\n",
" <td>80</td>\n",
" <td>135</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
]
},
"metadata": {},
"execution_count": 13
}
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"In this dataset, the columns are as follows:\n",
"* Age and sex are straightforward\n",
"* BMI refers to body mass index\n",
"* BP represents average blood pressure\n",
"* S1 to S6 are various blood measurements\n",
"* Y is a qualitative indicator of disease progression over the course of one year\n",
"\n",
"Let's analyze this dataset using probability and statistical methods.\n",
"\n",
"### Task 1: Calculate the mean and variance for all values\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### Task 2: Plot boxplots for BMI, BP, and Y depending on gender\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### Task 3: What is the distribution of Age, Sex, BMI, and Y variables?\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### Task 4: Test the correlation between different variables and disease progression (Y)\n",
"\n",
"> **Hint** The correlation matrix will provide the most valuable insights into which values are interdependent.\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"### Task 5: Test the hypothesis that the degree of diabetes progression is different between men and women\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Disclaimer**: \nThis document has been translated using the AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). While we aim for accuracy, please note that automated translations may include errors or inaccuracies. The original document in its native language should be regarded as the definitive source. For critical information, professional human translation is advised. We are not responsible for any misunderstandings or misinterpretations resulting from the use of this translation.\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python",
"version": "3.8.8",
"mimetype": "text/x-python",
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"pygments_lexer": "ipython3",
"nbconvert_exporter": "python",
"file_extension": ".py"
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3.8.8 64-bit (conda)"
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "defe9f96b3d327a6f37d795c43ad0219",
"translation_date": "2025-09-03T20:43:46+00:00",
"source_file": "1-Introduction/04-stats-and-probability/assignment.ipynb",
"language_code": "en"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

File diff suppressed because one or more lines are too long

@ -0,0 +1,82 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# Let's learn about birds\n",
"\n",
"Birds are fascinating creatures that can be found all over the world. They come in a wide variety of shapes, sizes, and colors, and they play an important role in ecosystems.\n",
"\n",
"## Characteristics of birds\n",
"\n",
"- **Feathers**: All birds have feathers, which help them fly, stay warm, and attract mates.\n",
"- **Beaks**: Birds have beaks instead of teeth, and the shape of their beak often reflects their diet.\n",
"- **Eggs**: Birds lay eggs, and their nests can be simple or elaborate depending on the species.\n",
"- **Flight**: Most birds can fly, although some, like penguins and ostriches, have adapted to other ways of moving.\n",
"\n",
"## Why are birds important?\n",
"\n",
"Birds contribute to the environment in many ways:\n",
"- **Pollination**: Some birds help pollinate plants by transferring pollen as they feed on nectar.\n",
"- **Seed dispersal**: Birds spread seeds, helping plants grow in new areas.\n",
"- **Pest control**: Many birds eat insects, keeping pest populations in check.\n",
"- **Indicator species**: Birds can signal changes in the environment, such as pollution or habitat loss.\n",
"\n",
"## Fun facts about birds\n",
"\n",
"- The smallest bird in the world is the bee hummingbird, which is about the size of a thumb.\n",
"- The ostrich is the largest bird and can run at speeds of up to 70 km/h (43 mph).\n",
"- Some birds, like parrots, can mimic human speech and other sounds.\n",
"- Birds have excellent vision, and some species can see ultraviolet light.\n",
"\n",
"## How can we help birds?\n",
"\n",
"Here are some ways to support bird populations:\n",
"- **Protect habitats**: Preserve forests, wetlands, and other areas where birds live.\n",
"- **Provide food and water**: Set up bird feeders and water sources in your yard.\n",
"- **Avoid harmful chemicals**: Reduce the use of pesticides and other substances that can harm birds.\n",
"- **Participate in citizen science**: Join bird-watching groups or contribute to bird population studies.\n",
"\n",
"Birds are incredible creatures that enrich our lives and the planet. By learning more about them and taking steps to protect them, we can ensure they continue to thrive for generations to come.\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Disclaimer**: \nThis document has been translated using the AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). While we aim for accuracy, please note that automated translations may include errors or inaccuracies. The original document in its native language should be regarded as the authoritative source. For critical information, professional human translation is advised. We are not responsible for any misunderstandings or misinterpretations resulting from the use of this translation.\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python",
"version": "3.7.0",
"mimetype": "text/x-python",
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"pygments_lexer": "ipython3",
"nbconvert_exporter": "python",
"file_extension": ".py"
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3.7.0 64-bit"
},
"interpreter": {
"hash": "70b38d7a306a849643e446cd70466270a13445e5987dfa1344ef2b127438fa4d"
},
"coopTranslator": {
"original_hash": "33e5c5d3f0630388e20f2e161bd4cdf3",
"translation_date": "2025-09-03T20:41:56+00:00",
"source_file": "3-Data-Visualization/09-visualization-quantities/notebook.ipynb",
"language_code": "en"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

File diff suppressed because one or more lines are too long

@ -0,0 +1,32 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# Bird distributions\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Disclaimer**: \nThis document has been translated using the AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). While we aim for accuracy, please note that automated translations may include errors or inaccuracies. The original document in its native language should be regarded as the authoritative source. For critical information, professional human translation is advised. We are not responsible for any misunderstandings or misinterpretations resulting from the use of this translation.\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python"
},
"coopTranslator": {
"original_hash": "e5272cbcbffd1ddcc09e44d3d8e7e8cd",
"translation_date": "2025-09-03T20:42:29+00:00",
"source_file": "3-Data-Visualization/10-visualization-distributions/notebook.ipynb",
"language_code": "en"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,32 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# 🍄 Mushroom Proportions\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Disclaimer**: \nThis document has been translated using the AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). While we aim for accuracy, please note that automated translations may include errors or inaccuracies. The original document in its native language should be regarded as the authoritative source. For critical information, professional human translation is advised. We are not responsible for any misunderstandings or misinterpretations resulting from the use of this translation.\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python"
},
"coopTranslator": {
"original_hash": "397e9bbc0743761dbf72e5f16b7043e6",
"translation_date": "2025-09-03T20:41:39+00:00",
"source_file": "3-Data-Visualization/11-visualization-proportions/notebook.ipynb",
"language_code": "en"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

File diff suppressed because one or more lines are too long

@ -0,0 +1,32 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# Visualizing Honey Production 🍯 🐝\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Disclaimer**: \nThis document has been translated using the AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). While we aim for accuracy, please note that automated translations may include errors or inaccuracies. The original document in its native language should be regarded as the authoritative source. For critical information, professional human translation is advised. We are not responsible for any misunderstandings or misinterpretations resulting from the use of this translation.\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python"
},
"coopTranslator": {
"original_hash": "0f988634b7192626d91cc33b4b6388c5",
"translation_date": "2025-09-03T20:42:14+00:00",
"source_file": "3-Data-Visualization/12-visualization-relationships/notebook.ipynb",
"language_code": "en"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,140 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# NYC Taxi data in Winter and Summer\n",
"\n",
"Refer to the [Data dictionary](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) to learn more about the columns that have been provided.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"#Install the pandas library\r\n",
"!pip install pandas"
],
"outputs": [],
"metadata": {
"scrolled": true
}
},
{
"cell_type": "code",
"execution_count": 7,
"source": [
"import pandas as pd\r\n",
"\r\n",
"path = '../../data/taxi.csv'\r\n",
"\r\n",
"#Load the csv file into a dataframe\r\n",
"df = pd.read_csv(path)\r\n",
"\r\n",
"#Print the dataframe\r\n",
"print(df)\r\n"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" VendorID tpep_pickup_datetime tpep_dropoff_datetime passenger_count \\\n",
"0 2.0 2019-07-15 16:27:53 2019-07-15 16:44:21 3.0 \n",
"1 2.0 2019-07-17 20:26:35 2019-07-17 20:40:09 6.0 \n",
"2 2.0 2019-07-06 16:01:08 2019-07-06 16:10:25 1.0 \n",
"3 1.0 2019-07-18 22:32:23 2019-07-18 22:35:08 1.0 \n",
"4 2.0 2019-07-19 14:54:29 2019-07-19 15:19:08 1.0 \n",
".. ... ... ... ... \n",
"195 2.0 2019-01-18 08:42:15 2019-01-18 08:56:57 1.0 \n",
"196 1.0 2019-01-19 04:34:45 2019-01-19 04:43:44 1.0 \n",
"197 2.0 2019-01-05 10:37:39 2019-01-05 10:42:03 1.0 \n",
"198 2.0 2019-01-23 10:36:29 2019-01-23 10:44:34 2.0 \n",
"199 2.0 2019-01-30 06:55:58 2019-01-30 07:07:02 5.0 \n",
"\n",
" trip_distance RatecodeID store_and_fwd_flag PULocationID DOLocationID \\\n",
"0 2.02 1.0 N 186 233 \n",
"1 1.59 1.0 N 141 161 \n",
"2 1.69 1.0 N 246 249 \n",
"3 0.90 1.0 N 229 141 \n",
"4 4.79 1.0 N 237 107 \n",
".. ... ... ... ... ... \n",
"195 1.18 1.0 N 43 237 \n",
"196 2.30 1.0 N 148 234 \n",
"197 0.83 1.0 N 237 263 \n",
"198 1.12 1.0 N 144 113 \n",
"199 2.41 1.0 N 209 107 \n",
"\n",
" payment_type fare_amount extra mta_tax tip_amount tolls_amount \\\n",
"0 1.0 12.0 1.0 0.5 4.08 0.0 \n",
"1 2.0 10.0 0.5 0.5 0.00 0.0 \n",
"2 2.0 8.5 0.0 0.5 0.00 0.0 \n",
"3 1.0 4.5 3.0 0.5 1.65 0.0 \n",
"4 1.0 19.5 0.0 0.5 5.70 0.0 \n",
".. ... ... ... ... ... ... \n",
"195 1.0 10.0 0.0 0.5 2.16 0.0 \n",
"196 1.0 9.5 0.5 0.5 2.15 0.0 \n",
"197 1.0 5.0 0.0 0.5 1.16 0.0 \n",
"198 2.0 7.0 0.0 0.5 0.00 0.0 \n",
"199 1.0 10.5 0.0 0.5 1.00 0.0 \n",
"\n",
" improvement_surcharge total_amount congestion_surcharge \n",
"0 0.3 20.38 2.5 \n",
"1 0.3 13.80 2.5 \n",
"2 0.3 11.80 2.5 \n",
"3 0.3 9.95 2.5 \n",
"4 0.3 28.50 2.5 \n",
".. ... ... ... \n",
"195 0.3 12.96 0.0 \n",
"196 0.3 12.95 0.0 \n",
"197 0.3 6.96 0.0 \n",
"198 0.3 7.80 0.0 \n",
"199 0.3 12.30 0.0 \n",
"\n",
"[200 rows x 18 columns]\n"
]
}
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Disclaimer**: \nThis document has been translated using the AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). While we strive for accuracy, please note that automated translations may contain errors or inaccuracies. The original document in its native language should be regarded as the authoritative source. For critical information, professional human translation is recommended. We are not responsible for any misunderstandings or misinterpretations resulting from the use of this translation.\n"
]
}
],
"metadata": {
"kernelspec": {
"name": "python3",
"display_name": "Python 3.9.7 64-bit ('venv': venv)"
},
"language_info": {
"mimetype": "text/x-python",
"name": "python",
"pygments_lexer": "ipython3",
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"version": "3.9.7",
"nbconvert_exporter": "python",
"file_extension": ".py"
},
"name": "04-nyc-taxi-join-weather-in-pandas",
"notebookId": 1709144033725344,
"interpreter": {
"hash": "6b9b57232c4b57163d057191678da2030059e733b8becc68f245de5a75abe84e"
},
"coopTranslator": {
"original_hash": "3bd4c20c4e8f3158f483f0f1cc543bb1",
"translation_date": "2025-09-03T20:41:34+00:00",
"source_file": "4-Data-Science-Lifecycle/14-Introduction/notebook.ipynb",
"language_code": "en"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,154 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# NYC Taxi data in Winter and Summer\n",
"\n",
"Refer to the [Data dictionary](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) to learn more about the columns that have been provided.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"#Install the pandas library\r\n",
"!pip install pandas"
],
"outputs": [],
"metadata": {
"scrolled": true
}
},
{
"cell_type": "code",
"execution_count": 7,
"source": [
"import pandas as pd\r\n",
"\r\n",
"path = '../../data/taxi.csv'\r\n",
"\r\n",
"#Load the csv file into a dataframe\r\n",
"df = pd.read_csv(path)\r\n",
"\r\n",
"#Print the dataframe\r\n",
"print(df)\r\n"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" VendorID tpep_pickup_datetime tpep_dropoff_datetime passenger_count \\\n",
"0 2.0 2019-07-15 16:27:53 2019-07-15 16:44:21 3.0 \n",
"1 2.0 2019-07-17 20:26:35 2019-07-17 20:40:09 6.0 \n",
"2 2.0 2019-07-06 16:01:08 2019-07-06 16:10:25 1.0 \n",
"3 1.0 2019-07-18 22:32:23 2019-07-18 22:35:08 1.0 \n",
"4 2.0 2019-07-19 14:54:29 2019-07-19 15:19:08 1.0 \n",
".. ... ... ... ... \n",
"195 2.0 2019-01-18 08:42:15 2019-01-18 08:56:57 1.0 \n",
"196 1.0 2019-01-19 04:34:45 2019-01-19 04:43:44 1.0 \n",
"197 2.0 2019-01-05 10:37:39 2019-01-05 10:42:03 1.0 \n",
"198 2.0 2019-01-23 10:36:29 2019-01-23 10:44:34 2.0 \n",
"199 2.0 2019-01-30 06:55:58 2019-01-30 07:07:02 5.0 \n",
"\n",
" trip_distance RatecodeID store_and_fwd_flag PULocationID DOLocationID \\\n",
"0 2.02 1.0 N 186 233 \n",
"1 1.59 1.0 N 141 161 \n",
"2 1.69 1.0 N 246 249 \n",
"3 0.90 1.0 N 229 141 \n",
"4 4.79 1.0 N 237 107 \n",
".. ... ... ... ... ... \n",
"195 1.18 1.0 N 43 237 \n",
"196 2.30 1.0 N 148 234 \n",
"197 0.83 1.0 N 237 263 \n",
"198 1.12 1.0 N 144 113 \n",
"199 2.41 1.0 N 209 107 \n",
"\n",
" payment_type fare_amount extra mta_tax tip_amount tolls_amount \\\n",
"0 1.0 12.0 1.0 0.5 4.08 0.0 \n",
"1 2.0 10.0 0.5 0.5 0.00 0.0 \n",
"2 2.0 8.5 0.0 0.5 0.00 0.0 \n",
"3 1.0 4.5 3.0 0.5 1.65 0.0 \n",
"4 1.0 19.5 0.0 0.5 5.70 0.0 \n",
".. ... ... ... ... ... ... \n",
"195 1.0 10.0 0.0 0.5 2.16 0.0 \n",
"196 1.0 9.5 0.5 0.5 2.15 0.0 \n",
"197 1.0 5.0 0.0 0.5 1.16 0.0 \n",
"198 2.0 7.0 0.0 0.5 0.00 0.0 \n",
"199 1.0 10.5 0.0 0.5 1.00 0.0 \n",
"\n",
" improvement_surcharge total_amount congestion_surcharge \n",
"0 0.3 20.38 2.5 \n",
"1 0.3 13.80 2.5 \n",
"2 0.3 11.80 2.5 \n",
"3 0.3 9.95 2.5 \n",
"4 0.3 28.50 2.5 \n",
".. ... ... ... \n",
"195 0.3 12.96 0.0 \n",
"196 0.3 12.95 0.0 \n",
"197 0.3 6.96 0.0 \n",
"198 0.3 7.80 0.0 \n",
"199 0.3 12.30 0.0 \n",
"\n",
"[200 rows x 18 columns]\n"
]
}
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"# Use the cells below to do your own Exploratory Data Analysis\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Disclaimer**: \nThis document has been translated using the AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). While we aim for accuracy, please note that automated translations may include errors or inaccuracies. The original document in its native language should be regarded as the authoritative source. For critical information, professional human translation is advised. We are not responsible for any misunderstandings or misinterpretations resulting from the use of this translation.\n"
]
}
],
"metadata": {
"kernelspec": {
"name": "python3",
"display_name": "Python 3.9.7 64-bit ('venv': venv)"
},
"language_info": {
"mimetype": "text/x-python",
"name": "python",
"pygments_lexer": "ipython3",
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"version": "3.9.7",
"nbconvert_exporter": "python",
"file_extension": ".py"
},
"name": "04-nyc-taxi-join-weather-in-pandas",
"notebookId": 1709144033725344,
"interpreter": {
"hash": "6b9b57232c4b57163d057191678da2030059e733b8becc68f245de5a75abe84e"
},
"coopTranslator": {
"original_hash": "7bca1c1abc1e55842817b62e44e1a963",
"translation_date": "2025-09-03T20:41:31+00:00",
"source_file": "4-Data-Science-Lifecycle/15-analyzing/assignment.ipynb",
"language_code": "en"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,193 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# Analyzing Data\n",
"Examples of the Pandas functions mentioned in the [lesson](README.md).\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 1,
"source": [
"import pandas as pd\r\n",
"import glob\r\n",
"\r\n",
"#Loading the dataset\r\n",
"path = '../../data/emails.csv'\r\n",
"email_df = pd.read_csv(path)"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 2,
"source": [
"# Using Describe on the email dataset\r\n",
"print(email_df.describe())"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" the to ect and for of \\\n",
"count 406.000000 406.000000 406.000000 406.000000 406.000000 406.000000 \n",
"mean 7.022167 6.519704 4.948276 3.059113 3.502463 2.662562 \n",
"std 10.945522 9.801907 9.293820 6.267806 4.901372 5.443939 \n",
"min 0.000000 0.000000 1.000000 0.000000 0.000000 0.000000 \n",
"25% 1.000000 1.000000 1.000000 0.000000 1.000000 0.000000 \n",
"50% 3.000000 3.000000 2.000000 1.000000 2.000000 1.000000 \n",
"75% 9.000000 7.750000 4.000000 3.000000 4.750000 3.000000 \n",
"max 99.000000 88.000000 79.000000 69.000000 39.000000 57.000000 \n",
"\n",
" a you in on is this \\\n",
"count 406.000000 406.000000 406.000000 406.000000 406.000000 406.000000 \n",
"mean 57.017241 2.394089 10.817734 11.591133 5.901478 1.485222 \n",
"std 78.868243 4.067015 19.050972 16.407175 8.793103 2.912473 \n",
"min 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 \n",
"25% 15.000000 0.000000 1.250000 3.000000 1.000000 0.000000 \n",
"50% 29.000000 1.000000 5.000000 6.000000 3.000000 0.000000 \n",
"75% 61.000000 3.000000 12.000000 13.000000 7.000000 2.000000 \n",
"max 843.000000 31.000000 223.000000 125.000000 61.000000 24.000000 \n",
"\n",
" i be that will \n",
"count 406.000000 406.000000 406.000000 406.000000 \n",
"mean 47.155172 2.950739 1.034483 0.955665 \n",
"std 71.043009 4.297865 1.904846 2.042271 \n",
"min 0.000000 0.000000 0.000000 0.000000 \n",
"25% 11.000000 1.000000 0.000000 0.000000 \n",
"50% 24.000000 1.000000 0.000000 0.000000 \n",
"75% 50.750000 3.000000 1.000000 1.000000 \n",
"max 754.000000 40.000000 14.000000 24.000000 \n"
]
}
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 5,
"source": [
"# Sampling 10 emails\r\n",
"print(email_df.sample(10))"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Email No. the to ect and for of a you in on is this i \\\n",
"150 Email 151 0 1 2 0 3 0 15 0 0 5 0 0 7 \n",
"380 Email 5147 0 3 2 0 0 0 7 0 1 1 0 0 3 \n",
"19 Email 20 3 4 11 0 4 2 32 1 1 3 9 5 25 \n",
"300 Email 301 2 1 1 0 1 1 15 2 2 3 2 0 8 \n",
"307 Email 308 0 0 1 0 0 0 1 0 1 0 0 0 2 \n",
"167 Email 168 2 2 2 1 5 1 24 2 5 6 4 0 30 \n",
"320 Email 321 10 12 4 6 8 6 187 5 26 28 23 2 171 \n",
"61 Email 62 0 1 1 0 4 1 15 4 4 3 3 0 19 \n",
"26 Email 27 5 4 1 1 4 4 51 0 8 6 6 2 44 \n",
"73 Email 74 0 0 1 0 0 0 7 0 4 3 0 0 6 \n",
"\n",
" be that will \n",
"150 1 0 0 \n",
"380 0 0 0 \n",
"19 3 0 1 \n",
"300 0 0 0 \n",
"307 0 0 0 \n",
"167 2 0 0 \n",
"320 5 1 1 \n",
"61 2 0 0 \n",
"26 6 0 0 \n",
"73 0 0 0 \n"
]
}
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 14,
"source": [
"# Returns rows where there are more occurrences of \"to\" than \"the\"\r\n",
"print(email_df.query('the < to'))"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Email No. the to ect and for of a you in on is this i \\\n",
"1 Email 2 8 13 24 6 6 2 102 1 18 21 13 0 61 \n",
"3 Email 4 0 5 22 0 5 1 51 2 1 5 9 2 16 \n",
"5 Email 6 4 5 1 4 2 3 45 1 16 12 8 1 52 \n",
"7 Email 8 0 2 2 3 1 2 21 6 2 6 2 0 28 \n",
"13 Email 14 4 5 7 1 5 1 37 1 8 8 6 1 43 \n",
".. ... ... .. ... ... ... .. ... ... .. .. .. ... .. \n",
"390 Email 5157 4 13 1 0 3 1 48 2 8 26 9 1 45 \n",
"393 Email 5160 2 13 1 0 2 1 38 2 7 24 6 1 34 \n",
"396 Email 5163 2 3 1 2 1 2 32 0 7 3 2 0 26 \n",
"404 Email 5171 2 7 1 0 2 1 28 2 8 11 7 1 39 \n",
"405 Email 5172 22 24 5 1 6 5 148 8 23 13 5 4 99 \n",
"\n",
" be that will \n",
"1 4 2 0 \n",
"3 2 0 0 \n",
"5 2 0 0 \n",
"7 1 0 1 \n",
"13 1 0 1 \n",
".. .. ... ... \n",
"390 1 0 0 \n",
"393 1 0 0 \n",
"396 3 0 0 \n",
"404 1 0 0 \n",
"405 6 4 1 \n",
"\n",
"[169 rows x 17 columns]\n"
]
}
],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Disclaimer**: \nThis document has been translated using the AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). While we aim for accuracy, please note that automated translations may include errors or inaccuracies. The original document in its native language should be regarded as the authoritative source. For critical information, professional human translation is advised. We are not responsible for any misunderstandings or misinterpretations resulting from the use of this translation.\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python",
"version": "3.9.7",
"mimetype": "text/x-python",
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"pygments_lexer": "ipython3",
"nbconvert_exporter": "python",
"file_extension": ".py"
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3.9.7 64-bit ('venv': venv)"
},
"interpreter": {
"hash": "6b9b57232c4b57163d057191678da2030059e733b8becc68f245de5a75abe84e"
},
"coopTranslator": {
"original_hash": "9d102c8c3cdbc8ea4e92fc32593462c6",
"translation_date": "2025-09-03T20:41:25+00:00",
"source_file": "4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb",
"language_code": "en"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -0,0 +1,323 @@
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# Data Science in the Cloud: The \"Azure ML SDK\" way \n",
"\n",
"## Introduction\n",
"\n",
"In this notebook, we will explore how to use the Azure ML SDK to train, deploy, and utilize a model through Azure ML.\n",
"\n",
"Prerequisites:\n",
"1. You have created an Azure ML workspace.\n",
"2. You have uploaded the [Heart Failure dataset](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data) into Azure ML.\n",
"3. You have added this notebook to Azure ML Studio.\n",
"\n",
"The steps to follow are:\n",
"\n",
"1. Create an Experiment in an existing Workspace.\n",
"2. Set up a Compute cluster.\n",
"3. Load the dataset.\n",
"4. Configure AutoML using AutoMLConfig.\n",
"5. Execute the AutoML experiment.\n",
"6. Review the results and identify the best model.\n",
"7. Register the best model.\n",
"8. Deploy the best model.\n",
"9. Use the endpoint.\n",
"\n",
"## Azure Machine Learning SDK-specific imports\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"from azureml.core import Workspace, Experiment\n",
"from azureml.core.compute import AmlCompute\n",
"from azureml.train.automl import AutoMLConfig\n",
"from azureml.widgets import RunDetails\n",
"from azureml.core.model import InferenceConfig, Model\n",
"from azureml.core.webservice import AciWebservice"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## Initialize Workspace\n",
"Initialize a workspace object using the saved configuration. Ensure the config file is located at .\\config.json\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"ws = Workspace.from_config()\n",
"print(ws.name, ws.resource_group, ws.location, ws.subscription_id, sep = '\\n')"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## Create an Azure ML experiment\n",
"\n",
"Let's create an experiment named 'aml-experiment' in the workspace we just initialized.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"experiment_name = 'aml-experiment'\n",
"experiment = Experiment(ws, experiment_name)\n",
"experiment"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## Create a Compute Cluster\n",
"You need to create a [compute target](https://docs.microsoft.com/azure/machine-learning/concept-azure-machine-learning-architecture#compute-target) for your AutoML run.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"aml_name = \"heart-f-cluster\"\n",
"try:\n",
" aml_compute = AmlCompute(ws, aml_name)\n",
" print('Found existing AML compute context.')\n",
"except:\n",
" print('Creating new AML compute context.')\n",
" aml_config = AmlCompute.provisioning_configuration(vm_size = \"Standard_D2_v2\", min_nodes=1, max_nodes=3)\n",
" aml_compute = AmlCompute.create(ws, name = aml_name, provisioning_configuration = aml_config)\n",
" aml_compute.wait_for_completion(show_output = True)\n",
"\n",
"cts = ws.compute_targets\n",
"compute_target = cts[aml_name]"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## Data\n",
"Ensure that the dataset has been uploaded to Azure ML and that the key matches the dataset name exactly.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"key = 'heart-failure-records'\n",
"dataset = ws.datasets[key]\n",
"df = dataset.to_pandas_dataframe()\n",
"df.describe()"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## AutoML Configuration\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"automl_settings = {\n",
" \"experiment_timeout_minutes\": 20,\n",
" \"max_concurrent_iterations\": 3,\n",
" \"primary_metric\" : 'AUC_weighted'\n",
"}\n",
"\n",
"automl_config = AutoMLConfig(compute_target=compute_target,\n",
" task = \"classification\",\n",
" training_data=dataset,\n",
" label_column_name=\"DEATH_EVENT\",\n",
" enable_early_stopping= True,\n",
" featurization= 'auto',\n",
" debug_log = \"automl_errors.log\",\n",
" **automl_settings\n",
" )"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## AutoML Run\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"remote_run = experiment.submit(automl_config)"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"RunDetails(remote_run).show()"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"best_run, fitted_model = remote_run.get_output()"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"best_run.get_properties()"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"model_name = best_run.properties['model_name']\n",
"script_file_name = 'inference/score.py'\n",
"best_run.download_file('outputs/scoring_file_v_1_0_0.py', 'inference/score.py')\n",
"description = \"aml heart failure project sdk\"\n",
"model = best_run.register_model(model_name = model_name,\n",
" description = description,\n",
" tags = None)"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## Deploy the Best Model\n",
"\n",
"Run the following code to deploy the best model. You can check the deployment status in the Azure ML portal. This process may take a few minutes.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"inference_config = InferenceConfig(entry_script=script_file_name, environment=best_run.get_environment())\n",
"\n",
"aciconfig = AciWebservice.deploy_configuration(cpu_cores = 1,\n",
" memory_gb = 1,\n",
" tags = {'type': \"automl-heart-failure-prediction\"},\n",
" description = 'Sample service for AutoML Heart Failure Prediction')\n",
"\n",
"aci_service_name = 'automl-hf-sdk'\n",
"aci_service = Model.deploy(ws, aci_service_name, [model], inference_config, aciconfig)\n",
"aci_service.wait_for_deployment(True)\n",
"print(aci_service.state)"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"## Use the Endpoint\n",
"You can provide inputs based on the sample input below.\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"data = {\n",
" \"data\":\n",
" [\n",
" {\n",
" 'age': \"60\",\n",
" 'anaemia': \"false\",\n",
" 'creatinine_phosphokinase': \"500\",\n",
" 'diabetes': \"false\",\n",
" 'ejection_fraction': \"38\",\n",
" 'high_blood_pressure': \"false\",\n",
" 'platelets': \"260000\",\n",
" 'serum_creatinine': \"1.40\",\n",
" 'serum_sodium': \"137\",\n",
" 'sex': \"false\",\n",
" 'smoking': \"false\",\n",
" 'time': \"130\",\n",
" },\n",
" ],\n",
"}\n",
"\n",
"test_sample = str.encode(json.dumps(data))"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"response = aci_service.run(input_data=test_sample)\n",
"response"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Disclaimer**: \nThis document has been translated using the AI translation service [Co-op Translator](https://github.com/Azure/co-op-translator). While we aim for accuracy, please note that automated translations may include errors or inaccuracies. The original document in its native language should be regarded as the authoritative source. For critical information, professional human translation is advised. We are not responsible for any misunderstandings or misinterpretations resulting from the use of this translation.\n"
]
}
],
"metadata": {
"orig_nbformat": 4,
"language_info": {
"name": "python"
},
"coopTranslator": {
"original_hash": "af42669556d5dc19fc4cc3866f7d2597",
"translation_date": "2025-09-03T20:36:29+00:00",
"source_file": "5-Data-Science-In-Cloud/19-Azure/notebook.ipynb",
"language_code": "en"
}
},
"nbformat": 4,
"nbformat_minor": 2
}

@ -1,8 +1,8 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-24T21:26:58+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T19:57:57+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "es"
}
@ -22,9 +22,9 @@ Como ya hemos mencionado, los datos están en todas partes. ¡Solo necesitamos c
Existen muchas fuentes posibles de datos, ¡y sería imposible enumerarlas todas! Sin embargo, mencionemos algunos de los lugares típicos donde puedes obtener datos:
* **Estructurados**
- **Internet de las Cosas** (IoT), incluyendo datos de diferentes sensores, como sensores de temperatura o presión, que proporcionan muchos datos útiles. Por ejemplo, si un edificio de oficinas está equipado con sensores IoT, podemos controlar automáticamente la calefacción y la iluminación para minimizar costos.
- **Internet de las Cosas** (IoT), incluyendo datos de diferentes sensores, como sensores de temperatura o presión, que proporcionan mucha información útil. Por ejemplo, si un edificio de oficinas está equipado con sensores IoT, podemos controlar automáticamente la calefacción y la iluminación para minimizar costos.
- **Encuestas** que pedimos a los usuarios completar después de una compra o tras visitar un sitio web.
- **Análisis de comportamiento** puede, por ejemplo, ayudarnos a entender qué tan profundamente navega un usuario en un sitio y cuál es la razón típica para abandonar el sitio.
- **Análisis de comportamiento** puede, por ejemplo, ayudarnos a entender qué tan profundamente un usuario navega en un sitio y cuál es la razón típica para abandonarlo.
* **No estructurados**
- **Textos** pueden ser una rica fuente de información, como un puntaje general de **sentimiento**, o la extracción de palabras clave y significado semántico.
- **Imágenes** o **Videos**. Un video de una cámara de vigilancia puede ser usado para estimar el tráfico en la carretera e informar a las personas sobre posibles atascos.
@ -43,13 +43,13 @@ Por supuesto, dependiendo de los datos reales, algunos pasos podrían faltar (po
## Digitalización y Transformación Digital
En la última década, muchas empresas han comenzado a entender la importancia de los datos al tomar decisiones empresariales. Para aplicar los principios de la ciencia de datos a la gestión de un negocio, primero se necesita recopilar algunos datos, es decir, traducir los procesos empresariales a forma digital. Esto se conoce como **digitalización**. Aplicar técnicas de ciencia de datos a estos datos para guiar decisiones puede llevar a aumentos significativos en la productividad (o incluso a un cambio de dirección en el negocio), lo que se denomina **transformación digital**.
En la última década, muchas empresas han comenzado a entender la importancia de los datos al tomar decisiones empresariales. Para aplicar los principios de la ciencia de datos en la gestión de un negocio, primero se necesita recopilar algunos datos, es decir, traducir los procesos empresariales a forma digital. Esto se conoce como **digitalización**. Aplicar técnicas de ciencia de datos a estos datos para guiar decisiones puede llevar a aumentos significativos en la productividad (o incluso a un cambio de rumbo en el negocio), lo que se denomina **transformación digital**.
Consideremos un ejemplo. Supongamos que tenemos un curso de ciencia de datos (como este) que impartimos en línea a estudiantes, y queremos usar la ciencia de datos para mejorarlo. ¿Cómo podemos hacerlo?
Podemos comenzar preguntando "¿Qué se puede digitalizar?" La forma más sencilla sería medir el tiempo que cada estudiante tarda en completar cada módulo y evaluar el conocimiento adquirido mediante un examen de opción múltiple al final de cada módulo. Promediando el tiempo de finalización entre todos los estudiantes, podemos identificar qué módulos causan más dificultades y trabajar en simplificarlos.
> Podrías argumentar que este enfoque no es ideal, porque los módulos pueden tener longitudes diferentes. Probablemente sea más justo dividir el tiempo por la longitud del módulo (en número de caracteres) y comparar esos valores en su lugar.
Cuando comenzamos a analizar los resultados de pruebas de opción múltiple, podemos intentar determinar qué conceptos les resultan difíciles de entender a los estudiantes y usar esa información para mejorar el contenido. Para lograrlo, necesitamos diseñar las pruebas de manera que cada pregunta se relacione con un concepto o fragmento de conocimiento específico.
Podemos empezar preguntando "¿Qué se puede digitalizar?" La forma más sencilla sería medir el tiempo que cada estudiante tarda en completar cada módulo y evaluar el conocimiento adquirido mediante un examen de opción múltiple al final de cada módulo. Promediando el tiempo de finalización entre todos los estudiantes, podemos identificar qué módulos causan más dificultades y trabajar en simplificarlos.
> Podrías argumentar que este enfoque no es ideal, porque los módulos pueden tener diferentes longitudes. Probablemente sea más justo dividir el tiempo por la longitud del módulo (en número de caracteres) y comparar esos valores en su lugar.
Cuando comenzamos a analizar los resultados de pruebas de opción múltiple, podemos intentar determinar qué conceptos les resultan difíciles de entender a los estudiantes y usar esa información para mejorar el contenido. Para lograrlo, necesitamos diseñar las pruebas de manera que cada pregunta se asocie con un concepto o fragmento de conocimiento específico.
Si queremos complicarlo aún más, podemos graficar el tiempo que toma cada módulo en relación con la categoría de edad de los estudiantes. Podríamos descubrir que para algunas categorías de edad toma un tiempo excesivamente largo completar el módulo, o que los estudiantes abandonan antes de terminarlo. Esto puede ayudarnos a proporcionar recomendaciones de edad para el módulo y minimizar la insatisfacción de las personas debido a expectativas equivocadas.
@ -63,7 +63,7 @@ Visita [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-
> Si no sabes cómo ejecutar código en un Jupyter Notebook, consulta [este artículo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Cuestionario posterior a la lección](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Cuestionario posterior a la lección](https://ff-quizzes.netlify.app/en/ds/)
## Tareas
@ -74,5 +74,7 @@ Visita [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-
Esta lección ha sido creada con ♥️ por [Dmitry Soshnikov](http://soshnikov.com)
---
**Descargo de responsabilidad**:
Este documento ha sido traducido utilizando el servicio de traducción automática [Co-op Translator](https://github.com/Azure/co-op-translator). Aunque nos esforzamos por garantizar la precisión, tenga en cuenta que las traducciones automatizadas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas que puedan surgir del uso de esta traducción.
Este documento ha sido traducido utilizando el servicio de traducción automática [Co-op Translator](https://github.com/Azure/co-op-translator). Aunque nos esforzamos por garantizar la precisión, tenga en cuenta que las traducciones automatizadas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse como la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas que puedan surgir del uso de esta traducción.

@ -1,57 +1,57 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-24T21:28:34+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:01:08+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "fa"
}
-->
## انواع دادهها
## انواع داده
همان‌طور که قبلاً اشاره کردیم، داده‌ها همه‌جا هستند. فقط باید آن‌ها را به روش درست جمع‌آوری کنیم! مفید است که بین داده‌های **ساختاریافته** و **غیرساختاریافته** تمایز قائل شویم. داده‌های ساختاریافته معمولاً به‌صورت منظم و در قالب جدول یا چندین جدول ارائه می‌شوند، در حالی که داده‌های غیرساختاریافته فقط مجموعه‌ای از فایل‌ها هستند. گاهی اوقات می‌توانیم درباره داده‌های **نیمه‌ساختاریافته** صحبت کنیم که دارای نوعی ساختار هستند که ممکن است بسیار متفاوت باشد.
همان‌طور که قبلاً اشاره کردیم، داده‌ها همه‌جا هستند. فقط باید آن‌ها را به روش درست جمع‌آوری کنیم! مفید است که بین داده‌های **ساخت‌یافته** و **غیرساخت‌یافته** تمایز قائل شویم. داده‌های ساخت‌یافته معمولاً به صورت منظم و در قالب جدول یا چندین جدول نمایش داده می‌شوند، در حالی که داده‌های غیرساخت‌یافته فقط مجموعه‌ای از فایل‌ها هستند. گاهی اوقات می‌توانیم درباره داده‌های **نیمه‌ساختیافته** صحبت کنیم که دارای نوعی ساختار هستند که ممکن است بسیار متفاوت باشد.
| ساختاریافته | نیمه‌ساختاریافته | غیرساختاریافته |
| -------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------- | --------------------------------------- |
| لیستی از افراد با شماره تلفن‌هایشان | صفحات ویکی‌پدیا با لینک‌ها | متن دایرة‌المعارف بریتانیکا |
| ساخت‌یافته | نیمه‌ساخت‌یافته | غیرساخت‌یافته |
| ----------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------- | ---------------------------------------- |
| لیست افراد با شماره تلفن‌هایشان | صفحات ویکی‌پدیا با لینک‌ها | متن دایرة‌المعارف بریتانیکا |
| دمای تمام اتاق‌های یک ساختمان در هر دقیقه طی ۲۰ سال گذشته | مجموعه‌ای از مقالات علمی در قالب JSON با نویسندگان، تاریخ انتشار و چکیده | اشتراک فایل با اسناد شرکتی |
| داده‌های مربوط به سن و جنسیت تمام افرادی که وارد ساختمان می‌شوند | صفحات اینترنت | ویدئوی خام از دوربین نظارتی |
| داده‌های سن و جنسیت تمام افرادی که وارد ساختمان می‌شوند | صفحات اینترنت | ویدئوی خام از دوربین نظارتی |
## از کجا دادهها را تهیه کنیم
## از کجا داده تهیه کنیم
منابع زیادی برای دادهها وجود دارد و فهرست کردن همه آن‌ها غیرممکن است! با این حال، بیایید برخی از مکان‌های معمولی که می‌توانید داده‌ها را از آن‌ها تهیه کنید، ذکر کنیم:
منابع زیادی برای داده وجود دارد و فهرست کردن همه آن‌ها غیرممکن است! با این حال، بیایید برخی از مکان‌های معمولی که می‌توانید داده‌ها را از آن‌ها تهیه کنید، ذکر کنیم:
* **ساختاریافته**
- **اینترنت اشیا** (IoT)، شامل داده‌های حسگرهای مختلف مانند حسگرهای دما یا فشار، داده‌های مفیدی ارائه می‌دهد. بهعنوان مثال، اگر یک ساختمان اداری مجهز به حسگرهای IoT باشد، می‌توانیم به‌طور خودکار گرمایش و روشنایی را کنترل کنیم تا هزینه‌ها را به حداقل برسانیم.
* **ساختیافته**
- **اینترنت اشیا** (IoT)، شامل داده‌های حسگرهای مختلف مانند حسگرهای دما یا فشار، داده‌های مفیدی ارائه می‌دهد. به عنوان مثال، اگر یک ساختمان اداری به حسگرهای IoT مجهز باشد، می‌توانیم به‌طور خودکار گرمایش و روشنایی را کنترل کنیم تا هزینه‌ها را به حداقل برسانیم.
- **نظرسنجی‌ها** که از کاربران می‌خواهیم پس از خرید یا بازدید از یک وب‌سایت تکمیل کنند.
- **تحلیل رفتار** می‌تواند به ما کمک کند تا بفهمیم کاربران چقدر در یک سایت عمیق می‌شوند و دلیل معمول ترک سایت چیست.
* **غیرساختاریافته**
- **تحلیل رفتار** می‌تواند به ما کمک کند تا بفهمیم کاربران چقدر در یک سایت پیش می‌روند و دلیل معمول ترک سایت چیست.
* **غیرساختیافته**
- **متون** می‌توانند منبع غنی از بینش‌ها باشند، مانند امتیاز کلی **احساسات** یا استخراج کلمات کلیدی و معنای مفهومی.
- **تصاویر** یا **ویدئو**. یک ویدئو از دوربین نظارتی می‌تواند برای تخمین ترافیک جاده استفاده شود و مردم را از احتمال ترافیک سنگین مطلع کند.
- **لاگ‌های سرور وب** می‌توانند برای درک اینکه کدام صفحات سایت ما بیشتر بازدید می‌شوند و برای چه مدت، استفاده شوند.
* **نیمه‌ساختاریافته**
- **لاگ‌های سرور وب** می‌توانند برای فهمیدن اینکه کدام صفحات سایت ما بیشتر بازدید می‌شوند و برای چه مدت، استفاده شوند.
* **نیمه‌ساختیافته**
- **گراف‌های شبکه‌های اجتماعی** می‌توانند منابع عالی داده درباره شخصیت کاربران و اثربخشی بالقوه در انتشار اطلاعات باشند.
- وقتی مجموعه‌ای از عکس‌های یک مهمانی داریم، می‌توانیم سعی کنیم داده‌های **پویایی گروهی** را با ساختن گرافی از افرادی که با یکدیگر عکس می‌گیرند، استخراج کنیم.
- وقتی مجموعه‌ای از عکس‌های یک مهمانی داریم، می‌توانیم سعی کنیم داده‌های **دینامیک گروهی** را با ساختن گرافی از افرادی که با یکدیگر عکس می‌گیرند، استخراج کنیم.
با دانستن منابع مختلف داده، می‌توانید درباره سناریوهای مختلفی فکر کنید که تکنیک‌های علم داده می‌توانند برای درک بهتر وضعیت و بهبود فرآیندهای کسب‌وکار به کار گرفته شوند.
## چه کاری می‌توانید با داده‌ها انجام دهید
## چه کارهایی می‌توان با داده انجام داد
در علم داده، ما بر مراحل زیر در مسیر داده تمرکز می‌کنیم:
البته، بسته به داده‌های واقعی، برخی مراحل ممکن است حذف شوند (مثلاً وقتی داده‌ها از قبل در پایگاه داده موجود هستند یا وقتی نیازی به آموزش مدل نداریم)، یا برخی مراحل ممکن است چندین بار تکرار شوند (مانند پردازش داده‌ها).
البته، بسته به داده‌های واقعی، ممکن است برخی مراحل حذف شوند (مثلاً وقتی داده‌ها از قبل در پایگاه داده موجود هستند یا وقتی نیازی به آموزش مدل نداریم)، یا برخی مراحل ممکن است چندین بار تکرار شوند (مانند پردازش داده‌ها).
## دیجیتالی‌سازی و تحول دیجیتال
در دهه گذشته، بسیاری از کسب‌وکارها اهمیت داده‌ها را در تصمیم‌گیری‌های تجاری درک کرده‌اند. برای اعمال اصول علم داده در مدیریت کسب‌وکار، ابتدا باید داده‌هایی جمع‌آوری شود، یعنی فرآیندهای کسب‌وکار به شکل دیجیتال ترجمه شوند. این فرآیند به‌عنوان **دیجیتالی‌سازی** شناخته می‌شود. استفاده از تکنیک‌های علم داده بر روی این داده‌ها برای هدایت تصمیم‌گیری‌ها می‌تواند منجر به افزایش قابلتوجه بهره‌وری (یا حتی تغییر مسیر کسب‌وکار) شود که به آن **تحول دیجیتال** می‌گویند.
در دهه گذشته، بسیاری از کسب‌وکارها اهمیت داده‌ها را در تصمیم‌گیری‌های تجاری درک کرده‌اند. برای اعمال اصول علم داده در مدیریت یک کسب‌وکار، ابتدا باید داده‌هایی جمع‌آوری کنیم، یعنی فرآیندهای کسب‌وکار را به شکل دیجیتال ترجمه کنیم. این فرآیند به عنوان **دیجیتالی‌سازی** شناخته می‌شود. استفاده از تکنیک‌های علم داده بر روی این داده‌ها برای هدایت تصمیمات می‌تواند منجر به افزایش قابل توجه بهره‌وری (یا حتی تغییر مسیر کسب‌وکار) شود که به آن **تحول دیجیتال** می‌گویند.
بیایید یک مثال را بررسی کنیم. فرض کنید یک دوره علم داده (مانند همین دوره) داریم که به‌صورت آنلاین به دانشجویان ارائه می‌شود و می‌خواهیم از علم داده برای بهبود آن استفاده کنیم. چگونه می‌توانیم این کار را انجام دهیم؟
بیایید یک مثال را بررسی کنیم. فرض کنید ما یک دوره علم داده (مانند این دوره) داریم که به صورت آنلاین به دانشجویان ارائه می‌دهیم و می‌خواهیم از علم داده برای بهبود آن استفاده کنیم. چگونه می‌توانیم این کار را انجام دهیم؟
می‌توانیم با پرسیدن این سؤال شروع کنیم: "چه چیزی می‌تواند دیجیتالی شود؟" ساده‌ترین راه این است که زمان لازم برای هر دانشجو برای تکمیل هر ماژول را اندازه‌گیری کنیم و دانش کسب‌شده را با ارائه یک آزمون چندگزینه‌ای در پایان هر ماژول ارزیابی کنیم. با میانگین‌گیری زمان تکمیل در میان همه دانشجویان، می‌توانیم بفهمیم کدام ماژول‌ها بیشترین دشواری را برای دانشجویان ایجاد می‌کنند و روی ساده‌تر کردن آن‌ها کار کنیم.
ممکن است بحث کنید که این رویکرد ایده‌آل نیست، زیرا ماژول‌ها می‌توانند طول‌های متفاوتی داشته باشند. احتمالاً منصفانه‌تر این است که زمان را بر اساس طول ماژول (بر حسب تعداد کاراکترها) تقسیم کرده و سپس آن مقادیر را با یکدیگر مقایسه کنید.
می‌توانیم با پرسیدن "چه چیزی می‌تواند دیجیتالی شود؟" شروع کنیم. ساده‌ترین راه این است که زمان لازم برای تکمیل هر ماژول توسط هر دانشجو را اندازه‌گیری کنیم و دانش کسب‌شده را با ارائه یک آزمون چندگزینه‌ای در پایان هر ماژول ارزیابی کنیم. با میانگین‌گیری زمان تکمیل در میان همه دانشجویان، می‌توانیم بفهمیم کدام ماژول‌ها بیشترین دشواری را برای دانشجویان ایجاد می‌کنند و روی ساده‌تر کردن آن‌ها کار کنیم.
ممکن است بحث کنید که این روش ایده‌آل نیست، زیرا طول ماژول‌ها می‌تواند متفاوت باشد. احتمالاً تقسیم زمان بر اساس طول ماژول (بر حسب تعداد کاراکترها) و مقایسه آن مقادیر، منصفانه‌تر باشد.
هنگامی که شروع به تحلیل نتایج آزمون‌های چندگزینه‌ای می‌کنیم، می‌توانیم تلاش کنیم تا مفاهیمی را که دانش‌آموزان در درک آن‌ها مشکل دارند شناسایی کنیم و از این اطلاعات برای بهبود محتوا استفاده کنیم. برای انجام این کار، باید آزمون‌ها را به گونه‌ای طراحی کنیم که هر سؤال به یک مفهوم یا بخش خاصی از دانش مرتبط باشد.
اگر بخواهیم پیچیده‌تر عمل کنیم، می‌توانیم زمان صرف شده برای هر ماژول را در مقابل دسته‌بندی سنی دانش‌آموزان رسم کنیم. ممکن است متوجه شویم که برای برخی دسته‌های سنی، تکمیل ماژول زمان بسیار زیادی می‌برد یا دانش‌آموزان قبل از تکمیل آن انصراف می‌دهند. این موضوع می‌تواند به ما کمک کند تا توصیه‌های سنی برای ماژول ارائه دهیم و نارضایتی افراد از انتظارات اشتباه را به حداقل برسانیم.
اگر بخواهیم پیچیدگی بیشتری اضافه کنیم، می‌توانیم زمان صرف‌شده برای هر ماژول را در مقابل دسته‌بندی سنی دانش‌آموزان رسم کنیم. ممکن است متوجه شویم که برای برخی دسته‌های سنی، تکمیل ماژول زمان بسیار زیادی می‌برد یا دانش‌آموزان قبل از تکمیل آن انصراف می‌دهند. این موضوع می‌تواند به ما کمک کند تا توصیه‌های سنی برای ماژول ارائه دهیم و نارضایتی افراد از انتظارات اشتباه را به حداقل برسانیم.
## 🚀 چالش
@ -63,7 +63,7 @@ CO_OP_TRANSLATOR_METADATA:
> اگر نمی‌دانید چگونه کد را در یک Jupyter Notebook اجرا کنید، به [این مقاله](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) نگاهی بیندازید.
## [آزمون پس از درس](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [آزمون پس از درس](https://ff-quizzes.netlify.app/en/ds/)
## تکالیف
@ -74,5 +74,7 @@ CO_OP_TRANSLATOR_METADATA:
این درس با ♥️ توسط [دمیتری سوشنیکوف](http://soshnikov.com) نوشته شده است.
---
**سلب مسئولیت**:
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه می‌شود از ترجمه حرفه‌ای انسانی استفاده کنید. ما مسئولیتی در قبال سوء تفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه می‌شود از ترجمه انسانی حرفه‌ای استفاده کنید. ما مسئولیتی در قبال سوء تفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.

@ -1,101 +1,55 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-26T21:33:30+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:20:38+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "fi"
}
-->
# Määritellään datatiede
## Tietotyypit
| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------: |
| Datatieteen määritelmä - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
Kuten jo mainittiin, dataa on kaikkialla. Meidän täytyy vain osata tallentaa se oikealla tavalla! On hyödyllistä erottaa toisistaan **strukturoitu** ja **strukturoimaton** data. Strukturoitu data esitetään yleensä hyvin jäsennellyssä muodossa, usein taulukkona tai useampana taulukkona, kun taas strukturoimaton data on vain joukko tiedostoja. Joskus voidaan puhua myös **puolistrukturoidusta** datasta, jolla on jonkinlainen rakenne, mutta se voi vaihdella suuresti.
---
[![Datatieteen määritelmä - Video](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.fi.png)](https://youtu.be/beZ7Mb_oz9I)
## [Esiluento-kysely](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## Mitä data on?
Arjessamme olemme jatkuvasti datan ympäröimiä. Teksti, jota luet juuri nyt, on dataa. Ystäviesi puhelinnumerolista älypuhelimessasi on dataa, samoin kuin kellossasi näkyvä nykyinen aika. Ihmisinä käsittelemme luonnostaan dataa esimerkiksi laskemalla rahojamme tai kirjoittamalla kirjeitä ystävillemme.
Tietokoneiden myötä datasta tuli kuitenkin paljon tärkeämpää. Tietokoneiden päätehtävä on suorittaa laskutoimituksia, mutta ne tarvitsevat dataa toimiakseen. Siksi meidän on ymmärrettävä, miten tietokoneet tallentavat ja käsittelevät dataa.
Internetin myötä tietokoneiden rooli datan käsittelylaitteina kasvoi. Jos mietit asiaa, käytämme nykyään tietokoneita yhä enemmän datan käsittelyyn ja viestintään kuin varsinaisiin laskutoimituksiin. Kun kirjoitamme sähköpostia ystävälle tai etsimme tietoa internetistä, luomme, tallennamme, siirrämme ja käsittelemme dataa.
> Muistatko, milloin viimeksi käytit tietokonetta varsinaiseen laskemiseen?
## Mitä on datatiede?
[Wikipedian](https://en.wikipedia.org/wiki/Data_science) mukaan **datatiede** määritellään *tieteelliseksi alaksi, joka käyttää tieteellisiä menetelmiä tiedon ja oivallusten hankkimiseen rakenteisesta ja rakenteettomasta datasta sekä soveltaa näitä oivalluksia monilla eri sovellusalueilla*.
Tämä määritelmä korostaa seuraavia datatieteen tärkeitä piirteitä:
| Strukturoitu | Puolistrukturoitu | Strukturoimaton |
| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- |
| Lista ihmisistä ja heidän puhelinnumeroistaan | Wikipedia-sivut linkkeineen | Encyclopedia Britannican teksti |
| Lämpötila kaikissa rakennuksen huoneissa joka minuutti viimeisen 20 vuoden ajalta | Tieteellisten artikkelien kokoelma JSON-muodossa, sisältäen kirjoittajat, julkaisupäivän ja tiivistelmän | Yrityksen asiakirjojen tiedostojako |
| Tiedot kaikkien rakennukseen tulevien ihmisten iästä ja sukupuolesta | Internet-sivut | Valvontakameran raaka videokuva |
* Datatieteen päätavoite on **hankkia tietoa** datasta, toisin sanoen **ymmärtää** dataa, löytää piilotettuja yhteyksiä ja luoda **malleja**.
* Datatiede käyttää **tieteellisiä menetelmiä**, kuten todennäköisyyslaskentaa ja tilastotiedettä. Kun termi *datatiede* otettiin ensimmäistä kertaa käyttöön, jotkut väittivät, että se oli vain uusi hieno nimi tilastotieteelle. Nykyään on selvää, että ala on paljon laajempi.
* Hankittua tietoa tulisi soveltaa tuottamaan **käytännön oivalluksia**, eli käytännöllisiä näkemyksiä, joita voidaan hyödyntää todellisissa liiketoimintatilanteissa.
* Meidän tulisi pystyä käsittelemään sekä **rakenteista** että **rakenteetonta** dataa. Palaamme myöhemmin kurssilla keskustelemaan eri datatyypeistä.
* **Sovellusalue** on tärkeä käsite, ja datatieteilijöillä on usein oltava ainakin jonkin verran asiantuntemusta ongelma-alueesta, esimerkiksi rahoituksesta, lääketieteestä tai markkinoinnista.
## Mistä dataa saa
> Toinen tärkeä datatieteen osa-alue on se, että se tutkii, miten dataa voidaan kerätä, tallentaa ja käsitellä tietokoneilla. Vaikka tilastotiede antaa meille matemaattiset perusteet, datatiede soveltaa matemaattisia käsitteitä saadakseen todellisia oivalluksia datasta.
Datalla on lukemattomia mahdollisia lähteitä, eikä kaikkia voi mitenkään listata! Mainitaan kuitenkin joitakin tyypillisiä paikkoja, joista dataa voi saada:
Yksi tapa (liitetty [Jim Grayhin](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) tarkastella datatiedettä on pitää sitä erillisenä tieteen paradigmana:
* **Empiirinen**, jossa luotamme pääasiassa havaintoihin ja kokeiden tuloksiin
* **Teoreettinen**, jossa uudet käsitteet syntyvät olemassa olevasta tieteellisestä tiedosta
* **Laskennallinen**, jossa löydämme uusia periaatteita laskennallisten kokeiden avulla
* **Dataohjautuva**, jossa löydämme suhteita ja kuvioita datasta
## Muita läheisiä aloja
Koska data on kaikkialla, myös datatiede on laaja ala, joka koskettaa monia muita tieteenaloja.
## Datatyypit
Kuten jo mainitsimme, dataa on kaikkialla. Meidän tarvitsee vain tallentaa se oikealla tavalla! On hyödyllistä erottaa toisistaan **rakenteinen** ja **rakenteeton** data. Ensimmäinen on tyypillisesti esitetty hyvin jäsennellyssä muodossa, usein taulukkona tai useina taulukoina, kun taas jälkimmäinen on vain kokoelma tiedostoja. Joskus voimme myös puhua **puolistrukturoidusta** datasta, jolla on jonkinlainen rakenne, joka voi vaihdella suuresti.
| Rakenteinen | Puolistrukturoitu | Rakenteeton |
| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- | ------------------------------------ |
| Lista ihmisistä ja heidän puhelinnumeroistaan | Wikipedian sivut linkkeineen | Encyclopedia Britannican teksti |
| Rakennuksen kaikkien huoneiden lämpötila joka minuutti viimeisen 20 vuoden ajalta | Tieteellisten artikkelien kokoelma JSON-muodossa, sisältäen kirjoittajat, julkaisupäivän ja tiivistelmän | Yrityksen asiakirjojen tiedostokansio |
| Rakennukseen saapuvien ihmisten ikä- ja sukupuolitiedot | Internet-sivut | Valvontakameran raakavideomateriaali |
## Mistä dataa saa?
Datalla on lukemattomia mahdollisia lähteitä, eikä kaikkia voi listata! Mainitaan kuitenkin joitakin tyypillisiä paikkoja, joista dataa voi saada:
* **Rakenteinen**
* **Strukturoitu**
- **Esineiden internet** (IoT), mukaan lukien erilaiset sensorit, kuten lämpötila- tai paineanturit, tuottavat paljon hyödyllistä dataa. Esimerkiksi, jos toimistorakennus on varustettu IoT-sensoreilla, voimme automaattisesti ohjata lämmitystä ja valaistusta kustannusten minimoimiseksi.
- **Kyselyt**, joita pyydämme käyttäjiä täyttämään esimerkiksi ostoksen jälkeen tai verkkosivustolla vierailun jälkeen.
- **Käyttäytymisanalyysi** voi auttaa meitä ymmärtämään esimerkiksi, kuinka syvälle käyttäjä menee sivustolla ja mikä on tyypillinen syy sivustolta poistumiseen.
* **Rakenteeton**
- **Tekstit** voivat olla rikas oivallusten lähde, kuten yleinen **tunnelmapisteytys** tai avainsanojen ja semanttisen merkityksen poimiminen.
- **Kuvat** tai **videot**. Valvontakameran videoita voidaan käyttää liikenteen arvioimiseen ja ihmisten tiedottamiseen mahdollisista ruuhkista.
- Verkkopalvelimen **lokitiedostot** voivat auttaa ymmärtämään, mitkä sivuston sivut ovat suosituimpia ja kuinka kauan niillä viivytään.
- **Kyselyt**, joita pyydämme käyttäjiä täyttämään ostoksen jälkeen tai verkkosivustolla vierailun jälkeen.
- **Käyttäytymisanalyysi** voi esimerkiksi auttaa ymmärtämään, kuinka syvälle käyttäjä menee sivustolla ja mikä on tyypillinen syy sivustolta poistumiseen.
* **Strukturoimaton**
- **Tekstit** voivat olla rikas lähde oivalluksille, kuten yleinen **tunnelmapisteytys** tai avainsanojen ja semanttisen merkityksen poiminta.
- **Kuvat** tai **videot**. Valvontakameran videoita voidaan käyttää liikenteen arvioimiseen tiellä ja tiedottamaan mahdollisista ruuhkista.
- Verkkopalvelimen **lokit** voivat auttaa ymmärtämään, mitkä sivuston sivut ovat useimmin vierailtuja ja kuinka kauan.
* **Puolistrukturoitu**
- **Sosiaalisen verkoston** graafit voivat olla loistavia tietolähteitä käyttäjien persoonallisuuksista ja potentiaalisesta tehokkuudesta tiedon levittämisessä.
- Kun meillä on joukko valokuvia juhlista, voimme yrittää poimia **ryhmädynamiikkaa** rakentamalla graafin ihmisistä, jotka ottavat kuvia yhdessä.
Kun tunnet erilaiset mahdolliset datalähteet, voit miettiä erilaisia skenaarioita, joissa datatieteen tekniikoita voidaan soveltaa tilanteen ymmärtämiseksi paremmin ja liiketoimintaprosessien parantamiseksi.
- **Sosiaalisen verkoston** graafit voivat olla erinomaisia datalähteitä käyttäjien persoonallisuuksista ja tiedon levittämisen potentiaalisesta tehokkuudesta.
- Kun meillä on joukko valokuvia juhlista, voimme yrittää poimia **ryhmädynamiikkaa** rakentamalla graafin ihmisistä, jotka ottavat kuvia toistensa kanssa.
## Mitä datalla voi tehdä?
Kun tiedät erilaiset mahdolliset datalähteet, voit miettiä erilaisia skenaarioita, joissa datatieteen tekniikoita voidaan soveltaa tilanteen parempaan ymmärtämiseen ja liiketoimintaprosessien parantamiseen.
Datatieteessä keskitymme seuraaviin datan käsittelyn vaiheisiin:
## Mitä datalla voi tehdä
Tietenkin, riippuen itse datasta, jotkin vaiheet voivat puuttua (esim. kun data on jo tietokannassa tai kun mallin koulutusta ei tarvita), tai jotkin vaiheet voivat toistua useita kertoja (kuten datan käsittely).
Datatieteessä keskitytään seuraaviin datan käsittelyn vaiheisiin:
## Digitalisaatio ja digitaalinen transformaatio
Viimeisen vuosikymmenen aikana monet yritykset ovat alkaneet ymmärtää datan merkityksen liiketoimintapäätösten tekemisessä. Jotta datatieteen periaatteita voidaan soveltaa liiketoiminnan johtamiseen, on ensin kerättävä dataa, eli muutettava liiketoimintaprosessit digitaaliseen muotoon. Tätä kutsutaan **digitalisaatioksi**. Datatieteen tekniikoiden soveltaminen tähän dataan päätöksenteon ohjaamiseksi voi johtaa merkittäviin tuottavuuden kasvuun (tai jopa liiketoiminnan suunnanmuutokseen), jota kutsutaan **digitaaliseksi transformaatioksi**.
Viimeisen vuosikymmenen aikana monet yritykset ovat alkaneet ymmärtää datan merkityksen liiketoimintapäätösten tekemisessä. Jotta datatieteen periaatteita voidaan soveltaa liiketoiminnan pyörittämiseen, täytyy ensin kerätä dataa, eli muuttaa liiketoimintaprosessit digitaaliseen muotoon. Tätä kutsutaan **digitalisaatioksi**. Datatieteen tekniikoiden soveltaminen tähän dataan päätöksenteon ohjaamiseksi voi johtaa merkittäviin tuottavuuden parannuksiin (tai jopa liiketoiminnan suunnanmuutokseen), jota kutsutaan **digitaaliseksi transformaatioksi**.
Otetaan esimerkki. Oletetaan, että meillä on datatieteen kurssi (kuten tämä), jonka toimitamme verkossa opiskelijoille, ja haluamme käyttää datatiedettä sen parantamiseen. Miten voimme tehdä sen?
Voimme aloittaa kysymällä "Mitä voidaan digitalisoida?" Yksinkertaisin tapa olisi mitata, kuinka kauan jokaisella opiskelijalla kestää suorittaa kukin moduuli, ja mitata hankittu tieto antamalla monivalintatesti kunkin moduulin lopussa. Laskemalla keskimääräisen suoritusajan kaikille opiskelijoille voimme selvittää, mitkä moduulit aiheuttavat eniten vaikeuksia opiskelijoille, ja työskennellä niiden yksinkertaistamiseksi.
Voimme aloittaa kysymällä "Mitä voidaan digitalisoida?" Yksinkertaisin tapa olisi mitata, kuinka kauan jokaisella opiskelijalla kestää suorittaa jokainen moduuli, ja mitata saavutettu tieto antamalla monivalintatesti jokaisen moduulin lopussa. Kun keskiarvoistamme suoritusajat kaikkien opiskelijoiden kesken, voimme selvittää, mitkä moduulit aiheuttavat eniten vaikeuksia opiskelijoille ja työskennellä niiden yksinkertaistamiseksi.
Voit väittää, että tämä lähestymistapa ei ole ihanteellinen, koska moduulit voivat olla eripituisia. On luultavasti oikeudenmukaisempaa jakaa aika moduulin pituudella (merkkien lukumäärällä) ja verrata näitä arvoja sen sijaan.
Kun alamme analysoida monivalintakokeiden tuloksia, voimme yrittää selvittää, mitkä käsitteet ovat opiskelijoille vaikeita ymmärtää, ja käyttää tätä tietoa sisällön parantamiseen. Tämän saavuttamiseksi meidän on suunniteltava kokeet siten, että jokainen kysymys liittyy tiettyyn käsitteeseen tai tietokokonaisuuteen.
Jos haluamme mennä vielä pidemmälle, voimme piirtää kaavion, jossa kunkin moduulin suorittamiseen käytetty aika asetetaan vastakkain opiskelijoiden ikäryhmien kanssa. Saatamme huomata, että joillekin ikäryhmille moduulin suorittaminen vie suhteettoman kauan tai että opiskelijat keskeyttävät ennen sen suorittamista. Tämä voi auttaa meitä antamaan ikäsuosituksia moduulille ja vähentämään ihmisten tyytymättömyyttä väärien odotusten vuoksi.
Jos haluamme mennä vielä pidemmälle, voimme piirtää kaavion, jossa kunkin moduulin suorittamiseen käytetty aika asetetaan vastakkain opiskelijoiden ikäryhmien kanssa. Saatamme huomata, että joissakin ikäryhmissä moduulin suorittaminen vie suhteettoman kauan tai että opiskelijat keskeyttävät ennen sen suorittamista. Tämä voi auttaa meitä antamaan ikäsuosituksia moduulille ja vähentämään ihmisten tyytymättömyyttä väärien odotusten vuoksi.
## 🚀 Haaste
@ -107,7 +61,7 @@ Vieraile tiedostossa [`notebook.ipynb`](../../../../../../../../../1-Introductio
> Jos et tiedä, miten suorittaa koodia Jupyter Notebookissa, tutustu [tähän artikkeliin](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Luennon jälkeinen kysely](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Luennon jälkeinen kysely](https://ff-quizzes.netlify.app/en/ds/)
## Tehtävät
@ -116,7 +70,7 @@ Vieraile tiedostossa [`notebook.ipynb`](../../../../../../../../../1-Introductio
## Kiitokset
Tämän oppitunnin on kirjoittanut ♥️:lla [Dmitry Soshnikov](http://soshnikov.com)
Tämän oppitunnin on laatinut ♥️:lla [Dmitry Soshnikov](http://soshnikov.com).
---

@ -1,8 +1,8 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-25T16:53:33+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T19:57:04+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "fr"
}
@ -12,7 +12,7 @@ CO_OP_TRANSLATOR_METADATA:
Comme nous l'avons déjà mentionné, les données sont partout. Il suffit de les capturer de la bonne manière ! Il est utile de distinguer entre les données **structurées** et **non structurées**. Les premières sont généralement représentées sous une forme bien organisée, souvent sous forme de tableau ou de plusieurs tableaux, tandis que les secondes ne sont qu'une collection de fichiers. Parfois, on peut également parler de données **semi-structurées**, qui possèdent une certaine structure pouvant varier considérablement.
| Structurées | Semi-structurées | Non structurées |
| --------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| Liste de personnes avec leurs numéros de téléphone | Pages Wikipédia avec des liens | Texte de l'Encyclopédie Britannica |
| Température dans toutes les pièces d'un bâtiment chaque minute pendant 20 ans | Collection d'articles scientifiques au format JSON avec auteurs, date de publication et résumé | Partage de fichiers avec des documents d'entreprise |
| Données sur l'âge et le sexe de toutes les personnes entrant dans le bâtiment | Pages Internet | Flux vidéo brut d'une caméra de surveillance |
@ -26,7 +26,7 @@ Il existe de nombreuses sources possibles de données, et il serait impossible d
- **Enquêtes** que nous demandons aux utilisateurs de remplir après un achat ou après avoir visité un site web.
- **Analyse du comportement** peut, par exemple, nous aider à comprendre jusqu'où un utilisateur explore un site et quelle est la raison typique de son départ.
* **Non structurées**
- **Textes** peuvent être une source riche d'informations, comme un score global de **sentiment**, ou l'extraction de mots-clés et de significations sémantiques.
- **Textes** peuvent être une source riche d'informations, comme un **score de sentiment global**, ou l'extraction de mots-clés et de significations sémantiques.
- **Images** ou **vidéos**. Une vidéo d'une caméra de surveillance peut être utilisée pour estimer le trafic sur la route et informer les gens des éventuels embouteillages.
- Les **journaux** des serveurs web peuvent être utilisés pour comprendre quelles pages de notre site sont les plus souvent visitées et pendant combien de temps.
* **Semi-structurées**
@ -39,7 +39,7 @@ En connaissant les différentes sources possibles de données, vous pouvez réfl
En science des données, nous nous concentrons sur les étapes suivantes du parcours des données :
Bien sûr, selon les données réelles, certaines étapes peuvent être absentes (par exemple, lorsque nous avons déjà les données dans une base de données ou lorsque nous n'avons pas besoin d'entraîner un modèle), ou certaines étapes peuvent être répétées plusieurs fois (comme le traitement des données).
Bien sûr, selon les données réelles, certaines étapes peuvent être absentes (par exemple, lorsque nous avons déjà les données dans la base de données ou lorsque nous n'avons pas besoin d'entraîner un modèle), ou certaines étapes peuvent être répétées plusieurs fois (comme le traitement des données).
## Numérisation et transformation numérique
@ -49,30 +49,32 @@ Prenons un exemple. Supposons que nous avons un cours de science des données (c
Nous pouvons commencer par nous demander "Que peut-on numériser ?" La manière la plus simple serait de mesurer le temps qu'il faut à chaque étudiant pour terminer chaque module, et d'évaluer les connaissances acquises en proposant un test à choix multiples à la fin de chaque module. En calculant la moyenne du temps nécessaire pour terminer chaque module parmi tous les étudiants, nous pouvons identifier les modules qui posent le plus de difficultés et travailler à les simplifier.
> Vous pourriez soutenir que cette approche n'est pas idéale, car les modules peuvent avoir des longueurs différentes. Il serait probablement plus juste de diviser le temps par la longueur du module (en nombre de caractères) et de comparer ces valeurs à la place.
Lorsque nous commençons à analyser les résultats des tests à choix multiples, nous pouvons essayer de déterminer quels concepts posent des difficultés de compréhension aux étudiants, et utiliser ces informations pour améliorer le contenu. Pour ce faire, il est nécessaire de concevoir les tests de manière à ce que chaque question corresponde à un concept ou une portion de connaissances spécifique.
Lorsque nous commençons à analyser les résultats des tests à choix multiples, nous pouvons essayer de déterminer quels concepts posent des difficultés de compréhension aux étudiants, et utiliser ces informations pour améliorer le contenu. Pour ce faire, il est nécessaire de concevoir des tests de manière à ce que chaque question corresponde à un concept ou une portion de connaissances spécifique.
Si nous souhaitons aller encore plus loin, nous pouvons tracer le temps nécessaire pour chaque module en fonction de la catégorie d'âge des étudiants. Nous pourrions découvrir que, pour certaines catégories d'âge, il faut un temps excessivement long pour terminer le module, ou que les étudiants abandonnent avant de le terminer. Cela peut nous aider à fournir des recommandations d'âge pour le module et à minimiser l'insatisfaction liée à des attentes erronées.
Si nous souhaitons aller encore plus loin, nous pouvons tracer le temps nécessaire pour chaque module en fonction de la catégorie d'âge des étudiants. Nous pourrions découvrir que, pour certaines catégories d'âge, il faut un temps excessivement long pour terminer le module, ou que les étudiants abandonnent avant de le terminer. Cela peut nous aider à fournir des recommandations d'âge pour le module et à minimiser l'insatisfaction des utilisateurs due à des attentes mal ajustées.
## 🚀 Défi
Dans ce défi, nous allons essayer de trouver des concepts pertinents dans le domaine de la science des données en analysant des textes. Nous prendrons un article Wikipédia sur la science des données, téléchargerons et traiterons le texte, puis créerons un nuage de mots comme celui-ci :
Dans ce défi, nous allons essayer de trouver des concepts pertinents dans le domaine de la Data Science en analysant des textes. Nous prendrons un article de Wikipédia sur la Data Science, téléchargerons et traiterons le texte, puis construirons un nuage de mots comme celui-ci :
![Nuage de mots pour la science des données](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.fr.png)
![Nuage de mots pour la Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.fr.png)
Visitez [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') pour parcourir le code. Vous pouvez également exécuter le code et voir comment il effectue toutes les transformations de données en temps réel.
> Si vous ne savez pas comment exécuter du code dans un Jupyter Notebook, consultez [cet article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Quiz post-conférence](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Quiz post-lecture](https://ff-quizzes.netlify.app/en/ds/)
## Exercices
* **Tâche 1** : Modifiez le code ci-dessus pour découvrir des concepts liés aux domaines du **Big Data** et de l'**apprentissage automatique**.
* **Tâche 2** : [Réfléchissez à des scénarios de science des données](assignment.md)
* **Tâche 1** : Modifiez le code ci-dessus pour découvrir des concepts liés aux domaines du **Big Data** et du **Machine Learning**.
* **Tâche 2** : [Réfléchissez à des scénarios de Data Science](assignment.md)
## Crédits
Cette leçon a été rédigée avec ♥️ par [Dmitry Soshnikov](http://soshnikov.com)
---
**Avertissement** :
Ce document a été traduit à l'aide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatisées peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d'origine doit être considéré comme la source faisant autorité. Pour des informations critiques, il est recommandé de faire appel à une traduction professionnelle humaine. Nous déclinons toute responsabilité en cas de malentendus ou d'interprétations erronées résultant de l'utilisation de cette traduction.
Ce document a été traduit à l'aide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatisées peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d'origine doit être considéré comme la source faisant autorité. Pour des informations critiques, il est recommandé de recourir à une traduction professionnelle réalisée par un humain. Nous déclinons toute responsabilité en cas de malentendus ou d'interprétations erronées résultant de l'utilisation de cette traduction.

@ -1,80 +1,80 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-28T15:50:52+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:22:07+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "he"
}
-->
## סוגי נתונים
כפי שכבר הזכרנו, נתונים נמצאים בכל מקום. אנחנו רק צריכים ללכוד אותם בצורה הנכונה! חשוב להבחין בין נתונים **מובנים** לנתונים **לא מובנים**. הראשונים מיוצגים בדרך כלל בצורה מסודרת, לעיתים קרובות כטבלה או מספר טבלאות, בעוד שהאחרונים הם פשוט אוסף של קבצים. לפעמים ניתן גם לדבר על נתונים **חצי-מובנים**, שיש להם סוג מסוים של מבנה שיכול להשתנות מאוד.
כפי שכבר ציינו, נתונים נמצאים בכל מקום. אנחנו רק צריכים לתפוס אותם בצורה הנכונה! חשוב להבחין בין נתונים **מובנים** לנתונים **לא מובנים**. נתונים מובנים מיוצגים בדרך כלל בצורה מסודרת, לעיתים כטבלה או מספר טבלאות, בעוד שנתונים לא מובנים הם פשוט אוסף של קבצים. לפעמים ניתן גם לדבר על נתונים **חצי-מובנים**, שיש להם סוג מסוים של מבנה שיכול להשתנות מאוד.
| נתונים מובנים | נתונים חצי-מובנים | נתונים לא מובנים |
| -------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------- | --------------------------------------- |
| מובנים | חצי-מובנים | לא מובנים |
| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | --------------------------------------- |
| רשימת אנשים עם מספרי הטלפון שלהם | דפי ויקיפדיה עם קישורים | טקסט של אנציקלופדיה בריטניקה |
| טמפרטורה בכל חדרי הבניין בכל דקה במשך 20 השנים האחרונות | אוסף מאמרים מדעיים בפורמט JSON עם מחברים, תאריך פרסום ותקציר | שיתוף קבצים עם מסמכים ארגוניים |
| נתונים על גיל ומגדר של כל האנשים הנכנסים לבניין | דפי אינטרנט | וידאו גולמי ממצלמת אבטחה |
| נתונים על גיל ומגדר של כל האנשים הנכנסים לבניין | דפי אינטרנט | סרטון גולמי ממצלמת אבטחה |
## מאיפה להשיג נתונים
ישנם מקורות רבים לנתונים, ולא ניתן למנות את כולם! עם זאת, נזכיר כמה מהמקומות הטיפוסיים שבהם ניתן להשיג נתונים:
ישנם מקורות רבים לנתונים, ויהיה בלתי אפשרי למנות את כולם! עם זאת, נזכיר כמה מהמקומות הטיפוסיים שבהם ניתן להשיג נתונים:
* **מובנים**
- **האינטרנט של הדברים** (IoT), כולל נתונים מחיישנים שונים, כמו חיישני טמפרטורה או לחץ, מספקים הרבה נתונים שימושיים. לדוגמה, אם בניין משרדים מצויד בחיישני IoT, ניתן לשלוט אוטומטית בחימום ובתאורה כדי למזער עלויות.
- **סקרים** שאנו מבקשים ממשתמשים למלא לאחר רכישה או לאחר ביקור באתר.
- **ניתוח התנהגות** יכול, למשל, לעזור לנו להבין עד כמה משתמש מעמיק באתר ומהי הסיבה הטיפוסית לעזיבתו.
- **ניתוח התנהגות** יכול, למשל, לעזור לנו להבין עד כמה משתמש מעמיק באתר ומה הסיבה הטיפוסית לעזיבתו.
* **לא מובנים**
- **טקסטים** יכולים להיות מקור עשיר לתובנות, כמו ציון **תחושה כללית**, או חילוץ מילות מפתח ומשמעות סמנטית.
- **תמונות** או **וידאו**. וידאו ממצלמת אבטחה יכול לשמש להערכת עומסי תנועה בכביש ולהודיע לאנשים על פקקים אפשריים.
- **יומני שרת אינטרנט** יכולים לשמש להבנת אילו דפים באתר שלנו נצפים הכי הרבה זמן.
- **טקסטים** יכולים להיות מקור עשיר לתובנות, כמו ציון **רגש כללי**, או חילוץ מילות מפתח ומשמעות סמנטית.
- **תמונות** או **וידאו**. סרטון ממצלמת אבטחה יכול לשמש להערכת תנועה בכביש ולהודיע לאנשים על פקקי תנועה אפשריים.
- **יומני שרת אינטרנט** יכולים לשמש להבנת אילו דפים באתר שלנו נצפים הכי הרבה ולמשך כמה זמן.
* **חצי-מובנים**
- **גרפים של רשתות חברתיות** יכולים להיות מקורות מצוינים לנתונים על אישיות משתמשים ועל היעילות הפוטנציאלית בהפצת מידע.
- כאשר יש לנו אוסף של תמונות ממסיבה, נוכל לנסות לחלץ נתוני **דינמיקה קבוצתית** על ידי בניית גרף של אנשים המצטלמים יחד.
- **גרפים של רשתות חברתיות** יכולים להיות מקורות מצוינים לנתונים על אישיות המשתמשים ועל היעילות הפוטנציאלית בהפצת מידע.
- כאשר יש לנו אוסף תמונות ממסיבה, ניתן לנסות לחלץ נתוני **דינמיקה קבוצתית** על ידי בניית גרף של אנשים המצטלמים יחד.
על ידי הכרת מקורות הנתונים השונים, תוכלו לחשוב על תרחישים שונים שבהם ניתן ליישם טכניקות מדע נתונים כדי להבין את המצב טוב יותר ולשפר תהליכים עסקיים.
על ידי הכרת מקורות הנתונים השונים, ניתן לחשוב על תרחישים שונים שבהם ניתן ליישם טכניקות מדע נתונים כדי להבין טוב יותר את המצב ולשפר תהליכים עסקיים.
## מה אפשר לעשות עם נתונים
במדע הנתונים, אנו מתמקדים בשלבים הבאים במסע הנתונים:
כמובן, בהתאם לנתונים בפועל, ייתכן שחלק מהשלבים ייחסרו (למשל, כאשר הנתונים כבר נמצאים בבסיס נתונים, או כאשר אין צורך באימון מודל), או שחלק מהשלבים יחזרו על עצמם מספר פעמים (כמו עיבוד נתונים).
כמובן, בהתאם לנתונים בפועל, חלק מהשלבים עשויים להיות חסרים (למשל, כאשר כבר יש לנו את הנתונים בבסיס נתונים, או כאשר אין צורך באימון מודל), או שחלק מהשלבים עשויים לחזור על עצמם מספר פעמים (כמו עיבוד נתונים).
## דיגיטציה וטרנספורמציה דיגיטלית
## דיגיטציה ושינוי דיגיטלי
בעשור האחרון, עסקים רבים החלו להבין את חשיבות הנתונים בקבלת החלטות עסקיות. כדי ליישם עקרונות מדע נתונים בניהול עסק, יש קודם כל לאסוף נתונים, כלומר לתרגם תהליכים עסקיים לצורה דיגיטלית. זה נקרא **דיגיטציה**. יישום טכניקות מדע נתונים על נתונים אלו כדי להנחות החלטות יכול להוביל לעלייה משמעותית בפרודוקטיביות (או אפילו לשינוי כיוון עסקי), הנקרא **טרנספורמציה דיגיטלית**.
בעשור האחרון, עסקים רבים התחילו להבין את החשיבות של נתונים בקבלת החלטות עסקיות. כדי ליישם עקרונות מדע נתונים בניהול עסק, יש קודם כל לאסוף נתונים, כלומר לתרגם תהליכים עסקיים לצורה דיגיטלית. זה נקרא **דיגיטציה**. יישום טכניקות מדע נתונים על נתונים אלו כדי להנחות החלטות יכול להוביל לשיפורים משמעותיים בפרודוקטיביות (או אפילו לשינוי עסקי), הנקראים **שינוי דיגיטלי**.
בואו נבחן דוגמה. נניח שיש לנו קורס מדע נתונים (כמו זה) שאנו מעבירים לסטודנטים באופן מקוון, ואנו רוצים להשתמש במדע נתונים כדי לשפר אותו. איך נוכל לעשות זאת?
בואו נבחן דוגמה. נניח שיש לנו קורס מדע נתונים (כמו זה) שאנו מעבירים לסטודנטים באופן מקוון, ואנו רוצים להשתמש במדע נתונים כדי לשפר אותו. איך אפשר לעשות זאת?
נוכל להתחיל בשאלה "מה ניתן לדיגיטציה?" הדרך הפשוטה ביותר תהיה למדוד את הזמן שלוקח לכל סטודנט להשלים כל מודול, ולמדוד את הידע שהושג על ידי מתן מבחן רב-ברירה בסוף כל מודול. על ידי חישוב ממוצע זמן ההשלמה של כל הסטודנטים, נוכל לגלות אילו מודולים גורמים לקשיים הגדולים ביותר ולעבוד על פישוטם.
אתה עשוי לטעון שהגישה הזו אינה אידיאלית, מכיוון שמודולים יכולים להיות באורכים שונים. כנראה שיותר הוגן לחלק את הזמן לפי אורך המודול (במספר התווים), ולהשוות את הערכים הללו במקום זאת.
כאשר אנו מתחילים לנתח תוצאות של מבחנים עם שאלות רב-ברירה, אנו יכולים לנסות לזהות אילו מושגים קשה לתלמידים להבין, ולהשתמש במידע הזה כדי לשפר את התוכן. כדי לעשות זאת, עלינו לעצב מבחנים כך שכל שאלה תתאים למושג מסוים או ליחידת ידע מסוימת.
ניתן להתחיל בשאלה "מה ניתן לדיגיטציה?" הדרך הפשוטה ביותר תהיה למדוד את הזמן שלוקח לכל סטודנט להשלים כל מודול, ולמדוד את הידע שהושג על ידי מתן מבחן רב-ברירה בסוף כל מודול. על ידי חישוב ממוצע זמן ההשלמה בין כל הסטודנטים, ניתן לגלות אילו מודולים גורמים לקשיים הגדולים ביותר לסטודנטים ולעבוד על פישוטם.
אתה עשוי לטעון שהגישה הזו אינה אידיאלית, מכיוון שמודולים יכולים להיות באורכים שונים. כנראה שיותר הוגן לחלק את הזמן לפי אורך המודול (במספר התווים), ולהשוות את הערכים הללו במקום.
כאשר אנו מתחילים לנתח תוצאות של מבחנים רב-ברירתיים, אנו יכולים לנסות לקבוע אילו מושגים קשה לתלמידים להבין, ולהשתמש במידע הזה כדי לשפר את התוכן. כדי לעשות זאת, עלינו לעצב מבחנים באופן שבו כל שאלה מקושרת למושג מסוים או ליחידת ידע.
אם נרצה להעמיק עוד יותר, נוכל לשרטט את הזמן שנדרש לכל מודול מול קטגוריית הגיל של התלמידים. ייתכן שנגלה שבחלק מקטגוריות הגיל לוקח זמן רב מדי לסיים את המודול, או שתלמידים נושרים לפני שהם מסיימים אותו. זה יכול לעזור לנו להציע המלצות גיל למודול, ולמזער את חוסר שביעות הרצון של אנשים מציפיות שגויות.
אם נרצה להעמיק עוד יותר, נוכל לשרטט את הזמן שנדרש לכל מודול מול קטגוריית הגיל של התלמידים. ייתכן שנגלה שבקטגוריות גיל מסוימות לוקח זמן רב מדי לסיים את המודול, או שהתלמידים נושרים לפני סיומו. הדבר יכול לעזור לנו להציע המלצות גיל למודול, ולהפחית את אי שביעות הרצון של אנשים מציפיות שגויות.
## 🚀 אתגר
באתגר הזה, ננסה למצוא מושגים רלוונטיים לתחום מדעי הנתונים על ידי ניתוח טקסטים. ניקח מאמר מוויקיפדיה על מדעי הנתונים, נוריד ונעבד את הטקסט, ואז נבנה ענן מילים כמו זה:
באתגר הזה, ננסה למצוא מושגים רלוונטיים לתחום מדעי הנתונים על ידי בחינת טקסטים. ניקח מאמר מוויקיפדיה על מדעי הנתונים, נוריד ונעבד את הטקסט, ואז נבנה ענן מילים כמו זה:
![ענן מילים למדעי הנתונים](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.he.png)
בקרו ב-[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') כדי לעבור על הקוד. תוכלו גם להריץ את הקוד ולראות כיצד הוא מבצע את כל השינויים בנתונים בזמן אמת.
בקרו ב-[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') כדי לקרוא את הקוד. תוכלו גם להריץ את הקוד ולראות כיצד הוא מבצע את כל השינויים בנתונים בזמן אמת.
> אם אינכם יודעים כיצד להריץ קוד ב-Jupyter Notebook, עיינו ב-[מאמר הזה](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
> אם אינכם יודעים כיצד להריץ קוד ב-Jupyter Notebook, עיינו במאמר הזה: [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [שאלון לאחר ההרצאה](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [שאלון לאחר ההרצאה](https://ff-quizzes.netlify.app/en/ds/)
## משימות
* **משימה 1**: שנו את הקוד למעלה כדי למצוא מושגים קשורים לתחומים של **ביג דאטה** ו-**למידת מכונה**
* **משימה 1**: שנו את הקוד לעיל כדי למצוא מושגים קשורים לתחומים של **Big Data** ו-**Machine Learning**
* **משימה 2**: [חשבו על תרחישים במדעי הנתונים](assignment.md)
## קרדיטים
השיעור הזה נכתב באהבה ♥️ על ידי [דמיטרי סושניקוב](http://soshnikov.com)
השיעור הזה נכתב באהבה על ידי [Dmitry Soshnikov](http://soshnikov.com)
---
**כתב ויתור**:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית [Co-op Translator](https://github.com/Azure/co-op-translator). בעוד שאנו שואפים לדיוק, יש להיות מודעים לכך שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית נחשב למקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי מתרגם אנושי. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה.
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית [Co-op Translator](https://github.com/Azure/co-op-translator). למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית נחשב למקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי בני אדם. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה.

@ -1,39 +1,39 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-24T21:30:17+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:07:34+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "hi"
}
-->
## डेटा के प्रकार
जैसा कि हमने पहले ही उल्लेख किया है, डेटा हर जगह है। हमें बस इसे सही तरीके से कैप्चर करना है! यह **संरचित** और **असंरचित** डेटा के बीच अंतर करना उपयोगी है। संरचित डेटा आमतौर पर किसी सुव्यवस्थित रूप में प्रस्तुत किया जाता है, अक्सर एक तालिका या कई तालिकाओं के रूप में, जबकि असंरचित डेटा केवल फाइलों का संग्रह होता है। कभी-कभी हम **अर्ध-संरचित** डेटा की भी बात कर सकते हैं, जिसमें कुछ हद तक संरचना होती है, लेकिन यह काफी भिन्न हो सकती है।
जैसा कि हमने पहले ही उल्लेख किया है, डेटा हर जगह है। हमें इसे सही तरीके से कैप्चर करने की आवश्यकता है! यह **संरचित** और **असंरचित** डेटा के बीच अंतर करना उपयोगी है। संरचित डेटा आमतौर पर किसी सुव्यवस्थित रूप में प्रस्तुत किया जाता है, अक्सर एक टेबल या कई टेबल के रूप में, जबकि असंरचित डेटा केवल फाइलों का संग्रह होता है। कभी-कभी हम **अर्ध-संरचित** डेटा के बारे में भी बात कर सकते हैं, जिसमें कुछ प्रकार की संरचना होती है जो काफी भिन्न हो सकती है।
| संरचित | अर्ध-संरचित | असंरचित |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | ------------------------------------- |
| लोगों की सूची उनके फोन नंबरों के साथ | विकिपीडिया पेज जिनमें लिंक शामिल हैं | एनसाइक्लोपीडिया ब्रिटानिका का पाठ |
| पिछले 20 वर्षों में हर मिनट पर एक इमारत के सभी कमरों का तापमान | वैज्ञानिक पत्रों का संग्रह JSON प्रारूप में, जिसमें लेखक, प्रकाशन की तारीख और सार शामिल हैं | कॉर्पोरेट दस्तावेजों के साथ फाइल शेयर |
| -------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | ------------------------------------ |
| लोगों की सूची उनके फोन नंबर के साथ | विकिपीडिया पेज जिनमें लिंक हैं | एनसाइक्लोपीडिया ब्रिटानिका का पाठ |
| पिछले 20 वर्षों में हर मिनट में एक इमारत के सभी कमरों का तापमान | JSON प्रारूप में वैज्ञानिक पत्रों का संग्रह जिसमें लेखक, प्रकाशन की तारीख और सारांश शामिल हैं | कॉर्पोरेट दस्तावेजों के साथ फाइल शेयर |
| इमारत में प्रवेश करने वाले सभी लोगों की उम्र और लिंग का डेटा | इंटरनेट पेज | निगरानी कैमरे से कच्चा वीडियो फीड |
## डेटा कहां से प्राप्त करें
डेटा के कई संभावित स्रोत हैं, और उन सभी को सूचीबद्ध करना असंभव होगा! हालांकि, आइए कुछ सामान्य स्थानों का उल्लेख करें जहां से आप डेटा प्राप्त कर सकते हैं:
डेटा के कई संभावित स्रोत हैं, और उन्हें सभी को सूचीबद्ध करना असंभव होगा! हालांकि, आइए कुछ सामान्य स्थानों का उल्लेख करें जहां से आप डेटा प्राप्त कर सकते हैं:
* **संरचित**
- **इंटरनेट ऑफ थिंग्स** (IoT), जिसमें विभिन्न सेंसरों (जैसे तापमान या दबाव सेंसर) से डेटा शामिल है, बहुत उपयोगी डेटा प्रदान करता है। उदाहरण के लिए, यदि किसी कार्यालय भवन में IoT सेंसर लगे हैं, तो हम स्वचालित रूप से हीटिंग और लाइटिंग को नियंत्रित कर सकते हैं ताकि लागत को कम किया जा सके
- **सर्वेक्षण**, जो हम उपयोगकर्ताओं से खरीदारी के बाद या किसी वेबसाइट पर जाने के बाद पूरा करने के लिए कहते हैं।
- **व्यवहार का विश्लेषण**, जो हमें यह समझने में मदद कर सकता है कि उपयोगकर्ता साइट पर कितनी गहराई तक जाते हैं और साइट छोड़ने का सामान्य कारण क्या है।
- **इंटरनेट ऑफ थिंग्स** (IoT), जिसमें विभिन्न सेंसर जैसे तापमान या दबाव सेंसर से डेटा शामिल है, बहुत उपयोगी डेटा प्रदान करता है। उदाहरण के लिए, यदि किसी कार्यालय भवन में IoT सेंसर लगे हैं, तो हम लागत को कम करने के लिए स्वचालित रूप से हीटिंग और लाइटिंग को नियंत्रित कर सकते हैं।
- **सर्वेक्षण**, जो हम उपयोगकर्ताओं से खरीदारी के बाद या वेबसाइट पर जाने के बाद पूरा करने के लिए कहते हैं।
- **व्यवहार का विश्लेषण** हमें यह समझने में मदद कर सकता है कि उपयोगकर्ता साइट में कितनी गहराई तक जाते हैं और साइट छोड़ने का सामान्य कारण क्या है।
* **असंरचित**
- **पाठ** एक समृद्ध अंतर्दृष्टि का स्रोत हो सकता है, जैसे समग्र **भाव स्कोर**, या कीवर्ड और अर्थपूर्ण जानकारी निकालना
- **पाठ** समग्र **भावना स्कोर** जैसे अंतर्दृष्टि प्रदान कर सकता है, या कीवर्ड और अर्थ निकालने में मदद कर सकता है
- **छवियां** या **वीडियो**। निगरानी कैमरे से वीडियो का उपयोग सड़क पर यातायात का अनुमान लगाने और संभावित ट्रैफिक जाम के बारे में लोगों को सूचित करने के लिए किया जा सकता है।
- वेब सर्वर **लॉग्स** का उपयोग यह समझने के लिए किया जा सकता है कि हमारी साइट के कौन से पेज सबसे अधिक बार देखे जाते हैं और कितनी देर तक।
* **अर्ध-संरचित**
- **सोशल नेटवर्क** ग्राफ उपयोगकर्ता व्यक्तित्व और जानकारी फैलाने में संभावित प्रभावशीलता के बारे में डेटा के महान स्रोत हो सकते हैं।
- जब हमारे पास किसी पार्टी की ढेर सारी तस्वीरें होती हैं, तो हम एक-दूसरे के साथ तस्वीरें लेने वाले लोगों का ग्राफ बनाकर **समूह गतिशीलता** डेटा निकालने की कोशिश कर सकते हैं।
* अर्ध-संरचित
- **सोशल नेटवर्क** ग्राफ उपयोगकर्ता व्यक्तित्व और जानकारी फैलाने में संभावित प्रभावशीलता के बारे में डेटा के लिए शानदार स्रोत हो सकते हैं।
- जब हमारे पास पार्टी से तस्वीरों का संग्रह होता है, तो हम **समूह गतिशीलता** डेटा निकालने की कोशिश कर सकते हैं, जैसे कि लोगों के बीच तस्वीरें लेने का ग्राफ बनाना
विभिन्न संभावित डेटा स्रोतों को जानकर, आप विभिन्न परिदृश्यों के बारे में सोच सकते हैं जहां डेटा विज्ञान तकनीकों का उपयोग स्थिति को बेहतर ढंग से समझने और व्यावसायिक प्रक्रियाओं में सुधार करने के लिए किया जा सकता है।
विभिन्न संभावित डेटा स्रोतों को जानकर, आप विभिन्न परिदृश्यों के बारे में सोच सकते हैं जहां डेटा विज्ञान तकनीकों का उपयोग स्थिति को बेहतर तरीके से समझने और व्यावसायिक प्रक्रियाओं में सुधार करने के लिए किया जा सकता है।
## डेटा के साथ आप क्या कर सकते हैं
@ -41,15 +41,15 @@ CO_OP_TRANSLATOR_METADATA:
## डिजिटलीकरण और डिजिटल परिवर्तन
पिछले दशक में, कई व्यवसायों ने यह समझना शुरू कर दिया है कि व्यावसायिक निर्णय लेने में डेटा कितना महत्वपूर्ण है। व्यवसाय चलाने में डेटा विज्ञान के सिद्धांतों को लागू करने के लिए, सबसे पहले कुछ डेटा एकत्र करना आवश्यक है, यानी व्यावसायिक प्रक्रियाओं को डिजिटल रूप में अनुवादित करना। इसे **डिजिटलीकरण** कहा जाता है। इस डेटा पर डेटा विज्ञान तकनीकों को लागू करना और निर्णय लेने का मार्गदर्शन करना उत्पादकता में महत्वपूर्ण वृद्धि (या यहां तक कि व्यवसाय में बदलाव) ला सकता है, जिसे **डिजिटल परिवर्तन** कहा जाता है।
पिछले दशक में, कई व्यवसायों ने यह समझना शुरू किया कि व्यावसायिक निर्णय लेने में डेटा कितना महत्वपूर्ण है। व्यवसाय चलाने के लिए डेटा विज्ञान के सिद्धांतों को लागू करने के लिए, सबसे पहले कुछ डेटा एकत्र करना आवश्यक है, यानी व्यावसायिक प्रक्रियाओं को डिजिटल रूप में अनुवाद करना। इसे **डिजिटलीकरण** कहा जाता है। इस डेटा पर डेटा विज्ञान तकनीकों को लागू करना और निर्णयों को मार्गदर्शन करना उत्पादकता में महत्वपूर्ण वृद्धि (या यहां तक कि व्यवसाय में बदलाव) ला सकता है, जिसे **डिजिटल परिवर्तन** कहा जाता है।
आइए एक उदाहरण पर विचार करें। मान लीजिए कि हमारे पास एक डेटा विज्ञान कोर्स है (जैसे यह कोर्स) जिसे हम छात्रों को ऑनलाइन प्रदान करते हैं, और हम इसे बेहतर बनाने के लिए डेटा विज्ञान का उपयोग करना चाहते हैं। हम इसे कैसे कर सकते हैं?
आइए एक उदाहरण पर विचार करें। मान लीजिए कि हमारे पास एक डेटा विज्ञान पाठ्यक्रम है (जैसे यह पाठ्यक्रम) जिसे हम छात्रों को ऑनलाइन प्रदान करते हैं, और हम इसे बेहतर बनाने के लिए डेटा विज्ञान का उपयोग करना चाहते हैं। हम इसे कैसे कर सकते हैं?
हम यह पूछकर शुरू कर सकते हैं, "क्या डिजिटलीकृत किया जा सकता है?" सबसे सरल तरीका यह होगा कि प्रत्येक छात्र को प्रत्येक मॉड्यूल पूरा करने में लगने वाले समय को मापा जाए, और प्रत्येक मॉड्यूल के अंत में एक बहुविकल्पीय परीक्षण देकर प्राप्त ज्ञान को मापा जाए। सभी छात्रों के बीच औसत समय-से-पूर्णता का पता लगाकर, हम यह पता लगा सकते हैं कि कौन से मॉड्यूल छात्रों के लिए सबसे अधिक कठिनाई पैदा करते हैं और उन्हें सरल बनाने पर काम कर सकते हैं।
हम "क्या डिजिटलीकृत किया जा सकता है?" पूछकर शुरू कर सकते हैं। सबसे सरल तरीका यह होगा कि प्रत्येक छात्र को प्रत्येक मॉड्यूल पूरा करने में लगने वाले समय को मापा जाए और प्रत्येक मॉड्यूल के अंत में एक बहुविकल्पीय परीक्षण देकर प्राप्त ज्ञान को मापा जाए। सभी छात्रों के बीच औसत समय-से-पूर्ण को मापकर, हम यह पता लगा सकते हैं कि कौन से मॉड्यूल छात्रों के लिए सबसे अधिक कठिनाई पैदा करते हैं और उन्हें सरल बनाने पर काम कर सकते हैं।
आप यह तर्क दे सकते हैं कि यह तरीका आदर्श नहीं है, क्योंकि मॉड्यूल्स की लंबाई अलग-अलग हो सकती है। शायद समय को मॉड्यूल की लंबाई (अक्षरों की संख्या में) के आधार पर विभाजित करना और उन मानों की तुलना करना अधिक उचित होगा।
जब हम बहुविकल्पीय परीक्षाओं के परिणामों का विश्लेषण शुरू करते हैं, तो हम यह पता लगाने की कोशिश कर सकते हैं कि छात्र किन अवधारणाओं को समझने में कठिनाई महसूस करते हैं, और उस जानकारी का उपयोग सामग्री को बेहतर बनाने के लिए कर सकते हैं। ऐसा करने के लिए, हमें परीक्षाओं को इस तरह से डिज़ाइन करना होगा कि प्रत्येक प्रश्न किसी विशेष अवधारणा या ज्ञान के हिस्से से जुड़ा हो।
अगर हम इसे और अधिक जटिल बनाना चाहें, तो हम प्रत्येक मॉड्यूल में लगने वाले समय को छात्रों की आयु श्रेणी के साथ तुलना कर सकते हैं। हमें यह पता चल सकता है कि कुछ आयु श्रेणियों के लिए मॉड्यूल पूरा करने में अनुचित रूप से अधिक समय लगता है, या छात्र इसे पूरा करने से पहले ही छोड़ देते हैं। यह हमें मॉड्यूल के लिए आयु अनुशंसाएँ प्रदान करने में मदद कर सकता है और गलत अपेक्षाओं से होने वाली असंतुष्टि को कम कर सकता है।
अगर हम इसे और अधिक जटिल बनाना चाहें, तो हम प्रत्येक मॉड्यूल में लगने वाले समय को छात्रों की आयु श्रेणी के साथ तुलना कर सकते हैं। हमें यह पता चल सकता है कि कुछ आयु श्रेणियों के लिए मॉड्यूल पूरा करने में अनुचित रूप से अधिक समय लगता है, या छात्र इसे पूरा करने से पहले ही छोड़ देते हैं। यह हमें मॉड्यूल के लिए आयु अनुशंसाएँ प्रदान करने में मदद कर सकता है और गलत अपेक्षाओं के कारण होने वाली असंतुष्टि को कम कर सकता है।
## 🚀 चुनौती
@ -61,7 +61,7 @@ CO_OP_TRANSLATOR_METADATA:
> अगर आपको पता नहीं है कि जुपिटर नोटबुक में कोड कैसे चलाना है, तो [इस लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) को देखें।
## [पोस्ट-लेक्चर क्विज़](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [पोस्ट-लेक्चर क्विज़](https://ff-quizzes.netlify.app/en/ds/)
## असाइनमेंट्स
@ -70,7 +70,9 @@ CO_OP_TRANSLATOR_METADATA:
## क्रेडिट्स
यह पाठ ♥️ के साथ [दिमित्री सॉश्निकोव](http://soshnikov.com) द्वारा लिखा गया है।
यह पाठ [Dmitry Soshnikov](http://soshnikov.com) द्वारा ♥️ के साथ लिखा गया है।
---
**अस्वीकरण**:
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।

@ -1,122 +1,78 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-25T16:52:33+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:04:10+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "hk"
}
-->
# 定義數據科學
| ![ 由 [(@sketchthedocs)](https://sketchthedocs.dev) 繪製的手繪筆記 ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------: |
| 定義數據科學 - _由 [@nitya](https://twitter.com/nitya) 繪製的手繪筆記_ |
---
[![定義數據科學影片](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.hk.png)](https://youtu.be/beZ7Mb_oz9I)
## [課前測驗](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## 什麼是數據?
在我們的日常生活中,我們無時無刻不被數據包圍著。你現在正在閱讀的文字就是數據。你智能手機裡朋友的電話號碼列表是數據,你手錶上顯示的當前時間也是數據。作為人類,我們天生就會處理數據,比如數錢或者給朋友寫信。
然而,隨著電腦的誕生,數據變得更加重要。電腦的主要功能是進行計算,但它們需要數據來操作。因此,我們需要了解電腦如何存儲和處理數據。
隨著互聯網的出現,電腦作為數據處理設備的角色進一步增強。仔細想想,我們現在使用電腦更多的是進行數據處理和通信,而不是純粹的計算。當我們給朋友寫電子郵件或在互聯網上搜索信息時,我們實際上是在創建、存儲、傳輸和操作數據。
> 你能記得上一次真正用電腦進行計算是什麼時候嗎?
## 什麼是數據科學?
根據 [維基百科](https://en.wikipedia.org/wiki/Data_science)**數據科學**被定義為*一個使用科學方法從結構化和非結構化數據中提取知識和洞察力,並將這些知識和可行的洞察應用於廣泛應用領域的科學領域*。
這一定義突出了數據科學的一些重要方面:
* 數據科學的主要目標是從數據中**提取知識**,換句話說,就是**理解**數據,發現隱藏的關係並建立**模型**。
* 數據科學使用**科學方法**,例如概率和統計。事實上,當*數據科學*這個術語首次出現時,有些人認為數據科學只是統計學的一個新潮名稱。然而,現在已經很明顯這個領域要廣泛得多。
* 獲得的知識應用於產生一些**可行的洞察**,即可以應用於實際商業情境的實用洞察。
* 我們應該能夠處理**結構化**和**非結構化**數據。我們稍後會在課程中討論不同類型的數據。
* **應用領域**是一個重要的概念,數據科學家通常需要對問題領域(例如金融、醫學、營銷等)有一定程度的專業知識。
> 數據科學的另一個重要方面是研究如何使用電腦收集、存儲和操作數據。雖然統計學為我們提供了數學基礎,數據科學則將數學概念應用於實際從數據中提取洞察。
根據 [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist)) 的觀點,數據科學可以被視為一種獨立的科學範式:
* **經驗科學**,主要依賴觀察和實驗結果
* **理論科學**,從現有的科學知識中產生新概念
* **計算科學**,通過計算實驗發現新原則
* **數據驅動科學**,基於發現數據中的關係和模式
## 其他相關領域
由於數據無處不在,數據科學本身也是一個廣泛的領域,涉及許多其他學科。
## 數據的類型
如前所述,數據無處不在。我們只需要以正確的方式捕捉它!區分**結構化**和**非結構化**數據是很有用的。前者通常以某種結構化的形式表示,通常是表格或多個表格,而後者則只是文件的集合。有時我們還會提到**半結構化**數據,它具有某種結構,但可能差異很大。
正如我們之前提到的,數據無處不在。我們只需要以正確的方式捕捉它!區分 **結構化數據** 和 **非結構化數據** 是很有用的。前者通常以某種良好結構的形式表示,通常是表格或多個表格,而後者則只是文件的集合。有時我們也會提到 **半結構化數據**,它具有某種結構,但可能差異很大。
| 結構化數據 | 半結構化數據 | 非結構化數據 |
| ------------------------------------------------------------------------ | --------------------------------------------------------------------------------------------- | ------------------------------------- |
| 包含人員及其電話號碼的列表 | 包含鏈接的維基百科頁面 | 《大英百科全書》的文本 |
| 過去20年中每分鐘建築物所有房間的溫度 | 以JSON格式存儲的科學論文集合包括作者、發表日期和摘要 | 包含公司文件的文件共享 |
| 所有進入建築物人的年齡和性別數據 | 網頁 | 監控攝像頭的原始視頻流 |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| 包含人名及其電話號碼的列表 | 帶有鏈接的維基百科頁面 | 《大英百科全書》的文本 |
| 過去 20 年中每分鐘建築物所有房間的溫度數據 | 以 JSON 格式存儲的科學論文集合,包括作者、出版日期和摘要 | 包含公司文件的文件共享 |
| 進入建築物的所有人的年齡和性別數據 | 網頁 | 監控攝像頭的原始視頻流 |
## 數據的來源
數據的來源有很多,幾乎不可能全部列舉!然而,我們可以提到一些典型的數據來源:
數據的來源有很多,幾乎不可能列出所有可能的來源!然而,我們可以提到一些典型的數據來源:
* **結構化數據**
- **物聯網**IoT,包括來自不同傳感器(如溫度或壓力傳感器)的數據,提供了大量有用的數據。例如,如果一棟辦公樓配備了物聯網傳感器,我們可以自動控制供暖和照明以降低成本。
- **調查問卷**,例如在購物後或訪問網站後請用戶完成的問卷。
- **行為分析**,例如幫助我們了解用戶在網站上的瀏覽深度,以及用戶離開網站的典型原因。
- **物聯網** (IoT),包括來自不同傳感器(如溫度或壓力傳感器)的數據,提供了大量有用的數據。例如,如果辦公樓配備了物聯網傳感器,我們可以自動控制供暖和照明以降低成本。
- **調查問卷**,例如在購買後或訪問網站後要求用戶完成的問卷。
- **行為分析**,例如幫助我們了解用戶在網站上的瀏覽深度,以及離開網站的典型原因。
* **非結構化數據**
- **文本**可以是豐富的洞察來源,例如整體**情感分數**,或者提取關鍵詞和語義含義
- **圖像**或**視頻**。監控攝像頭的視頻可以用來估算道路上的交通流量,並通知人們潛在的交通擁堵
- 網絡服務器的**日誌**可以用來了解我們網站上哪些頁面最常被訪問,以及訪問時長。
- **文本**可以提供豐富的洞察,例如整體 **情感分數**,或提取關鍵詞和語義信息。
- **圖像**或 **視頻**。監控攝像頭的視頻可以用來估算道路上的交通流量,並通知人們可能的交通堵塞。
- 網絡服務器的 **日誌** 可以用來了解網站上最常被訪問的頁面,以及訪問時長。
* **半結構化數據**
- **社交網絡**圖譜可以提供有關用戶個性和信息傳播潛力的數據。
- 當我們擁有一堆派對照片時,我們可以通過構建人們互相拍照的圖譜來提取**群體動態**數據。
- **社交網絡**圖表可以提供有關用戶個性及其在信息傳播中的潛在影響力的數據。
- 當我們擁有一堆派對照片時,我們可以嘗試通過構建人們互相拍照的圖表來提取 **群體動態** 數據。
通過了解不同的數據來源,你可以嘗試思考不同的場景,看看數據科學技術如何應用於更好地了解情況並改業務流程。
了解不同的數據來源後,您可以嘗試思考不同的場景,看看數據科學技術如何應用於更好地了解情況並改善業務流程。
## 數據可以做什麼
## 數據的用途
在數據科學中,我們專注於數據旅程的以下步驟:
當然,根據實際數據的情況,有些步驟可能會缺失(例如,當我們已經擁有數據庫中的數據,或者當我們不需要模型訓練時),或者某些步驟可能會重複多次(例如數據處理)。
## 數字化與數字化轉型
## 數字化與數字轉型
在過去十年中,許多企業開始意識到數據在商業決策中的重要性。要將數據科學原則應用於企業運營,首先需要收集一些數據,即將業務流程轉化為數字形式,這被稱為**數字化**。將數據科學技術應用於這些數據以指導決策,可以顯著提高生產力(甚至實現業務轉型),這被稱為**數字化轉型**。
在過去十年中,許多企業開始意識到在做出業務決策時數據的重要性。要將數據科學原則應用於業務運營,首先需要收集一些數據,即將業務流程轉化為數字形式。這被稱為 **數字化**。將數據科學技術應用於這些數據以指導決策,可以顯著提高生產力(甚至可能改變業務方向),這被稱為 **數字轉型**。
讓我們考慮一個例子。假設我們有一門數據科學課程(比如這門課程),我們在線上向學生提供,並希望利用數據科學來改進它。我們該怎麼做?
我們可以從問「什麼可以數字化?」開始。最簡單的方法是測量每位學生完成每個模塊所需的時間,並通過在每個模塊結束時進行選擇題測試來測量獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模塊對學生來說最具挑戰性,並著手簡化它們。
> 你可能會認為這種方法並不理想,因為模組的長度可能各不相同。或許更公平的法是根據模組的長度(以字元數計算)來分時間,然後比較這些值。
當我們開始分析多項選擇題的測試結果時,可以嘗試找出學生在哪些概念上有困難,並利用這些資訊改進內容。為了做到這一點,我們需要設計測試,使每個問題對應到某個特定的概念或知識塊
我們可以從問「什麼可以被數字化?」開始。最簡單的方法是測量每位學生完成每個模塊所需的時間,並通過在每個模塊結束時進行選擇題測試來測量所獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模塊對學生來說最具挑戰性,並著手簡化它們。
你可能會認為這種方法並不理想,因為模組的長度可能各不相同。或許更公平的做法是根據模組的長度(以字元數計算)來分配時間,然後比較這些數值。
當我們開始分析多項選擇測試的結果時,我們可以嘗試找出學生難以理解的概念,並利用這些資訊改進內容。為了達到這個目的,我們需要設計測試,使每個問題都能對應到某個特定概念或知識點。
如果我們想進一步深入分析,可以將每個模組所的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生完成模組所需的時間過長,或者學生在完成模組之前就中途退出。這可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。
如果我們想進一步深入分析,可以將每個模組所需的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生需要過長的時間才能完成模組,或者在完成之前就中途退出。這可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。
## 🚀 挑戰
在這個挑戰中,我們將嘗試通過分析文本來找出與數據科學領域相關的概念。我們將選取一篇關於數據科學的維基百科文章,下載並處理文本,然後生成一個像這樣的文字雲:
在這個挑戰中,我們將嘗試透過分析文本來找出與數據科學相關的概念。我們會選取一篇關於數據科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲:
![數據科學文字雲](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.hk.png)
訪問 [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 閱讀代碼。你也可以運行代碼,並即時查看它如何執行所有數據轉換。
訪問 [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 閱讀程式碼。你也可以執行程式碼,並即時查看它如何進行所有數據轉換。
> 如果你不知道如何在 Jupyter Notebook 中運行代碼,可以參考 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。
> 如果你不知道如何在 Jupyter Notebook 中執行程式碼,可以查看 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。
## [課後測驗](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [課後測驗](https://ff-quizzes.netlify.app/en/ds/)
## 作業
* **任務 1**:修改上述碼,找出與 **大數據** 和 **機器學習** 領域相關的概念
* **任務 1**:修改上述程式碼,找出與 **大數據** 和 **機器學習** 領域相關的概念
* **任務 2**[思考數據科學場景](assignment.md)
## 致謝
這節課由 [Dmitry Soshnikov](http://soshnikov.com) 用 ♥️ 編寫。
---
**免責聲明**
本文件已使用人工智能翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。雖然我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。原始語言的文件應被視為具權威性的來源。對於重要信息,建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解釋概不負責。
本文件已使用人工智能翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。儘管我們致力於提供準確的翻譯,請注意自動翻譯可能包含錯誤或不準確之處。原始語言的文件應被視為權威來源。對於重要資訊,建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解釋概不負責。

@ -1,39 +1,39 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-30T19:28:10+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:31:48+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "hr"
}
-->
## Vrste podataka
Kao što smo već spomenuli, podaci su svugdje oko nas. Samo ih trebamo pravilno zabilježiti! Korisno je razlikovati **strukturirane** i **nestrukturirane** podatke. Prvi su obično predstavljeni u nekom dobro strukturiranom obliku, često kao tablica ili niz tablica, dok su potonji samo zbirka datoteka. Ponekad možemo govoriti i o **polustrukturiranim** podacima, koji imaju neku vrstu strukture koja može značajno varirati.
Kao što smo već spomenuli, podaci su svugdje oko nas. Samo ih trebamo pravilno zabilježiti! Korisno je razlikovati **strukturirane** i **nestrukturirane** podatke. Strukturirani podaci obično su predstavljeni u nekom dobro organiziranom obliku, često kao tablica ili skup tablica, dok su nestrukturirani podaci samo zbirka datoteka. Ponekad možemo govoriti i o **polustrukturiranim** podacima, koji imaju neku vrstu strukture koja može značajno varirati.
| Strukturirani | Polustrukturirani | Nestrukturirani |
| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------- | -------------------------------------- |
| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | --------------------------------------- |
| Popis ljudi s njihovim telefonskim brojevima | Wikipedijine stranice s poveznicama | Tekst Enciklopedije Britannica |
| Temperatura u svim sobama zgrade svake minute tijekom posljednjih 20 godina | Zbirka znanstvenih radova u JSON formatu s autorima, datumima objave i sažecima | Datoteke s korporativnim dokumentima |
| Podaci o dobi i spolu svih ljudi koji ulaze u zgradu | Internetske stranice | Sirovi videozapis s nadzorne kamere |
| Temperatura u svim prostorijama zgrade svake minute tijekom zadnjih 20 godina | Zbirka znanstvenih radova u JSON formatu s autorima, datumom objave i sažetkom | Datoteke s korporativnim dokumentima |
| Podaci o dobi i spolu svih osoba koje ulaze u zgradu | Internetske stranice | Sirovi videozapis s nadzorne kamere |
## Gdje pronaći podatke
Postoji mnogo mogućih izvora podataka, i bilo bi nemoguće nabrojati ih sve! Međutim, spomenimo neka od tipičnih mjesta gdje možete pronaći podatke:
Postoji mnogo mogućih izvora podataka, i nemoguće je nabrojati sve! Međutim, spomenimo neke od tipičnih mjesta gdje možete pronaći podatke:
* **Strukturirani**
- **Internet stvari** (IoT), uključujući podatke s različitih senzora, poput senzora temperature ili tlaka, pruža mnogo korisnih podataka. Na primjer, ako je poslovna zgrada opremljena IoT senzorima, možemo automatski kontrolirati grijanje i rasvjetu kako bismo smanjili troškove.
- **Ankete** koje tražimo od korisnika da ispune nakon kupnje ili posjeta web stranici.
- **Analiza ponašanja** može nam, primjerice, pomoći razumjeti koliko duboko korisnik ulazi na stranicu i koji je tipičan razlog za napuštanje stranice.
- **Analiza ponašanja** može nam, na primjer, pomoći da razumijemo koliko duboko korisnik istražuje web stranicu i koji su tipični razlozi za napuštanje stranice.
* **Nestrukturirani**
- **Tekstovi** mogu biti bogat izvor uvida, poput ukupnog **sentiment skora** ili izdvajanja ključnih riječi i semantičkog značenja.
- **Slike** ili **videozapisi**. Videozapis s nadzorne kamere može se koristiti za procjenu prometa na cesti i informiranje ljudi o mogućim gužvama.
- **Tekstovi** mogu biti bogat izvor uvida, poput ukupnog **sentiment rezultata** ili izdvajanja ključnih riječi i semantičkog značenja.
- **Slike** ili **videozapisi**. Videozapis s nadzorne kamere može se koristiti za procjenu prometa na cesti i obavještavanje ljudi o potencijalnim gužvama.
- **Zapisi web poslužitelja** mogu se koristiti za razumijevanje koje stranice naše web stranice se najčešće posjećuju i koliko dugo.
* **Polustrukturirani**
- **Grafovi društvenih mreža** mogu biti izvrsni izvori podataka o osobnostima korisnika i potencijalnoj učinkovitosti u širenju informacija.
- Kada imamo niz fotografija s neke zabave, možemo pokušati izvući podatke o **dinamici grupe** izgradnjom grafa ljudi koji se fotografiraju zajedno.
- Kada imamo zbirku fotografija s neke zabave, možemo pokušati izvući podatke o **dinamici grupe** izradom grafa ljudi koji se fotografiraju zajedno.
Poznavanjem različitih mogućih izvora podataka, možete razmisliti o različitim scenarijima u kojima se tehnike znanosti o podacima mogu primijeniti kako biste bolje razumjeli situaciju i poboljšali poslovne procese.
Poznavanjem različitih mogućih izvora podataka možete razmišljati o različitim scenarijima u kojima se tehnike znanosti o podacima mogu primijeniti za bolje razumijevanje situacije i poboljšanje poslovnih procesa.
## Što možete učiniti s podacima
@ -43,15 +43,15 @@ Naravno, ovisno o stvarnim podacima, neki koraci mogu nedostajati (npr. kada ve
## Digitalizacija i digitalna transformacija
U posljednjem desetljeću mnoge su tvrtke počele shvaćati važnost podataka pri donošenju poslovnih odluka. Kako bi se primijenili principi znanosti o podacima na vođenje poslovanja, prvo je potrebno prikupiti neke podatke, tj. prevesti poslovne procese u digitalni oblik. To se naziva **digitalizacija**. Primjena tehnika znanosti o podacima na te podatke za donošenje odluka može dovesti do značajnog povećanja produktivnosti (ili čak promjene poslovnog smjera), što nazivamo **digitalnom transformacijom**.
U posljednjem desetljeću, mnoge su tvrtke počele shvaćati važnost podataka pri donošenju poslovnih odluka. Kako bi se primijenili principi znanosti o podacima na vođenje poslovanja, prvo je potrebno prikupiti neke podatke, tj. prevesti poslovne procese u digitalni oblik. To se naziva **digitalizacija**. Primjena tehnika znanosti o podacima na te podatke za donošenje odluka može dovesti do značajnog povećanja produktivnosti (ili čak poslovnog zaokreta), što nazivamo **digitalnom transformacijom**.
Razmotrimo primjer. Pretpostavimo da imamo tečaj znanosti o podacima (poput ovog) koji se održava online za studente, i želimo koristiti znanost o podacima kako bismo ga poboljšali. Kako to možemo učiniti?
Razmotrimo primjer. Pretpostavimo da imamo tečaj znanosti o podacima (poput ovog) koji se online dostavlja studentima, i želimo koristiti znanost o podacima za njegovo poboljšanje. Kako to možemo učiniti?
Možemo započeti pitanjem "Što se može digitalizirati?" Najjednostavniji način bio bi mjeriti vrijeme koje je svakom studentu potrebno za završetak svakog modula i mjeriti stečeno znanje davanjem testa s višestrukim izborom na kraju svakog modula. Prosječnim vremenom završetka za sve studente možemo otkriti koji moduli uzrokuju najviše poteškoća studentima i raditi na njihovom pojednostavljivanju.
Možemo započeti pitanjem "Što se može digitalizirati?" Najjednostavniji način bio bi mjerenje vremena koje svakom studentu treba za dovršavanje svakog modula, te mjerenje stečenog znanja davanjem testa s višestrukim izborom na kraju svakog modula. Prosječnim vremenom dovršavanja među svim studentima možemo otkriti koji moduli uzrokuju najviše poteškoća studentima i raditi na njihovom pojednostavljivanju.
Možete tvrditi da ovaj pristup nije idealan, jer moduli mogu biti različitih duljina. Vjerojatno je pravednije podijeliti vrijeme s duljinom modula (u broju znakova) i usporediti te vrijednosti umjesto toga.
Kada počnemo analizirati rezultate testova s višestrukim izborom, možemo pokušati utvrditi koje koncepte učenici teško razumiju i koristiti te informacije za poboljšanje sadržaja. Da bismo to postigli, trebamo osmisliti testove na način da svako pitanje odgovara određenom konceptu ili dijelu znanja.
Ako želimo ići još dalje, možemo usporediti vrijeme potrebno za svaki modul s dobnim kategorijama učenika. Možda ćemo otkriti da za neke dobne kategorije treba neproporcionalno dugo da završe modul ili da učenici odustaju prije nego što ga završe. To nam može pomoći da damo preporuke za dobne skupine za modul i smanjimo nezadovoljstvo zbog pogrešnih očekivanja.
Ako želimo ići još dublje, možemo usporediti vrijeme potrebno za svaki modul s dobnim kategorijama učenika. Možda ćemo otkriti da za neke dobne kategorije treba neprimjereno dugo vremena za dovršetak modula ili da učenici odustaju prije nego što ga završe. Ovo nam može pomoći da damo preporuke za module prema dobi i smanjimo nezadovoljstvo ljudi zbog pogrešnih očekivanja.
## 🚀 Izazov
@ -63,7 +63,7 @@ Posjetite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defini
> Ako ne znate kako pokrenuti kod u Jupyter Notebooku, pogledajte [ovaj članak](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Kviz nakon predavanja](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Kviz nakon predavanja](https://ff-quizzes.netlify.app/en/ds/)
## Zadaci
@ -77,4 +77,4 @@ Ovu lekciju s ljubavlju je napisao [Dmitry Soshnikov](http://soshnikov.com)
---
**Odricanje od odgovornosti**:
Ovaj dokument je preveden pomoću AI usluge za prevođenje [Co-op Translator](https://github.com/Azure/co-op-translator). Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane ljudskog prevoditelja. Ne preuzimamo odgovornost za bilo kakve nesporazume ili pogrešne interpretacije koje proizlaze iz korištenja ovog prijevoda.
Ovaj dokument je preveden pomoću AI usluge za prevođenje [Co-op Translator](https://github.com/Azure/co-op-translator). Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane čovjeka. Ne preuzimamo odgovornost za nesporazume ili pogrešna tumačenja koja mogu proizaći iz korištenja ovog prijevoda.

@ -1,23 +1,23 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-26T15:19:18+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:26:38+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "hu"
}
-->
## Adatelemzés és digitális átalakulás
Az elmúlt évtizedben sok vállalkozás kezdte felismerni az adatok fontosságát az üzleti döntések meghozatalában. Ahhoz, hogy az adatelemzés elveit alkalmazni lehessen egy vállalkozás működtetésében, először adatokat kell gyűjteni, azaz az üzleti folyamatokat digitális formába kell átültetni. Ezt nevezzük **digitalizációnak**. Az adatelemzési technikák alkalmazása ezekre az adatokra jelentős termelékenységnövekedést eredményezhet (vagy akár az üzleti modell átalakítását), amit **digitális átalakulásnak** nevezünk.
Az elmúlt évtizedben számos vállalkozás felismerte az adatok fontosságát az üzleti döntések meghozatalában. Ahhoz, hogy az adatelemzés elveit alkalmazni lehessen egy vállalkozás működtetésében, először adatokat kell gyűjteni, azaz az üzleti folyamatokat digitális formába kell átültetni. Ezt nevezzük **digitalizációnak**. Az adatelemzési technikák alkalmazása ezekre az adatokra jelentős termelékenységnövekedést eredményezhet (vagy akár az üzleti modell átalakítását), amit **digitális átalakulásnak** nevezünk.
Vegyünk egy példát. Tegyük fel, hogy van egy adatelemzési kurzusunk (mint ez), amelyet online módon kínálunk a diákoknak, és szeretnénk adatelemzést alkalmazni annak fejlesztésére. Hogyan tehetjük ezt meg?
Először is feltehetjük a kérdést: "Mit lehet digitalizálni?" A legegyszerűbb mód az lenne, ha mérnénk, mennyi időt vesz igénybe minden diáknak egy-egy modul elvégzése, és a megszerzett tudást egy feleletválasztós teszttel értékelnénk minden modul végén. Az összes diák átlagos modul-elvégzési idejének kiszámításával megtudhatjuk, mely modulok okozzák a legtöbb nehézséget a diákoknak, és dolgozhatunk azok egyszerűsítésén.
> Vitatható, hogy ez a megközelítés nem ideális, mivel a modulok hossza eltérő lehet. Valószínűleg igazságosabb lenne az időt a modul hosszával (karakterek száma alapján) elosztani, és az így kapott értékeket összehasonlítani.
Először is feltehetjük a kérdést: "Mi digitalizálható?" A legegyszerűbb mód az lenne, ha mérnénk, mennyi időt vesz igénybe minden egyes modul elvégzése a diákok számára, valamint a megszerzett tudást egy feleletválasztós teszt segítségével értékelnénk minden modul végén. Az összes diák átlagos modul-elvégzési idejének kiszámításával megállapíthatjuk, mely modulok okozzák a legtöbb nehézséget, és dolgozhatunk azok egyszerűsítésén.
> Vitatható, hogy ez a megközelítés nem ideális, mivel a modulok hossza eltérő lehet. Valószínűleg igazságosabb lenne az időt a modul hosszával (karakterek számával) elosztani, és az így kapott értékeket összehasonlítani.
Amikor elkezdjük elemezni a feleletválasztós tesztek eredményeit, megpróbálhatjuk meghatározni, hogy mely fogalmak megértése okoz nehézséget a diákoknak, és ezt az információt felhasználhatjuk a tartalom fejlesztésére. Ehhez úgy kell megterveznünk a teszteket, hogy minden kérdés egy adott fogalomhoz vagy tudáselemhez kapcsolódjon.
Ha még bonyolultabb elemzést szeretnénk végezni, összevethetjük az egyes modulok elvégzéséhez szükséges időt a diákok korcsoportjaival. Lehet, hogy kiderül, hogy bizonyos korcsoportok számára túl hosszú időt vesz igénybe a modul befejezése, vagy hogy a diákok még a modul befejezése előtt abbahagyják. Ez segíthet abban, hogy korosztályi ajánlásokat adjunk a modulhoz, és csökkentsük az emberek elégedetlenségét a téves elvárások miatt.
Ha még bonyolultabb elemzést szeretnénk végezni, összevethetjük az egyes modulok elvégzéséhez szükséges időt a diákok korcsoportjaival. Lehet, hogy kiderül, hogy bizonyos korcsoportok számára túl hosszú időt vesz igénybe a modul elvégzése, vagy hogy a diákok még a befejezés előtt abbahagyják. Ez segíthet abban, hogy korosztály-specifikus ajánlásokat adjunk a modulhoz, és csökkentsük az emberek elégedetlenségét a téves elvárások miatt.
## 🚀 Kihívás
@ -29,12 +29,12 @@ Látogass el a [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-d
> Ha nem tudod, hogyan kell kódot futtatni egy Jupyter Notebookban, nézd meg [ezt a cikket](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Előadás utáni kvíz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Előadás utáni kvíz](https://ff-quizzes.netlify.app/en/ds/)
## Feladatok
* **Feladat 1**: Módosítsd a fenti kódot, hogy az **Big Data** és **Machine Learning** területekhez kapcsolódó fogalmakat azonosítsd.
* **Feladat 2**: [Gondolkodj Data Science forgatókönyveken](assignment.md)
* **1. feladat**: Módosítsd a fenti kódot, hogy azonosítsd a **Big Data** és **Machine Learning** területeihez kapcsolódó fogalmakat.
* **2. feladat**: [Gondolkodj Data Science forgatókönyveken](assignment.md)
## Köszönetnyilvánítás
@ -43,4 +43,4 @@ Ezt a leckét ♥️-vel készítette [Dmitry Soshnikov](http://soshnikov.com).
---
**Felelősség kizárása**:
Ez a dokumentum az AI fordítási szolgáltatás, a [Co-op Translator](https://github.com/Azure/co-op-translator) segítségével lett lefordítva. Bár törekszünk a pontosságra, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az eredeti nyelvén tekintendő hiteles forrásnak. Kritikus információk esetén javasolt professzionális emberi fordítást igénybe venni. Nem vállalunk felelősséget semmilyen félreértésért vagy téves értelmezésért, amely a fordítás használatából eredhet.
Ez a dokumentum az [Co-op Translator](https://github.com/Azure/co-op-translator) AI fordítási szolgáltatás segítségével lett lefordítva. Bár törekszünk a pontosságra, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az eredeti nyelvén tekintendő hiteles forrásnak. Kritikus információk esetén javasolt professzionális emberi fordítást igénybe venni. Nem vállalunk felelősséget a fordítás használatából eredő félreértésekért vagy téves értelmezésekért.

@ -1,105 +1,61 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-28T18:56:03+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:23:34+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "id"
}
-->
# Mendefinisikan Ilmu Data
| ![ Sketchnote oleh [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------: |
| Mendefinisikan Ilmu Data - _Sketchnote oleh [@nitya](https://twitter.com/nitya)_ |
---
[![Video Mendefinisikan Ilmu Data](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.id.png)](https://youtu.be/beZ7Mb_oz9I)
## [Kuis Pra-Kuliah](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## Apa itu Data?
Dalam kehidupan sehari-hari, kita selalu dikelilingi oleh data. Teks yang sedang Anda baca sekarang adalah data. Daftar nomor telepon teman-teman Anda di ponsel adalah data, begitu juga dengan waktu saat ini yang ditampilkan di jam tangan Anda. Sebagai manusia, kita secara alami beroperasi dengan data, seperti menghitung uang yang kita miliki atau menulis surat kepada teman.
Namun, data menjadi jauh lebih penting dengan adanya komputer. Peran utama komputer adalah melakukan perhitungan, tetapi mereka memerlukan data untuk diolah. Oleh karena itu, kita perlu memahami bagaimana komputer menyimpan dan memproses data.
Dengan munculnya Internet, peran komputer sebagai perangkat pengolah data semakin meningkat. Jika dipikirkan, kita sekarang lebih sering menggunakan komputer untuk memproses dan berkomunikasi data daripada untuk perhitungan sebenarnya. Ketika kita menulis email kepada teman atau mencari informasi di Internet, kita pada dasarnya sedang menciptakan, menyimpan, mengirimkan, dan memanipulasi data.
> Bisakah Anda mengingat kapan terakhir kali Anda menggunakan komputer untuk benar-benar menghitung sesuatu?
## Apa itu Ilmu Data?
Menurut [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **Ilmu Data** didefinisikan sebagai *bidang ilmiah yang menggunakan metode ilmiah untuk mengekstrak pengetahuan dan wawasan dari data terstruktur dan tidak terstruktur, serta menerapkan pengetahuan dan wawasan yang dapat ditindaklanjuti dari data di berbagai domain aplikasi*.
Definisi ini menyoroti beberapa aspek penting dari ilmu data:
* Tujuan utama ilmu data adalah **mengekstrak pengetahuan** dari data, dengan kata lain - untuk **memahami** data, menemukan hubungan tersembunyi, dan membangun **model**.
* Ilmu data menggunakan **metode ilmiah**, seperti probabilitas dan statistik. Faktanya, ketika istilah *ilmu data* pertama kali diperkenalkan, beberapa orang berpendapat bahwa ilmu data hanyalah nama baru yang keren untuk statistik. Namun, sekarang telah jelas bahwa bidang ini jauh lebih luas.
* Pengetahuan yang diperoleh harus diterapkan untuk menghasilkan **wawasan yang dapat ditindaklanjuti**, yaitu wawasan praktis yang dapat diterapkan pada situasi bisnis nyata.
* Kita harus mampu mengolah data **terstruktur** maupun **tidak terstruktur**. Kita akan kembali membahas berbagai jenis data ini nanti dalam kursus.
* **Domain aplikasi** adalah konsep penting, dan ilmuwan data sering kali memerlukan setidaknya sedikit keahlian dalam domain masalah, misalnya: keuangan, kedokteran, pemasaran, dll.
> Aspek penting lain dari Ilmu Data adalah mempelajari bagaimana data dapat dikumpulkan, disimpan, dan diolah menggunakan komputer. Sementara statistik memberikan dasar matematika, ilmu data menerapkan konsep matematika untuk benar-benar mendapatkan wawasan dari data.
Salah satu cara (yang dikaitkan dengan [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) untuk melihat ilmu data adalah menganggapnya sebagai paradigma ilmu pengetahuan yang terpisah:
* **Empiris**, di mana kita terutama mengandalkan observasi dan hasil eksperimen
* **Teoretis**, di mana konsep baru muncul dari pengetahuan ilmiah yang sudah ada
* **Komputasional**, di mana kita menemukan prinsip baru berdasarkan eksperimen komputasi
* **Berbasis Data**, berdasarkan penemuan hubungan dan pola dalam data
## Bidang Terkait Lainnya
Karena data ada di mana-mana, ilmu data itu sendiri juga merupakan bidang yang luas, yang menyentuh banyak disiplin ilmu lainnya.
## Jenis Data
Seperti yang telah disebutkan, data ada di mana-mana. Kita hanya perlu menangkapnya dengan cara yang tepat! Penting untuk membedakan antara **data terstruktur** dan **tidak terstruktur**. Data terstruktur biasanya direpresentasikan dalam bentuk yang terorganisir dengan baik, sering kali sebagai tabel atau sejumlah tabel, sedangkan data tidak terstruktur hanyalah kumpulan file. Kadang-kadang kita juga dapat berbicara tentang **data semi-terstruktur**, yang memiliki semacam struktur yang dapat sangat bervariasi.
Seperti yang telah disebutkan sebelumnya, data ada di mana-mana. Kita hanya perlu menangkapnya dengan cara yang tepat! Penting untuk membedakan antara **data terstruktur** dan **data tidak terstruktur**. Data terstruktur biasanya direpresentasikan dalam bentuk yang terorganisir dengan baik, sering kali berupa tabel atau sejumlah tabel, sedangkan data tidak terstruktur hanyalah kumpulan file. Kadang-kadang kita juga dapat berbicara tentang **data semi-terstruktur**, yang memiliki semacam struktur yang dapat sangat bervariasi.
| Terstruktur | Semi-terstruktur | Tidak Terstruktur |
| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- |
| Terstruktur | Semi-terstruktur | Tidak terstruktur |
| --------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- |
| Daftar orang dengan nomor telepon mereka | Halaman Wikipedia dengan tautan | Teks dari Ensiklopedia Britannica |
| Suhu di semua ruangan sebuah gedung setiap menit selama 20 tahun terakhir | Koleksi makalah ilmiah dalam format JSON dengan penulis, tanggal publikasi, dan abstrak | Berkas dokumen perusahaan |
| Data usia dan jenis kelamin semua orang yang memasuki gedung | Halaman internet | Rekaman video mentah dari kamera CCTV |
| Suhu di semua ruangan gedung setiap menit selama 20 tahun terakhir | Kumpulan makalah ilmiah dalam format JSON dengan penulis, tanggal publikasi, dan abstrak | File berbagi dengan dokumen perusahaan |
| Data usia dan jenis kelamin semua orang yang masuk ke gedung | Halaman internet | Rekaman video mentah dari kamera pengawas |
## Dari Mana Mendapatkan Data
## Sumber Data
Ada banyak sumber data yang mungkin, dan tidak mungkin untuk mencantumkan semuanya! Namun, mari kita sebutkan beberapa tempat khas di mana Anda dapat memperoleh data:
Ada banyak sumber data yang mungkin, dan tidak mungkin untuk mencantumkan semuanya! Namun, mari kita sebutkan beberapa tempat umum di mana Anda dapat memperoleh data:
* **Terstruktur**
- **Internet of Things** (IoT), termasuk data dari berbagai sensor, seperti sensor suhu atau tekanan, menyediakan banyak data yang berguna. Misalnya, jika sebuah gedung perkantoran dilengkapi dengan sensor IoT, kita dapat secara otomatis mengontrol pemanasan dan pencahayaan untuk meminimalkan biaya.
- **Survei** yang kita minta pengguna untuk mengisi setelah pembelian, atau setelah mengunjungi situs web.
- **Analisis perilaku** dapat, misalnya, membantu kita memahami seberapa dalam pengguna menjelajahi situs, dan apa alasan utama mereka meninggalkan situs.
* **Tidak Terstruktur**
- **Teks** dapat menjadi sumber wawasan yang kaya, seperti **skor sentimen** secara keseluruhan, atau mengekstraksi kata kunci dan makna semantik.
- **Gambar** atau **Video**. Rekaman video dari kamera pengawas dapat digunakan untuk memperkirakan lalu lintas di jalan, dan memberi tahu orang-orang tentang potensi kemacetan.
- **Internet of Things** (IoT), termasuk data dari berbagai sensor seperti sensor suhu atau tekanan, menyediakan banyak data yang berguna. Misalnya, jika sebuah gedung perkantoran dilengkapi dengan sensor IoT, kita dapat secara otomatis mengontrol pemanasan dan pencahayaan untuk meminimalkan biaya.
- **Survei** yang kita minta pengguna untuk isi setelah melakukan pembelian, atau setelah mengunjungi situs web.
- **Analisis perilaku** dapat membantu kita memahami seberapa dalam pengguna menjelajahi situs, dan apa alasan umum mereka meninggalkan situs.
* **Tidak terstruktur**
- **Teks** dapat menjadi sumber wawasan yang kaya, seperti skor **sentimen keseluruhan**, atau ekstraksi kata kunci dan makna semantik.
- **Gambar** atau **Video**. Video dari kamera pengawas dapat digunakan untuk memperkirakan lalu lintas di jalan dan memberi tahu orang-orang tentang potensi kemacetan.
- **Log** server web dapat digunakan untuk memahami halaman mana dari situs kita yang paling sering dikunjungi, dan berapa lama.
* **Semi-terstruktur**
- Grafik **Jejaring Sosial** dapat menjadi sumber data yang hebat tentang kepribadian pengguna dan potensi efektivitas dalam menyebarkan informasi.
- Ketika kita memiliki sekumpulan foto dari sebuah pesta, kita dapat mencoba mengekstrak data **Dinamika Kelompok** dengan membangun grafik orang-orang yang berfoto bersama.
- Ketika kita memiliki kumpulan foto dari sebuah pesta, kita dapat mencoba mengekstrak data **Dinamika Kelompok** dengan membangun grafik orang-orang yang berfoto bersama.
Dengan mengetahui berbagai sumber data yang mungkin, Anda dapat mencoba memikirkan berbagai skenario di mana teknik ilmu data dapat diterapkan untuk memahami situasi dengan lebih baik, dan meningkatkan proses bisnis.
Dengan mengetahui berbagai sumber data yang mungkin, Anda dapat mencoba memikirkan berbagai skenario di mana teknik data science dapat diterapkan untuk memahami situasi dengan lebih baik, dan meningkatkan proses bisnis.
## Apa yang Bisa Dilakukan dengan Data
Dalam Ilmu Data, kita fokus pada langkah-langkah berikut dalam perjalanan data:
Dalam Data Science, kita fokus pada langkah-langkah berikut dalam perjalanan data:
Tentu saja, tergantung pada data yang sebenarnya, beberapa langkah mungkin tidak diperlukan (misalnya, ketika kita sudah memiliki data di database, atau ketika kita tidak memerlukan pelatihan model), atau beberapa langkah mungkin diulang beberapa kali (seperti pemrosesan data).
Tentu saja, tergantung pada data yang sebenarnya, beberapa langkah mungkin tidak diperlukan (misalnya, ketika kita sudah memiliki data di database, atau ketika kita tidak perlu melatih model), atau beberapa langkah mungkin diulang beberapa kali (seperti pemrosesan data).
## Digitalisasi dan Transformasi Digital
Dalam dekade terakhir, banyak bisnis mulai memahami pentingnya data dalam pengambilan keputusan bisnis. Untuk menerapkan prinsip-prinsip ilmu data dalam menjalankan bisnis, pertama-tama kita perlu mengumpulkan data, yaitu menerjemahkan proses bisnis ke dalam bentuk digital. Ini dikenal sebagai **digitalisasi**. Menerapkan teknik ilmu data pada data ini untuk memandu keputusan dapat menghasilkan peningkatan produktivitas yang signifikan (atau bahkan perubahan arah bisnis), yang disebut **transformasi digital**.
Dalam dekade terakhir, banyak bisnis mulai memahami pentingnya data dalam membuat keputusan bisnis. Untuk menerapkan prinsip-prinsip data science dalam menjalankan bisnis, pertama-tama kita perlu mengumpulkan data, yaitu menerjemahkan proses bisnis ke dalam bentuk digital. Ini dikenal sebagai **digitalisasi**. Menerapkan teknik data science pada data ini untuk memandu keputusan dapat menghasilkan peningkatan produktivitas yang signifikan (atau bahkan perubahan arah bisnis), yang disebut **transformasi digital**.
Mari kita pertimbangkan sebuah contoh. Misalkan kita memiliki kursus ilmu data (seperti ini) yang kita sampaikan secara online kepada siswa, dan kita ingin menggunakan ilmu data untuk meningkatkannya. Bagaimana kita bisa melakukannya?
Mari kita pertimbangkan sebuah contoh. Misalkan kita memiliki kursus data science (seperti yang ini) yang kita sampaikan secara online kepada siswa, dan kita ingin menggunakan data science untuk meningkatkannya. Bagaimana kita bisa melakukannya?
Kita dapat mulai dengan bertanya "Apa yang bisa didigitalisasi?" Cara paling sederhana adalah dengan mengukur waktu yang dibutuhkan setiap siswa untuk menyelesaikan setiap modul, dan mengukur pengetahuan yang diperoleh dengan memberikan tes pilihan ganda di akhir setiap modul. Dengan menghitung rata-rata waktu penyelesaian di seluruh siswa, kita dapat mengetahui modul mana yang paling sulit bagi siswa, dan bekerja untuk menyederhanakannya.
Kita dapat mulai dengan bertanya "Apa yang bisa didigitalisasi?" Cara paling sederhana adalah dengan mengukur waktu yang dibutuhkan setiap siswa untuk menyelesaikan setiap modul, dan mengukur pengetahuan yang diperoleh dengan memberikan tes pilihan ganda di akhir setiap modul. Dengan merata-rata waktu penyelesaian di seluruh siswa, kita dapat mengetahui modul mana yang paling sulit bagi siswa, dan bekerja untuk menyederhanakannya.
Anda mungkin berpendapat bahwa pendekatan ini tidak ideal, karena modul dapat memiliki panjang yang berbeda. Mungkin lebih adil untuk membagi waktu berdasarkan panjang modul (dalam jumlah karakter), dan membandingkan nilai-nilai tersebut sebagai gantinya.
Ketika kita mulai menganalisis hasil tes pilihan ganda, kita dapat mencoba menentukan konsep mana yang sulit dipahami oleh siswa, dan menggunakan informasi tersebut untuk meningkatkan konten. Untuk melakukannya, kita perlu merancang tes sedemikian rupa sehingga setiap pertanyaan terkait dengan konsep atau bagian pengetahuan tertentu.
Ketika kita mulai menganalisis hasil tes pilihan ganda, kita dapat mencoba menentukan konsep mana yang sulit dipahami oleh siswa, dan menggunakan informasi tersebut untuk meningkatkan konten. Untuk melakukan itu, kita perlu merancang tes sedemikian rupa sehingga setiap pertanyaan terhubung dengan konsep atau bagian pengetahuan tertentu.
Jika kita ingin membuatnya lebih rumit, kita dapat memplot waktu yang dibutuhkan untuk setiap modul terhadap kategori usia siswa. Kita mungkin menemukan bahwa untuk beberapa kategori usia, dibutuhkan waktu yang terlalu lama untuk menyelesaikan modul, atau siswa berhenti sebelum menyelesaikannya. Hal ini dapat membantu kita memberikan rekomendasi usia untuk modul tersebut, dan meminimalkan ketidakpuasan orang akibat ekspektasi yang salah.
Jika kita ingin lebih kompleks, kita dapat memplot waktu yang diperlukan untuk setiap modul terhadap kategori usia siswa. Kita mungkin menemukan bahwa untuk beberapa kategori usia, waktu yang diperlukan untuk menyelesaikan modul terlalu lama, atau siswa berhenti sebelum menyelesaikannya. Hal ini dapat membantu kita memberikan rekomendasi usia untuk modul tersebut, dan meminimalkan ketidakpuasan orang akibat ekspektasi yang salah.
## 🚀 Tantangan
Dalam tantangan ini, kita akan mencoba menemukan konsep-konsep yang relevan dengan bidang Data Science dengan melihat teks. Kita akan mengambil artikel Wikipedia tentang Data Science, mengunduh dan memproses teksnya, lalu membuat word cloud seperti ini:
Dalam tantangan ini, kita akan mencoba menemukan konsep yang relevan dengan bidang Data Science dengan melihat teks. Kita akan mengambil artikel Wikipedia tentang Data Science, mengunduh dan memproses teksnya, lalu membuat word cloud seperti ini:
![Word Cloud untuk Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.id.png)
@ -107,18 +63,18 @@ Kunjungi [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-definin
> Jika Anda tidak tahu cara menjalankan kode di Jupyter Notebook, lihat [artikel ini](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Kuis setelah kuliah](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Kuis setelah kuliah](https://ff-quizzes.netlify.app/en/ds/)
## Tugas
* **Tugas 1**: Modifikasi kode di atas untuk menemukan konsep terkait untuk bidang **Big Data** dan **Machine Learning**
* **Tugas 2**: [Pikirkan Tentang Skenario Data Science](assignment.md)
* **Tugas 2**: [Pikirkan tentang Skenario Data Science](assignment.md)
## Kredit
Pelajaran ini dibuat dengan ♥️ oleh [Dmitry Soshnikov](http://soshnikov.com)
Pelajaran ini telah dibuat dengan ♥️ oleh [Dmitry Soshnikov](http://soshnikov.com)
---
**Penafian**:
Dokumen ini telah diterjemahkan menggunakan layanan penerjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Meskipun kami berusaha untuk memberikan hasil yang akurat, harap diingat bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang otoritatif. Untuk informasi yang bersifat kritis, disarankan menggunakan jasa penerjemahan profesional oleh manusia. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang keliru yang timbul dari penggunaan terjemahan ini.
Dokumen ini telah diterjemahkan menggunakan layanan penerjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Meskipun kami berusaha untuk memberikan hasil yang akurat, harap diketahui bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang otoritatif. Untuk informasi yang bersifat kritis, disarankan menggunakan jasa penerjemahan profesional oleh manusia. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang keliru yang timbul dari penggunaan terjemahan ini.

@ -1,8 +1,8 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-28T11:22:48+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:13:51+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "it"
}
@ -22,7 +22,7 @@ Come abbiamo già accennato, i dati sono ovunque. Basta catturarli nel modo gius
Esistono molte possibili fonti di dati, ed è impossibile elencarle tutte! Tuttavia, menzioniamo alcune delle fonti tipiche da cui è possibile ottenere dati:
* **Strutturati**
- **Internet of Things** (IoT), inclusi dati provenienti da diversi sensori, come sensori di temperatura o pressione, che forniscono molti dati utili. Ad esempio, se un edificio per uffici è dotato di sensori IoT, possiamo controllare automaticamente il riscaldamento e l'illuminazione per ridurre i costi.
- **Internet delle Cose** (IoT), inclusi dati provenienti da diversi sensori, come sensori di temperatura o pressione, che forniscono molti dati utili. Ad esempio, se un edificio per uffici è dotato di sensori IoT, possiamo controllare automaticamente il riscaldamento e l'illuminazione per ridurre i costi.
- **Sondaggi** che chiediamo agli utenti di completare dopo un acquisto o dopo aver visitato un sito web.
- **Analisi del comportamento** può, ad esempio, aiutarci a capire quanto profondamente un utente esplora un sito e qual è il motivo tipico per cui lo abbandona.
* **Non strutturati**
@ -46,8 +46,8 @@ Nell'ultimo decennio, molte aziende hanno iniziato a comprendere l'importanza de
Consideriamo un esempio. Supponiamo di avere un corso di data science (come questo) che offriamo online agli studenti e vogliamo utilizzare la data science per migliorarlo. Come possiamo farlo?
Possiamo iniziare chiedendoci "Cosa può essere digitalizzato?" Il modo più semplice sarebbe misurare il tempo che ogni studente impiega per completare ogni modulo e valutare le conoscenze acquisite somministrando un test a scelta multipla alla fine di ogni modulo. Calcolando la media del tempo di completamento tra tutti gli studenti, possiamo scoprire quali moduli causano maggiori difficoltà e lavorare per semplificarli.
> Potresti obiettare che questo approccio non sia ideale, poiché i moduli possono avere lunghezze diverse. Probabilmente sarebbe più equo dividere il tempo per la lunghezza del modulo (in numero di caratteri) e confrontare invece quei valori.
Quando iniziamo ad analizzare i risultati dei test a scelta multipla, possiamo cercare di determinare quali concetti gli studenti trovano difficili da comprendere e utilizzare queste informazioni per migliorare il contenuto. Per farlo, dobbiamo progettare i test in modo che ogni domanda sia collegata a un determinato concetto o blocco di conoscenza.
Potresti sostenere che questo approccio non sia ideale, perché i moduli possono avere lunghezze diverse. Probabilmente è più equo dividere il tempo per la lunghezza del modulo (in numero di caratteri) e confrontare quei valori invece.
Quando iniziamo ad analizzare i risultati dei test a scelta multipla, possiamo cercare di determinare quali concetti gli studenti trovano difficili da comprendere e utilizzare queste informazioni per migliorare i contenuti. Per farlo, dobbiamo progettare i test in modo che ogni domanda sia associata a un determinato concetto o blocco di conoscenza.
Se vogliamo complicare ulteriormente l'analisi, possiamo tracciare il tempo impiegato per ogni modulo rispetto alla categoria di età degli studenti. Potremmo scoprire che per alcune categorie di età il completamento del modulo richiede un tempo eccessivamente lungo, oppure che gli studenti abbandonano prima di completarlo. Questo può aiutarci a fornire raccomandazioni di età per il modulo e a ridurre l'insoddisfazione derivante da aspettative errate.
@ -57,16 +57,16 @@ In questa sfida, cercheremo di individuare concetti rilevanti per il campo della
![Word Cloud per Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.it.png)
Visita [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') per leggere il codice. Puoi anche eseguire il codice e vedere come effettua tutte le trasformazioni dei dati in tempo reale.
Visita [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') per leggere il codice. Puoi anche eseguire il codice e vedere come trasforma i dati in tempo reale.
> Se non sai come eseguire il codice in un Jupyter Notebook, dai un'occhiata a [questo articolo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Quiz post-lezione](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Quiz post-lezione](https://ff-quizzes.netlify.app/en/ds/)
## Compiti
* **Compito 1**: Modifica il codice sopra per individuare concetti correlati ai campi di **Big Data** e **Machine Learning**
* **Compito 2**: [Rifletti sugli scenari della Data Science](assignment.md)
* **Compito 2**: [Pensa a scenari di Data Science](assignment.md)
## Crediti
@ -75,4 +75,4 @@ Questa lezione è stata scritta con ♥️ da [Dmitry Soshnikov](http://soshniko
---
**Disclaimer**:
Questo documento è stato tradotto utilizzando il servizio di traduzione automatica [Co-op Translator](https://github.com/Azure/co-op-translator). Sebbene ci impegniamo per garantire l'accuratezza, si prega di notare che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa dovrebbe essere considerato la fonte autorevole. Per informazioni critiche, si consiglia una traduzione professionale eseguita da un traduttore umano. Non siamo responsabili per eventuali fraintendimenti o interpretazioni errate derivanti dall'uso di questa traduzione.
Questo documento è stato tradotto utilizzando il servizio di traduzione automatica [Co-op Translator](https://github.com/Azure/co-op-translator). Sebbene ci impegniamo per garantire l'accuratezza, si prega di notare che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa dovrebbe essere considerato la fonte autorevole. Per informazioni critiche, si raccomanda una traduzione professionale effettuata da un traduttore umano. Non siamo responsabili per eventuali incomprensioni o interpretazioni errate derivanti dall'uso di questa traduzione.

@ -1,33 +1,33 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-25T16:54:25+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:05:59+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "ja"
}
-->
## データの種類
すでに述べたように、データは至る所に存在しています。ただし、適切な方法で収集する必要があります!データには**構造化データ**と**非構造化データ**を区別することが有用です。構造化データは通常、表や複数の表の形式で整理されており、非構造化データは単なるファイルの集合です。また、**半構造化データ**についても話すことがあり、これはある程度の構造を持ちながらもその形式が大きく異なる場合があります。
すでに述べたように、データは至る所に存在しています。ただし、適切な方法で収集する必要があります!データには**構造化データ**と**非構造化データ**を区別することが有用です。構造化データは通常、表や複数の表の形式で整理されており、非構造化データは単なるファイルの集合です。また、**半構造化データ**についても話すことがあり、これはある程度の構造を持ちながらもその形式が大きく異なる場合があります。
| 構造化データ | 半構造化データ | 非構造化データ |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| 人々の電話番号リスト | リンク付きのWikipediaページ | ブリタニカ百科事典のテキスト |
| 過去20年間の建物内の各部屋の毎分の温度 | 著者、出版日、要約を含むJSON形式の科学論文のコレクション | 企業文書が保存されたファイル共有 |
| 建物に入るすべての人の年齢と性別のデータ | インターネットページ | 監視カメラの生のビデオフィード |
| 建物に入るすべての人の年齢と性別のデータ | インターネットページ | 監視カメラの生のビデオフィード |
## データの入手先
データの入手先は非常に多岐にわたり、すべてを挙げることは不可能です!しかし、典型的なデータの入手先をいくつか挙げてみましょう。
データの入手先は非常に多岐にわたり、すべてを列挙することは不可能です!しかし、典型的なデータの入手先をいくつか挙げてみましょう。
* **構造化データ**
- **IoTのインターネット**温度センサーや圧力センサーなど、さまざまなセンサーからのデータは非常に有用です。例えば、オフィスビルがIoTセンサーで装備されている場合、暖房や照明を自動的に制御してコストを最小化することができます。
- **IoTのインターネット**温度センサーや圧力センサーなど、さまざまなセンサーからのデータは非常に有用です。例えば、オフィスビルがIoTセンサーを備えている場合、暖房や照明を自動的に制御してコストを最小化することができます。
- **アンケート**:購入後やウェブサイト訪問後にユーザーに回答を求めるアンケート。
- **行動分析**:例えば、ユーザーがサイト内でどれだけ深く進むか、またはサイトを離れる典型的な理由を理解するのに役立ちます。
* **非構造化データ**
- **テキスト**:全体的な**感情スコア**やキーワード抽出、意味の解析など、豊富な洞察を提供します。
- **画像**や**ビデオ**:監視カメラのビデオは道路の交通量を推定し、交通渋滞の可能性を人々に知らせるのに役立ちます。
- **画像**や**ビデオ**:監視カメラのビデオは道路の交通量を推定し、渋滞の可能性を人々に知らせるのに役立ちます。
- ウェブサーバーの**ログ**:サイトのどのページが最も頻繁に訪問されているか、またその滞在時間を理解するのに役立ちます。
* **半構造化データ**
- **ソーシャルネットワーク**のグラフ:ユーザーの性格や情報拡散の効果を知るための優れたデータ源となります。
@ -37,7 +37,7 @@ CO_OP_TRANSLATOR_METADATA:
## データでできること
データサイエンスでは、データの旅の以下のステップに焦点を当てます:
データサイエンスでは、データの旅ののステップに焦点を当てます:
もちろん、実際のデータに応じて、いくつかのステップが省略される場合があります(例:すでにデータがデータベースにある場合や、モデルのトレーニングが不要な場合)。また、いくつかのステップが何度も繰り返される場合もあります(例:データ処理)。
@ -48,22 +48,22 @@ CO_OP_TRANSLATOR_METADATA:
例を考えてみましょう。オンラインで学生に提供するデータサイエンスコース(このコースのようなもの)があり、それを改善するためにデータサイエンスを活用したいとします。どのようにすればよいでしょうか?
まず、「何をデジタル化できるか?」を考えることから始めます。最も簡単な方法は、各モジュールを完了するのにかかる時間を測定し、各モジュールの終了時に選択式テストを実施して得られる知識を測定することです。すべての学生の平均完了時間を計算することで、学生にとって最も難しいモジュールを特定し、それを簡素化するために取り組むことができます。
モジュールの長さが異なる場合があるため、このアプローチが理想的ではないと主張するかもしれません。モジュールの長さ(文字数)で時間を割り、その値を比較する方がより公平である可能性があります
複数選択式テストの結果を分析し始めると、学生が理解に苦労している概念を特定し、その情報を使って内容を改善することができます。そのためには、各質問が特定の概念や知識の塊に対応するようにテストを設計する必要があります。
モジュールの長さが異なる可能性があるため、このアプローチが理想的ではないと主張するかもしれません。モジュールの長さ(文字数)で時間を割り、その値を比較する方がより公平かもしれません
複数選択式テストの結果を分析し始めると、学生が理解に苦労している概念を特定し、その情報を使ってコンテンツを改善することができます。そのためには、各質問が特定の概念や知識の塊に対応するようにテストを設計する必要があります。
さらに複雑にしたい場合は、各モジュールにかかる時間を学生の年齢カテゴリと比較してプロットすることができます。ある年齢カテゴリではモジュールを完了するのに不適切に長い時間がかかる、または完了する前に学生が離脱してしまうことが分かるかもしれません。これにより、モジュールに対する年齢推奨を提供し、誤った期待による不満を最小限に抑えることができます。
さらに複雑にしたい場合は、各モジュールにかかった時間を学生の年齢カテゴリと比較してプロットすることもできます。ある年齢カテゴリではモジュールを完了するのに不適切に長い時間がかかる、または学生が完了する前に離脱してしまうことが分かるかもしれません。この情報を活用して、モジュールの年齢推奨を提供し、誤った期待による不満を最小限に抑えることができます。
## 🚀 チャレンジ
このチャレンジでは、テキストを調べることでデータサイエンス分野に関連する概念を見つけようとします。データサイエンスに関するWikipediaの記事を取得し、テキストを処理し、以下のようなワードクラウドを作成します:
このチャレンジでは、テキストを分析してデータサイエンスの分野に関連する概念を見つけることを試みます。データサイエンスに関するWikipediaの記事を取得し、テキストを処理した後、以下のようなワードクラウドを作成します:
![データサイエンスのワードクラウド](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ja.png)
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') を訪れてコードを読んでみてください。また、コードを実行して、データ変換がリアルタイムでどのように行われるかを確認することもできます。
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') を訪問してコードを確認してください。コードを実行して、データ変換がリアルタイムでどのように行われるかを見ることもできます。
> Jupyter Notebookでコードを実行する方法が分からない場合は、[この記事](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)を参照してください。
## [講義後のクイズ](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [講義後のクイズ](https://ff-quizzes.netlify.app/en/ds/)
## 課題
@ -72,7 +72,9 @@ CO_OP_TRANSLATOR_METADATA:
## クレジット
このレッスンは [Dmitry Soshnikov](http://soshnikov.com) によって ♥️ を込めて作成されました。
このレッスンは[ドミトリー・ソシュニコフ](http://soshnikov.com)によって♥️を込めて作成されました。
---
**免責事項**:
この文書は、AI翻訳サービス [Co-op Translator](https://github.com/Azure/co-op-translator) を使用して翻訳されています。正確性を追求しておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があることをご承知ください。元の言語で記載された文書が正式な情報源とみなされるべきです。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤解釈について、当方は一切の責任を負いません。

@ -1,101 +1,57 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-25T16:55:22+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:06:47+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "ko"
}
-->
# 데이터 과학 정의하기
| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------: |
| 데이터 과학 정의하기 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
---
[![데이터 과학 정의하기 비디오](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.ko.png)](https://youtu.be/beZ7Mb_oz9I)
## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## 데이터란 무엇인가?
우리의 일상생활은 데이터로 가득 차 있습니다. 지금 읽고 있는 이 텍스트도 데이터입니다. 스마트폰에 저장된 친구들의 전화번호 목록, 시계에 표시된 현재 시간도 데이터입니다. 인간은 돈을 세거나 친구에게 편지를 쓰는 등 자연스럽게 데이터를 다루며 살아갑니다.
하지만 컴퓨터가 발명되면서 데이터는 훨씬 더 중요한 역할을 하게 되었습니다. 컴퓨터의 주요 역할은 계산을 수행하는 것이지만, 이를 위해서는 데이터가 필요합니다. 따라서 컴퓨터가 데이터를 저장하고 처리하는 방식을 이해해야 합니다.
인터넷이 등장하면서 컴퓨터의 데이터 처리 장치로서의 역할이 더욱 커졌습니다. 생각해보면, 우리는 이제 실제 계산보다는 데이터 처리와 통신을 위해 컴퓨터를 더 많이 사용합니다. 친구에게 이메일을 쓰거나 인터넷에서 정보를 검색할 때, 우리는 데이터를 생성하고, 저장하고, 전송하며 조작하고 있는 것입니다.
> 마지막으로 컴퓨터를 실제 계산 목적으로 사용한 적이 언제였는지 기억나시나요?
## 데이터 과학이란 무엇인가?
[위키피디아](https://en.wikipedia.org/wiki/Data_science)에 따르면, **데이터 과학**은 *구조화된 데이터와 비구조화된 데이터에서 지식과 통찰을 추출하고, 이를 다양한 응용 분야에 적용하는 과학적 방법을 사용하는 학문 분야*로 정의됩니다.
이 정의는 데이터 과학의 다음과 같은 중요한 측면을 강조합니다:
* 데이터 과학의 주요 목표는 데이터를 통해 **지식을 추출**하는 것입니다. 즉, 데이터를 **이해**하고, 숨겨진 관계를 발견하며, **모델**을 구축하는 것입니다.
* 데이터 과학은 확률과 통계와 같은 **과학적 방법**을 사용합니다. 사실, *데이터 과학*이라는 용어가 처음 등장했을 때, 일부 사람들은 데이터 과학이 통계학의 새로운 멋진 이름일 뿐이라고 주장했습니다. 하지만 오늘날 데이터 과학은 훨씬 더 넓은 분야로 자리 잡았습니다.
* 얻어진 지식은 **실질적인 통찰**을 제공해야 합니다. 즉, 실제 비즈니스 상황에 적용할 수 있는 실용적인 통찰이어야 합니다.
* 우리는 **구조화된 데이터**와 **비구조화된 데이터** 모두를 다룰 수 있어야 합니다. 데이터의 다양한 유형에 대해서는 이 과정에서 나중에 다시 논의할 것입니다.
* **응용 분야**는 중요한 개념이며, 데이터 과학자는 종종 금융, 의학, 마케팅 등 문제 도메인에 대한 일정 수준의 전문 지식이 필요합니다.
> 데이터 과학의 또 다른 중요한 측면은 데이터가 컴퓨터를 사용하여 어떻게 수집되고, 저장되고, 처리될 수 있는지를 연구한다는 점입니다. 통계학이 수학적 기초를 제공한다면, 데이터 과학은 수학적 개념을 실제로 데이터에서 통찰을 도출하는 데 적용합니다.
[짐 그레이](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))에게 귀속된 한 가지 관점은 데이터 과학을 별도의 과학 패러다임으로 보는 것입니다:
* **경험적**: 관찰과 실험 결과에 주로 의존
* **이론적**: 기존 과학 지식에서 새로운 개념 도출
* **계산적**: 계산 실험을 기반으로 새로운 원리 발견
* **데이터 기반**: 데이터에서 관계와 패턴 발견
## 관련 분야
데이터는 어디에나 존재하기 때문에, 데이터 과학 자체도 매우 광범위하며 여러 다른 학문과 연결됩니다.
## 데이터의 유형
앞서 언급했듯이, 데이터는 어디에나 존재합니다. 단지 올바른 방식으로 이를 포착하면 됩니다! 데이터는 **구조화된 데이터**와 **비구조화된 데이터**로 구분할 수 있습니다. 구조화된 데이터는 일반적으로 표나 여러 개의 표 형태로 잘 정리된 형태로 표현되며, 비구조화된 데이터는 단순히 파일 모음일 뿐입니다. 때로는 **반구조화된 데이터**도 언급되는데, 이는 일정한 구조를 가지지만 그 구조가 크게 다를 수 있는 데이터를 말합니다.
이미 언급했듯이, 데이터는 어디에나 존재합니다. 올바른 방식으로 데이터를 포착하기만 하면 됩니다! 데이터를 **구조화된 데이터**와 **비구조화된 데이터**로 구분하는 것이 유용합니다. 구조화된 데이터는 일반적으로 잘 정리된 형태로 표현되며, 종종 테이블 또는 여러 테이블로 나타납니다. 반면, 비구조화된 데이터는 단순히 파일들의 모음일 뿐입니다. 때로는 **반구조화된 데이터**에 대해 이야기할 수도 있는데, 이는 일정한 구조를 가지고 있지만 그 구조가 크게 다를 수 있습니다.
| 구조화된 데이터 | 반구조화된 데이터 | 비구조화된 데이터 |
| ---------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- | ------------------------------------- |
| 사람들의 전화번호 목록 | 링크가 포함된 위키피디아 페이지 | 백과사전 브리태니커의 텍스트 |
| 지난 20년 동안 매 분마다 건물 모든 방의 온도 | 저자, 출판 날짜, 초록이 포함된 JSON 형식의 과학 논문 모음 | 회사 문서가 저장된 파일 공유 |
| 건물에 들어오는 모든 사람의 나이와 성별 데이터 | 인터넷 페이지 | 감시 카메라의 원본 비디오 피드 |
| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------- | --------------------------------------- |
| 사람들의 전화번호 목록 | 링크가 포함된 위키피디아 페이지 | 브리태니커 백과사전의 텍스트 |
| 지난 20년 동안 매 분마다 건물의 모든 방의 온도 | 저자, 출판 날짜, 초록이 포함된 JSON 형식의 과학 논문 모음 | 회사 문서가 저장된 파일 공유 |
| 건물에 들어오는 모든 사람의 나이와 성별 데이터 | 인터넷 페이지 | 감시 카메라의 원본 비디오 피드 |
## 데이터를 얻는 방법
데이터를 얻을 수 있는 출처는 매우 다양하며, 이를 모두 나열하는 것은 불가능합니다! 하지만 일반적인 데이터 출처 몇 가지를 살펴보겠습니다:
데이터를 얻을 수 있는 출처는 매우 다양하며, 모든 출처를 나열하는 것은 불가능합니다! 하지만 일반적으로 데이터를 얻을 수 있는 몇 가지 대표적인 장소를 언급해 보겠습니다:
* **구조화된 데이터**
- **사물인터넷**(IoT): 온도 센서나 압력 센서와 같은 다양한 센서에서 데이터를 제공하며, 유용한 데이터를 많이 제공합니다. 예를 들어, 사무실 건물이 IoT 센서로 장착되어 있다면, 난방과 조명을 자동으로 제어하여 비용을 최소화할 수 있습니다.
- **사물인터넷**(IoT): 온도 센서나 압력 센서와 같은 다양한 센서에서 데이터를 제공하며, 유용한 정보를 많이 제공합니다. 예를 들어, 사무실 건물이 IoT 센서로 장착되어 있다면, 난방과 조명을 자동으로 제어하여 비용을 최소화할 수 있습니다.
- **설문조사**: 구매 후 또는 웹사이트 방문 후 사용자에게 설문조사를 요청하여 데이터를 수집합니다.
- **행동 분석**: 예를 들어, 사용자가 사이트를 얼마나 깊이 탐색하는지, 사이트를 떠나는 일반적인 이유가 무엇인지 이해하는 데 도움을 줄 수 있습니다.
- **행동 분석**: 예를 들어, 사용자가 사이트를 얼마나 깊이 탐색하는지, 사이트를 떠나는 일반적인 이유를 이해하는 데 도움을 줄 수 있습니다.
* **비구조화된 데이터**
- **텍스트**: 텍스트는 전체적인 **감정 점수**를 얻거나 키워드와 의미를 추출하는 등 풍부한 통찰을 제공할 수 있습니다.
- **이미지** 또는 **비디오**: 감시 카메라의 비디오는 도로의 교통량을 추정하고, 잠재적인 교통 체증에 대해 사람들에게 알리는 데 사용할 수 있습니다.
- 웹 서버 **로그**: 사이트의 어떤 페이지가 가장 자주 방문되었는지, 얼마나 오래 머물렀는지 이해하는 데 사용할 수 있습니다.
- **텍스트**: 전체적인 **감정 점수**를 얻거나 키워드와 의미를 추출하는 등 풍부한 통찰력을 제공할 수 있습니다.
- **이미지** 또는 **비디오**: 감시 카메라의 비디오는 도로의 교통량을 추정하고 잠재적인 교통 체증에 대해 사람들에게 알리는 데 사용할 수 있습니다.
- 웹 서버 **로그**: 사이트에서 가장 자주 방문되는 페이지와 방문 시간 등을 이해하는 데 사용할 수 있습니다.
* **반구조화된 데이터**
- **소셜 네트워크** 그래프: 사용자 성격과 정보를 전파하는 잠재적 효과를 파악하는 데 유용한 데이터 소스가 될 수 있습니다.
- 파티에서 찍은 사진 모음을 통해 **그룹 동역학** 데이터를 추출하고, 사람들이 서로 사진을 찍은 관계 그래프를 구축할 수 있습니다.
- **소셜 네트워크** 그래프: 사용자 성격과 정보를 확산시키는 잠재적 효과에 대한 데이터를 제공할 수 있습니다.
- 파티에서 찍은 사진 모음을 통해 **그룹 역학** 데이터를 추출하고, 서로 사진을 찍은 사람들의 그래프를 생성할 수 있습니다.
다양한 데이터 출처를 알게 되면, 데이터 과학 기술을 적용하여 상황을 더 잘 이해하고 비즈니스 프로세스를 개선할 수 있는 다양한 시나리오를 생각해볼 수 있습니다.
다양한 데이터 출처를 알고 있다면, 데이터 과학 기술을 적용하여 상황을 더 잘 이해하고 비즈니스 프로세스를 개선할 수 있는 다양한 시나리오를 생각해볼 수 있습니다.
## 데이터로 할 수 있는 일
데이터 과학에서는 데이터 여정의 다음 단계를 중점적으로 다룹니다:
데이터 과학에서는 데이터 여정의 다음 단계를 중심으로 작업합니다:
물론, 실제 데이터에 따라 일부 단계는 생략될 수 있습니다(예: 데이터가 이미 데이터베이스에 있는 경우 또는 모델 훈련이 필요하지 않은 경우). 또 일부 단계는 여러 번 반복될 수 있습니다(예: 데이터 처리).
물론 실제 데이터에 따라 일부 단계는 생략될 수 있습니다(예: 이미 데이터베이스에 데이터가 있는 경우 또는 모델 훈련이 필요하지 않은 경우). 또한 일부 단계는 여러 번 반복될 수 있습니다(예: 데이터 처리).
## 디지털화와 디지털 전환
지난 10년 동안 많은 기업들이 비즈니스 결정을 내릴 때 데이터의 중요성을 깨닫기 시작했습니다. 데이터 과학 원칙을 비즈니스 운영에 적용하려면 먼저 데이터를 수집해야 합니다. 즉, 비즈니스 프로세스를 디지털 형태로 변환해야 합니다. 이를 **디지털화**라고 합니다. 이 데이터를 활용하여 데이터 과학 기법을 적용하면 생산성이 크게 향상되거나(심지어 비즈니스 전환도 가능) **디지털 전환**을 이룰 수 있습니다.
지난 10년 동안 많은 기업들이 비즈니스 결정을 내릴 때 데이터의 중요성을 이해하기 시작했습니다. 데이터 과학 원칙을 비즈니스 운영에 적용하려면 먼저 데이터를 수집해야 합니다. 즉, 비즈니스 프로세스를 디지털 형태로 변환해야 합니다. 이를 **디지털화**라고 합니다. 이 데이터를 활용하여 데이터 과학 기술을 적용하면 생산성이 크게 향상되거나 비즈니스 방향 전환이 이루어질 수 있습니다. 이를 **디지털 전환**이라고 합니다.
예를 들어, 학생들에게 온라인으로 제공되는 데이터 과학 강의(이 강의처럼)가 있다고 가정하고, 이를 개선하기 위해 데이터 과학을 용하고자 한다면 어떻게 할 수 있을까요?
예를 들어, 학생들에게 온라인으로 제공되는 데이터 과학 강의(이 강의처럼)가 있다고 가정하고, 이를 개선하기 위해 데이터 과학을 활용하고자 한다면 어떻게 할 수 있을까요?
리는 "무엇을 디지털화할 수 있을까?"라는 질문으로 시작할 수 있습니다. 가장 간단한 방법은 각 학생이 각 모듈을 완료하는 데 걸리는 시간을 측정하고, 각 모듈이 끝난 후 다지선다형 테스트를 통해 얻은 지식을 측정하는 것입니다. 모든 학생의 평균 완료 시간을 계산하면, 학생들에게 가장 어려움을 주는 모듈을 찾아내고 이를 간소화하는 작업을 할 수 있습니다.
모듈의 길이가 서로 다를 수 있기 때문에 이 접근 방식이 최적이 아니라고 주장할 수 있습니다. 모듈의 길이(문자 수 기준)로 시간을 나누고, 그 값을 비교하는 것이 아마도 더 공정할 것입니다.
다지선다형 테스트 결과를 분석하기 시작할 때, 학생들이 이해하기 어려워하는 개념을 파악하고 그 정보를 활용해 콘텐츠를 개선할 수 있습니다. 이를 위해 각 질문이 특정 개념이나 지식의 일부와 연결되도록 테스트를 설계해야 합니다.
우선 "무엇을 디지털화할 수 있을까?"라는 질문을 던질 수 있습니다. 가장 간단한 방법은 각 학생이 각 모듈을 완료하는 데 걸리는 시간을 측정하고, 각 모듈 끝에 다지선다형 테스트를 통해 얻은 지식을 측정하는 것입니다. 모든 학생의 평균 완료 시간을 계산하면, 학생들에게 가장 어려움을 주는 모듈을 찾아내고 이를 간소화하는 작업을 진행할 수 있습니다.
모듈의 길이가 서로 다를 수 있기 때문에 이 접근 방식이 최적이 아니라고 주장할 수 있습니다. 모듈의 길이(문자 수 기준)로 시간을 나누고, 그 값을 비교하는 것이 아마도 더 공정할 것입니다.
다지선다형 시험 결과를 분석하기 시작할 때, 학생들이 이해하기 어려워하는 개념을 파악하고, 그 정보를 활용해 콘텐츠를 개선할 수 있습니다. 이를 위해 각 질문이 특정 개념이나 지식의 일부와 연결되도록 시험을 설계해야 합니다.
더 복잡하게 접근하고 싶다면, 각 모듈에 소요된 시간을 학생들의 연령대와 비교해볼 수 있습니다. 특정 연령대에서 모듈을 완료하는 데 지나치게 오랜 시간이 걸리거나, 완료하기 전에 중도 포기하는 경우를 발견할 수 있습니다. 이를 통해 모듈에 대한 연령별 추천을 제공하고, 잘못된 기대에서 오는 불만을 최소화할 수 있습니다.
더 복잡하게 접근하고 싶다면, 각 모듈에 소요된 시간을 학생들의 연령대와 비교해볼 수 있습니다. 특정 연령대에서 모듈을 완료하는 데 지나치게 오랜 시간이 걸리거나, 완료 전에 중도 포기하는 경우를 발견할 수 있습니다. 이를 통해 모듈에 대한 연령별 추천을 제공하고, 잘못된 기대에서 오는 불만을 최소화할 수 있습니다.
## 🚀 도전 과제
@ -103,11 +59,11 @@ CO_OP_TRANSLATOR_METADATA:
![데이터 과학 워드 클라우드](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ko.png)
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore')를 방문하여 코드를 살펴보세요. 코드를 실행해보 데이터 변환이 실시간으로 어떻게 이루어지는지 확인할 수도 있습니다.
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore')를 방문하여 코드를 살펴보세요. 코드를 실행해보고, 데이터 변환이 실시간으로 어떻게 이루어지는지 확인할 수도 있습니다.
> 주피터 노트북에서 코드를 실행하는 방법을 모른다면, [이 글](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)을 참고하세요.
> Jupyter Notebook에서 코드를 실행하는 방법을 모른다면, [이 글](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)을 참고하세요.
## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [강의 후 퀴즈](https://ff-quizzes.netlify.app/en/ds/)
## 과제
@ -118,5 +74,7 @@ CO_OP_TRANSLATOR_METADATA:
이 강의는 [Dmitry Soshnikov](http://soshnikov.com)가 ♥️를 담아 작성했습니다.
---
**면책 조항**:
이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있으나, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서의 원어 버전을 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.
이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있지만, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서의 원어 버전을 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 책임을 지지 않습니다.

@ -1,57 +1,57 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-31T05:57:08+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:35:41+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "lt"
}
-->
## Duomenų tipai
Kaip jau minėjome, duomenys yra visur. Tereikia juos tinkamai užfiksuoti! Naudinga atskirti **struktūrizuotus** ir **nestruktūrizuotus** duomenis. Pirmieji paprastai pateikiami gerai struktūrizuota forma, dažnai kaip lentelė ar lentelių rinkinys, o antrieji yra tiesiog failų rinkinys. Kartais taip pat galime kalbėti apie **pusiau struktūrizuotus** duomenis, kurie turi tam tikrą struktūrą, tačiau ji gali labai skirtis.
Kaip jau minėjome, duomenys yra visur. Tereikia juos tinkamai užfiksuoti! Naudinga atskirti **struktūrizuotus** ir **nestruktūrizuotus** duomenis. Struktūrizuoti duomenys paprastai pateikiami gerai organizuota forma, dažniausiai lentelėje ar kelių lentelių pavidalu, o nestruktūrizuoti duomenys yra tiesiog failų rinkinys. Kartais galime kalbėti ir apie **pusiau struktūrizuotus** duomenis, kurie turi tam tikrą struktūrą, tačiau ji gali labai skirtis.
| Struktūrizuoti | Pusiau struktūrizuoti | Nestruktūrizuoti |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| Žmonių sąrašas su jų telefono numeriais | Vikipedijos puslapiai su nuorodomis | Enciklopedijos Britannica tekstas |
| Pastato kambarių temperatūra kas minutę per pastaruosius 20 metų | Mokslinių straipsnių rinkinys JSON formatu su autoriais, publikavimo data ir santrauka | Failų saugykla su įmonės dokumentais |
| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- |
| Žmonių sąrašas su jų telefono numeriais | Vikipedijos puslapiai su nuorodomis | Enciklopedijos Britannica tekstas |
| Temperatūra visose pastato patalpose kas minutę per pastaruosius 20 metų | Mokslinių straipsnių rinkinys JSON formatu su autoriais, publikavimo data ir santrauka | Failų saugykla su įmonės dokumentais |
| Duomenys apie amžių ir lytį visų žmonių, įeinančių į pastatą | Interneto puslapiai | Neapdorotas vaizdo įrašas iš stebėjimo kameros |
## Iš kur gauti duomenų
## Kur gauti duomenis
Yra daugybė galimų duomenų šaltinių, ir visų jų išvardyti neįmanoma! Tačiau paminėkime keletą tipinių vietų, kur galite rasti duomenų:
Yra daugybė galimų duomenų šaltinių, ir būtų neįmanoma išvardyti visų! Tačiau paminėkime keletą tipinių vietų, kur galima gauti duomenis:
* **Struktūrizuoti**
- **Daiktų internetas** (IoT), įskaitant duomenis iš įvairių jutiklių, tokių kaip temperatūros ar slėgio jutikliai, suteikia daug naudingos informacijos. Pavyzdžiui, jei biuro pastatas aprūpintas IoT jutikliais, galime automatiškai valdyti šildymą ir apšvietimą, kad sumažintume išlaidas.
- **Daiktų internetas** (IoT), įskaitant duomenis iš įvairių jutiklių, tokių kaip temperatūros ar slėgio jutikliai, teikia daug naudingų duomenų. Pavyzdžiui, jei biurų pastatas yra aprūpintas IoT jutikliais, galime automatiškai valdyti šildymą ir apšvietimą, kad sumažintume išlaidas.
- **Apklausos**, kurias prašome vartotojų užpildyti po pirkimo ar apsilankymo svetainėje.
- **Elgsenos analizė** gali padėti suprasti, kaip giliai vartotojas naršo svetainėje ir kokia yra tipinė priežastis, kodėl jis ją palieka.
- **Elgsenos analizė** gali, pavyzdžiui, padėti suprasti, kaip giliai vartotojas naršo svetainėje ir kokia yra tipinė priežastis, kodėl jis ją palieka.
* **Nestruktūrizuoti**
- **Tekstai** gali būti turtingas įžvalgų šaltinis, pavyzdžiui, bendras **nuotaikos įvertinimas** arba raktinių žodžių ir semantinės prasmės išgavimas.
- **Tekstai** gali būti turtingas įžvalgų šaltinis, pavyzdžiui, bendras **nuotaikos balas** arba raktinių žodžių ir semantinės prasmės išgavimas.
- **Vaizdai** ar **vaizdo įrašai**. Vaizdo įrašas iš stebėjimo kameros gali būti naudojamas eismo intensyvumui kelyje įvertinti ir informuoti žmones apie galimus kamščius.
- Interneto serverio **žurnalai** gali padėti suprasti, kurie mūsų svetainės puslapiai lankomi dažniausiai ir kiek laiko juose praleidžiama.
- Tinklalapių **žurnalai** gali būti naudojami suprasti, kurie mūsų svetainės puslapiai lankomi dažniausiai ir kiek laiko.
* **Pusiau struktūrizuoti**
- **Socialinių tinklų** grafai gali būti puikūs duomenų šaltiniai apie vartotojų asmenybes ir potencialų efektyvumą skleidžiant informaciją.
- Kai turime daugybę nuotraukų iš vakarėlio, galime bandyti išgauti **grupės dinamikos** duomenis, sudarydami žmonių, kurie fotografavosi kartu, grafą.
- Kai turime daugybę nuotraukų iš vakarėlio, galime pabandyti išgauti **grupės dinamikos** duomenis, sudarydami žmonių, fotografuojančių vieni kitus, grafą.
Žinodami įvairius galimus duomenų šaltinius, galite pagalvoti apie skirtingus scenarijus, kur duomenų mokslo metodai gali būti pritaikyti situacijai geriau suprasti ir verslo procesams tobulinti.
Žinodami įvairius galimus duomenų šaltinius, galite pabandyti pagalvoti apie skirtingus scenarijus, kur duomenų mokslo technikos gali būti taikomos situacijai geriau suprasti ir verslo procesams tobulinti.
## Ką galima daryti su duomenimis
Duomenų moksle mes koncentruojamės į šiuos duomenų kelionės etapus:
Duomenų moksle mes sutelkiame dėmesį į šiuos duomenų kelionės etapus:
Žinoma, priklausomai nuo konkrečių duomenų, kai kurie etapai gali būti praleisti (pvz., kai jau turime duomenis duomenų bazėje arba kai nereikia modelio mokymo), o kai kurie etapai gali būti kartojami kelis kartus (pvz., duomenų apdorojimas).
## Skaitmenizacija ir skaitmeninė transformacija
Per pastarąjį dešimtmetį daugelis įmonių pradėjo suprasti duomenų svarbą priimant verslo sprendimus. Norint pritaikyti duomenų mokslo principus verslo valdymui, pirmiausia reikia surinkti tam tikrus duomenis, t. y. verslo procesus paversti skaitmenine forma. Tai vadinama **skaitmenizacija**. Duomenų mokslo metodų taikymas šiems duomenims sprendimams priimti gali reikšmingai padidinti produktyvumą (ar net pakeisti verslo kryptį), ir tai vadinama **skaitmenine transformacija**.
Pastarąjį dešimtmetį daugelis verslų pradėjo suprasti duomenų svarbą priimant verslo sprendimus. Norint taikyti duomenų mokslo principus verslo valdymui, pirmiausia reikia surinkti tam tikrus duomenis, t. y. verslo procesus paversti skaitmenine forma. Tai vadinama **skaitmenizacija**. Duomenų mokslo technikų taikymas šiems duomenims sprendimams priimti gali lemti reikšmingą produktyvumo padidėjimą (ar net verslo krypties pakeitimą), vadinamą **skaitmenine transformacija**.
Pavyzdžiui, tarkime, turime duomenų mokslo kursą (kaip šis), kurį pristatome internetu studentams, ir norime jį patobulinti naudodami duomenų mokslą. Kaip tai galime padaryti?
Pažvelkime į pavyzdį. Tarkime, turime duomenų mokslo kursą (kaip šis), kurį pateikiame studentams internetu, ir norime jį patobulinti pasitelkdami duomenų mokslą. Kaip tai galime padaryti?
Galime pradėti klausdami: „Ką galima skaitmenizuoti?“ Paprasčiausias būdas būtų matuoti, kiek laiko kiekvienas studentas užtrunka baigdamas kiekvieną modulį, ir įvertinti įgytas žinias, pateikiant daugybinio pasirinkimo testą kiekvieno modulio pabaigoje. Apskaičiuodami vidutinį užbaigimo laiką visiems studentams, galime nustatyti, kurie moduliai studentams kelia daugiausia sunkumų, ir dirbti juos supaprastinant.
Galite teigti, kad toks požiūris nėra idealus, nes moduliai gali būti skirtingo ilgio. Tikriausiai būtų teisingiau laiką padalyti iš modulio ilgio (simbolių skaičiumi) ir palyginti šias reikšmes vietoj to.
Kai pradedame analizuoti daugybinio pasirinkimo testų rezultatus, galime pabandyti nustatyti, su kokiomis sąvokomis studentams sunkiausia susidoroti, ir naudoti šią informaciją turiniui tobulinti. Tam reikia sukurti testus taip, kad kiekvienas klausimas būtų susietas su tam tikra sąvoka ar žinių dalimi.
Galime pradėti klausdami: „Ką galima skaitmenizuoti?“ Paprasčiausias būdas būtų matuoti laiką, kurio kiekvienam studentui reikia kiekvienam modulio užbaigimui, ir matuoti įgytas žinias, pateikiant daugiapakopį testą modulio pabaigoje. Vidutiniškai apskaičiavę laiką, reikalingą modulio užbaigimui visiems studentams, galime nustatyti, kurie moduliai studentams kelia daugiausia sunkumų, ir dirbti ties jų supaprastinimu.
Galite teigti, kad toks požiūris nėra idealus, nes moduliai gali būti skirtingo ilgio. Tikriausiai būtų teisingiau laiką padalyti iš modulio ilgio (simbolių skaičiaus) ir palyginti tuos rezultatus.
Kai pradedame analizuoti daugybinio pasirinkimo testų rezultatus, galime pabandyti nustatyti, su kokiomis sąvokomis studentams kyla sunkumų, ir naudoti šią informaciją turiniui tobulinti. Tam reikia sukurti testus taip, kad kiekvienas klausimas būtų susietas su tam tikra sąvoka ar žinių dalimi.
Jei norime eiti dar sudėtingesniu keliu, galime sudaryti grafiką, kuriame būtų pavaizduotas laikas, praleistas kiekviename modulyje, palyginti su studentų amžiaus kategorija. Galime pastebėti, kad kai kurioms amžiaus grupėms užtrunka neproporcingai ilgai užbaigti modulį arba kad studentai meta mokymąsi jo nebaigę. Tai gali padėti pateikti amžiaus rekomendacijas moduliui ir sumažinti žmonių nusivylimą dėl neteisingų lūkesčių.
Jei norime eiti dar giliau, galime sudaryti grafiką, kuriame pavaizduotas laikas, praleistas kiekviename modulyje, palyginti su studentų amžiaus kategorija. Galime pastebėti, kad kai kurioms amžiaus grupėms modulio užbaigimas užtrunka neproporcingai ilgai arba kad studentai meta modulį jo nebaigę. Tai gali padėti pateikti amžiaus rekomendacijas moduliui ir sumažinti žmonių nusivylimą dėl neteisingų lūkesčių.
## 🚀 Iššūkis
@ -59,11 +59,11 @@ Jei norime eiti dar sudėtingesniu keliu, galime sudaryti grafiką, kuriame būt
![Žodžių debesis apie duomenų mokslą](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.lt.png)
Apsilankykite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), kad peržiūrėtumėte kodą. Taip pat galite paleisti kodą ir pamatyti, kaip jis realiuoju laiku atlieka visus duomenų transformavimus.
Apsilankykite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), kad peržiūrėtumėte kodą. Taip pat galite paleisti kodą ir pamatyti, kaip jis realiu laiku atlieka visus duomenų transformavimus.
> Jei nežinote, kaip paleisti kodą Jupyter užrašinėje, peržiūrėkite [šį straipsnį](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
> Jei nežinote, kaip paleisti kodą Jupyter Notebook aplinkoje, peržiūrėkite [šį straipsnį](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Po paskaitos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Po paskaitos testas](https://ff-quizzes.netlify.app/en/ds/)
## Užduotys
@ -77,4 +77,4 @@ Apsilankykite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-de
---
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.

@ -1,105 +1,61 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-27T09:01:04+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:03:27+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "mo"
}
-->
# 定義數據科學
## 資料的類型
| ![ 由 [(@sketchthedocs)](https://sketchthedocs.dev) 繪製的手繪筆記 ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------: |
| 定義數據科學 - _由 [@nitya](https://twitter.com/nitya) 繪製的手繪筆記_ |
如前所述,資料無處不在。我們只需要以正確的方式捕捉它!區分 **結構化資料** 和 **非結構化資料** 是很有幫助的。前者通常以某種良好的結構形式表示,通常是表格或多個表格,而後者則僅僅是一堆檔案。有時我們也會提到 **半結構化資料**,它具有某種結構,但可能差異很大。
---
[![定義數據科學影片](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.mo.png)](https://youtu.be/beZ7Mb_oz9I)
## [課前測驗](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## 什麼是數據?
在我們的日常生活中,我們無時無刻不被數據包圍著。你現在正在閱讀的文字就是數據。你手機裡朋友的電話號碼列表是數據,你手錶上顯示的當前時間也是數據。作為人類,我們天生就會處理數據,比如數錢或者給朋友寫信。
然而,隨著電腦的誕生,數據變得更加重要。電腦的主要功能是進行計算,但它們需要數據來操作。因此,我們需要了解電腦如何存儲和處理數據。
隨著互聯網的出現,電腦作為數據處理設備的角色變得更加重要。仔細想想,我們現在使用電腦更多的是進行數據處理和通信,而不是純粹的計算。當我們給朋友寫電子郵件或在互聯網上搜索信息時,本質上就是在創建、存儲、傳輸和操作數據。
> 你能記得上一次真正用電腦進行計算是什麼時候嗎?
## 什麼是數據科學?
根據 [維基百科](https://en.wikipedia.org/wiki/Data_science)**數據科學**被定義為*一個使用科學方法從結構化和非結構化數據中提取知識和洞察力,並將這些知識和可操作的洞察力應用於廣泛應用領域的科學領域*。
這一定義突出了數據科學的以下重要方面:
* 數據科學的主要目的是從數據中**提取知識**,換句話說,就是**理解**數據,發現隱藏的關係並建立**模型**。
* 數據科學使用**科學方法**,例如概率和統計。事實上,當*數據科學*這個術語首次出現時,有些人認為數據科學只是統計學的一個新潮名稱。然而,現在已經很明顯這個領域要廣泛得多。
* 獲得的知識應用於產生一些**可操作的洞察力**,即可以應用於實際商業情境的實用洞察。
* 我們應該能夠處理**結構化**和**非結構化**數據。我們稍後會在課程中討論不同類型的數據。
* **應用領域**是一個重要概念,數據科學家通常需要對問題領域(例如金融、醫學、營銷等)有一定程度的專業知識。
> 數據科學的另一個重要方面是研究如何使用計算機收集、存儲和操作數據。雖然統計學為我們提供了數學基礎,數據科學則將數學概念應用於實際從數據中獲取洞察。
根據 [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist)) 的觀點,數據科學可以被視為一種獨立的科學範式:
* **經驗科學**,主要依賴觀察和實驗結果
* **理論科學**,從現有的科學知識中產生新概念
* **計算科學**,基於計算實驗發現新原則
* **數據驅動科學**,基於發現數據中的關係和模式
## 相關領域
由於數據無處不在,數據科學本身也是一個廣泛的領域,涉及許多其他學科。
## 數據的類型
正如我們之前提到的,數據無處不在。我們只需要以正確的方式捕捉它!區分**結構化**和**非結構化**數據是很有用的。前者通常以某種結構化的形式表示,通常是表格或多個表格,而後者則是一堆文件的集合。有時我們還會提到**半結構化**數據,它們具有某種結構,但可能差異很大。
| 結構化數據 | 半結構化數據 | 非結構化數據 |
| ------------------------------------------------------------------------ | --------------------------------------------------------------------------------------------- | ------------------------------------- |
| 包含人員及其電話號碼的列表 | 包含鏈接的維基百科頁面 | 《大英百科全書》的文本 |
| 過去 20 年內每分鐘建築物內所有房間的溫度 | 以 JSON 格式存儲的科學論文集合,包含作者、發表日期和摘要 | 包含公司文件的文件共享 |
| 記錄進入建築物的所有人的年齡和性別數據 | 網頁 | 監控攝像頭的原始視頻流 |
| 結構化資料 | 半結構化資料 | 非結構化資料 |
| -------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | -------------------------------------- |
| 包含人員及其電話號碼的名單 | 帶有連結的維基百科頁面 | 《大英百科全書》的文字內容 |
| 過去 20 年中每分鐘建築物所有房間的溫度記錄 | 以 JSON 格式存儲的科學論文集合,包括作者、出版日期和摘要 | 包含公司文件的檔案共享 |
| 進入建築物的所有人員的年齡和性別資料 | 網頁 | 監控攝影機的原始視頻畫面 |
## 數據的來源
## 資料的來源
數據的來源有很多,無法一一列舉!然而,我們可以提到一些典型的數據來源:
資料的來源有很多,幾乎不可能列出所有可能的來源!然而,我們可以提到一些典型的資料來源:
* **結構化數據**
- **物聯網**IoT包括來自不同傳感器如溫度或壓力傳感器的數據提供了許多有用的數據。例如如果辦公樓配備了物聯網傳感器我們可以自動控制供暖和照明以降低成本。
- **調查問卷**,例如在購買後或訪問網站後要求用戶完成的問卷
* **結構化資料**
- **物聯網** (IoT),包括來自不同感測器(如溫度或壓力感測器)的資料,提供了大量有用的資訊。例如,如果辦公樓配備了物聯網感測器,我們可以自動控制暖氣和照明以降低成本。
- **問卷調查**,例如在購買後或訪問網站後要求用戶完成的調查。
- **行為分析**,例如幫助我們了解用戶在網站上的瀏覽深度,以及離開網站的典型原因。
* **非結構化數據**
- **本**可以是豐富的洞察來源,例如整體**情感分數**,或提取關鍵詞和語義含義。
- **像**或**視頻**。監控攝像頭的視頻可以用來估算道路上的交通情況,並通知人們潛在的交通擁堵
- 網絡服務器的**日誌**可以用來了解我們網站上最常被訪問的頁面以及訪問時長。
* **半結構化數據**
- **社交網絡**圖譜可以提供有關用戶個性和信息傳播潛在效果的數據
- 當我們擁有一堆派對照片時,我們可以通過構建人們互相拍照的圖譜來提取**群體動態**數據
* **非結構化資料**
- **文字**可以提供豐富的洞察,例如整體的 **情感分數**,或提取關鍵字和語義含義。
- **圖片**或 **視頻**。監控攝影機的視頻可以用來估算道路上的交通流量,並通知人們可能的交通堵塞。
- 網頁伺服器的 **日誌** 可以用來了解我們網站上最常被訪問的頁面,以及訪問的時長。
* **半結構化資料**
- **社交網絡**圖表可以提供有關用戶個性及其在信息傳播中的潛在影響力的資料。
- 當我們擁有一堆派對照片時,我們可以嘗試通過建立人們互相拍照的圖表來提取 **群體動態** 資料。
通過了解不同的數據來源,你可以思考數據科學技術可以應用於哪些場景,以更好地了解情況並改進業務流程。
了解不同的資料來源後,您可以嘗試思考不同的情境,應用資料科學技術來更好地了解情況並改善業務流程。
## 數據的應用
## 資料的用途
數據科學中,我們專注於數據旅程的以下步驟:
在資料科學中,我們專注於資料旅程的以下步驟:
當然,根據實際數據的情況,有些步驟可能會缺失(例如,當我們已經擁有數據庫中的數據,或者不需要模型訓練時),或者某些步驟可能會重複多次(例如數據處理)。
當然,根據實際資料的情況,有些步驟可能會缺失(例如,當我們已經擁有資料庫中的資料,或者不需要模型訓練時),或者某些步驟可能會重複多次(例如資料處理)。
## 數字化與數字化轉型
## 數位化與數位轉型
在過去十年中,許多企業開始意識到數據在商業決策中的重要性。要將數據科學原則應用於企業運營,首先需要收集一些數據,即將業務流程轉化為數字形式,這被稱為**數字化**。將數據科學技術應用於這些數據以指導決策,可能會帶來生產力的顯著提升(甚至是業務轉型),這被稱為**數字化轉型**。
在過去十年中,許多企業開始意識到在做出業務決策時資料的重要性。要將資料科學原則應用於業務運營,首先需要收集一些資料,即將業務流程轉化為數位形式,這被稱為 **數位化**。將資料科學技術應用於這些資料以指導決策,可以顯著提高生產力(甚至可能改變業務方向),這被稱為 **數位轉型**。
讓我們考慮一個例子。假設我們有一門數據科學課程(比如這門課程),我們在線上向學生提供,並希望利用數據科學來改進它。我們該怎麼做?
讓我們來看一個例子。假設我們有一門資料科學課程(如本課程),我們在線上向學生提供,並希望利用資料科學來改進它。我們該如何做?
我們可以從問「什麼可以數字化?」開始。最簡單的方法是測量每位學生完成每個模塊所需的時間,並通過在每個模塊結束時進行選擇題測試來測量獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模塊對學生來說最困難,並著手簡化它們。
你可能會認為這種方法並不理想,因為模組的長度可能各不相同。或許更公平的做法是將時間除以模組的長度(以字元數計算),然後比較這些值。
當我們開始分析多選測試的結果時,可以嘗試找出學生難以理解的概念,並利用這些資訊改進內容。為了達到這個目的,我們需要設計測試,使每個問題都能對應到某個特定概念或知識塊。
我們可以從問「什麼可以數位化?」開始。最簡單的方法是測量每位學生完成每個模組所需的時間,並通過在每個模組結束時進行選擇題測試來測量所獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模組對學生來說最具挑戰性,並著手簡化它們。
> 你可能會認為這種方法並不理想,因為模組的長度可能各不相同。或許更公平的做法是根據模組的長度(以字元數計算)來分配時間,然後比較這些數值。
當我們開始分析多選測試的結果時,可以嘗試找出學生在理解哪些概念上存在困難,並利用這些資訊來改進內容。為了達到這個目的,我們需要設計測試,使每個問題都能對應到某個特定概念或知識塊。
如果我們想進一步深入分析,可以將每個模組所花的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生完成模組所需時間過長,或者在完成之前就中途退出。這些資訊可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。
如果我們想進一步深入分析,可以將每個模組所花費的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生完成模組所需時間過長,或者在完成之前就中途退出。這些資訊可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。
## 🚀 挑戰
在這個挑戰中,我們將嘗試透過分析文本來找與資料科學領域相關的概念。我們會選取一篇關於資料科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲:
在這個挑戰中,我們將透過分析文本來尋找與資料科學領域相關的概念。我們會選取一篇關於資料科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲:
![資料科學文字雲](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.mo.png)
@ -107,11 +63,11 @@ CO_OP_TRANSLATOR_METADATA:
> 如果您不知道如何在 Jupyter Notebook 中執行程式碼,可以參考 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。
## [課後測驗](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [課後測驗](https://ff-quizzes.netlify.app/en/ds/)
## 作業
* **任務 1**:修改上述程式碼,找出與 **大數據** 和 **機器學習** 領域相關的概念
* **任務 1**:修改上述程式碼,找出與 **大數據** 和 **機器學習** 領域相關的概念
* **任務 2**[思考資料科學場景](assignment.md)
## 致謝
@ -121,4 +77,4 @@ CO_OP_TRANSLATOR_METADATA:
---
**免責聲明**
本文件使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議尋求專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或誤釋不承擔責任。
本文件使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。儘管我們努力確保翻譯的準確性,但請注意,自動翻譯可能包含錯誤或不準確之處。原始文件的母語版本應被視為權威來源。對於關鍵資訊,建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或釋不承擔責任。

@ -1,40 +1,78 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-27T17:13:35+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:09:19+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "mr"
}
-->
## डेटा प्रकार
आपण असा युक्तिवाद करू शकता की हा दृष्टिकोन आदर्श नाही, कारण मॉड्यूल्सची लांबी वेगवेगळी असू शकते. कदाचित मॉड्यूलच्या लांबीने (अक्षरांच्या संख्येने) वेळ विभागणे आणि त्या मूल्यांची तुलना करणे अधिक न्याय्य ठरेल.
जेव्हा आपण बहुपर्यायी प्रश्नांच्या चाचण्यांचे निकाल विश्लेषित करण्यास सुरुवात करतो, तेव्हा आपण ठरवू शकतो की विद्यार्थ्यांना कोणत्या संकल्पना समजण्यात अडचण येते आणि त्या माहितीचा उपयोग सामग्री सुधारण्यासाठी करू शकतो. हे करण्यासाठी, आपल्याला चाचण्या अशा प्रकारे डिझाइन कराव्या लागतील की प्रत्येक प्रश्न विशिष्ट संकल्पना किंवा ज्ञानाच्या तुकड्याशी जोडलेला असेल.
जसे आपण आधीच उल्लेख केले आहे, डेटा सर्वत्र आहे. आपल्याला फक्त योग्य प्रकारे तो पकडण्याची गरज आहे! **संरचित** आणि **असंरचित** डेटामध्ये फरक करणे उपयुक्त आहे. संरचित डेटा सामान्यतः चांगल्या प्रकारे संरचित स्वरूपात सादर केला जातो, अनेकदा टेबल किंवा टेबल्सच्या स्वरूपात, तर असंरचित डेटा फक्त फाइल्सचा संग्रह असतो. कधी कधी आपण **अर्ध-संरचित** डेटाबद्दल देखील बोलतो, ज्यामध्ये काही प्रकारची रचना असते जी मोठ्या प्रमाणात बदलू शकते.
जर आपण आणखी गुंतागुंतीचे व्हायचे असेल, तर आपण प्रत्येक मॉड्यूलसाठी घेतलेला वेळ विद्यार्थ्यांच्या वयोगटाच्या विरोधात प्लॉट करू शकतो. आपल्याला कदाचित असे आढळेल की काही वयोगटांसाठी मॉड्यूल पूर्ण करण्यासाठी अत्याधिक वेळ लागतो किंवा विद्यार्थी ते पूर्ण करण्यापूर्वीच सोडून देतात. हे आपल्याला मॉड्यूलसाठी वयोमर्यादा शिफारसी देण्यास मदत करू शकते आणि चुकीच्या अपेक्षांमुळे होणारा असमाधान कमी करू शकते.
| संरचित | अर्ध-संरचित | असंरचित |
| ------------------------------------------------------------------------ | -------------------------------------------------------------------------------------------- | ----------------------------------- |
| लोकांची यादी त्यांच्या फोन नंबरसह | विकिपीडिया पृष्ठे लिंकसह | एनसायक्लोपीडिया ब्रिटानिकाचा मजकूर |
| गेल्या २० वर्षांतील प्रत्येक मिनिटाला इमारतीतील सर्व खोल्यांचे तापमान | लेखक, प्रकाशन तारीख, आणि सारांशासह JSON स्वरूपात वैज्ञानिक पेपरांचा संग्रह | कॉर्पोरेट दस्तऐवजांसह फाइल शेअर |
| इमारतीत प्रवेश करणाऱ्या सर्व लोकांचे वय आणि लिंग डेटा | इंटरनेट पृष्ठे | देखरेख कॅमेरामधून कच्चा व्हिडिओ फीड |
## डेटा कुठे मिळवायचा
डेटा मिळवण्यासाठी अनेक संभाव्य स्रोत आहेत, आणि त्यातील सर्वांची यादी करणे अशक्य होईल! तथापि, आपण डेटा मिळवण्यासाठी काही सामान्य ठिकाणांचा उल्लेख करूया:
* **संरचित**
- **इंटरनेट ऑफ थिंग्स** (IoT), ज्यामध्ये तापमान किंवा दाब सेन्सर्ससारख्या विविध सेन्सर्समधून डेटा मिळतो, उपयुक्त डेटा प्रदान करतो. उदाहरणार्थ, जर ऑफिस इमारत IoT सेन्सर्सने सुसज्ज असेल, तर आपण खर्च कमी करण्यासाठी स्वयंचलितपणे हीटिंग आणि लाइटिंग नियंत्रित करू शकतो.
- **सर्वेक्षण** जे आपण वापरकर्त्यांना खरेदी केल्यानंतर किंवा वेबसाइटला भेट दिल्यानंतर पूर्ण करण्यास सांगतो.
- **वर्तन विश्लेषण** उदाहरणार्थ, आपल्याला समजून घेण्यास मदत करू शकते की वापरकर्ता साइटमध्ये किती खोलवर जातो आणि साइट सोडण्याचे सामान्य कारण काय आहे.
* **असंरचित**
- **मजकूर** समग्र **भावना स्कोर** किंवा कीवर्ड आणि अर्थपूर्ण अर्थ काढण्यासाठी समृद्ध स्रोत असू शकतो.
- **प्रतिमा** किंवा **व्हिडिओ**. देखरेख कॅमेरामधून व्हिडिओ रस्त्यावरच्या वाहतुकीचा अंदाज घेण्यासाठी वापरला जाऊ शकतो आणि संभाव्य ट्रॅफिक जॅमबद्दल लोकांना माहिती देऊ शकतो.
- वेब सर्व्हर **लॉग्स** आपल्याला समजून घेण्यासाठी वापरले जाऊ शकतात की आमच्या साइटवरील कोणती पृष्ठे सर्वाधिक वेळा भेट दिली जातात आणि किती वेळासाठी.
* अर्ध-संरचित
- **सोशल नेटवर्क** ग्राफ्स वापरकर्त्यांच्या व्यक्तिमत्त्वांबद्दल आणि माहिती पसरविण्यात संभाव्य प्रभावीतेबद्दल डेटा मिळवण्यासाठी उत्कृष्ट स्रोत असू शकतात.
- जेव्हा आमच्याकडे पार्टीमधील छायाचित्रांचा समूह असतो, तेव्हा आम्ही लोक एकमेकांसोबत छायाचित्रे घेत असलेल्या ग्राफद्वारे **गट गतिशीलता** डेटा काढण्याचा प्रयत्न करू शकतो.
डेटाचे विविध संभाव्य स्रोत माहित असल्याने, आपण डेटा सायन्स तंत्रज्ञान लागू करण्याच्या विविध परिस्थितींबद्दल विचार करू शकता, परिस्थिती अधिक चांगल्या प्रकारे जाणून घेण्यासाठी आणि व्यवसाय प्रक्रिया सुधारण्यासाठी.
## डेटा सह काय करता येईल
डेटा सायन्समध्ये, आम्ही डेटा प्रवासाच्या खालील टप्प्यांवर लक्ष केंद्रित करतो:
## डिजिटलायझेशन आणि डिजिटल ट्रान्सफॉर्मेशन
गेल्या दशकात, अनेक व्यवसायांनी व्यवसाय निर्णय घेताना डेटाचे महत्त्व समजून घेतले आहे. व्यवसाय चालवण्यासाठी डेटा सायन्स तत्त्वे लागू करण्यासाठी, प्रथम काही डेटा गोळा करणे आवश्यक आहे, म्हणजेच व्यवसाय प्रक्रियांना डिजिटल स्वरूपात अनुवादित करणे. याला **डिजिटलायझेशन** म्हणतात. या डेटावर डेटा सायन्स तंत्रज्ञान लागू करून निर्णयांचे मार्गदर्शन केल्याने उत्पादकतेत लक्षणीय वाढ (किंवा व्यवसायातील मोठा बदल) होऊ शकतो, ज्याला **डिजिटल ट्रान्सफॉर्मेशन** म्हणतात.
उदाहरण विचार करूया. समजा आमच्याकडे डेटा सायन्स कोर्स आहे (जसे की हा) जो आम्ही विद्यार्थ्यांना ऑनलाइन वितरित करतो, आणि आम्हाला तो सुधारण्यासाठी डेटा सायन्स वापरायचा आहे. आपण ते कसे करू शकतो?
आपण विचारू शकतो "काय डिजिटल स्वरूपात बदलता येईल?" सर्वात सोपा मार्ग म्हणजे प्रत्येक विद्यार्थ्याला प्रत्येक मॉड्यूल पूर्ण करण्यासाठी लागणारा वेळ मोजणे आणि प्रत्येक मॉड्यूलच्या शेवटी बहुपर्यायी चाचणी देऊन मिळवलेले ज्ञान मोजणे. सर्व विद्यार्थ्यांमध्ये पूर्ण करण्यासाठी लागणारा वेळ सरासरी करून, आम्ही शोधू शकतो की कोणते मॉड्यूल्स विद्यार्थ्यांसाठी सर्वाधिक अडचणी निर्माण करतात आणि त्यांना सोपे करण्यावर काम करू शकतो.
आपण असा युक्तिवाद करू शकता की हा दृष्टिकोन आदर्श नाही, कारण मॉड्यूल्स वेगवेगळ्या लांबीचे असू शकतात. वेळ मॉड्यूलच्या लांबीने (अक्षरांच्या संख्येने) विभागणे आणि त्या मूल्यांची तुलना करणे कदाचित अधिक न्याय्य ठरेल.
जेव्हा आपण बहुपर्यायी परीक्षांच्या निकालांचे विश्लेषण करायला सुरुवात करतो, तेव्हा आपण हे ठरवू शकतो की विद्यार्थ्यांना कोणत्या संकल्पना समजण्यात अडचण येत आहे आणि त्या माहितीचा उपयोग सामग्री सुधारण्यासाठी करू शकतो. हे करण्यासाठी, आपल्याला परीक्षांचे असे डिझाइन करणे आवश्यक आहे की प्रत्येक प्रश्न विशिष्ट संकल्पना किंवा ज्ञानाच्या भागाशी संबंधित असेल.
जर आपण आणखी गुंतागुंतीचे व्हायचे ठरवले, तर आपण प्रत्येक मॉड्यूलसाठी घेतलेल्या वेळेचा विद्यार्थ्यांच्या वयोगटाशी संबंध लावू शकतो. कदाचित आपल्याला असे आढळेल की काही वयोगटांसाठी मॉड्यूल पूर्ण करण्यासाठी खूप जास्त वेळ लागतो, किंवा विद्यार्थी ते पूर्ण करण्याआधीच सोडून देतात. यामुळे आपल्याला मॉड्यूलसाठी योग्य वयोमर्यादा शिफारसी देण्यास मदत होईल आणि चुकीच्या अपेक्षांमुळे होणारी असमाधानता कमी करता येईल.
## 🚀 आव्हान
या आव्हानात, आपण डेटा सायन्स क्षेत्राशी संबंधित संकल्पना शोधण्याचा प्रयत्न करू, ते मजकूर पाहून. आपण डेटा सायन्सवरील विकिपीडिया लेख घेऊ, मजकूर डाउनलोड आणि प्रक्रिया करू, आणि नंतर खालीलप्रमाणे एक वर्ड क्लाउड तयार करू:
या आव्हानात, आपण डेटा सायन्स क्षेत्राशी संबंधित संकल्पना शोधण्याचा प्रयत्न करू. यासाठी, आपण डेटा सायन्सवरील विकिपीडिया लेख घेऊ, मजकूर डाउनलोड करून प्रक्रिया करू, आणि नंतर खालीलप्रमाणे वर्ड क्लाउड तयार करू:
![डेटा सायन्ससाठी वर्ड क्लाउड](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.mr.png)
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') येथे भेट द्या आणि कोड वाचा. तुम्ही कोड चालवू शकता आणि तो डेटा ट्रान्सफॉर्मेशन कसे प्रत्यक्षात करतो ते पाहू शकता.
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') येथे भेट द्या आणि कोड वाचा. तुम्ही कोड चालवून पाहू शकता आणि तो डेटा ट्रान्सफॉर्मेशन कसे करतो हे रिअल टाइममध्ये पाहू शकता.
> जर तुम्हाला जुपिटर नोटबुकमध्ये कोड कसा चालवायचा माहित नसेल, तर [हा लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) वाचा.
> जर तुम्हाला Jupyter Notebook मध्ये कोड कसा चालवायचा हे माहित नसेल, तर [हा लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) वाचा.
## [व्याख्यानानंतरची क्विझ](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [व्याख्यानानंतरची प्रश्नमंजुषा](https://ff-quizzes.netlify.app/en/ds/)
## असाइनमेंट्स
* **कार्य 1**: वरील कोड बदलून **Big Data** आणि **Machine Learning** क्षेत्रांसाठी संबंधित संकल्पना शोधा.
* **कार्य 2**: [डेटा सायन्स परिदृश्यांबद्दल विचार करा](assignment.md)
* **कार्य 1**: वरील कोडमध्ये बदल करून **Big Data** आणि **Machine Learning** क्षेत्रांसाठी संबंधित संकल्पना शोधा.
* **कार्य 2**: [डेटा सायन्स परिदृश्यांवर विचार करा](assignment.md)
## क्रेडिट्स
## श्रेय
ही शिकवण [Dmitry Soshnikov](http://soshnikov.com) यांनी ♥️ सह तयार केली आहे.
ही धडा [दिमित्री सॉश्निकोव्ह](http://soshnikov.com) यांनी ♥️ सह तयार केली आहे.
---
**अस्वीकरण**:
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून उद्भवलेल्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून निर्माण होणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.

@ -1,8 +1,8 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-28T18:57:09+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:24:15+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "ms"
}
@ -24,14 +24,14 @@ Terdapat banyak sumber data yang mungkin, dan mustahil untuk menyenaraikan semua
* **Berstruktur**
- **Internet of Things** (IoT), termasuk data daripada pelbagai sensor seperti sensor suhu atau tekanan, menyediakan banyak data berguna. Sebagai contoh, jika bangunan pejabat dilengkapi dengan sensor IoT, kita boleh mengawal pemanasan dan pencahayaan secara automatik untuk meminimumkan kos.
- **Tinjauan** yang kita minta pengguna lengkapkan selepas pembelian, atau selepas melawat laman web.
- **Analisis tingkah laku** boleh, sebagai contoh, membantu kita memahami sejauh mana pengguna meneroka laman web, dan apa sebab utama mereka meninggalkan laman tersebut.
- **Analisis tingkah laku** boleh, sebagai contoh, membantu kita memahami sejauh mana pengguna meneroka laman web, dan apa sebab biasa mereka meninggalkan laman tersebut.
* **Tidak berstruktur**
- **Teks** boleh menjadi sumber maklumat yang kaya, seperti skor **sentimen keseluruhan**, atau mengekstrak kata kunci dan makna semantik.
- **Imej** atau **Video**. Video dari kamera pengawasan boleh digunakan untuk menganggarkan trafik di jalan raya, dan memberi maklumat kepada orang ramai tentang kemungkinan kesesakan lalu lintas.
- **Log** pelayan web boleh digunakan untuk memahami halaman mana di laman web kita yang paling kerap dilawati, dan untuk berapa lama.
* **Separa berstruktur**
- Graf **Rangkaian Sosial** boleh menjadi sumber data yang hebat tentang personaliti pengguna dan keberkesanan mereka dalam menyebarkan maklumat.
- Apabila kita mempunyai sekumpulan gambar dari sebuah majlis, kita boleh cuba mengekstrak data **Dinamik Kumpulan** dengan membina graf orang yang mengambil gambar bersama.
- Apabila kita mempunyai sekumpulan gambar dari satu majlis, kita boleh cuba mengekstrak data **Dinamik Kumpulan** dengan membina graf orang yang mengambil gambar bersama.
Dengan mengetahui pelbagai sumber data yang mungkin, anda boleh cuba memikirkan senario yang berbeza di mana teknik sains data boleh digunakan untuk memahami situasi dengan lebih baik, dan untuk meningkatkan proses perniagaan.
@ -39,17 +39,19 @@ Dengan mengetahui pelbagai sumber data yang mungkin, anda boleh cuba memikirkan
Dalam Sains Data, kita memberi tumpuan kepada langkah-langkah berikut dalam perjalanan data:
## Pendigitalan dan Transformasi Digital
Sudah tentu, bergantung kepada data sebenar, beberapa langkah mungkin tidak diperlukan (contohnya, apabila kita sudah mempunyai data dalam pangkalan data, atau apabila kita tidak memerlukan latihan model), atau beberapa langkah mungkin diulang beberapa kali (seperti pemprosesan data).
Dalam dekad yang lalu, banyak perniagaan mula memahami kepentingan data dalam membuat keputusan perniagaan. Untuk menerapkan prinsip sains data dalam menjalankan perniagaan, seseorang perlu terlebih dahulu mengumpulkan data, iaitu menterjemahkan proses perniagaan ke dalam bentuk digital. Ini dikenali sebagai **pendigitalan**. Menggunakan teknik sains data pada data ini untuk membimbing keputusan boleh membawa kepada peningkatan produktiviti yang ketara (atau bahkan perubahan arah perniagaan), yang disebut **transformasi digital**.
## Digitalisasi dan Transformasi Digital
Dalam dekad yang lalu, banyak perniagaan mula memahami kepentingan data dalam membuat keputusan perniagaan. Untuk menerapkan prinsip sains data dalam menjalankan perniagaan, seseorang perlu terlebih dahulu mengumpulkan data, iaitu menterjemahkan proses perniagaan ke dalam bentuk digital. Ini dikenali sebagai **digitalisasi**. Menggunakan teknik sains data pada data ini untuk membimbing keputusan boleh membawa kepada peningkatan produktiviti yang ketara (atau bahkan perubahan arah perniagaan), yang disebut sebagai **transformasi digital**.
Mari kita pertimbangkan satu contoh. Katakan kita mempunyai kursus sains data (seperti kursus ini) yang kita sampaikan secara dalam talian kepada pelajar, dan kita ingin menggunakan sains data untuk memperbaikinya. Bagaimana kita boleh melakukannya?
Kita boleh mula dengan bertanya "Apa yang boleh didigitalkan?" Cara paling mudah adalah dengan mengukur masa yang diambil oleh setiap pelajar untuk menyelesaikan setiap modul, dan mengukur pengetahuan yang diperoleh dengan memberikan ujian pilihan berganda di akhir setiap modul. Dengan purata masa penyelesaian di kalangan semua pelajar, kita boleh mengetahui modul mana yang paling sukar bagi pelajar, dan bekerja untuk mempermudahkannya.
Anda mungkin berpendapat bahawa pendekatan ini tidak sesuai, kerana modul boleh mempunyai panjang yang berbeza. Mungkin lebih adil untuk membahagikan masa dengan panjang modul (dalam bilangan aksara), dan membandingkan nilai-nilai tersebut sebagai gantinya.
Apabila kita mula menganalisis keputusan ujian pilihan berganda, kita boleh cuba menentukan konsep mana yang pelajar sukar untuk memahami, dan menggunakan maklumat tersebut untuk memperbaiki kandungan. Untuk melakukan itu, kita perlu merancang ujian sedemikian rupa sehingga setiap soalan berkait dengan konsep tertentu atau bahagian pengetahuan.
Kita boleh mula dengan bertanya "Apa yang boleh didigitalkan?" Cara paling mudah adalah dengan mengukur masa yang diambil oleh setiap pelajar untuk menyelesaikan setiap modul, dan mengukur pengetahuan yang diperoleh dengan memberikan ujian pilihan berganda pada akhir setiap modul. Dengan purata masa penyelesaian di kalangan semua pelajar, kita boleh mengetahui modul mana yang paling sukar bagi pelajar, dan bekerja untuk mempermudahkannya.
Anda mungkin berpendapat bahawa pendekatan ini tidak ideal, kerana modul boleh mempunyai panjang yang berbeza. Mungkin lebih adil untuk membahagikan masa mengikut panjang modul (dalam bilangan aksara), dan membandingkan nilai-nilai tersebut sebagai gantinya.
Apabila kita mula menganalisis keputusan ujian pilihan berganda, kita boleh cuba menentukan konsep mana yang sukar difahami oleh pelajar, dan menggunakan maklumat tersebut untuk memperbaiki kandungan. Untuk melakukan itu, kita perlu merancang ujian sedemikian rupa sehingga setiap soalan berkait dengan konsep tertentu atau bahagian pengetahuan.
Jika kita ingin menjadi lebih rumit, kita boleh memplot masa yang diambil untuk setiap modul berbanding kategori umur pelajar. Kita mungkin mendapati bahawa untuk beberapa kategori umur, masa yang diambil untuk menyelesaikan modul adalah terlalu lama, atau pelajar berhenti sebelum menyelesaikannya. Ini boleh membantu kita memberikan cadangan umur untuk modul tersebut, dan meminimumkan ketidakpuasan orang daripada jangkaan yang salah.
Jika kita ingin menjadi lebih rumit, kita boleh memplot masa yang diambil untuk setiap modul terhadap kategori umur pelajar. Kita mungkin mendapati bahawa untuk beberapa kategori umur, masa yang diambil untuk menyelesaikan modul adalah terlalu lama, atau pelajar berhenti sebelum menyelesaikannya. Ini boleh membantu kita memberikan cadangan umur untuk modul tersebut, dan mengurangkan ketidakpuasan orang ramai akibat jangkaan yang salah.
## 🚀 Cabaran
@ -59,13 +61,13 @@ Dalam cabaran ini, kita akan cuba mencari konsep yang relevan dengan bidang Sain
Lawati [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') untuk membaca kodnya. Anda juga boleh menjalankan kod tersebut, dan melihat bagaimana ia melakukan semua transformasi data secara langsung.
> Jika anda tidak tahu bagaimana untuk menjalankan kod dalam Jupyter Notebook, lihat [artikel ini](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
> Jika anda tidak tahu cara menjalankan kod dalam Jupyter Notebook, lihat [artikel ini](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Kuiz selepas kuliah](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Kuiz selepas kuliah](https://ff-quizzes.netlify.app/en/ds/)
## Tugasan
* **Tugas 1**: Ubah kod di atas untuk mencari konsep berkaitan untuk bidang **Big Data** dan **Machine Learning**
* **Tugas 1**: Ubah kod di atas untuk mencari konsep berkaitan bagi bidang **Big Data** dan **Machine Learning**
* **Tugas 2**: [Fikirkan Tentang Senario Sains Data](assignment.md)
## Kredit

@ -1,8 +1,8 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-30T19:31:30+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:33:50+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "my"
}
@ -17,67 +17,67 @@ CO_OP_TRANSLATOR_METADATA:
[![ဒေတာ သိပ္ပံကို သတ်မှတ်ခြင်း ဗီဒီယို](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.my.png)](https://youtu.be/beZ7Mb_oz9I)
## [ဆွေးနွေးမီ မေးခွန်းများ](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## [သင်ခန်းစာမတိုင်မီ စမ်းမေးခွန်း](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## ဒေတာဆိုတာဘာလဲ?
နေ့စဉ်ဘဝမှာ ဒေတာတွေက ကျွန်တော်တို့ကို အမြဲဝန်းရံနေပါတယ်။ သင်အခုဖတ်နေတဲ့ စာသားက ဒေတာတစ်ခုပါပဲ။ သင့်ဖုန်းထဲမှာရှိတဲ့ သူငယ်ချင်းတွေရဲ့ ဖုန်းနံပါတ်စာရင်းက ဒေတာတစ်ခုဖြစ်သလို၊ နာရီမှာ ပြထားတဲ့ လက်ရှိအချိန်လည်း ဒေတာတစ်ခုပါပဲ။ လူသားတွေဟာ ဒေတာနဲ့ သဘာဝအတိုင်း အလုပ်လုပ်တတ်ကြပါတယ်၊ ဥပမာ - ငွေကို ရေတွက်တာ၊ သူငယ်ချင်းတွေကို စာရေးတာတွေပါ။
နေ့စဉ်ဘဝမှာ ဒေတာတွေက ကျွန်တော်တို့ကို အမြဲဝန်းရံနေပါတယ်။ သင်အခုဖတ်နေတဲ့ စာသားက ဒေတာတစ်ခုပါပဲ။ သင့်ဖုန်းထဲမှာရှိတဲ့ သူငယ်ချင်းတွေရဲ့ ဖုန်းနံပါတ်စာရင်းက ဒေတာဖြစ်သလို၊ နာရီမှာ ပြထားတဲ့ လက်ရှိအချိန်လည်း ဒေတာတစ်ခုပါပဲ။ လူသားတွေဟာ ဒေတာနဲ့ သဘာဝအတိုင်း အလုပ်လုပ်တတ်ကြပါတယ်၊ ဥပမာ - ငွေကို ရေတွက်တာ၊ သူငယ်ချင်းတွေကို စာရေးတာတွေပါ။
ဒါပေမယ့် ကွန်ပျူတာတွေ ပေါ်ထွက်လာပြီးနောက် ဒေတာဟာ အရေးကြီးမှု ပိုများလာပါတယ်။ ကွန်ပျူတာတွေရဲ့ အဓိကအလုပ်က တွက်ချက်မှုတွေကို လုပ်ဆောင်တာဖြစ်ပေမယ့် ဒေတာမရှိရင် အလုပ်မလုပ်နိုင်ပါဘူး။ ဒါကြောင့် ကွန်ပျူတာတွေ ဒေတာကို ဘယ်လို သိမ်းဆည်းပြီး လုပ်ဆောင်တတ်သလဲဆိုတာကို နားလည်ဖို့ လိုအပ်ပါတယ်။
ဒါပေမယ့် ကွန်ပျူတာတွေ ပေါ်ထွက်လာပြီးနောက် ဒေတာဟာ အရေးပါမှု ပိုများလာပါတယ်။ ကွန်ပျူတာတွေရဲ့ အဓိကအလုပ်က တွက်ချက်မှုတွေကို လုပ်ဆောင်တာဖြစ်ပေမယ့် ဒေတာမရှိရင် အလုပ်မလုပ်နိုင်ပါဘူး။ ဒါကြောင့် ကွန်ပျူတာတွေ ဒေတာကို ဘယ်လို သိမ်းဆည်းပြီး လုပ်ဆောင်တတ်တယ်ဆိုတာကို နားလည်ဖို့ လိုအပ်ပါတယ်။
အင်တာနက် ပေါ်ထွက်လာပြီးနောက် ကွန်ပျူတာတွေဟာ ဒေတာကို ကိုင်တွယ်စီမံတဲ့ စက်ပစ္စည်းအဖြစ် ပိုပြီး အရေးကြီးလာပါတယ်။ သင်စဉ်းစားကြည့်ပါ - အခုဆိုရင် ကျွန်တော်တို့ဟာ တွက်ချက်မှုတွေကို လုပ်တာထက် ဒေတာကို ကိုင်တွယ်ပြီး ဆက်သွယ်မှုလုပ်တာ ပိုများလာပါတယ်။ သူငယ်ချင်းကို အီးမေးလ်ရေးတာ၊ အင်တာနက်မှာ အချက်အလက်ရှာတာတွေဟာ အခြေခံအားဖြင့် ဒေတာကို ဖန်တီးတာ၊ သိမ်းဆည်းတာ၊ ပို့ဆောင်တာ၊ ပြောင်းလဲတာတွေပါပဲ။
> သင်ကွန်ပျူတာကို တကယ်တမ်း တွက်ချက်မှုလုပ်ဖို့ အသုံးပြုခဲ့တဲ့ နောက်ဆုံးအကြိမ်ကို သတိရနိုင်ပါသလား?
အင်တာနက် ပေါ်ထွက်လာပြီးနောက် ကွန်ပျူတာတွေဟာ ဒေတာကို ကိုင်တွယ်တဲ့ စက်ပစ္စည်းအဖြစ် ပိုပြီး အရေးပါလာပါတယ်။ သင်စဉ်းစားကြည့်ပါ - အခုတော့ ကျွန်တော်တို့ဟာ တွက်ချက်မှုတွေထက် ဒေတာကို ကိုင်တွယ်တာနဲ့ ဆက်သွယ်မှုအတွက် ကွန်ပျူတာတွေကို ပိုအသုံးပြုလာကြပါတယ်။ သူငယ်ချင်းကို အီးမေးလ်ရေးတာ၊ အင်တာနက်မှာ အချက်အလက်ရှာတာတွေဟာ ဒေတာကို ဖန်တီးတာ၊ သိမ်းဆည်းတာ၊ ပေးပို့တာနဲ့ ပြောင်းလဲတာတွေပါပဲ။
> သင်ကွန်ပျူတာကို တကယ်တမ်း တွက်ချက်မှုအတွက် အသုံးပြုခဲ့တဲ့ နောက်ဆုံးအကြိမ်ကို သတိရနိုင်ပါသလား?
## ဒေတာ သိပ္ပံဆိုတာဘာလဲ?
[Wikipedia](https://en.wikipedia.org/wiki/Data_science) မှာ **ဒေတာ သိပ္ပံ** ကို *သိပ္ပံနည်းလမ်းတွေကို အသုံးပြုပြီး ဖွဲ့စည်းထားတဲ့ ဒေတာနဲ့ မဖွဲ့စည်းထားတဲ့ ဒေတာတွေထဲကနေ အသိပညာနဲ့ အချက်အလက်တွေကို ထုတ်ယူပြီး၊ အက်ရှင်လုပ်ဆောင်နိုင်တဲ့ အချက်အလက်တွေကို အမျိုးမျိုးသော လုပ်ငန်းခွင်တွေမှာ အသုံးချတဲ့ သိပ္ပံနယ်ပယ်တစ်ခု* လို့ သတ်မှတ်ထားပါတယ်။
[Wikipedia](https://en.wikipedia.org/wiki/Data_science) မှာ **ဒေတာ သိပ္ပံ** ကို *ဖွဲ့စည်းထားတဲ့ ဒေတာနဲ့ မဖွဲ့စည်းထားတဲ့ ဒေတာတွေကနေ သိပ္ပံနည်းလမ်းတွေကို အသုံးပြုပြီး အသိပညာနဲ့ အမြင်တွေကို ထုတ်ယူပြီး၊ အမျိုးမျိုးသော လုပ်ငန်းခွင်တွေမှာ အသုံးချနိုင်တဲ့ အမြင်တွေကို လက်တွေ့အသုံးချနိုင်အောင် လုပ်ဆောင်တဲ့ သိပ္ပံနယ်ပယ်တစ်ခု* လို့ သတ်မှတ်ထားပါတယ်။
ဒီအဓိပ္ပာယ်မှာ ဒေတာ သိပ္ပံရဲ့ အရေးကြီးတဲ့ အချက်အချို့ကို ဖော်ပြထားပါတယ် -
ဒီအဓိပ္ပာယ်မှာ ဒေတာ သိပ္ပံရဲ့ အရေးကြီးတဲ့ အချက်တွေကို ဖော်ပြထားပါတယ် -
* ဒေတာ သိပ္ပံရဲ့ အဓိကရည်မှန်းချက်က **အသိပညာကို ထုတ်ယူ**ဖို့ ဖြစ်ပါတယ်၊ ဒါမှဆိုရင် ဒေတာကို **နားလည်**ပြီး၊ ဖုံးကွယ်နေတဲ့ ဆက်စပ်မှုတွေကို ရှာဖွေပြီး **မော်ဒယ်** တစ်ခုတည်ဆောက်နိုင်မှာ ဖြစ်ပါတယ်။
* ဒေတာ သိပ္ပံရဲ့ အဓိကရည်မှန်းချက်က **အသိပညာကို ထုတ်ယူ**တာဖြစ်ပြီး၊ ဒေတာကို **နားလည်**ပြီး၊ ဖုံးဖိထားတဲ့ ဆက်စပ်မှုတွေကို ရှာဖွေပြီး **မော်ဒယ်**တစ်ခုကို တည်ဆောက်တာဖြစ်ပါတယ်။
* ဒေတာ သိပ္ပံဟာ **သိပ္ပံနည်းလမ်းတွေ**ကို အသုံးပြုပါတယ်၊ ဥပမာ - အလားအလာနဲ့ သင်္ချာ။ *ဒေတာ သိပ္ပံ* ဆိုတဲ့ စကားလုံးကို ပထမဆုံး အသုံးပြုခဲ့တဲ့အခါမှာ ဒေတာ သိပ္ပံဟာ သင်္ချာရဲ့ နာမည်အသစ်တစ်ခုသာ ဖြစ်တယ်လို့ အချို့က ဆိုခဲ့ကြပါတယ်။ ယနေ့မှာတော့ ဒေတာ သိပ္ပံဟာ ပိုကျယ်ပြန့်တဲ့ နယ်ပယ်တစ်ခုဖြစ်ကြောင်း ထင်ရှားလာပါတယ်။
* ရရှိတဲ့ အသိပညာတွေကို **အက်ရှင်လုပ်ဆောင်နိုင်တဲ့ အချက်အလက်**တွေ အဖြစ် အသုံးချနိုင်ဖို့ လိုအပ်ပါတယ်၊ ဒါမှဆိုရင် လက်တွေ့လုပ်ငန်းခွင်တွေမှာ အသုံးချနိုင်မယ့် အချက်အလက်တွေ ဖြစ်ပါတယ်
* **ဖွဲ့စည်းထားတဲ့ ဒေတာ**နဲ့ **မဖွဲ့စည်းထားတဲ့ ဒေတာ** နှစ်မျိုးလုံးကို ကိုင်တွယ်နိုင်ဖို့ လိုအပ်ပါတယ်။ ဒေတာရဲ့ အမျိုးအစားတွေကို ကျွန်တော်တို့ ဒီသင်တန်းမှာ နောက်ပိုင်းမှာ ပြန်လည်ဆွေးနွေးပါမယ်။
* **လျှောက်လွှာနယ်ပယ်** ဆိုတာ အရေးကြီးတဲ့ အယူအဆတစ်ခုဖြစ်ပြီး၊ ဒေတာ သိပ္ပံပညာရှင်တွေဟာ ပြဿနာနယ်ပယ်မှာ အနည်းဆုံး အတတ်နိုင်ဆုံး အဆင့်တစ်ခုအထိ ကျွမ်းကျင်မှုရှိဖို့ လိုအပ်ပါတယ်၊ ဥပမာ - ဘဏ္ဍာရေး၊ ဆေးဘက်ဆိုင်ရာ၊ စျေးကွက်ရှာဖွေရေး စသဖြင့်။
* ရရှိတဲ့ အသိပညာကို **လက်တွေ့အသုံးချနိုင်တဲ့ အမြင်တွေ** ထုတ်လုပ်ဖို့ အသုံးချရမယ်၊ ဒါမှဆိုရင် လုပ်ငန်းခွင်မှာ လက်တွေ့အသုံးချနိုင်တဲ့ အမြင်တွေကို ရရှိနိုင်မှာပါ
* **ဖွဲ့စည်းထားတဲ့ ဒေတာ**နဲ့ **မဖွဲ့စည်းထားတဲ့ ဒေတာ** နှစ်မျိုးလုံးကို ကိုင်တွယ်နိုင်ရမယ်။ ဒေတာရဲ့ အမျိုးအစားတွေကို ကျွန်တော်တို့ ဒီသင်တန်းမှာ နောက်ပိုင်းမှာ ပြန်လည်ဆွေးနွေးပါမယ်။
* **လျှောက်လွှာနယ်ပယ်** ဆိုတာ အရေးကြီးတဲ့ အကြောင်းအရာတစ်ခုဖြစ်ပြီး၊ ဒေတာ သိပ္ပံပညာရှင်တွေဟာ ဥပမာ - ဘဏ္ဍာရေး၊ ဆေးဘက်ဆိုင်ရာ၊ စျေးကွက်ရှာဖွေရေး စသဖြင့် နယ်ပယ်အလိုက် အနည်းဆုံး အတတ်ပညာတစ်ခုခုကို သိရှိထားရမယ်။
> ဒေတာ သိပ္ပံရဲ့ အရေးကြီးတဲ့ အချက်တစ်ခုက ဒေတာကို ဘယ်လို စုဆောင်းပြီး သိမ်းဆည်းပြီး ကွန်ပျူတာတွေနဲ့ ကိုင်တွယ်နိုင်မလဲဆိုတာကိုလည်း လေ့လာတာပါ။ သင်္ချာက ကျွန်တော်တို့ကို သင်္ချာဆိုင်ရာ အခြေခံပညာပေးသလို၊ ဒေတာ သိပ္ပံက ဒေတာထဲက အချက်အလက်တွေကို တကယ်တမ်း ရှာဖွေဖို့ သင်္ချာဆိုင်ရာ အယူအဆတွေကို အသုံးချပါတယ်။
> ဒေတာ သိပ္ပံရဲ့ အရေးကြီးတဲ့ အချက်တစ်ခုက ဒေတာကို ဘယ်လို စုဆောင်းရမလဲ၊ သိမ်းဆည်းရမလဲ၊ ကွန်ပျူတာတွေနဲ့ ဘယ်လို ကိုင်တွယ်ရမလဲဆိုတာကိုလည်း လေ့လာတယ်ဆိုတာပါ။ သင်္ချာက ကျွန်တော်တို့ကို သင်္ချာဆိုင်ရာ အခြေခံပညာပေးတယ်၊ ဒေတာ သိပ္ပံကတော့ ဒေတာထဲက အမြင်တွေကို တကယ်ထုတ်ယူဖို့ သင်္ချာဆိုင်ရာ အယူအဆတွေကို အသုံးချတယ်။
ဒေတာ သိပ္ပံကို [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist)) က သတ်မှတ်ခဲ့တဲ့ နည်းလမ်းတစ်ခုအနေနဲ့ ကြည့်မယ်ဆိုရင်၊ ဒေတာ သိပ္ပံဟာ သိပ္ပံရဲ့ သီးခြားနယ်ပယ်တစ်ခုအဖြစ် ရှုမြင်နိုင်ပါတယ် -
ဒေတာ သိပ္ပံကို [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist)) က သတ်မှတ်ခဲ့တဲ့ နည်းလမ်းတစ်ခုအနေနဲ့ ကြည့်မယ်ဆိုရင်၊ ဒေတာ သိပ္ပံဟာ သိပ္ပံရဲ့ သီးခြားနယ်ပယ်တစ်ခုအဖြစ် ရှုနိုင်ပါတယ် -
* **အတွေ့အကြုံအခြေပြု**, အတွေ့အကြုံနဲ့ စမ်းသပ်မှုရလဒ်တွေကို အဓိကအားထားတဲ့ နည်းလမ်း
* **သီအိုရီအခြေပြု**, ရှိပြီးသား သိပ္ပံပညာမှ အသစ်သော အယူအဆတွေကို ဖန်တီးခြင်း
* **ကွန်ပျူတာအခြေပြု**, ကွန်ပျူတာစမ်းသပ်မှုတွေမှ အသစ်သော မူဝါဒတွေကို ရှာဖွေခြင်း
* **ဒေတာအခြေပြု**, ဒေတာထဲက ဆက်စပ်မှုနဲ့ ပုံစံတွေကို ရှာဖွေခြင်း
* **အတွေ့အကြုံအပေါ် အခြေခံတဲ့** သိပ္ပံနယ်ပယ်၊ အတွေ့အကြုံနဲ့ စမ်းသပ်မှုရလဒ်တွေကို အဓိကထားတယ်။
* **သီအိုရီအပေါ် အခြေခံတဲ့** နယ်ပယ်၊ ရှိပြီးသား သိပ္ပံပညာတွေကနေ အယူအဆအသစ်တွေကို ဖန်တီးတယ်။
* **ကွန်ပျူတာဆိုင်ရာ စမ်းသပ်မှုအပေါ် အခြေခံတဲ့** နယ်ပယ်၊ စမ်းသပ်မှုတွေကနေ အခြေခံသဘောတရားအသစ်တွေကို ရှာဖွေတယ်။
* **ဒေတာအပေါ် အခြေခံတဲ့** နယ်ပယ်၊ ဒေတာထဲက ဆက်စပ်မှုတွေ၊ ပုံစံတွေကို ရှာဖွေတယ်။
## ဆက်စပ်နယ်ပယ်များ
ဒေတာဟာ အရာရာမှာ ရှိနေတဲ့အတွက် ဒေတာ သိပ္ပံဟာလည်း ကျယ်ပြန့်တဲ့ နယ်ပယ်တစ်ခုဖြစ်ပြီး အခြားသော အတော်များများသော နယ်ပယ်များကို ထိတွေ့နေပါတယ်။
သင်ဤနည်းလမ်းကို အကောင်းဆုံးမဟုတ်ဘူးလို့ ပြောနိုင်ပါတယ်၊ အကြောင်းကတော့ module တွေဟာ အရှည်အတို မတူညီနိုင်တာကြောင့်ပါ။ module ရဲ့ အရှည် (စာလုံးအရေအတွက်) နဲ့ အချိန်ကို ခွဲတွက်ပြီး၊ အဲဒီတန်ဖိုးတွေကို နှိုင်းယှဉ်တာက ပိုတရားမျှတနိုင်ပါတယ်။
ကျွန်ုပ်တို့ မျိုးစုံရွေးချယ်မှု စမ်းသပ်မှုရလဒ်များကို စတင်ခွဲခြမ်းစိတ်ဖြာစဉ်တွင် ကျောင်းသားများ နားလည်ရန် အခက်အခဲရှိသော အကြောင်းအရာများကို သတ်မှတ်နိုင်ပြီး၊ ထိုအချက်အလက်များကို အသုံးပြု၍ အကြောင်းအရာများကို တိုးတက်အောင် ပြုလုပ်နိုင်ပါသည်။ ၎င်းကို ပြုလုပ်ရန်၊ စမ်းသပ်မှုများကို တစ်ခုချင်းစီသည် အချို့သော အကြောင်းအရာ သို့မဟုတ် အသိပညာတစ်ခုနှင့် ဆက်စပ်နေစေရန် ဒီဇိုင်းဆွဲရန် လိုအပ်ပါသည်။
ဒေတာဟာ အရာရာမှာ ရှိနေတဲ့အတွက် ဒေတာ သိပ္ပံဟာလည်း ကျယ်ပြန့်တဲ့ နယ်ပယ်တစ်ခုဖြစ်ပြီး အခြားသော အတော်များများသော နယ်ပယ်တွေနဲ ဆက်စပ်နေပါတယ်။
သင်ဤနည်းလမ်းကို အကောင်းဆုံးမဟုတ်ဘူးလို့ အငြင်းပွားနိုင်ပါတယ်၊ အကြောင်းကတော့ module တွေဟာ အရှည်အတို မတူညီနိုင်ပါတယ်။ module ရဲ့ အရှည် (အက္ခရာအရေအတွက်) ကို အချိန်နဲ့ ခွဲခြားပြီး၊ အဲဒီတန်ဖိုးတွေကို နှိုင်းယှဉ်တာက ပိုတရားမျှတနိုင်ပါတယ်။
အများပြည်သူရွေးချယ်မှု စမ်းသပ်မှုရလဒ်များကို စတင်လေ့လာတဲ့အခါမှာ ကျောင်းသားတွေ နားလည်ဖို့ အခက်အခဲရှိတဲ့ အကြောင်းအရာတွေကို သတ်မှတ်နိုင်ပြီး အကြောင်းအရာတွေကို ပိုမိုကောင်းမွန်အောင် ပြင်ဆင်နိုင်ပါတယ်။ ဒါကိုလုပ်ဖို့အတွက် စမ်းသပ်မှုတွေကို တစ်ခုချင်းစီက အကြောင်းအရာတစ်ခုသို့မဟုတ် အသိပညာတစ်ခုကို ဆက်စပ်အောင် ဒီဇိုင်းဆွဲဖို့ လိုအပ်ပါတယ်။
ပိုပြီး ရှုပ်ထွေးစေလိုပါက၊ ကျွန်ုပ်တို့ သင်ခန်းစာတစ်ခုချင်းစီအတွက် သုံးစွဲချိန်ကို ကျောင်းသားများ၏ အသက်အုပ်စုနှင့် နှိုင်းယှဉ်ကြည့်နိုင်ပါသည်။ အသက်အုပ်စုတစ်ချို့အတွက် သင်ခန်းစာကို ပြီးစီးရန် မသင့်တော်လောက်အောင် ကြာမြင့်နေသည်ကို သို့မဟုတ် သင်ခန်းစာကို ပြီးစီးမီ ကျောင်းသားများ ထွက်သွားကြသည်ကို တွေ့နိုင်ပါသည်။ ၎င်းက သင်ခန်းစာအတွက် အသက်အကြံပြုချက်များပေးရန်နှင့် မျှော်လင့်ချက်မှားခြင်းကြောင့် လူများ မကျေနပ်မှုကို လျှော့ချရန် ကူညီနိုင်ပါသည်။
ပိုမိုရှုပ်ထွေးတဲ့အရာကို လုပ်ချင်ရင် ကျောင်းသားတွေ အသက်အရွယ်အုပ်စုနဲ့ module တစ်ခုစီကို ပြီးမြောက်ဖို့ ကြာချိန်ကို ရှုထောင့်ပေါ်မှာ ရှာဖွေနိုင်ပါတယ်။ အသက်အရွယ်အုပ်စုတစ်ချို့အတွက် module ကို ပြီးမြောက်ဖို့ အချိန်အလွန်ကြာတာတွေ၊ ဒါမှမဟုတ် module ကို ပြီးမြောက်မချင်း ကျောင်းသားတွေ ထွက်သွားတာတွေကို တွေ့နိုင်ပါတယ်။ ဒါက module အတွက် အသက်အရွယ်အကြံပြုချက်တွေ ပေးနိုင်ဖို့နဲ့ မျှော်လင့်ချက်မှားမှုကြောင့် လူတွေ မကျေနပ်မှုကို လျှော့ချနိုင်ဖို့ အထောက်အကူဖြစ်ပါတယ်။
## 🚀 စိန်ခေါ်မှု
ဤစိန်ခေါ်မှုတွင် ကျွန်ုပ်တို့ Data Science နယ်ပယ်နှင့် သက်ဆိုင်သော အကြောင်းအရာများကို စာသားများကို ကြည့်ပြီး ရှာဖွေကြိုးစားပါမည်။ ကျွန်ုပ်တို့ Data Science အကြောင်း Wikipedia ဆောင်းပါးတစ်ခုကို ဒေါင်းလုဒ်လုပ်ပြီး စာသားကို ပြုပြင်ပြီး၊ ထို့နောက် အောက်ပါပုံကဲ့သို့သော စကားလုံးတိမ်တစ်ခုကို တည်ဆောက်ပါမည်-
ဒီစိန်ခေါ်မှုမှာ Data Science နယ်ပယ်နဲ့ ဆက်စပ်တဲ့ အကြောင်းအရာတွေကို စာသားတွေကို ကြည့်ပြီး ရှာဖွေကြမယ်။ Data Science အကြောင်း Wikipedia ဆောင်းပါးတစ်ခုကို ယူပြီး စာသားကို ဒေါင်းလုပ်လုပ်ပြီး အဆင့်ဆင့် ပြုပြင်ပြီးတော့ ဒီလို word cloud တစ်ခုကို တည်ဆောက်ပါမယ်:
![Data Science အတွက် စကားလုံးတိမ်](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.my.png)
![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.my.png)
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') သို့ သွား၍ ကုဒ်ကို ဖတ်ရှုပါ။ သင်သည် ကုဒ်ကို လည်ပတ်စေပြီး၊ ဒေတာပြောင်းလဲမှုများကို အချိန်နှင့်တပြေးညီ ဘယ်လိုလုပ်ဆောင်သည်ကို ကြည့်ရှုနိုင်ပါသည်။
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') ကို သွားပြီး code ကို ဖတ်ရှုပါ။ သင် code ကို run လုပ်ပြီး data transformation တွေကို အချိန်နဲ့တပြေးညီ ဘယ်လိုလုပ်ဆောင်သလဲ ကြည့်ရှုနိုင်ပါတယ်။
> Jupyter Notebook တွင် ကုဒ်ကို ဘယ်လို လည်ပတ်ရမည်ကို မသိသေးပါက၊ [ဆောင်းပါး](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ကို ကြည့်ပါ။
> Jupyter Notebook မှာ code ကို ဘယ်လို run လုပ်ရမလဲ မသိရင် [ဒီဆောင်းပါး](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ကို ကြည့်ပါ။
## [Post-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ds/)
## လုပ်ငန်းများ
## လုပ်များ
* **Task 1**: အထက်ပါ ကုဒ်ကို ပြုပြင်ပြီး **Big Data** နှင့် **Machine Learning** နယ်ပယ်များအတွက် သက်ဆိုင်သော အကြောင်းအရာများကို ရှာဖွေပါ။
* **Task 2**: [Data Science အခြေအနေများအကြောင်း စဉ်းစားပါ](assignment.md)
* **Task 1**: အထက်ပါ code ကို ပြင်ဆင်ပြီး **Big Data** နဲ့ **Machine Learning** နယ်ပယ်တွေအတွက် ဆက်စပ်တဲ့ အကြောင်းအရာတွေကို ရှာဖွေပါ။
* **Task 2**: [Data Science အခြေအနေတွေကို စဉ်းစားပါ](assignment.md)
## အကျိုးတူဆောင်ရွက်သူများ
## အကျိုးတူ
သင်ခန်းစာကို [Dmitry Soshnikov](http://soshnikov.com) မှ ♥️ ဖြင့် ရေးသားထားပါသည်။
ဒီသင်ခန်းစာကို [Dmitry Soshnikov](http://soshnikov.com) မှ ♥️ နဲ့ရေးသားထားပါတယ်။
---
**အကြောင်းကြားချက်**:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက် ဘာသာပြန်ခြင်းတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါဝင်နိုင်သည်ကို သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူရင်းဘာသာစကားဖြင့် အာဏာတရားရှိသော အရင်းအမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ပရော်ဖက်ရှင်နယ် ဘာသာပြန်ခြင်းကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော အလွဲအမှားများ သို့မဟုတ် အနားလွဲမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။
**ဝက်ဘ်ဆိုက်မှတ်ချက်**:
ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေပါသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်ဆိုမှုများတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါဝင်နိုင်သည်ကို ကျေးဇူးပြု၍ သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သောရင်းမြစ်အဖြစ် သတ်မှတ်သင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ပြန်ဆိုမှုကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားများ သို့မဟုတ် အဓိပ္ပါယ်မှားများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။

@ -1,8 +1,8 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-27T17:14:14+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:10:11+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "ne"
}
@ -12,8 +12,8 @@ CO_OP_TRANSLATOR_METADATA:
जसरी हामीले पहिले नै उल्लेख गरिसकेका छौं, डेटा हरेक ठाउँमा छ। हामीले यसलाई सही तरिकाले समात्न मात्र आवश्यक छ! **संरचित** र **असंरचित** डेटा बीच भिन्नता गर्न उपयोगी हुन्छ। संरचित डेटा प्रायः राम्रो संरचित रूपमा प्रस्तुत गरिन्छ, प्रायः टेबल वा धेरै टेबलहरूको रूपमा, जबकि असंरचित डेटा फाइलहरूको संग्रह मात्र हो। कहिलेकाहीं हामी **अर्ध-संरचित** डेटा पनि कुरा गर्न सक्छौं, जसमा केही प्रकारको संरचना हुन्छ तर यो धेरै फरक हुन सक्छ।
| संरचित | अर्ध-संरचित | असंरचित |
| ------------------------------------------------------------------------ | -------------------------------------------------------------------------------------------- | ----------------------------------- |
| व्यक्तिहरूको सूची र उनीहरूको फोन नम्बर | विकिपीडिया पृष्ठहरू लिंकहरूसहित | इनसाइक्लोपेडिया ब्रिटानिकाको पाठ |
| ------------------------------------------------------------------------ | ------------------------------------------------------------------------------------------ | ----------------------------------- |
| व्यक्तिहरूको सूची र उनीहरूको फोन नम्बरहरू | विकिपीडिया पृष्ठहरू लिंकहरूसहित | इनसाइक्लोपेडिया ब्रिटानिकाको पाठ |
| पछिल्लो २० वर्षको प्रत्येक मिनेटमा भवनका सबै कोठाहरूको तापक्रम | JSON ढाँचामा वैज्ञानिक कागजातहरूको संग्रह, लेखकहरू, प्रकाशन मिति, र सारांशसहित | निगरानी क्यामेराबाट कच्चा भिडियो फिड |
| भवनमा प्रवेश गर्ने सबै व्यक्तिहरूको उमेर र लिङ्गको डेटा | इन्टरनेट पृष्ठहरू | कर्पोरेट दस्तावेजहरूको फाइल शेयर |
@ -22,18 +22,18 @@ CO_OP_TRANSLATOR_METADATA:
डेटा प्राप्त गर्नका लागि धेरै सम्भावित स्रोतहरू छन्, र तिनीहरू सबै सूचीबद्ध गर्न असम्भव हुनेछ! तर, केही सामान्य स्थानहरू उल्लेख गरौं जहाँबाट तपाईं डेटा प्राप्त गर्न सक्नुहुन्छ:
* **संरचित**
- **इन्टरनेट अफ थिङ्स** (IoT), जस्तै तापक्रम वा दबाब सेन्सरहरूबाट प्राप्त डेटा। उदाहरणका लागि, यदि कार्यालय भवन IoT सेन्सरहरूले सुसज्जित छ भने, हामी स्वचालित रूपमा तापक्रम र प्रकाश नियन्त्रण गर्न सक्छौं ताकि लागत कम गर्न सकियोस्
- **इन्टरनेट अफ थिङ्स** (IoT), जस्तै तापक्रम वा दबाब सेन्सरहरूबाट प्राप्त डेटा। उदाहरणका लागि, यदि कार्यालय भवन IoT सेन्सरहरूले सुसज्जित छ भने, हामी लागत कम गर्न स्वतः हीटिंग र लाइटिंग नियन्त्रण गर्न सक्छौं।
- **सर्वेक्षणहरू**, जुन हामी प्रयोगकर्ताहरूलाई खरिद पछि वा वेबसाइट भ्रमण पछि पूरा गर्न अनुरोध गर्छौं।
- **व्यवहारको विश्लेषण**, जसले उदाहरणका लागि, प्रयोगकर्ताले साइटमा कति गहिरो जान्छ र साइट छोड्ने सामान्य कारण के हो भन्ने कुरा बुझ्न मद्दत गर्न सक्छ।
- **व्यवहारको विश्लेषण**, जसले हामीलाई प्रयोगकर्ताले साइटमा कति गहिरो जान्छ र साइट छोड्ने सामान्य कारण के हो भन्ने बुझ्न मद्दत गर्न सक्छ।
* **असंरचित**
- **पाठहरू**, जस्तै समग्र **भावनात्मक स्कोर** वा मुख्य शब्दहरू र अर्थ निकाल्नका लागि
- **छविहरू** वा **भिडियो**। निगरानी क्यामेराको भिडियोले सडकमा ट्राफिकको अनुमान गर्न र सम्भावित ट्राफिक जामको बारेमा जानकारी दिन प्रयोग गर्न सकिन्छ।
- **पाठहरू**, जस्तै समग्र **भावना स्कोर** वा मुख्य शब्दहरू र अर्थ निकाल्न।
- **छविहरू** वा **भिडियोहरू**। निगरानी क्यामेराको भिडियोले सडकमा ट्राफिकको अनुमान गर्न र सम्भावित ट्राफिक जामको बारेमा जानकारी दिन प्रयोग गर्न सकिन्छ।
- वेब सर्भर **लगहरू**, जसले हाम्रो साइटका कुन पृष्ठहरू सबैभन्दा धेरै भ्रमण गरिन्छ र कति समयसम्मका लागि भनेर बुझ्न मद्दत गर्न सक्छ।
* **अर्ध-संरचित**
- **सामाजिक नेटवर्क** ग्राफहरू, जसले प्रयोगकर्ताको व्यक्तित्व र जानकारी फैलाउनको सम्भावित प्रभावकारिताको बारेमा डेटा प्रदान गर्न सक्छ।
- पार्टीबाट प्राप्त फोटोहरूको संग्रह हुँदा, हामी **समूह गतिशीलता** डेटा निकाल्न सक्दछौं, जस्तै एकअर्कासँग फोटो खिच्ने व्यक्तिहरूको ग्राफ निर्माण गरेर
- पार्टीबाट लिइएका तस्बिरहरूको संग्रह हुँदा, हामी **समूह गतिशीलता** डेटा निकाल्न प्रयास गर्न सक्छौं, जसले एकअर्कासँग तस्बिर लिने व्यक्तिहरूको ग्राफ निर्माण गर्न सक्छ
विभिन्न सम्भावित डेटा स्रोतहरू जान्दा, तपाईं विभिन्न परिदृश्यहरूको बारेमा सोच्न सक्नुहुन्छ जहाँ डेटा विज्ञान प्रविधिहरू प्रयोग गरेर स्थिति राम्रोसँग बुझ्न र व्यापार प्रक्रियाहरू सुधार गर्न सकिन्छ
विभिन्न सम्भावित डेटा स्रोतहरू जान्दा, तपाईं विभिन्न परिदृश्यहरूको बारेमा सोच्न सक्नुहुन्छ जहाँ डेटा विज्ञान प्रविधिहरू लागू गर्न सकिन्छ स्थिति राम्रोसँग बुझ्न र व्यापार प्रक्रियाहरू सुधार गर्न।
## डेटा संग के गर्न सकिन्छ
@ -41,15 +41,15 @@ CO_OP_TRANSLATOR_METADATA:
## डिजिटलाइजेशन र डिजिटल रूपान्तरण
पछिल्लो दशकमा, धेरै व्यवसायहरूले व्यापार निर्णयहरू गर्दा डेटा महत्त्वपूर्ण हुने कुरा बुझ्न थालेका छन्। व्यापार सञ्चालनमा डेटा विज्ञानका सिद्धान्तहरू लागू गर्न, पहिलो चरणमा केही डेटा सङ्कलन गर्न आवश्यक छ, अर्थात् व्यापार प्रक्रियाहरूलाई डिजिटल रूपमा अनुवाद गर्नु। यसलाई **डिजिटलाइजेशन** भनिन्छ। यस डेटा विज्ञान प्रविधिहरूलाई निर्णयहरू मार्गदर्शन गर्न लागू गर्दा उत्पादकत्वमा उल्लेखनीय वृद्धि (वा व्यापारको नयाँ दिशा) हुन सक्छ, जसलाई **डिजिटल रूपान्तरण** भनिन्छ।
पछिल्लो दशकमा, धेरै व्यवसायहरूले व्यापार निर्णयहरू गर्दा डेटा महत्त्वपूर्ण हुने कुरा बुझ्न थालेका छन्। व्यापार सञ्चालनमा डेटा विज्ञानका सिद्धान्तहरू लागू गर्न, पहिलो चरणमा केही डेटा सङ्कलन गर्न आवश्यक छ, अर्थात् व्यापार प्रक्रियाहरूलाई डिजिटल रूपमा अनुवाद गर्नु। यसलाई **डिजिटलाइजेशन** भनिन्छ। यस डेटा विज्ञान प्रविधिहरूलाई निर्णयहरू मार्गदर्शन गर्न लागू गर्दा उत्पादकत्वमा उल्लेखनीय वृद्धि (वा व्यापारको परिवर्तन) हुन सक्छ, जसलाई **डिजिटल रूपान्तरण** भनिन्छ।
उदाहरणको रूपमा विचार गरौं। मानौं हामीसँग एक डेटा विज्ञान पाठ्यक्रम छ (जस्तै यो पाठ्यक्रम) जुन हामी विद्यार्थीहरूलाई अनलाइन प्रदान गर्छौं, र हामी यसलाई सुधार गर्न डेटा विज्ञान प्रयोग गर्न चाहन्छौं। हामी यसलाई कसरी गर्न सक्छौं?
उदाहरणको रूपमा विचार गरौं। मानौं हामीसँग एक डेटा विज्ञान पाठ्यक्रम छ (जस्तै यो पाठ्यक्रम) जुन हामी अनलाइन विद्यार्थीहरूलाई प्रदान गर्छौं, र हामी यसलाई सुधार गर्न डेटा विज्ञान प्रयोग गर्न चाहन्छौं। हामी यसलाई कसरी गर्न सक्छौं?
हामी "के डिजिटलाइज गर्न सकिन्छ?" भनेर सोध्न सुरु गर्न सक्छौं। सबैभन्दा सरल तरिका भनेको प्रत्येक विद्यार्थीलाई प्रत्येक मोड्युल पूरा गर्न लाग्ने समय मापन गर्नु र प्रत्येक मोड्युलको अन्त्यमा बहुविकल्पीय परीक्षण दिएर प्राप्त ज्ञान मापन गर्नु हो। सबै विद्यार्थीहरूमा औसत समय-समाप्ति गणना गरेर, हामी पत्ता लगाउन सक्छौं कि कुन मोड्युलहरूले विद्यार्थीहरूलाई सबैभन्दा धेरै कठिनाइ दिन्छ, र तिनीहरूलाई सरल बनाउन काम गर्न सक्छौं।
तपाईंले तर्क गर्न सक्नुहुन्छ कि यो दृष्टिकोण आदर्श होइन, किनकि मोड्युलहरू विभिन्न लम्बाइका हुन सक्छन्। सम्भवतः समयलाई मोड्युलको लम्बाइ (अक्षरहरूको संख्या) द्वारा विभाजन गरेर ती मानहरू तुलना गर्नु अधिक न्यायसंगत हुनेछ।
हामी "के डिजिटलाइज गर्न सकिन्छ?" भनेर सोध्न सुरु गर्न सक्छौं। सबैभन्दा सरल तरिका भनेको प्रत्येक विद्यार्थीलाई प्रत्येक मोड्युल पूरा गर्न लाग्ने समय मापन गर्नु र प्रत्येक मोड्युलको अन्त्यमा बहुविकल्पीय परीक्षण दिएर प्राप्त ज्ञान मापन गर्नु हो। सबै विद्यार्थीहरूमा समय-देखि-समाप्ति औसत गरेर, हामी पत्ता लगाउन सक्छौं कि कुन मोड्युलहरूले विद्यार्थीहरूलाई सबैभन्दा धेरै कठिनाइ दिन्छ, र तिनीहरूलाई सरल बनाउन काम गर्न सक्छौं।
तपाईं बहस गर्न सक्नुहुन्छ कि यो दृष्टिकोण आदर्श होइन, किनकि मोड्युलहरू विभिन्न लम्बाइका हुन सक्छन्। सम्भवतः समयलाई मोड्युलको लम्बाइ (अक्षरहरूको संख्या) द्वारा विभाजन गरेर ती मानहरू तुलना गर्नु अधिक न्यायसंगत हुनेछ।
जब हामी बहुविकल्पीय परीक्षाको नतिजा विश्लेषण गर्न सुरु गर्छौं, हामी विद्यार्थीहरूले कुन अवधारणाहरू बुझ्न कठिनाइ महसुस गर्छन् भनेर पत्ता लगाउन सक्छौं, र त्यस जानकारीलाई सामग्री सुधार गर्न प्रयोग गर्न सक्छौं। त्यसका लागि, हामीले परीक्षालाई यसरी डिजाइन गर्नुपर्छ कि प्रत्येक प्रश्नले निश्चित अवधारणा वा ज्ञानको टुक्रासँग सम्बन्धित होस्।
यदि हामी अझ जटिल हुन चाहन्छौं भने, हामी प्रत्येक मोड्युलमा लागेको समयलाई विद्यार्थीहरूको उमेर समूहसँग तुलना गर्न सक्छौं। हामीले पत्ता लगाउन सक्छौं कि केही उमेर समूहका लागि मोड्युल पूरा गर्न अत्यधिक समय लाग्छ, वा विद्यार्थीहरूले मोड्युल पूरा गर्नु अघि नै छोड्छन्। यसले हामीलाई मोड्युलका लागि उमेर सिफारिसहरू प्रदान गर्न मद्दत गर्न सक्छ, र गलत अपेक्षाबाट हुने असन्तुष्टि कम गर्न सक्छ।
यदि हामी अझ जटिल हुन चाहन्छौं भने, हामी प्रत्येक मोड्युल पूरा गर्न लागेको समयलाई विद्यार्थीहरूको उमेर समूहसँग तुलना गर्न सक्छौं। हामीले पत्ता लगाउन सक्छौं कि केही उमेर समूहका लागि मोड्युल पूरा गर्न अत्यधिक समय लाग्छ, वा विद्यार्थीहरूले मोड्युल पूरा गर्नु अघि नै छोड्छन्। यसले हामीलाई मोड्युलका लागि उमेर सिफारिसहरू प्रदान गर्न मद्दत गर्न सक्छ, र गलत अपेक्षाबाट हुने असन्तुष्टि कम गर्न सक्छ।
## 🚀 चुनौती
@ -57,11 +57,11 @@ CO_OP_TRANSLATOR_METADATA:
![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ne.png)
कोड पढ्नका लागि [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') मा जानुहोस्। तपाईं कोड चलाउन सक्नुहुन्छ, र वास्तविक समयमा सबै डेटा रूपान्तरणहरू कसरी काम गर्छन् हेर्न सक्नुहुन्छ।
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') मा गएर कोड पढ्न सक्नुहुन्छ। तपाईं कोड चलाउन पनि सक्नुहुन्छ, र वास्तविक समयमा सबै डेटा रूपान्तरणहरू कसरी काम गर्छन् भनेर हेर्न सक्नुहुन्छ।
> यदि तपाईंलाई Jupyter Notebook मा कोड कसरी चलाउने थाहा छैन भने, [यो लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) हेर्नुहोस्।
## [पाठपछिको क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [पाठपश्चात क्विज](https://ff-quizzes.netlify.app/en/ds/)
## असाइनमेन्टहरू
@ -75,4 +75,4 @@ CO_OP_TRANSLATOR_METADATA:
---
**अस्वीकरण**:
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।

@ -1,101 +1,55 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-28T15:49:21+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:21:23+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "nl"
}
-->
# Definiëren van Data Science
| ![ Sketchnote door [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------: |
| Definiëren van Data Science - _Sketchnote door [@nitya](https://twitter.com/nitya)_ |
---
[![Definiëren van Data Science Video](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.nl.png)](https://youtu.be/beZ7Mb_oz9I)
## [Quiz voorafgaand aan de les](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## Wat is Data?
In ons dagelijks leven worden we voortdurend omringd door data. De tekst die je nu leest is data. De lijst met telefoonnummers van je vrienden in je smartphone is data, net als de huidige tijd die op je horloge wordt weergegeven. Als mensen werken we van nature met data door bijvoorbeeld geld te tellen of brieven te schrijven aan vrienden.
Data werd echter veel belangrijker met de komst van computers. De primaire rol van computers is het uitvoeren van berekeningen, maar ze hebben data nodig om mee te werken. Daarom moeten we begrijpen hoe computers data opslaan en verwerken.
Met de opkomst van het internet is de rol van computers als apparaten voor gegevensverwerking toegenomen. Als je erover nadenkt, gebruiken we computers nu steeds meer voor gegevensverwerking en communicatie, in plaats van voor daadwerkelijke berekeningen. Wanneer we een e-mail schrijven aan een vriend of informatie opzoeken op internet, zijn we in feite bezig met het creëren, opslaan, verzenden en manipuleren van data.
> Kun je je de laatste keer herinneren dat je een computer hebt gebruikt om echt iets te berekenen?
## Wat is Data Science?
Volgens [Wikipedia](https://en.wikipedia.org/wiki/Data_science) wordt **Data Science** gedefinieerd als *een wetenschappelijk vakgebied dat wetenschappelijke methoden gebruikt om kennis en inzichten te halen uit gestructureerde en ongestructureerde data, en deze kennis en toepasbare inzichten uit data toe te passen in een breed scala aan toepassingsdomeinen*.
Deze definitie benadrukt de volgende belangrijke aspecten van data science:
* Het hoofddoel van data science is **kennis halen** uit data, met andere woorden - **data begrijpen**, verborgen relaties vinden en een **model** bouwen.
* Data science maakt gebruik van **wetenschappelijke methoden**, zoals kansberekening en statistiek. Toen de term *data science* voor het eerst werd geïntroduceerd, beweerden sommigen dat het slechts een nieuwe, hippe naam voor statistiek was. Tegenwoordig is het duidelijk dat het vakgebied veel breder is.
* De verkregen kennis moet worden toegepast om **bruikbare inzichten** te produceren, dat wil zeggen praktische inzichten die je kunt toepassen in echte zakelijke situaties.
* We moeten kunnen werken met zowel **gestructureerde** als **ongestructureerde** data. Later in de cursus zullen we terugkomen op de verschillende soorten data.
* Het **toepassingsdomein** is een belangrijk concept, en datawetenschappers hebben vaak enige mate van expertise nodig in het probleemgebied, bijvoorbeeld: financiën, geneeskunde, marketing, enz.
> Een ander belangrijk aspect van Data Science is dat het bestudeert hoe data kan worden verzameld, opgeslagen en verwerkt met behulp van computers. Terwijl statistiek ons de wiskundige basis geeft, past data science wiskundige concepten toe om daadwerkelijk inzichten uit data te halen.
Een van de manieren (toegeschreven aan [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) om naar data science te kijken, is door het te beschouwen als een apart wetenschappelijk paradigma:
* **Empirisch**, waarbij we voornamelijk vertrouwen op observaties en resultaten van experimenten
* **Theoretisch**, waar nieuwe concepten voortkomen uit bestaande wetenschappelijke kennis
* **Computationeel**, waar we nieuwe principes ontdekken op basis van computationele experimenten
* **Data-gedreven**, gebaseerd op het ontdekken van relaties en patronen in de data
## Andere Gerelateerde Vakgebieden
Omdat data overal aanwezig is, is data science zelf ook een breed vakgebied dat veel andere disciplines raakt.
## Soorten Data
Zoals we al hebben genoemd, is data overal. We hoeven het alleen maar op de juiste manier vast te leggen! Het is nuttig om onderscheid te maken tussen **gestructureerde** en **ongestructureerde** data. De eerste wordt meestal weergegeven in een goed gestructureerde vorm, vaak als een tabel of een aantal tabellen, terwijl de laatste gewoon een verzameling bestanden is. Soms spreken we ook over **semi-gestructureerde** data, die een bepaalde structuur hebben die sterk kan variëren.
Zoals we al hebben vermeld, is data overal om ons heen. We hoeven het alleen op de juiste manier vast te leggen! Het is handig om onderscheid te maken tussen **gestructureerde** en **ongestructureerde** data. Gestructureerde data wordt meestal weergegeven in een goed georganiseerde vorm, vaak als een tabel of meerdere tabellen, terwijl ongestructureerde data gewoon een verzameling bestanden is. Soms spreken we ook over **semi-gestructureerde** data, die een bepaalde mate van structuur heeft, maar die sterk kan variëren.
| Gestructureerd | Semi-gestructureerd | Ongestructureerd |
| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| Lijst van mensen met hun telefoonnummers | Wikipedia-pagina's met links | Tekst van de Encyclopaedia Britannica |
| Temperatuur in alle kamers van een gebouw, elke minuut van de afgelopen 20 jaar | Verzameling wetenschappelijke artikelen in JSON-formaat met auteurs, publicatiedatum en samenvatting | Bestandsdeling met bedrijfsdocumenten |
| Temperatuur in alle kamers van een gebouw, elke minuut gedurende de laatste 20 jaar | Verzameling wetenschappelijke artikelen in JSON-formaat met auteurs, publicatiedatum en samenvatting | Bestandsdeling met bedrijfsdocumenten |
| Gegevens over leeftijd en geslacht van alle mensen die het gebouw binnenkomen | Internetpagina's | Ruwe videobeelden van een bewakingscamera |
## Waar Data te Vinden
## Waar haal je Data vandaan?
Er zijn veel mogelijke bronnen van data, en het is onmogelijk om ze allemaal op te sommen! Laten we echter enkele typische plaatsen noemen waar je data kunt vinden:
Er zijn veel mogelijke bronnen van data, en het is onmogelijk om ze allemaal op te sommen! Laten we echter enkele typische plekken noemen waar je data kunt vinden:
* **Gestructureerd**
- **Internet of Things** (IoT), inclusief gegevens van verschillende sensoren, zoals temperatuur- of druksensoren, levert veel nuttige data op. Bijvoorbeeld, als een kantoorgebouw is uitgerust met IoT-sensoren, kunnen we automatisch verwarming en verlichting regelen om kosten te minimaliseren.
- **Internet of Things** (IoT), inclusief data van verschillende sensoren, zoals temperatuur- of druksensoren, biedt veel nuttige data. Bijvoorbeeld, als een kantoorgebouw is uitgerust met IoT-sensoren, kunnen we automatisch verwarming en verlichting regelen om kosten te minimaliseren.
- **Enquêtes** die we gebruikers vragen in te vullen na een aankoop of na het bezoeken van een website.
- **Gedragsanalyse** kan ons bijvoorbeeld helpen begrijpen hoe diep een gebruiker een site verkent en wat de typische reden is om de site te verlaten.
- **Gedragsanalyse** kan ons bijvoorbeeld helpen te begrijpen hoe diep een gebruiker een site verkent en wat de typische reden is om de site te verlaten.
* **Ongestructureerd**
- **Teksten** kunnen een rijke bron van inzichten zijn, zoals een algemene **sentimentscore**, of het extraheren van sleutelwoorden en semantische betekenis.
- **Afbeeldingen** of **Video**. Een video van een bewakingscamera kan worden gebruikt om het verkeer op de weg in te schatten en mensen te informeren over mogelijke verkeersopstoppingen.
- **Teksten** kunnen een rijke bron van inzichten zijn, zoals een algemene **sentimentscore** of het extraheren van trefwoorden en semantische betekenis.
- **Afbeeldingen** of **Video**. Een video van een bewakingscamera kan worden gebruikt om het verkeer op de weg te schatten en mensen te informeren over mogelijke verkeersopstoppingen.
- Webserver **Logs** kunnen worden gebruikt om te begrijpen welke pagina's van onze site het vaakst worden bezocht en hoe lang.
* **Semi-gestructureerd**
- **Sociale Netwerk**-grafieken kunnen geweldige bronnen van data zijn over gebruikerspersoonlijkheden en de potentiële effectiviteit in het verspreiden van informatie.
- **Sociale Netwerk**-grafieken kunnen geweldige bronnen van data zijn over gebruikerspersoonlijkheden en potentiële effectiviteit in het verspreiden van informatie.
- Wanneer we een verzameling foto's van een feestje hebben, kunnen we proberen **Groepsdynamiek**-data te extraheren door een grafiek te bouwen van mensen die samen op de foto staan.
Door verschillende mogelijke databronnen te kennen, kun je nadenken over verschillende scenario's waarin data science-technieken kunnen worden toegepast om de situatie beter te begrijpen en bedrijfsprocessen te verbeteren.
Door verschillende mogelijke bronnen van data te kennen, kun je nadenken over verschillende scenario's waarin datawetenschapstechnieken kunnen worden toegepast om de situatie beter te begrijpen en bedrijfsprocessen te verbeteren.
## Wat je met Data kunt Doen
## Wat kun je doen met Data
In Data Science richten we ons op de volgende stappen in de datareis:
Natuurlijk kunnen, afhankelijk van de specifieke data, sommige stappen ontbreken (bijvoorbeeld wanneer we de data al in de database hebben, of wanneer we geen modeltraining nodig hebben), of kunnen sommige stappen meerdere keren worden herhaald (zoals gegevensverwerking).
## Digitalisering en Digitale Transformatie
In het afgelopen decennium zijn veel bedrijven het belang van data bij het nemen van zakelijke beslissingen gaan inzien. Om data science-principes toe te passen op het runnen van een bedrijf, moet je eerst data verzamelen, oftewel bedrijfsprocessen vertalen naar digitale vorm. Dit staat bekend als **digitalisering**. Het toepassen van data science-technieken op deze data om beslissingen te sturen, kan leiden tot aanzienlijke productiviteitsverhogingen (of zelfs een bedrijfsomslag), wat **digitale transformatie** wordt genoemd.
In het afgelopen decennium zijn veel bedrijven gaan inzien hoe belangrijk data is bij het nemen van zakelijke beslissingen. Om principes van datawetenschap toe te passen op het runnen van een bedrijf, moet je eerst data verzamelen, oftewel bedrijfsprocessen vertalen naar digitale vorm. Dit wordt **digitalisering** genoemd. Het toepassen van datawetenschapstechnieken op deze data om beslissingen te sturen kan leiden tot aanzienlijke productiviteitsverhogingen (of zelfs een bedrijfsomslag), wat **digitale transformatie** wordt genoemd.
Laten we een voorbeeld bekijken. Stel dat we een data science-cursus hebben (zoals deze) die we online aan studenten aanbieden, en we willen data science gebruiken om deze te verbeteren. Hoe kunnen we dat doen?
Laten we een voorbeeld bekijken. Stel dat we een datawetenschapscursus hebben (zoals deze) die we online aan studenten aanbieden, en we willen datawetenschap gebruiken om deze te verbeteren. Hoe kunnen we dat doen?
We kunnen beginnen met de vraag: "Wat kan worden gedigitaliseerd?" De eenvoudigste manier zou zijn om de tijd te meten die elke student nodig heeft om elke module te voltooien, en de opgedane kennis te meten door een meerkeuzetoets aan het einde van elke module te geven. Door de gemiddelde voltooiingstijd over alle studenten te berekenen, kunnen we ontdekken welke modules de meeste moeilijkheden veroorzaken voor studenten en werken aan het vereenvoudigen ervan.
Je zou kunnen beweren dat deze aanpak niet ideaal is, omdat modules verschillende lengtes kunnen hebben. Het is waarschijnlijk eerlijker om de tijd te delen door de lengte van de module (in aantal tekens) en die waarden met elkaar te vergelijken.
Wanneer we beginnen met het analyseren van de resultaten van meerkeuzetests, kunnen we proberen te bepalen welke concepten studenten moeilijk begrijpen en die informatie gebruiken om de inhoud te verbeteren. Om dat te doen, moeten we tests zo ontwerpen dat elke vraag gekoppeld is aan een bepaald concept of kennisblok.
We kunnen beginnen met de vraag: "Wat kan worden gedigitaliseerd?" De eenvoudigste manier zou zijn om de tijd te meten die elke student nodig heeft om elke module te voltooien, en de verworven kennis te meten door een meerkeuzetest aan het einde van elke module te geven. Door de gemiddelde tijd-om-te-voltooien van alle studenten te berekenen, kunnen we ontdekken welke modules de meeste moeilijkheden veroorzaken voor studenten en werken aan het vereenvoudigen ervan.
Je zou kunnen stellen dat deze aanpak niet ideaal is, omdat modules verschillende lengtes kunnen hebben. Het is waarschijnlijk eerlijker om de tijd te verdelen door de lengte van de module (in aantal tekens) en die waarden met elkaar te vergelijken.
Wanneer we beginnen met het analyseren van de resultaten van meerkeuzetests, kunnen we proberen te bepalen welke concepten studenten moeilijk vinden om te begrijpen, en die informatie gebruiken om de inhoud te verbeteren. Om dat te doen, moeten we tests zo ontwerpen dat elke vraag gekoppeld is aan een bepaald concept of kennisblok.
Als we het nog ingewikkelder willen maken, kunnen we de tijd die nodig is voor elk module vergelijken met de leeftijdscategorie van de studenten. We kunnen ontdekken dat het voor sommige leeftijdscategorieën onevenredig lang duurt om de module te voltooien, of dat studenten afhaken voordat ze deze hebben afgerond. Dit kan ons helpen leeftijdsaanbevelingen voor de module te geven en de ontevredenheid van mensen door verkeerde verwachtingen te minimaliseren.
Als we het nog ingewikkelder willen maken, kunnen we de tijd die nodig is voor elk module afzetten tegen de leeftijdscategorie van de studenten. We kunnen ontdekken dat het voor sommige leeftijdscategorieën onredelijk lang duurt om de module te voltooien, of dat studenten afhaken voordat ze deze hebben afgerond. Dit kan ons helpen leeftijdsaanbevelingen voor de module te geven en de ontevredenheid van mensen door verkeerde verwachtingen te minimaliseren.
## 🚀 Uitdaging
@ -107,7 +61,7 @@ Bezoek [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-
> Als je niet weet hoe je code moet uitvoeren in een Jupyter Notebook, bekijk dan [dit artikel](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Quiz na de les](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Quiz na de les](https://ff-quizzes.netlify.app/en/ds/)
## Opdrachten
@ -121,4 +75,4 @@ Deze les is met ♥️ geschreven door [Dmitry Soshnikov](http://soshnikov.com)
---
**Disclaimer**:
Dit document is vertaald met behulp van de AI-vertalingsservice [Co-op Translator](https://github.com/Azure/co-op-translator). Hoewel we streven naar nauwkeurigheid, dient u zich ervan bewust te zijn dat geautomatiseerde vertalingen fouten of onnauwkeurigheden kunnen bevatten. Het originele document in zijn oorspronkelijke taal moet worden beschouwd als de gezaghebbende bron. Voor cruciale informatie wordt professionele menselijke vertaling aanbevolen. Wij zijn niet aansprakelijk voor misverstanden of verkeerde interpretaties die voortvloeien uit het gebruik van deze vertaling.
Dit document is vertaald met behulp van de AI-vertalingsservice [Co-op Translator](https://github.com/Azure/co-op-translator). Hoewel we streven naar nauwkeurigheid, dient u zich ervan bewust te zijn dat geautomatiseerde vertalingen fouten of onnauwkeurigheden kunnen bevatten. Het originele document in zijn oorspronkelijke taal moet worden beschouwd als de gezaghebbende bron. Voor cruciale informatie wordt professionele menselijke vertaling aanbevolen. Wij zijn niet aansprakelijk voor eventuele misverstanden of verkeerde interpretaties die voortvloeien uit het gebruik van deze vertaling.

@ -1,8 +1,8 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-26T21:32:31+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:19:52+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "no"
}
@ -12,7 +12,7 @@ CO_OP_TRANSLATOR_METADATA:
Som vi allerede har nevnt, finnes data overalt. Vi må bare fange det på riktig måte! Det er nyttig å skille mellom **strukturert** og **ustrukturert** data. Strukturert data er vanligvis representert i en velorganisert form, ofte som en tabell eller flere tabeller, mens ustrukturert data bare er en samling av filer. Noen ganger kan vi også snakke om **semi-strukturert** data, som har en viss form for struktur som kan variere betydelig.
| Strukturert | Semi-strukturert | Ustrukturert |
| -----------------------------------------------------------------------------| ----------------------------------------------------------------------------------------------| --------------------------------------- |
| --------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | -------------------------------------- |
| Liste over personer med telefonnumrene deres | Wikipedia-sider med lenker | Teksten fra Encyclopedia Britannica |
| Temperatur i alle rom i en bygning hvert minutt de siste 20 årene | Samling av vitenskapelige artikler i JSON-format med forfattere, publiseringsdato og sammendrag | Filarkiv med bedriftsdokumenter |
| Data om alder og kjønn til alle som går inn i bygningen | Internett-sider | Rå videoopptak fra overvåkningskamera |
@ -23,21 +23,21 @@ Det finnes mange mulige kilder til data, og det vil være umulig å liste opp al
* **Strukturert**
- **Internet of Things** (IoT), inkludert data fra ulike sensorer, som temperatur- eller trykksensorer, gir mye nyttig data. For eksempel, hvis en kontorbygning er utstyrt med IoT-sensorer, kan vi automatisk kontrollere oppvarming og belysning for å minimere kostnader.
- **Undersøkelser** som vi ber brukere om å fylle ut etter et kjøp eller etter å ha besøkt en nettside.
- **Undersøkelser** som vi ber brukere fylle ut etter et kjøp eller etter å ha besøkt en nettside.
- **Analyse av atferd** kan for eksempel hjelpe oss med å forstå hvor dypt en bruker går inn på en nettside, og hva som er den typiske årsaken til at de forlater siden.
* **Ustrukturert**
- **Tekster** kan være en rik kilde til innsikt, som en generell **sentimentscore**, eller ved å trekke ut nøkkelord og semantisk mening.
- **Bilder** eller **videoer**. En video fra et overvåkningskamera kan brukes til å estimere trafikken på veien og informere folk om potensielle trafikkorker.
- **Loggfiler** fra webservere kan brukes til å forstå hvilke sider på nettstedet vårt som blir mest besøkt, og hvor lenge.
- **Loggfiler** fra webservere kan brukes til å forstå hvilke sider på nettstedet vårt som oftest blir besøkt, og hvor lenge.
* **Semi-strukturert**
- **Sosiale nettverk**-grafer kan være gode kilder til data om brukernes personligheter og potensielle effektivitet i å spre informasjon.
- **Sosiale nettverk**-grafer kan være gode kilder til data om brukeres personligheter og potensialet for å spre informasjon.
- Når vi har en samling fotografier fra en fest, kan vi prøve å trekke ut data om **gruppedynamikk** ved å bygge en graf over personer som tar bilder sammen.
Ved å kjenne til ulike mulige datakilder, kan du prøve å tenke på forskjellige scenarier hvor data science-teknikker kan brukes for å forstå situasjonen bedre og forbedre forretningsprosesser.
Ved å kjenne til ulike mulige kilder til data, kan du prøve å tenke på ulike scenarier der data science-teknikker kan brukes for å forstå situasjonen bedre og forbedre forretningsprosesser.
## Hva du kan gjøre med data
I Data Science fokuserer vi på følgende steg i datareisen:
I data science fokuserer vi på følgende steg i datareisen:
Selvfølgelig, avhengig av den faktiske dataen, kan noen steg mangle (f.eks. når vi allerede har dataen i databasen, eller når vi ikke trenger modelltrening), eller noen steg kan gjentas flere ganger (som databehandling).
@ -48,14 +48,14 @@ I løpet av det siste tiåret har mange bedrifter begynt å forstå viktigheten
La oss se på et eksempel. Anta at vi har et data science-kurs (som dette) som vi leverer online til studenter, og vi ønsker å bruke data science for å forbedre det. Hvordan kan vi gjøre det?
Vi kan starte med å spørre "Hva kan digitaliseres?" Den enkleste måten ville være å måle tiden det tar for hver student å fullføre hver modul, og å måle den oppnådde kunnskapen ved å gi en flervalgsprøve på slutten av hver modul. Ved å beregne gjennomsnittlig tid til fullføring på tvers av alle studenter, kan vi finne ut hvilke moduler som skaper mest utfordringer for studentene, og jobbe med å forenkle dem.
> Du kan argumentere for at denne tilnærmingen ikke er optimal, fordi moduler kan ha ulik lengde. Det er sannsynligvis mer rettferdig å dele tiden på lengden av modulen (i antall tegn) og sammenligne disse verdiene i stedet.
Når vi begynner å analysere resultatene av flervalgstester, kan vi prøve å finne ut hvilke konsepter studentene har vanskeligheter med å forstå, og bruke den informasjonen til å forbedre innholdet. For å gjøre dette må vi designe tester slik at hvert spørsmål kobles til et bestemt konsept eller kunnskapsområde.
> Du kan argumentere for at denne tilnærmingen ikke er ideell, fordi moduler kan ha ulik lengde. Det er sannsynligvis mer rettferdig å dele tiden på lengden av modulen (i antall tegn) og sammenligne disse verdiene i stedet.
Når vi begynner å analysere resultatene fra flervalgstester, kan vi prøve å identifisere hvilke konsepter studentene har vanskeligheter med å forstå, og bruke den informasjonen til å forbedre innholdet. For å gjøre dette, må vi designe tester på en måte der hvert spørsmål er knyttet til et bestemt konsept eller kunnskapsområde.
Hvis vi vil gjøre det enda mer komplisert, kan vi plotte tiden brukt på hver modul mot alderskategorien til studentene. Vi kan oppdage at det for noen alderskategorier tar uforholdsmessig lang tid å fullføre modulen, eller at studentene slutter før de fullfører. Dette kan hjelpe oss med å gi aldersanbefalinger for modulen og minimere misnøye på grunn av feil forventninger.
Hvis vi ønsker å gjøre det enda mer komplisert, kan vi plotte tiden brukt på hver modul mot alderskategorien til studentene. Vi kan oppdage at det for enkelte alderskategorier tar uforholdsmessig lang tid å fullføre modulen, eller at studentene slutter før de fullfører. Dette kan hjelpe oss med å gi aldersanbefalinger for modulen og minimere misnøye som følge av feil forventninger.
## 🚀 Utfordring
I denne utfordringen skal vi prøve å finne konsepter som er relevante for feltet Data Science ved å se på tekster. Vi skal ta en Wikipedia-artikkel om Data Science, laste ned og behandle teksten, og deretter lage en ordsky som denne:
I denne utfordringen skal vi prøve å finne konsepter som er relevante for feltet Data Science ved å se på tekster. Vi skal ta en Wikipedia-artikkel om Data Science, laste ned og prosessere teksten, og deretter lage en ordsky som denne:
![Ordsky for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.no.png)
@ -63,7 +63,7 @@ Besøk [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-
> Hvis du ikke vet hvordan du kjører kode i en Jupyter Notebook, ta en titt på [denne artikkelen](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Quiz etter forelesning](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Quiz etter forelesning](https://ff-quizzes.netlify.app/en/ds/)
## Oppgaver
@ -77,4 +77,4 @@ Denne leksjonen er skrevet med ♥️ av [Dmitry Soshnikov](http://soshnikov.com
---
**Ansvarsfraskrivelse**:
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi streber etter nøyaktighet, vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det originale dokumentet på sitt opprinnelige språk bør anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi streber etter nøyaktighet, vær oppmerksom på at automatiserte oversettelser kan inneholde feil eller unøyaktigheter. Det originale dokumentet på sitt opprinnelige språk bør anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.

@ -1,72 +1,72 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-27T17:15:23+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:11:13+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "pa"
}
-->
## ਡਾਟਾ ਦੇ ਕਿਸਮਾਂ
ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਪਹਿਲਾਂ ਹੀ ਜ਼ਿਕਰ ਕੀਤਾ ਹੈ, ਡਾਟਾ ਹਰ ਜਗ੍ਹਾ ਹੈ। ਸਾਨੂੰ ਸਿਰਫ਼ ਇਸਨੂੰ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਕੈਪਚਰ ਕਰਨ ਦੀ ਲੋੜ ਹੈ! ਇਹ ਲਾਭਦਾਇਕ ਹੈ ਕਿ ਅਸੀਂ **ਸੰਰਚਿਤ** ਅਤੇ **ਅਸੰਰਚਿਤ** ਡਾਟਾ ਵਿੱਚ ਫਰਕ ਕਰੀਏ। ਪਹਿਲਾ ਆਮ ਤੌਰ 'ਤੇ ਕਿਸੇ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੰਰਚਿਤ ਰੂਪ ਵਿੱਚ ਪ੍ਰਸਤੁਤ ਹੁੰਦਾ ਹੈ, ਅਕਸਰ ਇੱਕ ਟੇਬਲ ਜਾਂ ਕਈ ਟੇਬਲਾਂ ਦੇ ਰੂਪ ਵਿੱਚ, ਜਦਕਿ ਦੂਜਾ ਸਿਰਫ਼ ਫਾਈਲਾਂ ਦਾ ਇਕੱਠ ਹੁੰਦਾ ਹੈ। ਕਈ ਵਾਰ ਅਸੀਂ **ਅਰਧ-ਸੰਰਚਿਤ** ਡਾਟਾ ਬਾਰੇ ਵੀ ਗੱਲ ਕਰ ਸਕਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਕੁਝ ਹੱਦ ਤੱਕ ਸੰਰਚਨਾ ਹੁੰਦੀ ਹੈ ਜੋ ਕਾਫ਼ੀ ਵੱਖ-ਵੱਖ ਹੋ ਸਕਦੀ ਹੈ।
ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਪਹਿਲਾਂ ਹੀ ਕਿਹਾ ਹੈ, ਡਾਟਾ ਹਰ ਜਗ੍ਹਾ ਹੈ। ਸਾਨੂੰ ਇਸਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਕੈਪਚਰ ਕਰਨ ਦੀ ਲੋੜ ਹੈ! ਇਹ **ਸੰਰਚਿਤ** ਅਤੇ **ਅਸੰਰਚਿਤ** ਡਾਟਾ ਵਿੱਚ ਫਰਕ ਕਰਨਾ ਲਾਭਦਾਇਕ ਹੈ। ਸੰਰਚਿਤ ਡਾਟਾ ਆਮ ਤੌਰ 'ਤੇ ਕਿਸੇ ਚੰਗੀ-ਸੰਰਚਿਤ ਰੂਪ ਵਿੱਚ ਦਰਸਾਇਆ ਜਾਂਦਾ ਹੈ, ਅਕਸਰ ਇੱਕ ਟੇਬਲ ਜਾਂ ਕਈ ਟੇਬਲਾਂ ਦੇ ਰੂਪ ਵਿੱਚ, ਜਦਕਿ ਅਸੰਰਚਿਤ ਡਾਟਾ ਸਿਰਫ਼ ਫਾਈਲਾਂ ਦਾ ਇਕੱਠ ਹੁੰਦਾ ਹੈ। ਕਈ ਵਾਰ ਅਸੀਂ **ਅਰਧ-ਸੰਰਚਿਤ** ਡਾਟਾ ਬਾਰੇ ਵੀ ਗੱਲ ਕਰ ਸਕਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਕੁਝ ਕਿਸਮ ਦੀ ਸੰਰਚਨਾ ਹੁੰਦੀ ਹੈ ਜੋ ਬਹੁਤ ਵੱਖ-ਵੱਖ ਹੋ ਸਕਦੀ ਹੈ।
| ਸੰਰਚਿਤ | ਅਰਧ-ਸੰਰਚਿਤ | ਅਸੰਰਚਿਤ |
| -------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | ----------------------------------- |
| ਲੋਕਾਂ ਦੀ ਸੂਚੀ ਉਨ੍ਹਾਂ ਦੇ ਫੋਨ ਨੰਬਰਾਂ ਨਾਲ | ਲਿੰਕਾਂ ਵਾਲੇ ਵਿਕੀਪੀਡੀਆ ਪੰਨੇ | ਐਨਸਾਈਕਲੋਪੀਡੀਆ ਬ੍ਰਿਟਾਨਿਕਾ ਦਾ ਪਾਠ |
| ਪਿਛਲੇ 20 ਸਾਲਾਂ ਵਿੱਚ ਹਰ ਮਿੰਟ ਵਿੱਚ ਇੱਕ ਇਮਾਰਤ ਦੇ ਸਾਰੇ ਕਮਰਿਆਂ ਦਾ ਤਾਪਮਾਨ | JSON ਫਾਰਮੈਟ ਵਿੱਚ ਵਿਗਿਆਨਕ ਪੇਪਰਾਂ ਦਾ ਇਕੱਠ, ਲੇਖਕਾਂ, ਪ੍ਰਕਾਸ਼ਨ ਦੀ ਮਿਤੀ, ਅਤੇ ਸਾਰਾਂ ਦੇ ਨਾਲ | ਕਾਰਪੋਰੇਟ ਦਸਤਾਵੇਜ਼ਾਂ ਨਾਲ ਫਾਈਲ ਸ਼ੇਅਰ |
| ਇਮਾਰਤ ਵਿੱਚ ਦਾਖਲ ਹੋਣ ਵਾਲੇ ਸਾਰੇ ਲੋਕਾਂ ਦੀ ਉਮਰ ਅਤੇ ਲਿੰਗ ਦਾ ਡਾਟਾ | ਇੰਟਰਨੈਟ ਪੰਨੇ | ਨਿਗਰਾਨੀ ਕੈਮਰੇ ਤੋਂ ਕੱਚਾ ਵੀਡੀਓ ਫੀਡ |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| ਲੋਕਾਂ ਦੀ ਸੂਚੀ ਉਨ੍ਹਾਂ ਦੇ ਫੋਨ ਨੰਬਰਾਂ ਨਾਲ | ਵਿਕੀਪੀਡੀਆ ਪੰਨੇ ਲਿੰਕਾਂ ਨਾਲ | ਐਨਸਾਈਕਲੋਪੀਡੀਆ ਬ੍ਰਿਟਾਨਿਕਾ ਦਾ ਟੈਕਸਟ |
| ਪਿਛਲੇ 20 ਸਾਲਾਂ ਵਿੱਚ ਹਰ ਮਿੰਟ ਵਿੱਚ ਇੱਕ ਇਮਾਰਤ ਦੇ ਸਾਰੇ ਕਮਰਿਆਂ ਵਿੱਚ ਤਾਪਮਾਨ | JSON ਫਾਰਮੈਟ ਵਿੱਚ ਵਿਗਿਆਨਕ ਪੇਪਰਾਂ ਦਾ ਇਕੱਠ, ਜਿਸ ਵਿੱਚ ਲੇਖਕ, ਪ੍ਰਕਾਸ਼ਨ ਦੀ ਮਿਤੀ ਅਤੇ ਸਾਰ ਹੈ | ਕਾਰਪੋਰੇਟ ਦਸਤਾਵੇਜ਼ਾਂ ਨਾਲ ਫਾਈਲ ਸ਼ੇਅਰ |
| ਇਮਾਰਤ ਵਿੱਚ ਦਾਖਲ ਹੋਣ ਵਾਲੇ ਸਾਰੇ ਲੋਕਾਂ ਦੀ ਉਮਰ ਅਤੇ ਲਿੰਗ ਦੇ ਡਾਟਾ | ਇੰਟਰਨੈਟ ਪੰਨੇ | ਨਿਗਰਾਨੀ ਕੈਮਰੇ ਤੋਂ ਕੱਚਾ ਵੀਡੀਓ ਫੀਡ |
## ਡਾਟਾ ਕਿੱਥੋਂ ਮਿਲ ਸਕਦਾ ਹੈ
ਡਾਟਾ ਦੇ ਕਈ ਸੰਭਾਵਿਤ ਸਰੋਤ ਹਨ, ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਸਾਰਿਆਂ ਨੂੰ ਲਿਸਟ ਕਰਨਾ ਅਸੰਭਵ ਹੋਵੇਗਾ! ਪਰ ਫਿਰ ਵੀ, ਆਓ ਕੁਝ ਆਮ ਜਗ੍ਹਾਵਾਂ ਦਾ ਜ਼ਿਕਰ ਕਰੀਏ ਜਿੱਥੇ ਤੁਸੀਂ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹੋ:
ਡਾਟਾ ਦੇ ਕਈ ਸੰਭਾਵਿਤ ਸਰੋਤ ਹਨ, ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਸਾਰਿਆਂ ਨੂੰ ਸੂਚੀਬੱਧ ਕਰਨਾ ਅਸੰਭਵ ਹੋਵੇਗਾ! ਹਾਲਾਂਕਿ, ਆਓ ਕੁਝ ਆਮ ਜਗ੍ਹਿਆਂ ਦਾ ਜ਼ਿਕਰ ਕਰੀਏ ਜਿੱਥੇ ਤੁਸੀਂ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹੋ:
* **ਸੰਰਚਿਤ**
- **Internet of Things** (IoT), ਜਿਸ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਸੈਂਸਰਾਂ ਤੋਂ ਡਾਟਾ ਸ਼ਾਮਲ ਹੈ, ਜਿਵੇਂ ਕਿ ਤਾਪਮਾਨ ਜਾਂ ਦਬਾਅ ਸੈਂਸਰ, ਕਾਫ਼ੀ ਲਾਭਦਾਇਕ ਡਾਟਾ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ। ਉਦਾਹਰਣ ਲਈ, ਜੇਕਰ ਇੱਕ ਦਫ਼ਤਰ ਦੀ ਇਮਾਰਤ IoT ਸੈਂਸਰਾਂ ਨਾਲ ਸਜਜਿਤ ਹੈ, ਤਾਂ ਅਸੀਂ ਖਰਚੇ ਘਟਾਉਣ ਲਈ ਹੀਟਿੰਗ ਅਤੇ ਲਾਈਟਿੰਗ ਨੂੰ ਆਟੋਮੈਟਿਕ ਤੌਰ 'ਤੇ ਨਿਯੰਤਰਿਤ ਕਰ ਸਕਦੇ ਹਾਂ।
- **ਸਰਵੇਖਣਾਂ**, ਜਿਹਨਾਂ ਨੂੰ ਅਸੀਂ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਖਰੀਦਦਾਰੀ ਤੋਂ ਬਾਅਦ ਜਾਂ ਵੈਬਸਾਈਟ ਦੇ ਦੌਰੇ ਤੋਂ ਬਾਅਦ ਪੂਰਾ ਕਰਨ ਲਈ ਕਹਿੰਦੇ ਹਾਂ।
- **ਵਿਹਾਰ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ**, ਜੋ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਉਪਭੋਗਤਾ ਵੈਬਸਾਈਟ ਵਿੱਚ ਕਿੰਨਾ ਡੂੰਘਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਕਿਉਂ ਵੈਬਸਾਈਟ ਛੱਡਦਾ ਹੈ।
- **Internet of Things** (IoT), ਜਿਸ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਸੈਂਸਰਾਂ ਤੋਂ ਡਾਟਾ ਸ਼ਾਮਲ ਹੈ, ਜਿਵੇਂ ਕਿ ਤਾਪਮਾਨ ਜਾਂ ਦਬਾਅ ਸੈਂਸਰ, ਬਹੁਤ ਸਾਰਾ ਲਾਭਦਾਇਕ ਡਾਟਾ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ। ਉਦਾਹਰਨ ਵਜੋਂ, ਜੇਕਰ ਇੱਕ ਦਫ਼ਤਰ ਦੀ ਇਮਾਰਤ IoT ਸੈਂਸਰਾਂ ਨਾਲ ਸਜਾਈ ਗਈ ਹੈ, ਤਾਂ ਅਸੀਂ ਖਰਚੇ ਘਟਾਉਣ ਲਈ ਹੀਟਿੰਗ ਅਤੇ ਲਾਈਟਿੰਗ ਨੂੰ ਸਵੈਚਾਲਿਤ ਤੌਰ 'ਤੇ ਨਿਯੰਤਰਿਤ ਕਰ ਸਕਦੇ ਹਾਂ।
- **ਸਰਵੇਖਣ**, ਜੋ ਅਸੀਂ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਖਰੀਦਦਾਰੀ ਤੋਂ ਬਾਅਦ ਜਾਂ ਵੈਬਸਾਈਟ 'ਤੇ ਜਾਓਣ ਤੋਂ ਬਾਅਦ ਪੂਰਾ ਕਰਨ ਲਈ ਕਹਿੰਦੇ ਹਾਂ।
- **ਵਿਹਾਰ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ**, ਜੋ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਉਪਭੋਗਤਾ ਵੈਬਸਾਈਟ ਵਿੱਚ ਕਿੰਨਾ ਗਹਿਰਾਈ ਵਿੱਚ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਵੈਬਸਾਈਟ ਛੱਡਣ ਦਾ ਆਮ ਕਾਰਨ ਕੀ ਹੈ।
* **ਅਸੰਰਚਿਤ**
- **ਪਾਠ**, ਜੋ ਸਮੁੱਚੇ **ਭਾਵਨਾ ਸਕੋਰ** ਜਾਂ ਕੁੰਜੀ ਸ਼ਬਦ ਅਤੇ ਅਰਥਮਈ ਜਾਣਕਾਰੀ ਕੱਢਣ ਵਰਗੀਆਂ ਝਲਕਾਂ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ।
- **ਚਿੱਤਰ** ਜਾਂ **ਵੀਡੀਓ**। ਨਿਗਰਾਨੀ ਕੈਮਰੇ ਤੋਂ ਇੱਕ ਵੀਡੀਓ ਸੜਕ 'ਤੇ ਟ੍ਰੈਫਿਕ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਅਤੇ ਲੋਕਾਂ ਨੂੰ ਸੰਭਾਵਿਤ ਟ੍ਰੈਫਿਕ ਜਾਮ ਬਾਰੇ ਜਾਣਕਾਰੀ ਦੇਣ ਲਈ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ।
- ਵੈਬ ਸਰਵਰ **ਲਾਗ**, ਜੋ ਇਹ ਸਮਝਣ ਲਈ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ ਕਿ ਸਾਡੀ ਵੈਬਸਾਈਟ ਦੇ ਕਿਹੜੇ ਪੰਨੇ ਸਭ ਤੋਂ ਵੱਧ ਵੇਖੇ ਜਾਂਦੇ ਹਨ ਅਤੇ ਕਿੰਨੀ ਦੇਰ ਲਈ।
- **ਟੈਕਸਟ**, ਜਿਵੇਂ ਕਿ ਕੁੱਲ **ਭਾਵਨਾ ਸਕੋਰ** ਜਾਂ ਕੀਵਰਡ ਅਤੇ ਅਰਥਮੂਲ ਨਿਕਾਲਣ ਲਈ ਇੱਕ ਅਮੋਲ ਸਰੋਤ ਹੋ ਸਕਦਾ ਹੈ।
- **ਚਿੱਤਰ** ਜਾਂ **ਵੀਡੀਓ**। ਨਿਗਰਾਨੀ ਕੈਮਰੇ ਤੋਂ ਇੱਕ ਵੀਡੀਓ ਸੜਕ 'ਤੇ ਟ੍ਰੈਫਿਕ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਅਤੇ ਲੋਕਾਂ ਨੂੰ ਸੰਭਾਵਿਤ ਟ੍ਰੈਫਿਕ ਜਾਮ ਬਾਰੇ ਸੂਚਿਤ ਕਰ ਸਕਦੀ ਹੈ।
- ਵੈਬ ਸਰਵਰ **ਲਾਗ**, ਜੋ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ ਕਿ ਸਾਡੀ ਵੈਬਸਾਈਟ ਦੇ ਕਿਹੜੇ ਪੰਨੇ ਸਭ ਤੋਂ ਵੱਧ ਵਾਰ ਵੇਖੇ ਜਾਂਦੇ ਹਨ, ਅਤੇ ਕਿੰਨੇ ਸਮੇਂ ਲਈ।
* **ਅਰਧ-ਸੰਰਚਿਤ**
- **ਸੋਸ਼ਲ ਨੈਟਵਰਕ** ਗ੍ਰਾਫ, ਜੋ ਉਪਭੋਗਤਾ ਦੀਆਂ ਵਿਅਕਤਿਤਾਵਾਂ ਅਤੇ ਜਾਣਕਾਰੀ ਫੈਲਾਉਣ ਵਿੱਚ ਸੰਭਾਵਿਤ ਪ੍ਰਭਾਵਸ਼ਾਲੀਤਾ ਬਾਰੇ ਡਾਟਾ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦੇ ਹਨ।
- ਜਦੋਂ ਸਾਡੇ ਕੋਲ ਪਾਰਟੀ ਤੋਂ ਫੋਟੋਆਂ ਦਾ ਇਕੱਠ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਅਸੀਂ **ਗਰੁੱਪ ਡਾਇਨਾਮਿਕਸ** ਡਾਟਾ ਕੱਢਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹਾਂ, ਜਿਵੇਂ ਕਿ ਲੋਕਾਂ ਦੇ ਗਰੁੱਪਾਂ ਦੀਆਂ ਤਸਵੀਰਾਂ ਦੇ ਗ੍ਰਾਫ ਬਣਾਉਣਾ
- **ਸੋਸ਼ਲ ਨੈਟਵਰਕ** ਗ੍ਰਾਫ, ਜੋ ਉਪਭੋਗਤਾ ਦੇ ਵਿਅਕਤੀਗਤ ਗੁਣਾਂ ਅਤੇ ਜਾਣਕਾਰੀ ਫੈਲਾਉਣ ਵਿੱਚ ਸੰਭਾਵਿਤ ਪ੍ਰਭਾਵਸ਼ਾਲੀਤਾ ਬਾਰੇ ਡਾਟਾ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਸ਼ਾਨਦਾਰ ਸਰੋਤ ਹੋ ਸਕਦੇ ਹਨ।
- ਜਦੋਂ ਸਾਡੇ ਕੋਲ ਪਾਰਟੀ ਤੋਂ ਫੋਟੋਆਂ ਦਾ ਇਕੱਠ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਅਸੀਂ **ਗਰੁੱਪ ਡਾਇਨਾਮਿਕਸ** ਡਾਟਾ ਨਿਕਾਲਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹਾਂ, ਲੋਕਾਂ ਦੇ ਗ੍ਰਾਫ ਬਣਾਕੇ ਜੋ ਇੱਕ-ਦੂਜੇ ਨਾਲ ਤਸਵੀਰਾਂ ਖਿੱਚ ਰਹੇ ਹਨ
ਵੱਖ-ਵੱਖ ਸੰਭਾਵਿਤ ਡਾਟਾ ਸਰੋਤਾਂ ਨੂੰ ਜਾਣ ਕੇ, ਤੁਸੀਂ ਵੱਖ-ਵੱਖ ਸਥਿਤੀਆਂ ਬਾਰੇ ਸੋਚ ਸਕਦੇ ਹੋ ਜਿੱਥੇ ਡਾਟਾ ਸਾਇੰਸ ਤਕਨੀਕਾਂ ਨੂੰ ਸਥਿਤੀ ਨੂੰ ਬਿਹਤਰ ਸਮਝਣ ਅਤੇ ਕਾਰੋਬਾਰੀ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਡਾਟਾ ਦੇ ਵੱਖ-ਵੱਖ ਸੰਭਾਵਿਤ ਸਰੋਤਾਂ ਨੂੰ ਜਾਣ ਕੇ, ਤੁਸੀਂ ਵੱਖ-ਵੱਖ ਸਥਿਤੀਆਂ ਬਾਰੇ ਸੋਚਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹੋ ਜਿੱਥੇ ਡਾਟਾ ਸਾਇੰਸ ਤਕਨੀਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਕੇ ਸਥਿਤੀ ਨੂੰ ਬਿਹਤਰ ਸਮਝਿਆ ਜਾ ਸਕਦਾ ਹੈ ਅਤੇ ਵਪਾਰਕ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਸੁਧਾਰਿਆ ਜਾ ਸਕਦਾ ਹੈ।
## ਡਾਟਾ ਨਾਲ ਕੀ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ
ਡਾਟਾ ਸਾਇੰਸ ਵਿੱਚ, ਅਸੀਂ ਡਾਟਾ ਯਾਤਰਾ ਦੇ ਹੇਠ ਲਿਖੇ ਕਦਮਾਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਾਂ:
ਡਾਟਾ ਸਾਇੰਸ ਵਿੱਚ, ਅਸੀਂ ਡਾਟਾ ਯਾਤਰਾ ਦੇ ਹੇਠਾਂ ਦਿੱਤੇ ਕਦਮਾਂ 'ਤੇ ਧਿਆਨ ਦਿੰਦੇ ਹਾਂ:
## ਡਿਜ਼ੀਟਲਾਈਜ਼ੇਸ਼ਨ ਅਤੇ ਡਿਜ਼ੀਟਲ ਰੂਪਾਂਤਰਨ
ਪਿਛਲੇ ਦਹਾਕੇ ਵਿੱਚ, ਕਈ ਕਾਰੋਬਾਰਾਂ ਨੇ ਇਹ ਸਮਝਣਾ ਸ਼ੁਰੂ ਕੀਤਾ ਕਿ ਕਾਰੋਬਾਰੀ ਫੈਸਲੇ ਲੈਣ ਸਮੇਂ ਡਾਟਾ ਕਿੰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਸਿਧਾਂਤਾਂ ਨੂੰ ਕਾਰੋਬਾਰ ਚਲਾਉਣ ਲਈ ਲਾਗੂ ਕਰਨ ਲਈ, ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਕੁਝ ਡਾਟਾ ਇਕੱਠਾ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਅਰਥਾਤ ਕਾਰੋਬਾਰੀ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਡਿਜ਼ੀਟਲ ਰੂਪ ਵਿੱਚ ਤਬਦੀਲ ਕਰਨਾ। ਇਸਨੂੰ **ਡਿਜ਼ੀਟਲਾਈਜ਼ੇਸ਼ਨ** ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਇਸ ਡਾਟਾ 'ਤੇ ਡਾਟਾ ਸਾਇੰਸ ਤਕਨੀਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਕੇ ਫੈਸਲੇ ਲੈਣ ਨਾਲ ਉਤਪਾਦਕਤਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਵਾਧਾ ਹੋ ਸਕਦਾ ਹੈ (ਜਾਂ ਕਾਰੋਬਾਰ ਵਿੱਚ ਨਵੀਂ ਦਿਸ਼ਾ), ਜਿਸਨੂੰ **ਡਿਜ਼ੀਟਲ ਰੂਪਾਂਤਰਨ** ਕਿਹਾ ਜਾਂਦਾ ਹੈ।
ਪਿਛਲੇ ਦਹਾਕੇ ਵਿੱਚ, ਕਈ ਵਪਾਰਾਂ ਨੇ ਵਪਾਰਕ ਫੈਸਲੇ ਲੈਂਦੇ ਸਮੇਂ ਡਾਟਾ ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਸਮਝਣਾ ਸ਼ੁਰੂ ਕੀਤਾ। ਵਪਾਰ ਚਲਾਉਣ ਲਈ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਸਿਧਾਂਤਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਲਈ, ਪਹਿਲਾਂ ਕੁਝ ਡਾਟਾ ਇਕੱਠਾ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਅਰਥਾਤ ਵਪਾਰਕ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਡਿਜ਼ੀਟਲ ਰੂਪ ਵਿੱਚ ਅਨੁਵਾਦਿਤ ਕਰਨਾ। ਇਸਨੂੰ **ਡਿਜ਼ੀਟਲਾਈਜ਼ੇਸ਼ਨ** ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਇਸ ਡਾਟਾ 'ਤੇ ਡਾਟਾ ਸਾਇੰਸ ਤਕਨੀਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਕੇ ਫੈਸਲੇ ਲਈ ਮਾਰਗਦਰਸ਼ਨ ਕਰਨ ਨਾਲ ਉਤਪਾਦਕਤਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਵਾਧਾ (ਜਾਂ ਵਪਾਰਕ ਪਿਵਟ) ਹੋ ਸਕਦਾ ਹੈ, ਜਿਸਨੂੰ **ਡਿਜ਼ੀਟਲ ਰੂਪਾਂਤਰਨ** ਕਿਹਾ ਜਾਂਦਾ ਹੈ।
ਆਓ ਇੱਕ ਉਦਾਹਰ ਦੇਖੀਏ। ਮੰਨ ਲਓ ਕਿ ਸਾਡੇ ਕੋਲ ਇੱਕ ਡਾਟਾ ਸਾਇੰਸ ਕੋਰਸ ਹੈ (ਜਿਵੇਂ ਕਿ ਇਹ), ਜਿਸਨੂੰ ਅਸੀਂ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਆਨਲਾਈਨ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਅਸੀਂ ਇਸਨੂੰ ਸੁਧਾਰਨ ਲਈ ਡਾਟਾ ਸਾਇੰਸ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ। ਅਸੀਂ ਇ ਕਿਵੇਂ ਕਰ ਸਕਦੇ ਹਾਂ?
ਆਓ ਇੱਕ ਉਦਾਹਰ ਦੇਖੀਏ। ਮੰਨ ਲਓ ਕਿ ਸਾਡੇ ਕੋਲ ਇੱਕ ਡਾਟਾ ਸਾਇੰਸ ਕੋਰਸ ਹੈ (ਜਿਵੇਂ ਕਿ ਇਹ), ਜੋ ਅਸੀਂ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਆਨਲਾਈਨ ਮੁਹੱਈਆ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਅਸੀਂ ਇਸਨੂੰ ਸੁਧਾਰਨ ਲਈ ਡਾਟਾ ਸਾਇੰਸ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ। ਅਸੀਂ ਇਸਨੂੰ ਕਿਵੇਂ ਕਰ ਸਕਦੇ ਹਾਂ?
ਅਸੀਂ ਇਹ ਪੁੱਛ ਕੇ ਸ਼ੁਰੂ ਕਰ ਸਕਦੇ ਹਾਂ, "ਕੀ ਡਿਜ਼ੀਟਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ?" ਸਭ ਤੋਂ ਸਧਾਰਨ ਤਰੀਕਾ ਇਹ ਹੋਵੇਗਾ ਕਿ ਹਰ ਵਿਦਿਆਰਥੀ ਨੂੰ ਹਰ ਮਡਿਊਲ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਲੱਗਣ ਵਾਲੇ ਸਮੇਂ ਨੂੰ ਮਾਪਿਆ ਜਾਵੇ, ਅਤੇ ਹਰ ਮਡਿਊਲ ਦੇ ਅੰਤ ਵਿੱਚ ਇੱਕ ਮਲਟੀਪਲ-ਚੋਇਸ ਟੈਸਟ ਦੇ ਕੇ ਪ੍ਰਾਪਤ ਗਿਆਨ ਨੂੰ ਮਾਪਿਆ ਜਾਵੇ। ਸਾਰੇ ਵਿਦਿਆਰਥੀਆਂ ਵਿੱਚ ਸਮਾਂ-ਪੂਰਾ ਕਰਨ ਦੇ ਔਸਤ ਨੂੰ ਮਾਪ ਕੇ, ਅਸੀਂ ਪਤਾ ਲਗਾ ਸਕਦੇ ਹਾਂ ਕਿ ਕਿਹੜੇ ਮਾਡਿਊਲ ਵਿਦਿਆਰਥੀਆਂ ਲਈ ਸਭ ਤੋਂ ਵੱਧ ਮੁਸ਼ਕਲੀਆਂ ਪੈਦਾ ਕਰਦੇ ਹਨ, ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਸਧਾਰਨ ਬਣਾਉਣ 'ਤੇ ਕੰਮ ਕਰ ਸਕਦੇ ਹਾਂ
ਤੁਸੀਂ ਦਲੀਲ ਦੇ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਪਹੁੰਚ ਆਦਰਸ਼ ਨਹੀਂ ਹੈ, ਕਿਉਂਕਿ ਮੋਡੀਊਲ ਵੱਖ-ਵੱਖ ਲੰਬਾਈ ਦੇ ਹੋ ਸਕਦੇ ਹਨ। ਸ਼ਾਇਦ ਸਮਾਂ ਨੂੰ ਮੋਡੀਊਲ ਦੀ ਲੰਬਾਈ (ਅੱਖਰਾਂ ਦੀ ਗਿਣਤੀ ਵਿੱਚ) ਨਾਲ ਵੰਡਣਾ ਅਤੇ ਉਹਨਾਂ ਮੁੱਲਾਂ ਦੀ ਤੁਲਨਾ ਕਰਨਾ ਜ਼ਿਆਦਾ ਨਿਆਂਯੁਕਤ ਹੋਵੇ।
ਜਦੋਂ ਅਸੀਂ ਬਹੁ-ਚੋਣ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਨਤੀਜਿਆਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰਦੇ ਹਾਂ, ਤਾਂ ਅਸੀਂ ਇਹ ਪਤਾ ਲਗਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹਾਂ ਕਿ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਕਿਹੜੇ ਧਾਰਾਵਾਂ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆ ਰਹੀ ਹੈ, ਅਤੇ ਇਸ ਜਾਣਕਾਰੀ ਨੂੰ ਸਮੱਗਰੀ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਵਰਤ ਸਕਦੇ ਹਾਂ। ਇਹ ਕਰਨ ਲਈ, ਸਾਨੂੰ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਡਿਜ਼ਾਈਨ ਕਰਨਾ ਪਵੇਗਾ ਕਿ ਹਰ ਪ੍ਰਸ਼ਨ ਕਿਸੇ ਵਿਸ਼ੇਸ਼ ਧਾਰਣਾ ਜਾਂ ਗਿਆਨ ਦੇ ਟੁਕੜੇ ਨਾਲ ਜੁੜਿਆ ਹੋਵੇ।
ਅਸੀਂ "ਕੀ ਡਿਜ਼ੀਟਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ?" ਪੁੱਛ ਕੇ ਸ਼ੁਰੂ ਕਰ ਸਕਦੇ ਹਾਂ। ਸਭ ਤੋਂ ਸਧਾਰਨ ਤਰੀਕਾ ਇਹ ਹੋਵੇਗਾ ਕਿ ਹਰ ਵਿਦਿਆਰਥੀ ਨੂੰ ਹਰ ਮਡਿਊਲ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਲੱਗਣ ਵਾਲੇ ਸਮੇਂ ਨੂੰ ਮਾਪਿਆ ਜਾਵੇ, ਅਤੇ ਹਰ ਮਡਿਊਲ ਦੇ ਅੰਤ ਵਿੱਚ ਇੱਕ ਮਲਟੀਪਲ-ਚੋਇਸ ਟੈਸਟ ਦੇ ਕੇ ਪ੍ਰਾਪਤ ਗਿਆਨ ਨੂੰ ਮਾਪਿਆ ਜਾਵੇ। ਸਾਰੇ ਵਿਦਿਆਰਥੀਆਂ ਵਿੱਚ ਸਮਾਂ-ਪੂਰਾ ਕਰਨ ਦੇ ਔਸਤ ਨੂੰ ਮਾਪ ਕੇ, ਅਸੀਂ ਪਤਾ ਲਗਾ ਸਕਦੇ ਹਾਂ ਕਿ ਕਿਹੜੇ ਮੋਡਿਊਲ ਵਿਦਿਆਰਥੀਆਂ ਲਈ ਸਭ ਤੋਂ ਵੱਧ ਮੁਸ਼ਕਲਾਂ ਪੈਦਾ ਕਰਦੇ ਹਨ, ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਸਧਾਰਨ ਬਣਾਉਣ 'ਤੇ ਕੰਮ ਕਰ ਸਕਦੇ ਹ
ਤੁਹਾਨੂੰ ਇਹ ਦਲੀਲ ਦੇ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਪਹੁੰਚ ਆਦਰਸ਼ ਨਹੀਂ ਹੈ, ਕਿਉਂਕਿ ਮੋਡੀਊਲ ਵੱਖ-ਵੱਖ ਲੰਬਾਈ ਦੇ ਹੋ ਸਕਦੇ ਹਨ। ਸ਼ਾਇਦ ਸਮਾਂ ਨੂੰ ਮੋਡੀਊਲ ਦੀ ਲੰਬਾਈ (ਅੱਖਰਾਂ ਦੀ ਗਿਣਤੀ ਵਿੱਚ) ਨਾਲ ਵੰਡਣਾ ਅਤੇ ਉਹਨਾਂ ਮੁੱਲਾਂ ਦੀ ਤੁਲਨਾ ਕਰਨਾ ਜ਼ਿਆਦਾ ਨਿਆਂਯੁਕਤ ਹੋਵੇ।
ਜਦੋਂ ਅਸੀਂ ਬਹੁ-ਚੋਣ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਨਤੀਜਿਆਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰਦੇ ਹਾਂ, ਤਾਂ ਅਸੀਂ ਇਹ ਪਤਾ ਲਗਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹਾਂ ਕਿ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਕਿਹੜੇ ਧਾਰਾਵਾਂ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆ ਰਹੀ ਹੈ, ਅਤੇ ਇਸ ਜਾਣਕਾਰੀ ਨੂੰ ਸਮੱਗਰੀ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਵਰਤ ਸਕਦੇ ਹਾਂ। ਇਹ ਕਰਨ ਲਈ, ਸਾਨੂੰ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਡਿਜ਼ਾਈਨ ਕਰਨ ਦੀ ਲੋੜ ਹੈ ਕਿ ਹਰ ਪ੍ਰਸ਼ਨ ਕਿਸੇ ਵਿਸ਼ੇਸ਼ ਧਾਰਨਾ ਜਾਂ ਗਿਆਨ ਦੇ ਟੁਕੜੇ ਨਾਲ ਜੁੜਿਆ ਹੋਵੇ।
ਜੇ ਅਸੀਂ ਹੋਰ ਜਟਿਲ ਹੋਣਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਤਾਂ ਅਸੀਂ ਹਰ ਮੋਡੀਊਲ ਲਈ ਲੱਗੇ ਸਮੇਂ ਨੂੰ ਵਿਦਿਆਰਥੀਆਂ ਦੀ ਉਮਰ ਸ਼੍ਰੇਣੀ ਦੇ ਮੁਕਾਬਲੇ ਵਿੱਚ ਪਲਾਟ ਕਰ ਸਕਦੇ ਹਾਂ। ਸਾਨੂੰ ਪਤਾ ਲਗ ਸਕਦਾ ਹੈ ਕਿ ਕੁਝ ਉਮਰ ਸ਼੍ਰੇਣੀਆਂ ਲਈ ਮੋਡੀਊਲ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਅਣਉਚਿਤ ਤੌਰ 'ਤੇ ਲੰਮਾ ਸਮਾਂ ਲੱਗਦਾ ਹੈ, ਜਾਂ ਵਿਦਿਆਰਥੀ ਇਸਨੂੰ ਪੂਰਾ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਛੱਡ ਦਿੰਦੇ ਹਨ। ਇਹ ਸਾਨੂੰ ਮੋਡੀਊਲ ਲਈ ਉਮਰ ਦੀ ਸਿਫਾਰਸ਼ਾਂ ਦੇਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਗਲਤ ਉਮੀਦਾਂ ਤੋਂ ਲੋਕਾਂ ਦੀ ਨਿਰਾਸ਼ਾ ਨੂੰ ਘਟਾ ਸਕਦਾ ਹੈ।
ਜੇ ਅਸੀਂ ਹੋਰ ਜਟਿਲ ਹੋਣਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਤਾਂ ਅਸੀਂ ਹਰ ਮੋਡੀਊਲ ਲਈ ਲੱਗਣ ਵਾਲੇ ਸਮੇਂ ਨੂੰ ਵਿਦਿਆਰਥੀਆਂ ਦੀ ਉਮਰ ਸ਼੍ਰੇਣੀ ਦੇ ਮੁਕਾਬਲੇ ਪਲਾਟ ਕਰ ਸਕਦੇ ਹਾਂ। ਸਾਨੂੰ ਪਤਾ ਲਗ ਸਕਦਾ ਹੈ ਕਿ ਕੁਝ ਉਮਰ ਸ਼੍ਰੇਣੀਆਂ ਲਈ ਮੋਡੀਊਲ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਬੇਹਤਾਸ਼ਾ ਸਮਾਂ ਲੱਗਦਾ ਹੈ, ਜਾਂ ਵਿਦਿਆਰਥੀ ਇਸਨੂੰ ਪੂਰਾ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਛੱਡ ਦਿੰਦੇ ਹਨ। ਇਹ ਸਾਨੂੰ ਮੋਡੀਊਲ ਲਈ ਉਮਰ ਦੀ ਸਿਫਾਰਸ਼ਾਂ ਦੇਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਗਲਤ ਉਮੀਦਾਂ ਤੋਂ ਲੋਕਾਂ ਦੀ ਨਿਰਾਸ਼ਾ ਨੂੰ ਘਟਾ ਸਕਦਾ ਹੈ।
## 🚀 ਚੁਣੌਤੀ
ਇਸ ਚੁਣੌਤੀ ਵਿੱਚ, ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਖੇਤਰ ਨਾਲ ਸਬੰਧਤ ਧਾਰਾਵਾਂ ਨੂੰ ਪਛਾਣਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ, ਟੈਕਸਟ ਨੂੰ ਦੇਖ ਕੇ। ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ 'ਤੇ ਇੱਕ ਵਿਕੀਪੀਡੀਆ ਲੇਖ ਲਵਾਂਗੇ, ਟੈਕਸਟ ਨੂੰ ਡਾਊਨਲੋਡ ਅਤੇ ਪ੍ਰੋਸੈਸ ਕਰਾਂਗੇ, ਅਤੇ ਫਿਰ ਇੱਕ ਵਰਡ ਕਲਾਉਡ ਬਣਾਵਾਂਗੇ ਜਿਵੇਂ ਕਿ ਇਹ ਹੈ:
ਇਸ ਚੁਣੌਤੀ ਵਿੱਚ, ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਖੇਤਰ ਨਾਲ ਸਬੰਧਤ ਧਾਰਾਵਾਂ ਨੂੰ ਪਛਾਣਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ, ਟੈਕਸਟ ਨੂੰ ਦੇਖ ਕੇ। ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ 'ਤੇ ਇੱਕ ਵਿਕੀਪੀਡੀਆ ਲੇਖ ਲਵਾਂਗੇ, ਟੈਕਸਟ ਨੂੰ ਡਾਊਨਲੋਡ ਅਤੇ ਪ੍ਰੋਸੈਸ ਕਰਾਂਗੇ, ਅਤੇ ਫਿਰ ਇੱਕ ਵਰਡ ਕਲਾਉਡ ਬਣਾਵਾਂਗੇ ਜਿਵੇਂ ਕਿ ਇਹ ਹੈ:
![ਡਾਟਾ ਸਾਇੰਸ ਲਈ ਵਰਡ ਕਲਾਉਡ](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.pa.png)
![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.pa.png)
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 'ਤੇ ਜਾਓ ਅਤੇ ਕੋਡ ਨੂੰ ਪੜ੍ਹੋ। ਤੁਸੀਂ ਕੋਡ ਚਲਾ ਕੇ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਸਾਰੇ ਡਾਟਾ ਟ੍ਰਾਂਸਫਾਰਮੇਸ਼ਨ ਨੂੰ ਰੀਅਲ ਟਾਈਮ ਵਿੱਚ ਕਿਵੇਂ ਕਰਦਾ ਹੈ।
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 'ਤੇ ਜਾਓ ਅਤੇ ਕੋਡ ਨੂੰ ਪੜ੍ਹੋ। ਤੁਸੀਂ ਕੋਡ ਚਲਾ ਦੇ ਹੋ ਅਤੇ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਸਾਰੇ ਡਾਟਾ ਰੂਪਾਂਤਰਨਾਂ ਨੂੰ ਰੀਅਲ-ਟਾਈਮ ਵਿੱਚ ਕਿਵੇਂ ਕਰਦਾ ਹੈ।
> ਜੇ ਤੁਹਾਨੂੰ Jupyter Notebook ਵਿੱਚ ਕੋਡ ਚਲਾਉਣ ਦਾ ਪਤਾ ਨਹੀਂ ਹੈ, ਤਾਂ [ਇਸ ਲੇਖ](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ਨੂੰ ਦੇਖੋ।
## [ਪੋਸਟ-ਲੈਕਚਰ ਕਵਿਜ਼](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [ਪੋਸਟ-ਲੈਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify.app/en/ds/)
## ਅਸਾਈਨਮੈਂਟਸ
* **ਟਾਸਕ 1**: ਉਪਰੋਕਤ ਕੋਡ ਨੂੰ ਸੋਧੋ ਤਾਂ ਜੋ **Big Data** ਅਤੇ **Machine Learning** ਦੇ ਖੇਤਰਾਂ ਲਈ ਸਬੰਧਤ ਧਾਰਾਵਾਂ ਪਤਾ ਲਗਾਈਆਂ ਜਾ ਸਕਣ।
* **ਟਾਸਕ 2**: [ਡਾਟਾ ਸਾਇੰਸ ਸਨਰੀਓਜ਼ ਬਾਰੇ ਸੋਚੋ](assignment.md)
* **ਟਾਸਕ 1**: ਉਪਰੋਕਤ ਕੋਡ ਨੂੰ ਸੋਧੋ ਤਾਂ ਜੋ **Big Data** ਅਤੇ **Machine Learning** ਖੇਤਰਾਂ ਲਈ ਸਬੰਧਤ ਧਾਰਾਵਾਂ ਪਤਾ ਲਗਾਈਆਂ ਜਾ ਸਕਣ।
* **ਟਾਸਕ 2**: [ਡਾਟਾ ਸਾਇੰਸ ਸਥਿਤੀਆਂ ਬਾਰੇ ਸੋਚੋ](assignment.md)
## ਸ਼੍ਰੇਯ
@ -75,4 +75,4 @@ CO_OP_TRANSLATOR_METADATA:
---
**ਅਸਵੀਕਰਤੀ**:
ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚੱਜੇਪਣ ਹੋ ਸਕਦੇ ਹਨ। ਇਸ ਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਮੌਜੂਦ ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਅਧਿਕਾਰਕ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਅਸੀਂ ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।
ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚੱਜੇਪਣ ਹੋ ਸਕਦੇ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼, ਜੋ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਹੈ, ਨੂੰ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।

@ -1,61 +1,63 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-24T21:29:24+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:14:38+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "pl"
}
-->
## Rodzaje Danych
## Definiowanie Data Science
Jak już wspomnieliśmy, dane są wszędzie. Wystarczy je odpowiednio uchwycić! Warto rozróżnić między danymi **ustrukturyzowanymi** a **nieustrukturyzowanymi**. Te pierwsze są zazwyczaj przedstawiane w dobrze zorganizowanej formie, często jako tabela lub zestaw tabel, podczas gdy te drugie to po prostu zbiór plików. Czasami możemy również mówić o danych **półustrukturyzowanych**, które mają pewien rodzaj struktury, ale może się ona znacznie różnić.
| ![ Sketchnote autorstwa [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------------: |
| Definiowanie Data Science - _Sketchnote autorstwa [@nitya](https://twitter.com/nitya)_ |
| Ustrukturyzowane | Półustrukturyzowane | Nieustrukturyzowane |
| --------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | --------------------------------------- |
| Lista osób z ich numerami telefonów | Strony Wikipedii z linkami | Tekst Encyklopedii Britannica |
| Temperatura we wszystkich pomieszczeniach budynku co minutę przez ostatnie 20 lat | Zbiór artykułów naukowych w formacie JSON z autorami, datą publikacji i abstraktem | Udostępnione pliki z dokumentami firmowymi |
| Dane o wieku i płci wszystkich osób wchodzących do budynku | Strony internetowe | Surowy materiał wideo z kamery monitoringu |
---
## Skąd brać dane
[![Definiowanie Data Science - Wideo](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.pl.png)](https://youtu.be/beZ7Mb_oz9I)
Istnieje wiele możliwych źródeł danych i niemożliwe jest wymienienie ich wszystkich! Warto jednak wspomnieć o kilku typowych miejscach, z których można pozyskać dane:
## [Quiz przed wykładem](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
* **Ustrukturyzowane**
- **Internet Rzeczy** (IoT), w tym dane z różnych czujników, takich jak czujniki temperatury czy ciśnienia, dostarcza wiele użytecznych danych. Na przykład, jeśli budynek biurowy jest wyposażony w czujniki IoT, możemy automatycznie kontrolować ogrzewanie i oświetlenie, aby zminimalizować koszty.
- **Ankiety**, które prosimy użytkowników o wypełnienie po dokonaniu zakupu lub odwiedzeniu strony internetowej.
- **Analiza zachowań** może pomóc nam zrozumieć, jak głęboko użytkownik przegląda stronę i co jest typowym powodem opuszczenia strony.
* **Nieustrukturyzowane**
- **Teksty** mogą być bogatym źródłem informacji, takich jak ogólny **wskaźnik nastroju** lub wyodrębnianie słów kluczowych i znaczenia semantycznego.
- **Obrazy** lub **wideo**. Materiał wideo z kamery monitoringu może być użyty do oszacowania natężenia ruchu na drodze i informowania ludzi o potencjalnych korkach.
- **Logi** serwerów internetowych mogą być używane do zrozumienia, które strony naszej witryny są najczęściej odwiedzane i jak długo.
* **Półustrukturyzowane**
- **Grafy sieci społecznościowych** mogą być świetnym źródłem danych o osobowościach użytkowników i potencjalnej skuteczności w rozpowszechnianiu informacji.
- Gdy mamy zbiór zdjęć z imprezy, możemy spróbować wyodrębnić dane o **dynamice grupy**, budując graf osób robiących sobie wspólne zdjęcia.
## Co to jest dane?
W naszym codziennym życiu jesteśmy nieustannie otoczeni danymi. Tekst, który teraz czytasz, to dane. Lista numerów telefonów Twoich znajomych w smartfonie to dane, podobnie jak aktualny czas wyświetlany na zegarku. Jako ludzie naturalnie operujemy danymi, licząc pieniądze, które posiadamy, czy pisząc listy do znajomych.
Znając różne możliwe źródła danych, możesz spróbować pomyśleć o różnych scenariuszach, w których techniki nauki o danych mogą być zastosowane, aby lepiej zrozumieć sytuację i usprawnić procesy biznesowe.
Jednak dane stały się znacznie bardziej istotne wraz z powstaniem komputerów. Główną rolą komputerów jest wykonywanie obliczeń, ale potrzebują one danych, aby na nich operować. Dlatego musimy zrozumieć, jak komputery przechowują i przetwarzają dane.
## Co można zrobić z danymi
Wraz z pojawieniem się Internetu rola komputerów jako urządzeń do obsługi danych wzrosła. Jeśli się nad tym zastanowić, obecnie używamy komputerów coraz częściej do przetwarzania danych i komunikacji, a nie do samych obliczeń. Pisząc e-mail do znajomego czy szukając informacji w Internecie, w istocie tworzymy, przechowujemy, przesyłamy i manipulujemy danymi.
> Czy pamiętasz, kiedy ostatni raz używałeś komputera do faktycznego obliczania czegoś?
W nauce o danych skupiamy się na następujących etapach pracy z danymi:
## Co to jest Data Science?
Oczywiście, w zależności od konkretnych danych, niektóre etapy mogą być pominięte (np. gdy dane są już w bazie danych lub gdy nie potrzebujemy trenowania modelu), a niektóre etapy mogą być powtarzane wielokrotnie (np. przetwarzanie danych).
Na [Wikipedii](https://en.wikipedia.org/wiki/Data_science), **Data Science** jest definiowane jako *dziedzina naukowa, która wykorzystuje metody naukowe do wydobywania wiedzy i wniosków ze strukturalnych i niestrukturalnych danych oraz stosowania wiedzy i praktycznych wniosków z danych w szerokim zakresie dziedzin zastosowań*.
## Cyfryzacja i transformacja cyfrowa
Ta definicja podkreśla następujące ważne aspekty Data Science:
W ostatniej dekadzie wiele firm zaczęło dostrzegać znaczenie danych w podejmowaniu decyzji biznesowych. Aby zastosować zasady nauki o danych w prowadzeniu biznesu, najpierw trzeba zebrać dane, czyli przekształcić procesy biznesowe w formę cyfrową. To nazywa się **cyfryzacją**. Zastosowanie technik nauki o danych do tych danych w celu podejmowania decyzji może prowadzić do znacznego wzrostu produktywności (lub nawet zmiany kierunku działalności), co nazywa się **transformacją cyfrową**.
* Głównym celem Data Science jest **wydobywanie wiedzy** z danych, innymi słowy - **zrozumienie** danych, odnalezienie ukrytych zależności i stworzenie **modelu**.
* Data Science wykorzystuje **metody naukowe**, takie jak prawdopodobieństwo i statystyka. W rzeczywistości, gdy termin *Data Science* został po raz pierwszy wprowadzony, niektórzy twierdzili, że to tylko nowa, modna nazwa dla statystyki. Obecnie stało się jasne, że dziedzina ta jest znacznie szersza.
* Uzyskana wiedza powinna być stosowana do tworzenia **praktycznych wniosków**, czyli takich, które można zastosować w rzeczywistych sytuacjach biznesowych.
* Powinniśmy być w stanie operować zarówno na danych **strukturalnych**, jak i **niestrukturalnych**. Do tego tematu wrócimy później w kursie.
* **Dziedzina zastosowania** to ważne pojęcie, a specjaliści od Data Science często potrzebują przynajmniej pewnego stopnia wiedzy w danej dziedzinie, na przykład: finansach, medycynie, marketingu itd.
Rozważmy przykład. Załóżmy, że mamy kurs nauki o danych (taki jak ten), który prowadzimy online dla studentów, i chcemy go ulepszyć za pomocą nauki o danych. Jak możemy to zrobić?
> Kolejnym istotnym aspektem Data Science jest badanie, jak dane mogą być zbierane, przechowywane i przetwarzane za pomocą komputerów. Podczas gdy statystyka dostarcza nam matematycznych podstaw, Data Science stosuje te koncepcje matematyczne, aby faktycznie wyciągać wnioski z danych.
Możemy zacząć od pytania „Co można zdigitalizować?”. Najprostszym sposobem byłoby zmierzenie czasu, jaki zajmuje każdemu studentowi ukończenie każdego modułu, oraz zmierzenie zdobytej wiedzy poprzez test wielokrotnego wyboru na końcu każdego modułu. Uśredniając czas ukończenia wśród wszystkich studentów, możemy dowiedzieć się, które moduły sprawiają studentom największe trudności i popracować nad ich uproszczeniem.
Możesz argumentować, że takie podejście nie jest idealne, ponieważ moduły mogą mieć różną długość. Prawdopodobnie bardziej sprawiedliwe byłoby podzielenie czasu przez długość modułu (w liczbie znaków) i porównanie tych wartości zamiast tego.
Kiedy zaczynamy analizować wyniki testów wielokrotnego wyboru, możemy spróbować określić, które pojęcia sprawiają trudność uczniom, i wykorzystać te informacje do ulepszenia treści. Aby to zrobić, musimy zaprojektować testy w taki sposób, aby każde pytanie odnosiło się do konkretnego pojęcia lub fragmentu wiedzy.
Jednym ze sposobów (przypisywanym [Jimowi Grayowi](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) spojrzenia na Data Science jest traktowanie jej jako odrębnego paradygmatu nauki:
* **Empiryczny**, w którym polegamy głównie na obserwacjach i wynikach eksperymentów
* **Teoretyczny**, gdzie nowe koncepcje wyłaniają się z istniejącej wiedzy naukowej
* **Obliczeniowy**, gdzie odkrywamy nowe zasady na podstawie eksperymentów obliczeniowych
* **Oparty na danych**, bazujący na odkrywaniu zależności i wzorców w danych
Jeśli chcemy pójść o krok dalej, możemy zestawić czas potrzebny na ukończenie każdego modułu z kategorią wiekową uczniów. Możemy odkryć, że dla niektórych grup wiekowych ukończenie modułu zajmuje nieproporcjonalnie dużo czasu lub że uczniowie rezygnują przed jego ukończeniem. Może to pomóc w ustaleniu zaleceń wiekowych dla modułu i zminimalizowaniu niezadowolenia wynikającego z niewłaściwych oczekiwań.
## Powiązane dziedziny
Ponieważ dane są wszechobecne, Data Science również jest szeroką dziedziną, która dotyka wielu innych dyscyplin.
Można argumentować, że takie podejście nie jest idealne, ponieważ moduły mogą mieć różne długości. Prawdopodobnie bardziej sprawiedliwe byłoby podzielenie czasu przez długość modułu (w liczbie znaków) i porównanie tych wartości zamiast tego.
Kiedy zaczynamy analizować wyniki testów wielokrotnego wyboru, możemy spróbować określić, które pojęcia sprawiają uczniom trudności w zrozumieniu, i wykorzystać te informacje do ulepszenia treści. Aby to zrobić, musimy zaprojektować testy w taki sposób, aby każde pytanie odnosiło się do konkretnego pojęcia lub fragmentu wiedzy.
Jeśli chcemy podejść do tego bardziej szczegółowo, możemy zestawić czas potrzebny na ukończenie każdego modułu z kategorią wiekową uczniów. Możemy odkryć, że dla niektórych grup wiekowych ukończenie modułu zajmuje nieproporcjonalnie dużo czasu lub że uczniowie rezygnują przed jego ukończeniem. To może pomóc nam w określeniu rekomendacji wiekowych dla modułu i zminimalizowaniu niezadowolenia wynikającego z niewłaściwych oczekiwań.
## 🚀 Wyzwanie
W tym wyzwaniu spróbujemy znaleźć pojęcia związane z dziedziną Data Science, analizując teksty. Weźmiemy artykuł z Wikipedii na temat Data Science, pobierzemy i przetworzymy tekst, a następnie stworzymy chmurę słów, taką jak ta:
W tym wyzwaniu spróbujemy znaleźć pojęcia związane z dziedziną Data Science, analizując teksty. Pobierzemy artykuł z Wikipedii na temat Data Science, przetworzymy tekst, a następnie stworzymy chmurę słów, taką jak ta:
![Chmura słów dla Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.pl.png)
@ -63,16 +65,18 @@ Odwiedź [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-definin
> Jeśli nie wiesz, jak uruchomić kod w Jupyter Notebook, zapoznaj się z [tym artykułem](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Quiz po wykładzie](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Quiz po wykładzie](https://ff-quizzes.netlify.app/en/ds/)
## Zadania
* **Zadanie 1**: Zmodyfikuj powyższy kod, aby znaleźć powiązane pojęcia dla dziedzin **Big Data** i **Machine Learning**
* **Zadanie 2**: [Zastanów się nad scenariuszami Data Science](assignment.md)
* **Zadanie 2**: [Przemyśl scenariusze związane z Data Science](assignment.md)
## Podziękowania
Ta lekcja została stworzona z ♥️ przez [Dmitry Soshnikov](http://soshnikov.com)
Ta lekcja została napisana z ♥️ przez [Dmitry Soshnikov](http://soshnikov.com)
---
**Zastrzeżenie**:
Ten dokument został przetłumaczony za pomocą usługi tłumaczenia AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż dokładamy wszelkich starań, aby tłumaczenie było precyzyjne, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za wiarygodne źródło. W przypadku informacji o kluczowym znaczeniu zaleca się skorzystanie z profesjonalnego tłumaczenia przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z użycia tego tłumaczenia.
Ten dokument został przetłumaczony za pomocą usługi tłumaczenia AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż dokładamy wszelkich starań, aby zapewnić poprawność tłumaczenia, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za autorytatywne źródło. W przypadku informacji o kluczowym znaczeniu zaleca się skorzystanie z profesjonalnego tłumaczenia przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z użycia tego tłumaczenia.

@ -1,23 +1,23 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-24T21:26:14+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:12:19+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "pt"
}
-->
## Tipos de Dados
Como já mencionámos, os dados estão em todo o lado. Só precisamos de os capturar da forma certa! É útil distinguir entre dados **estruturados** e **não estruturados**. Os primeiros são normalmente representados de forma bem organizada, muitas vezes como uma tabela ou várias tabelas, enquanto os últimos são apenas uma coleção de ficheiros. Por vezes, também podemos falar de dados **semi-estruturados**, que têm algum tipo de estrutura que pode variar bastante.
Como já mencionámos, os dados estão em todo o lado. Só precisamos de capturá-los da forma certa! É útil distinguir entre **dados estruturados** e **dados não estruturados**. Os primeiros são normalmente representados de forma bem organizada, muitas vezes como uma tabela ou várias tabelas, enquanto os últimos são apenas uma coleção de ficheiros. Por vezes, também podemos falar de **dados semi-estruturados**, que têm algum tipo de estrutura que pode variar bastante.
| Estruturados | Semi-estruturados | Não estruturados |
| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| Lista de pessoas com os seus números de telefone | Páginas da Wikipédia com links | Texto da Enciclopédia Britânica |
| Temperatura em todas as salas de um edifício a cada minuto nos últimos 20 anos | Coleção de artigos científicos em formato JSON com autores, data de publicação e resumo | Partilha de ficheiros com documentos corporativos |
| Dados sobre idade e género de todas as pessoas que entram no edifício | Páginas da Internet | Vídeo bruto de uma câmara de vigilância |
## Onde Obter Dados
## Onde obter Dados
Existem muitas fontes possíveis de dados, e seria impossível listar todas! No entanto, vamos mencionar alguns dos locais típicos onde se podem obter dados:
@ -26,16 +26,16 @@ Existem muitas fontes possíveis de dados, e seria impossível listar todas! No
- **Inquéritos** que pedimos aos utilizadores para preencherem após uma compra ou após visitarem um site.
- **Análise de comportamento** pode, por exemplo, ajudar-nos a entender até que ponto um utilizador explora um site e qual é o motivo típico para abandonar o site.
* **Não estruturados**
- **Textos** podem ser uma fonte rica de insights, como um **índice de sentimento geral**, ou a extração de palavras-chave e significado semântico.
- **Imagens** ou **Vídeos**. Um vídeo de uma câmara de vigilância pode ser usado para estimar o tráfego na estrada e informar as pessoas sobre potenciais engarrafamentos.
- **Registos** de servidores web podem ser usados para entender quais as páginas do nosso site que são mais visitadas e por quanto tempo.
- **Textos** podem ser uma fonte rica de informações, como uma **pontuação de sentimento** geral ou a extração de palavras-chave e significado semântico.
- **Imagens** ou **Vídeos**. Um vídeo de uma câmara de vigilância pode ser usado para estimar o tráfego na estrada e informar as pessoas sobre possíveis engarrafamentos.
- **Registos** de servidores web podem ser usados para entender quais páginas do nosso site são mais visitadas e por quanto tempo.
* **Semi-estruturados**
- **Grafos de Redes Sociais** podem ser ótimas fontes de dados sobre personalidades dos utilizadores e a sua potencial eficácia na disseminação de informações.
- **Grafos de Redes Sociais** podem ser ótimas fontes de dados sobre personalidades dos utilizadores e a potencial eficácia na disseminação de informações.
- Quando temos um conjunto de fotografias de uma festa, podemos tentar extrair dados sobre **Dinâmica de Grupo** construindo um grafo de pessoas que tiraram fotos juntas.
Ao conhecer diferentes fontes possíveis de dados, pode pensar em diferentes cenários onde as técnicas de ciência de dados podem ser aplicadas para compreender melhor a situação e melhorar os processos empresariais.
Ao conhecer diferentes fontes possíveis de dados, pode tentar pensar em diferentes cenários onde as técnicas de ciência de dados podem ser aplicadas para compreender melhor a situação e melhorar os processos empresariais.
## O que Pode Fazer com os Dados
## O que pode fazer com os Dados
Na Ciência de Dados, focamo-nos nos seguintes passos da jornada dos dados:
@ -43,11 +43,11 @@ Claro, dependendo dos dados reais, alguns passos podem estar ausentes (por exemp
## Digitalização e Transformação Digital
Na última década, muitas empresas começaram a perceber a importância dos dados na tomada de decisões empresariais. Para aplicar os princípios da ciência de dados à gestão de um negócio, é necessário primeiro recolher alguns dados, ou seja, traduzir os processos empresariais para uma forma digital. Isto é conhecido como **digitalização**. Aplicar técnicas de ciência de dados a esses dados para orientar decisões pode levar a aumentos significativos de produtividade (ou até mesmo a uma mudança de rumo no negócio), o que se chama **transformação digital**.
Na última década, muitas empresas começaram a perceber a importância dos dados na tomada de decisões empresariais. Para aplicar os princípios da ciência de dados à gestão de um negócio, é necessário primeiro recolher alguns dados, ou seja, traduzir os processos empresariais para forma digital. Isto é conhecido como **digitalização**. Aplicar técnicas de ciência de dados a esses dados para orientar decisões pode levar a aumentos significativos de produtividade (ou até mesmo a uma mudança de rumo no negócio), chamado de **transformação digital**.
Vamos considerar um exemplo. Suponha que temos um curso de ciência de dados (como este) que oferecemos online aos estudantes, e queremos usar a ciência de dados para o melhorar. Como podemos fazê-lo?
Vamos considerar um exemplo. Suponha que temos um curso de ciência de dados (como este) que oferecemos online aos alunos e queremos usar ciência de dados para melhorá-lo. Como podemos fazê-lo?
Podemos começar por perguntar "O que pode ser digitalizado?" A forma mais simples seria medir o tempo que cada estudante demora a completar cada módulo e avaliar o conhecimento adquirido através de um teste de escolha múltipla no final de cada módulo. Ao calcular a média do tempo de conclusão entre todos os estudantes, podemos identificar quais os módulos que causam mais dificuldades e trabalhar na sua simplificação.
Podemos começar por perguntar "O que pode ser digitalizado?" A forma mais simples seria medir o tempo que cada aluno demora a completar cada módulo e avaliar o conhecimento adquirido através de um teste de escolha múltipla no final de cada módulo. Ao calcular a média do tempo de conclusão entre todos os alunos, podemos descobrir quais módulos causam mais dificuldades e trabalhar na sua simplificação.
> Pode-se argumentar que esta abordagem não é ideal, porque os módulos podem ter comprimentos diferentes. Provavelmente seria mais justo dividir o tempo pelo comprimento do módulo (em número de caracteres) e comparar esses valores em vez disso.
Quando começamos a analisar os resultados de testes de escolha múltipla, podemos tentar determinar quais conceitos os alunos têm dificuldade em compreender e usar essa informação para melhorar o conteúdo. Para isso, precisamos projetar os testes de forma que cada pergunta esteja associada a um determinado conceito ou bloco de conhecimento.
@ -55,7 +55,7 @@ Se quisermos ir ainda mais longe, podemos traçar o tempo gasto em cada módulo
## 🚀 Desafio
Neste desafio, tentaremos encontrar conceitos relevantes para o campo da Ciência de Dados analisando textos. Vamos pegar um artigo da Wikipédia sobre Ciência de Dados, descarregar e processar o texto, e depois construir uma nuvem de palavras como esta:
Neste desafio, vamos tentar encontrar conceitos relevantes para o campo da Ciência de Dados analisando textos. Vamos pegar um artigo da Wikipédia sobre Ciência de Dados, fazer o download e processar o texto, e depois construir uma nuvem de palavras como esta:
![Nuvem de Palavras para Ciência de Dados](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.pt.png)
@ -63,7 +63,7 @@ Visite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-
> Se não sabe como executar código num Jupyter Notebook, veja [este artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Questionário pós-aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Questionário pós-aula](https://ff-quizzes.netlify.app/en/ds/)
## Tarefas
@ -74,5 +74,7 @@ Visite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-
Esta lição foi criada com ♥️ por [Dmitry Soshnikov](http://soshnikov.com)
---
**Aviso Legal**:
Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos pela precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autoritária. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes do uso desta tradução.
Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, é importante ter em conta que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autoritária. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes da utilização desta tradução.

@ -1,41 +1,41 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-26T15:22:35+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:29:12+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "ro"
}
-->
## Tipuri de Date
Așa cum am menționat deja, datele sunt peste tot. Trebuie doar să le capturăm în mod corespunzător! Este util să facem diferența între datele **structurate** și **nestructurate**. Primele sunt de obicei reprezentate într-o formă bine organizată, adesea sub formă de tabel sau mai multe tabele, în timp ce cele din urmă sunt doar o colecție de fișiere. Uneori putem vorbi și despre date **semi-structurate**, care au un anumit tip de structură ce poate varia semnificativ.
Așa cum am menționat deja, datele sunt peste tot. Trebuie doar să le captăm în mod corespunzător! Este util să facem diferența între datele **structurate** și **nestructurate**. Primele sunt de obicei reprezentate într-o formă bine organizată, adesea sub formă de tabel sau mai multe tabele, în timp ce celelalte sunt doar o colecție de fișiere. Uneori putem vorbi și despre date **semi-structurate**, care au un anumit tip de structură ce poate varia semnificativ.
| Structurate | Semi-structurate | Nestructurate |
| --------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | -------------------------------------- |
| Lista persoanelor cu numerele lor de telefon | Pagini Wikipedia cu linkuri | Textul Enciclopediei Britannica |
| Temperatura din toate camerele unei clădiri la fiecare minut din ultimii 20 de ani | Colecție de lucrări științifice în format JSON cu autori, data publicării și rezumat | Partajare de fișiere cu documente corporative |
| Temperatura din toate camerele unei clădiri la fiecare minut din ultimii 20 de ani | Colecția de lucrări științifice în format JSON cu autori, data publicării și rezumat | Fișiere corporative într-un folder |
| Date despre vârsta și genul tuturor persoanelor care intră în clădire | Pagini de internet | Flux video brut de la o cameră de supraveghere |
## De unde să obținem Date
## De unde să obții Date
Există multe surse posibile de date, și ar fi imposibil să le enumerăm pe toate! Totuși, să menționăm câteva dintre locurile tipice de unde putem obține date:
Există multe surse posibile de date, și ar fi imposibil să le enumerăm pe toate! Totuși, să menționăm câteva dintre locurile tipice de unde poți obține date:
* **Structurate**
- **Internet of Things** (IoT), inclusiv date de la diferiți senzori, cum ar fi senzori de temperatură sau presiune, oferă multe date utile. De exemplu, dacă o clădire de birouri este echipată cu senzori IoT, putem controla automat încălzirea și iluminarea pentru a minimiza costurile.
- **Chestionare** pe care le cerem utilizatorilor să le completeze după o achiziție sau după vizitarea unui site web.
- **Analiza comportamentului** poate, de exemplu, să ne ajute să înțelegem cât de profund explorează un utilizator un site și care este motivul tipic pentru părăsirea site-ului.
- **Analiza comportamentului** poate, de exemplu, să ne ajute să înțelegem cât de profund explorează un utilizator un site și care este motivul tipic pentru părăsirea acestuia.
* **Nestructurate**
- **Texte** pot fi o sursă bogată de informații, cum ar fi un **scor de sentiment** general sau extragerea de cuvinte-cheie și semnificații semantice.
- **Imagini** sau **Video**. Un videoclip de la o cameră de supraveghere poate fi utilizat pentru a estima traficul pe drum și pentru a informa oamenii despre eventualele ambuteiaje.
- **Jurnale** de server web pot fi utilizate pentru a înțelege care pagini ale site-ului nostru sunt cele mai vizitate și pentru cât timp.
- **Texte** pot fi o sursă bogată de informații, cum ar fi un scor general de **sentiment** sau extragerea de cuvinte-cheie și semnificații semantice.
- **Imagini** sau **Video**. Un videoclip de la o cameră de supraveghere poate fi utilizat pentru a estima traficul pe drum și pentru a informa oamenii despre posibilele ambuteiaje.
- **Loguri** de server web pot fi utilizate pentru a înțelege care pagini ale site-ului nostru sunt cele mai vizitate și pentru cât timp.
* **Semi-structurate**
- Graficele de **Rețele Sociale** pot fi surse excelente de date despre personalitatea utilizatorilor și eficiența lor potențială în răspândirea informațiilor.
- Când avem o mulțime de fotografii de la o petrecere, putem încerca să extragem date despre **Dinamica Grupului** construind un grafic al persoanelor care fac poze împreună.
Prin cunoașterea diferitelor surse posibile de date, puteți încerca să vă gândiți la diferite scenarii în care tehnicile de știința datelor pot fi aplicate pentru a înțelege mai bine situația și pentru a îmbunătăți procesele de afaceri.
Prin cunoașterea diferitelor surse posibile de date, poți încerca să te gândești la diverse scenarii în care tehnicile de știința datelor pot fi aplicate pentru a înțelege mai bine situația și pentru a îmbunătăți procesele de afaceri.
## Ce puteți face cu Datele
## Ce poți face cu Datele
În știința datelor, ne concentrăm pe următorii pași ai parcursului datelor:
@ -47,28 +47,28 @@ Desigur, în funcție de datele reale, unii pași pot lipsi (de exemplu, atunci
Să luăm un exemplu. Să presupunem că avem un curs de știința datelor (precum acesta) pe care îl livrăm online studenților și dorim să folosim știința datelor pentru a-l îmbunătăți. Cum putem face acest lucru?
Putem începe prin a ne întreba „Ce poate fi digitalizat?” Cea mai simplă metodă ar fi să măsurăm timpul necesar fiecărui student pentru a finaliza fiecare modul și să evaluăm cunoștințele obținute printr-un test cu variante multiple la sfârșitul fiecărui modul. Prin calcularea mediei timpului de finalizare pentru toți studenții, putem identifica modulele care provoacă cele mai mari dificultăți și să lucrăm la simplificarea lor.
> Ai putea susține că această abordare nu este ideală, deoarece modulele pot avea lungimi diferite. Probabil ar fi mai corect să împarți timpul la lungimea modulului (în număr de caractere) și să compari acele valori în schimb.
Când începem să analizăm rezultatele testelor cu răspunsuri multiple, putem încerca să determinăm care sunt conceptele pe care studenții le înțeleg cu dificultate și să folosim aceste informații pentru a îmbunătăți conținutul. Pentru a face acest lucru, trebuie să proiectăm testele astfel încât fiecare întrebare să fie asociată cu un anumit concept sau fragment de cunoștințe.
Putem începe prin a ne întreba „Ce poate fi digitalizat?” Cea mai simplă metodă ar fi să măsurăm timpul necesar fiecărui student pentru a finaliza fiecare modul și să evaluăm cunoștințele obținute printr-un test cu variante multiple la sfârșitul fiecărui modul. Prin calcularea mediei timpului de finalizare pentru toți studenții, putem identifica modulele care cauzează cele mai mari dificultăți și să lucrăm la simplificarea lor.
> Ai putea argumenta că această abordare nu este ideală, deoarece modulele pot avea lungimi diferite. Probabil ar fi mai corect să împarți timpul la lungimea modulului (în număr de caractere) și să compari acele valori în schimb.
Când începem să analizăm rezultatele testelor cu răspunsuri multiple, putem încerca să determinăm care sunt conceptele pe care elevii le înțeleg cu dificultate și să folosim aceste informații pentru a îmbunătăți conținutul. Pentru a face acest lucru, trebuie să proiectăm testele astfel încât fiecare întrebare să fie asociată cu un anumit concept sau fragment de cunoștințe.
Dacă dorim să mergem și mai departe, putem reprezenta grafic timpul necesar pentru fiecare modul în funcție de categoria de vârstă a studenților. Am putea descoperi că, pentru anumite categorii de vârstă, finalizarea modulului durează un timp nejustificat de lung sau că studenții renunță înainte de a-l finaliza. Acest lucru ne poate ajuta să oferim recomandări de vârstă pentru modul și să minimizăm nemulțumirea oamenilor cauzată de așteptări greșite.
Dacă dorim să mergem și mai departe, putem analiza timpul necesar pentru fiecare modul în funcție de categoria de vârstă a elevilor. Am putea descoperi că, pentru anumite categorii de vârstă, finalizarea modulului durează prea mult sau că elevii renunță înainte de a-l termina. Acest lucru ne poate ajuta să oferim recomandări de vârstă pentru modul și să reducem nemulțumirea oamenilor cauzată de așteptări greșite.
## 🚀 Provocare
În această provocare, vom încerca să identificăm concepte relevante pentru domeniul Științei Datelor analizând texte. Vom lua un articol de pe Wikipedia despre Știința Datelor, vom descărca și procesa textul, iar apoi vom construi un nor de cuvinte asemănător cu acesta:
În această provocare, vom încerca să identificăm concepte relevante pentru domeniul Data Science analizând texte. Vom lua un articol de pe Wikipedia despre Data Science, vom descărca și procesa textul, apoi vom construi un nor de cuvinte asemănător cu acesta:
![Nor de Cuvinte pentru Știința Datelor](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ro.png)
![Nor de cuvinte pentru Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ro.png)
Vizitează [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') pentru a parcurge codul. Poți, de asemenea, să rulezi codul și să vezi cum efectuează toate transformările de date în timp real.
Vizitați [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') pentru a parcurge codul. Puteți, de asemenea, să rulați codul și să vedeți cum efectuează toate transformările de date în timp real.
> Dacă nu știi cum să rulezi codul într-un Jupyter Notebook, aruncă o privire la [acest articol](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
> Dacă nu știți cum să rulați codul într-un Jupyter Notebook, consultați [acest articol](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Chestionar post-lectură](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Quiz post-lectură](https://ff-quizzes.netlify.app/en/ds/)
## Sarcini
* **Sarcina 1**: Modifică codul de mai sus pentru a descoperi concepte asociate domeniilor **Big Data** și **Machine Learning**
* **Sarcina 2**: [Gândește-te la scenarii din Știința Datelor](assignment.md)
* **Sarcina 1**: Modificați codul de mai sus pentru a identifica concepte relevante pentru domeniile **Big Data** și **Machine Learning**.
* **Sarcina 2**: [Gândiți-vă la scenarii din Data Science](assignment.md)
## Credite
@ -77,4 +77,4 @@ Această lecție a fost creată cu ♥️ de [Dmitry Soshnikov](http://soshnikov
---
**Declinare de responsabilitate**:
Acest document a fost tradus folosind serviciul de traducere AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși ne străduim să asigurăm acuratețea, vă rugăm să rețineți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa natală ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm responsabilitatea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.
Acest document a fost tradus folosind serviciul de traducere AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși ne străduim să asigurăm acuratețea, vă rugăm să fiți conștienți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa natală ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm responsabilitatea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.

@ -1,8 +1,8 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-27T08:57:25+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T19:59:26+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "ru"
}
@ -20,12 +20,12 @@ CO_OP_TRANSLATOR_METADATA:
## [Тест перед лекцией](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## Что такое данные?
В нашей повседневной жизни мы постоянно окружены данными. Текст, который вы сейчас читаете, — это данные. Список телефонных номеров ваших друзей в смартфоне — это данные, как и текущее время, отображаемое на ваших часах. Как люди, мы естественным образом оперируем данными, подсчитывая деньги или пишем письма друзьям.
В нашей повседневной жизни мы постоянно окружены данными. Текст, который вы сейчас читаете, — это данные. Список телефонных номеров ваших друзей в смартфоне — это данные, как и текущее время, отображаемое на ваших часах. Как люди, мы естественным образом работаем с данными, подсчитывая деньги или пишем письма друзьям.
Однако данные стали гораздо более важными с появлением компьютеров. Основная роль компьютеров — выполнять вычисления, но для этого им нужны данные. Поэтому нам нужно понять, как компьютеры хранят и обрабатывают данные.
С появлением Интернета роль компьютеров как устройств для работы с данными возросла. Если задуматься, мы все чаще используем компьютеры для обработки и передачи данных, а не для собственно вычислений. Когда мы пишем электронное письмо другу или ищем информацию в Интернете, мы, по сути, создаем, храним, передаем и манипулируем данными.
> Можете ли вы вспомнить, когда в последний раз использовали компьютер для выполнения именно вычислений?
С появлением Интернета роль компьютеров как устройств для работы с данными возросла. Если задуматься, мы все чаще используем компьютеры для обработки и передачи данных, а не для выполнения вычислений. Когда мы пишем электронное письмо другу или ищем информацию в Интернете, мы, по сути, создаем, храним, передаем и манипулируем данными.
> Можете ли вы вспомнить, когда в последний раз использовали компьютер для выполнения реальных вычислений?
## Что такое наука о данных?
@ -36,16 +36,16 @@ CO_OP_TRANSLATOR_METADATA:
* Основная цель науки о данных — **извлечение знаний** из данных, другими словами, **понимание** данных, поиск скрытых взаимосвязей и построение **моделей**.
* Наука о данных использует **научные методы**, такие как теория вероятностей и статистика. На самом деле, когда термин *наука о данных* только появился, некоторые утверждали, что это просто новое модное название для статистики. Сегодня очевидно, что эта область гораздо шире.
* Полученные знания должны быть применены для получения **практических инсайтов**, то есть таких, которые можно использовать в реальных бизнес-ситуациях.
* Мы должны уметь работать как со **структурированными**, так и с **неструктурированными** данными. Мы вернемся к обсуждению различных типов данных позже в курсе.
* **Область применения** — важное понятие, и ученым по данным часто требуется хотя бы базовое понимание предметной области, например: финансы, медицина, маркетинг и т.д.
* Мы должны уметь работать как со **структурированными**, так и с **неструктурированными** данными. Позже в курсе мы подробнее обсудим различные типы данных.
* **Область применения** — важное понятие, и специалистам по данным часто требуется хотя бы базовое понимание предметной области, например: финансы, медицина, маркетинг и т.д.
> Еще один важный аспект науки о данных заключается в том, что она изучает, как данные могут быть собраны, сохранены и обработаны с помощью компьютеров. Если статистика дает нам математические основы, то наука о данных применяет математические концепции для извлечения инсайтов из данных.
> Еще один важный аспект науки о данных — это изучение того, как данные могут быть собраны, сохранены и обработаны с помощью компьютеров. Если статистика дает нам математические основы, то наука о данных применяет математические концепции для извлечения инсайтов из данных.
Один из подходов (приписываемый [Джиму Грею](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) к пониманию науки о данных — рассматривать ее как отдельную парадигму науки:
* **Эмпирическая**, где мы полагаемся в основном на наблюдения и результаты экспериментов
* **Теоретическая**, где новые концепции возникают из существующих научных знаний
* **Вычислительная**, где мы открываем новые принципы на основе вычислительных экспериментов
* **Данные-ориентированная**, основанная на обнаружении взаимосвязей и закономерностей в данных
* **Основанная на данных**, где мы обнаруживаем взаимосвязи и закономерности в данных
## Другие смежные области
@ -67,17 +67,17 @@ CO_OP_TRANSLATOR_METADATA:
* **Структурированные**
- **Интернет вещей** (IoT), включая данные с различных датчиков, таких как датчики температуры или давления, предоставляет множество полезных данных. Например, если офисное здание оснащено IoT-датчиками, можно автоматически управлять отоплением и освещением для минимизации затрат.
- **Опросы**, которые мы просим пользователей заполнить после покупки или посещения сайта.
- **Опросы**, которые мы просим пользователей заполнить после покупки или посещения веб-сайта.
- **Анализ поведения** может, например, помочь понять, насколько глубоко пользователь изучает сайт и что обычно заставляет его покинуть сайт.
* **Неструктурированные**
- **Тексты** могут быть богатым источником инсайтов, таких как общий **оценочный тон**, или извлечение ключевых слов и семантического значения.
- **Изображения** или **видео**. Видео с камеры наблюдения может быть использовано для оценки дорожного трафика и информирования людей о возможных пробках.
- **Логи веб-сервера** могут помочь понять, какие страницы сайта посещаются чаще всего и как долго.
- Логи веб-сервера могут помочь понять, какие страницы сайта посещаются чаще всего и как долго.
* **Полуструктурированные**
- **Графы социальных сетей** могут быть отличным источником данных о личностях пользователей и их потенциальной эффективности в распространении информации.
- Если у нас есть множество фотографий с вечеринки, мы можем попытаться извлечь данные о **групповой динамике**, построив граф людей, фотографирующихся вместе.
Зная о различных возможных источниках данных, вы можете подумать о различных сценариях, где методы науки о данных могут быть применены для лучшего понимания ситуации и улучшения бизнес-процессов.
Зная различные возможные источники данных, вы можете подумать о различных сценариях, где методы науки о данных могут быть применены для лучшего понимания ситуации и улучшения бизнес-процессов.
## Что можно делать с данными
@ -91,11 +91,11 @@ CO_OP_TRANSLATOR_METADATA:
Рассмотрим пример. Допустим, у нас есть курс по науке о данных (например, этот), который мы проводим онлайн для студентов, и мы хотим использовать науку о данных для его улучшения. Как это можно сделать?
Мы можем начать с вопроса: "Что можно оцифровать?" Самый простой способ — измерить время, которое требуется каждому студенту для завершения каждого модуля, и оценить полученные знания, предложив тест с выбором ответа в конце каждого модуля. Усреднив время завершения по всем студентам, мы можем выяснить, какие модули вызывают наибольшие трудности, и поработать над их упрощением.
Вы можете возразить, что этот подход не является идеальным, потому что модули могут быть разной длины. Вероятно, было бы справедливее разделить время на длину модуля (в количестве символов) и сравнивать уже эти значения.
Мы можем начать с вопроса: "Что можно оцифровать?" Самый простой способ — измерить время, которое требуется каждому студенту для завершения каждого модуля, и оценить полученные знания, предложив тест с выбором ответа в конце каждого модуля. Усреднив время завершения по всем студентам, мы можем определить, какие модули вызывают наибольшие трудности, и поработать над их упрощением.
Вы можете возразить, что этот подход не идеален, поскольку модули могут быть разной длины. Возможно, более справедливо разделить время на длину модуля (в количестве символов) и сравнивать эти значения вместо этого.
Когда мы начинаем анализировать результаты тестов с множественным выбором, мы можем попытаться определить, какие концепции вызывают трудности у студентов, и использовать эту информацию для улучшения содержания. Для этого необходимо разработать тесты таким образом, чтобы каждый вопрос соответствовал определенной концепции или части знаний.
Если мы хотим усложнить задачу, мы можем сопоставить время, затраченное на каждый модуль, с возрастной категорией студентов. Возможно, мы обнаружим, что для некоторых возрастных категорий выполнение модуля занимает неоправданно много времени или что студенты бросают его, не завершив. Это может помочь нам дать возрастные рекомендации для модуля и минимизировать неудовлетворенность людей из-за неверных ожиданий.
Если мы хотим усложнить задачу, можно сопоставить время, затраченное на каждый модуль, с возрастной категорией студентов. Мы можем обнаружить, что для некоторых возрастных категорий выполнение модуля занимает неоправданно много времени или что студенты бросают его, не завершив. Это может помочь нам дать возрастные рекомендации для модуля и минимизировать неудовлетворенность людей из-за неверных ожиданий.
## 🚀 Задача
@ -107,7 +107,7 @@ CO_OP_TRANSLATOR_METADATA:
> Если вы не знаете, как запускать код в Jupyter Notebook, ознакомьтесь с [этой статьей](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Тест после лекции](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Викторина после лекции](https://ff-quizzes.netlify.app/en/ds/)
## Задания
@ -121,4 +121,4 @@ CO_OP_TRANSLATOR_METADATA:
---
**Отказ от ответственности**:
Этот документ был переведен с использованием сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.
Этот документ был переведен с помощью сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.

@ -1,61 +1,61 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-26T15:21:27+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:28:23+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "sk"
}
-->
## Typy údajov
## Typy dát
Ako sme už spomenuli, údaje sú všade okolo nás. Stačí ich len správne zachytiť! Je užitočné rozlišovať medzi **štruktúrovanými** a **neštruktúrovanými** údajmi. Prvé sú zvyčajne reprezentované v nejakej dobre štruktúrovanej forme, často ako tabuľka alebo množstvo tabuliek, zatiaľ čo druhé sú len zbierkou súborov. Niekedy môžeme hovoriť aj o **polostruktúrovaných** údajoch, ktoré majú určitú štruktúru, no tá sa môže značne líšiť.
Ako sme už spomenuli, dáta sú všade. Stačí ich len správne zachytiť! Je užitočné rozlišovať medzi **štruktúrovanými** a **neštruktúrovanými** dátami. Štruktúrované dáta sú zvyčajne reprezentované v nejakej dobre štruktúrovanej forme, často ako tabuľka alebo množstvo tabuliek, zatiaľ čo neštruktúrované dáta sú len zbierkou súborov. Niekedy môžeme hovoriť aj o **pološtruktúrovaných** dátach, ktoré majú určitý druh štruktúry, ktorá sa môže značne líšiť.
| Štruktúrované | Polostruktúrované | Neštruktúrované |
| Štruktúrované | Pološtruktúrované | Neštruktúrované |
| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- | -------------------------------------- |
| Zoznam ľudí s ich telefónnymi číslami | Stránky Wikipédie s odkazmi | Text Encyklopédie Britannica |
| Teplota vo všetkých miestnostiach budovy každú minútu za posledných 20 rokov | Zbierka vedeckých článkov vo formáte JSON s autormi, dátumom publikácie a abstraktom | Zdieľaný priečinok s firemnými dokumentmi |
| Údaje o veku a pohlaví všetkých ľudí vstupujúcich do budovy | Internetové stránky | Surový videozáznam z bezpečnostnej kamery |
| Teplota vo všetkých miestnostiach budovy každú minútu za posledných 20 rokov | Zbierka vedeckých článkov vo formáte JSON s autormi, dátumom publikácie a abstraktom | Zdieľané súbory s firemnými dokumentmi |
| Dáta o veku a pohlaví všetkých ľudí vstupujúcich do budovy | Internetové stránky | Surový videozáznam z bezpečnostnej kamery |
## Odkiaľ získať údaje
## Kde získať dáta
Existuje mnoho možných zdrojov údajov, a bolo by nemožné ich všetky vymenovať! Spomeňme si však niektoré typické miesta, kde môžete údaje získať:
Existuje mnoho možných zdrojov dát, a bolo by nemožné ich všetky vymenovať! Avšak, spomeňme niektoré typické miesta, kde môžete získať dáta:
* **Štruktúrované**
- **Internet vecí** (IoT), vrátane údajov z rôznych senzorov, ako sú senzory teploty alebo tlaku, poskytuje množstvo užitočných údajov. Napríklad, ak je kancelárska budova vybavená IoT senzormi, môžeme automaticky riadiť kúrenie a osvetlenie, aby sme minimalizovali náklady.
- **Internet vecí** (IoT), vrátane dát z rôznych senzorov, ako sú senzory teploty alebo tlaku, poskytuje množstvo užitočných dát. Napríklad, ak je kancelárska budova vybavená IoT senzormi, môžeme automaticky riadiť kúrenie a osvetlenie, aby sme minimalizovali náklady.
- **Prieskumy**, ktoré žiadame používateľov vyplniť po nákupe alebo po návšteve webovej stránky.
- **Analýza správania** nám môže napríklad pomôcť pochopiť, ako hlboko používateľ prechádza stránkou a aký je typický dôvod jej opustenia.
- **Analýza správania** nám môže napríklad pomôcť pochopiť, ako hlboko sa používateľ dostane na stránku a aký je typický dôvod jej opustenia.
* **Neštruktúrované**
- **Texty** môžu byť bohatým zdrojom poznatkov, ako napríklad celkový **sentiment skóre** alebo extrakcia kľúčových slov a sémantického významu.
- **Obrázky** alebo **video**. Video z bezpečnostnej kamery môže byť použité na odhad dopravy na ceste a informovanie ľudí o možných dopravných zápchach.
- **Logy** webových serverov môžu byť použité na pochopenie, ktoré stránky našej webovej stránky sú najčastejšie navštevované a ako dlho.
* **Polostruktúrované**
- **Grafy sociálnych sietí** môžu byť skvelým zdrojom údajov o osobnostiach používateľov a ich potenciálnej efektivite pri šírení informácií.
- Ak máme množstvo fotografií z večierka, môžeme sa pokúsiť extrahovať údaje o **skupinovej dynamike** vytvorením grafu ľudí, ktorí sa fotili spolu.
- **Obrázky** alebo **video**. Video z bezpečnostnej kamery môže byť použité na odhad dopravnej situácie na ceste a informovanie ľudí o možných dopravných zápchach.
- **Logy** webového servera môžu byť použité na pochopenie, ktoré stránky našej webovej stránky sú najčastejšie navštevované a ako dlho.
* Pološtruktúrované
- **Grafy sociálnych sietí** môžu byť skvelým zdrojom dát o osobnostiach používateľov a potenciálnej efektivite šírenia informácií.
- Keď máme množstvo fotografií z večierka, môžeme sa pokúsiť extrahovať dáta o **skupinovej dynamike** vytvorením grafu ľudí, ktorí sa fotili spolu.
Poznaním rôznych možných zdrojov údajov môžete premýšľať o rôznych scenároch, kde môžu byť techniky dátovej vedy aplikované na lepšie pochopenie situácie a zlepšenie obchodných procesov.
Poznaním rôznych možných zdrojov dát môžete premýšľať o rôznych scenároch, kde je možné aplikovať techniky dátovej vedy na lepšie pochopenie situácie a zlepšenie obchodných procesov.
## Čo môžete robiť s údajmi
## Čo môžete robiť s dátami
V dátovej vede sa zameriavame na nasledujúce kroky v práci s údajmi:
V dátovej vede sa zameriavame na nasledujúce kroky v práci s dátami:
Samozrejme, v závislosti od konkrétnych údajov môžu niektoré kroky chýbať (napr. keď už máme údaje v databáze alebo keď nepotrebujeme trénovať model), alebo sa niektoré kroky môžu opakovať viackrát (napríklad spracovanie údajov).
Samozrejme, v závislosti od konkrétnych dát môžu niektoré kroky chýbať (napr. keď už máme dáta v databáze alebo keď nepotrebujeme trénovať model), alebo niektoré kroky môžu byť opakované viackrát (napríklad spracovanie dát).
## Digitalizácia a digitálna transformácia
V poslednom desaťročí si mnoho firiem začalo uvedomovať dôležitosť údajov pri rozhodovaní. Aby bolo možné aplikovať princípy dátovej vedy na riadenie podniku, je najprv potrebné zhromaždiť nejaké údaje, t. j. preložiť obchodné procesy do digitálnej podoby. Toto sa nazýva **digitalizácia**. Aplikácia techník dátovej vedy na tieto údaje na podporu rozhodovania môže viesť k výraznému zvýšeniu produktivity (alebo dokonca k zmene obchodného modelu), čo sa nazýva **digitálna transformácia**.
V poslednom desaťročí si mnoho firiem začalo uvedomovať dôležitosť dát pri rozhodovaní o podnikaní. Aby bolo možné aplikovať princípy dátovej vedy na riadenie podnikania, je najprv potrebné zhromaždiť nejaké dáta, teda preložiť obchodné procesy do digitálnej formy. Toto sa nazýva **digitalizácia**. Aplikácia techník dátovej vedy na tieto dáta na podporu rozhodovania môže viesť k významnému zvýšeniu produktivity (alebo dokonca k zmene podnikania), čo sa nazýva **digitálna transformácia**.
Pozrime sa na príklad. Predstavme si, že máme kurz dátovej vedy (ako tento), ktorý poskytujeme online študentom, a chceme ho zlepšiť pomocou dátovej vedy. Ako to môžeme urobiť?
Pozrime sa na príklad. Predpokladajme, že máme kurz dátovej vedy (ako tento), ktorý poskytujeme online študentom, a chceme ho pomocou dátovej vedy zlepšiť. Ako to môžeme urobiť?
Môžeme začať otázkou „Čo môžeme digitalizovať?“ Najjednoduchším spôsobom by bolo merať čas, ktorý každému študentovi trvá dokončenie každého modulu, a merať získané vedomosti pomocou testu s výberom odpovedí na konci každého modulu. Priemerovaním času na dokončenie medzi všetkými študentmi môžeme zistiť, ktoré moduly spôsobujú študentom najväčšie ťažkosti, a pracovať na ich zjednodušení.
Môžete namietať, že tento prístup nie je ideálny, pretože moduly môžu mať rôznu dĺžku. Pravdepodobne by bolo spravodlivejšie rozdeliť čas podľa dĺžky modulu (v počte znakov) a namiesto toho porovnať tieto hodnoty.
Keď začneme analyzovať výsledky testov s výberom odpovede, môžeme sa pokúsiť určiť, ktoré koncepty robia študentom problémy, a použiť tieto informácie na zlepšenie obsahu. Aby sme to dosiahli, musíme navrhnúť testy tak, aby každá otázka bola spojená s konkrétnym konceptom alebo časťou vedomostí.
Môžeme začať otázkou „Čo sa dá digitalizovať?“ Najjednoduchší spôsob by bol merať čas, ktorý každý študent potrebuje na dokončenie každého modulu, a merať získané vedomosti pomocou testu s výberom odpovedí na konci každého modulu. Priemerovaním času na dokončenie medzi všetkými študentmi môžeme zistiť, ktoré moduly spôsobujú študentom najväčšie ťažkosti, a pracovať na ich zjednodušení.
Môžete namietať, že tento prístup nie je ideálny, pretože moduly môžu mať rôznu dĺžku. Pravdepodobne by bolo spravodlivejšie rozdeliť čas podľa dĺžky modulu (v počte znakov) a porovnať tieto hodnoty namiesto toho.
Keď začneme analyzovať výsledky testov s výberom odpovede, môžeme sa pokúsiť určiť, ktoré koncepty robia študentom problémy, a využiť tieto informácie na zlepšenie obsahu. Aby sme to dosiahli, musíme navrhnúť testy tak, aby každá otázka zodpovedala určitému konceptu alebo časti vedomostí.
Ak chceme ísť ešte ďalej, môžeme porovnať čas potrebný na dokončenie každého modulu s vekovou kategóriou študentov. Môžeme zistiť, že pre niektoré vekové kategórie trvá dokončenie modulu neprimerane dlho, alebo že študenti odchádzajú pred jeho dokončením. To nám môže pomôcť poskytnúť vekové odporúčania pre modul a minimalizovať nespokojnosť ľudí spôsobenú nesprávnymi očakávaniami.
Ak chceme ísť ešte hlbšie, môžeme porovnať čas potrebný na dokončenie jednotlivých modulov s vekovou kategóriou študentov. Môžeme zistiť, že pre niektoré vekové kategórie trvá dokončenie modulu neprimerane dlho, alebo že študenti modul nedokončia. To nám môže pomôcť poskytnúť vekové odporúčania pre modul a minimalizovať nespokojnosť ľudí spôsobenú nesprávnymi očakávaniami.
## 🚀 Výzva
V tejto výzve sa pokúsime nájsť koncepty relevantné pre oblasť dátovej vedy analýzou textov. Vezmeme článok z Wikipédie o dátovej vede, stiahneme a spracujeme text, a potom vytvoríme slovný mrak, ako je tento:
V tejto výzve sa pokúsime nájsť koncepty relevantné pre oblasť dátovej vedy analýzou textov. Vezmeme si článok z Wikipédie o dátovej vede, stiahneme a spracujeme text a potom vytvoríme slovný mrak, ako je tento:
![Slovný mrak pre dátovú vedu](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.sk.png)
@ -63,18 +63,18 @@ Navštívte [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defi
> Ak neviete, ako spustiť kód v Jupyter Notebooku, pozrite si [tento článok](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Kvíz po prednáške](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Kvíz po prednáške](https://ff-quizzes.netlify.app/en/ds/)
## Úlohy
## Zadania
* **Úloha 1**: Upraviť vyššie uvedený kód na vyhľadanie súvisiacich konceptov pre oblasti **Big Data** a **Machine Learning**
* **Úloha 1**: Upravte vyššie uvedený kód tak, aby ste našli súvisiace koncepty pre oblasti **Big Data** a **Machine Learning**
* **Úloha 2**: [Premýšľajte o scenároch dátovej vedy](assignment.md)
## Kredity
## Poďakovanie
Táto lekcia bola vytvorená s ♥️ od [Dmitry Soshnikov](http://soshnikov.com)
Táto lekcia bola vytvorená s ♥️ [Dmitry Soshnikov](http://soshnikov.com)
---
**Upozornenie**:
Tento dokument bol preložený pomocou služby AI prekladu [Co-op Translator](https://github.com/Azure/co-op-translator). Hoci sa snažíme o presnosť, prosím, berte na vedomie, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho rodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nie sme zodpovední za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.
Tento dokument bol preložený pomocou služby AI prekladu [Co-op Translator](https://github.com/Azure/co-op-translator). Hoci sa snažíme o presnosť, prosím, berte na vedomie, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho rodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nenesieme zodpovednosť za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.

@ -1,17 +1,17 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-30T19:29:12+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:32:35+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "sl"
}
-->
## Določanje podatkovne znanosti
| ![ Sketchnote avtorja [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) |
| :--------------------------------------------------------------------------------------------------------: |
| Določanje podatkovne znanosti - _Sketchnote avtorja [@nitya](https://twitter.com/nitya)_ |
| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------: |
| Določanje podatkovne znanosti - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
---
@ -20,45 +20,45 @@ CO_OP_TRANSLATOR_METADATA:
## [Predhodni kviz pred predavanjem](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## Kaj so podatki?
V našem vsakdanjem življenju smo nenehno obdani s podatki. Besedilo, ki ga trenutno berete, so podatki. Seznam telefonskih številk vaših prijateljev v pametnem telefonu so podatki, prav tako trenutni čas, ki ga prikazuje vaša ura. Kot ljudje naravno delujemo s podatki, na primer ko štejemo denar ali pišemo pisma prijateljem.
V našem vsakdanjem življenju smo nenehno obdani s podatki. Besedilo, ki ga trenutno berete, so podatki. Seznam telefonskih številk vaših prijateljev v pametnem telefonu so podatki, prav tako kot trenutni čas, prikazan na vaši uri. Kot ljudje naravno delujemo s podatki, na primer ko štejemo denar ali pišemo pisma prijateljem.
Vendar pa so podatki postali veliko bolj pomembni z nastankom računalnikov. Primarna naloga računalnikov je izvajanje izračunov, vendar za delovanje potrebujejo podatke. Zato moramo razumeti, kako računalniki shranjujejo in obdelujejo podatke.
Vendar pa so podatki postali veliko bolj pomembni z nastankom računalnikov. Primarna naloga računalnikov je izvajanje izračunov, vendar za to potrebujejo podatke. Zato moramo razumeti, kako računalniki shranjujejo in obdelujejo podatke.
S pojavom interneta se je vloga računalnikov kot naprav za obdelavo podatkov povečala. Če pomislite, danes računalnike vse bolj uporabljamo za obdelavo podatkov in komunikacijo, ne pa za dejanske izračune. Ko napišemo e-pošto prijatelju ali iščemo informacije na internetu, v bistvu ustvarjamo, shranjujemo, prenašamo in manipuliramo s podatki.
S pojavom interneta se je vloga računalnikov kot naprav za obdelavo podatkov povečala. Če pomislite, računalnike zdaj vse bolj uporabljamo za obdelavo podatkov in komunikacijo, ne pa za dejanske izračune. Ko napišemo e-pošto prijatelju ali iščemo informacije na internetu, v bistvu ustvarjamo, shranjujemo, prenašamo in manipuliramo s podatki.
> Se spomnite, kdaj ste nazadnje uporabili računalnik za dejanski izračun?
## Kaj je podatkovna znanost?
Na [Wikipediji](https://en.wikipedia.org/wiki/Data_science) je **podatkovna znanost** opredeljena kot *znanstveno področje, ki uporablja znanstvene metode za pridobivanje znanja in vpogledov iz strukturiranih in nestrukturiranih podatkov ter uporabi pridobljeno znanje in praktične vpoglede iz podatkov na širokem spektru aplikacijskih področij*.
Na [Wikipediji](https://en.wikipedia.org/wiki/Data_science) je **podatkovna znanost** opredeljena kot *znanstveno področje, ki uporablja znanstvene metode za pridobivanje znanja in vpogledov iz strukturiranih in nestrukturiranih podatkov ter uporabi pridobljeno znanje in praktične vpoglede iz podatkov v širokem spektru aplikacijskih domen*.
Ta definicija poudarja naslednje pomembne vidike podatkovne znanosti:
* Glavni cilj podatkovne znanosti je **pridobivanje znanja** iz podatkov, z drugimi besedami - **razumevanje** podatkov, iskanje skritih povezav in gradnja **modela**.
* Podatkovna znanost uporablja **znanstvene metode**, kot so verjetnost in statistika. Pravzaprav so nekateri ob uvedbi izraza *podatkovna znanost* trdili, da je to le nov moderen izraz za statistiko. Danes je jasno, da je področje veliko širše.
* Pridobljeno znanje je treba uporabiti za ustvarjanje **praktičnih vpogledov**, tj. uporabnih vpogledov, ki jih lahko uporabimo v resničnih poslovnih situacijah.
* Moramo biti sposobni delovati tako na **strukturiranih** kot na **nestrukturiranih** podatkih. O različnih vrstah podatkov bomo podrobneje govorili kasneje v tečaju.
* **Aplikacijsko področje** je pomemben koncept, saj podatkovni znanstveniki pogosto potrebujejo vsaj nekaj stopnje strokovnega znanja na področju problema, na primer: finance, medicina, marketing itd.
* Moramo biti sposobni delovati tako na **strukturiranih** kot **nestrukturiranih** podatkih. O različnih vrstah podatkov bomo govorili kasneje v tečaju.
* **Aplikacijska domena** je pomemben koncept, saj podatkovni znanstveniki pogosto potrebujejo vsaj nekaj stopnje strokovnega znanja na področju problema, na primer: finance, medicina, marketing itd.
> Drug pomemben vidik podatkovne znanosti je, da preučuje, kako se podatki lahko zbirajo, shranjujejo in obdelujejo z računalniki. Medtem ko nam statistika daje matematične temelje, podatkovna znanost uporablja matematične koncepte za dejansko pridobivanje vpogledov iz podatkov.
> Drug pomemben vidik podatkovne znanosti je, da preučuje, kako se podatki lahko zbirajo, shranjujejo in obdelujejo z uporabo računalnikov. Medtem ko nam statistika daje matematične temelje, podatkovna znanost uporablja matematične koncepte za dejansko pridobivanje vpogledov iz podatkov.
Eden od načinov (pripisan [Jimu Grayu](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) za razumevanje podatkovne znanosti je, da jo obravnavamo kot ločen znanstveni pristop:
* **Empirični**, kjer se zanašamo predvsem na opazovanja in rezultate eksperimentov
* **Teoretični**, kjer novi koncepti izhajajo iz obstoječega znanstvenega znanja
* **Računalniški**, kjer odkrivamo nova načela na podlagi računalniških eksperimentov
* **Na podatkih temelječi**, kjer odkrivamo povezave in vzorce v podatkih
Eden od načinov (pripisan [Jimu Grayu](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) za razumevanje podatkovne znanosti je, da jo obravnavamo kot ločen znanstveni paradigm:
* **Empirična**, kjer se zanašamo predvsem na opazovanja in rezultate eksperimentov
* **Teoretična**, kjer novi koncepti izhajajo iz obstoječega znanstvenega znanja
* **Računalniška**, kjer odkrivamo nova načela na podlagi računalniških eksperimentov
* **Na podatkih temelječa**, kjer odkrivamo povezave in vzorce v podatkih
## Druga povezana področja
Ker so podatki vseprisotni, je tudi podatkovna znanost široko področje, ki se dotika številnih drugih disciplin.
Ker so podatki vseprisotni, je tudi podatkovna znanost široko področje, ki se dotika mnogih drugih disciplin.
## Vrste podatkov
Kot smo že omenili, so podatki povsod. Le zajeti jih moramo na pravi način! Koristno je razlikovati med **strukturiranimi** in **nestrukturiranimi** podatki. Prvi so običajno predstavljeni v dobro strukturirani obliki, pogosto kot tabela ali več tabel, medtem ko so drugi le zbirka datotek. Včasih lahko govorimo tudi o **polstrukturiranih** podatkih, ki imajo neko vrsto strukture, ki se lahko močno razlikuje.
Kot smo že omenili, so podatki povsod. Le zajeti jih moramo na pravi način! Koristno je razlikovati med **strukturiranimi** in **nestrukturiranimi** podatki. Prvi so običajno predstavljeni v neki dobro strukturirani obliki, pogosto kot tabela ali več tabel, medtem ko so drugi le zbirka datotek. Včasih lahko govorimo tudi o **polstrukturiranih** podatkih, ki imajo neko vrsto strukture, ki se lahko močno razlikuje.
| Strukturirani | Polstrukturirani | Nestrukturirani |
| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------- | --------------------------------------- |
| ---------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------ | --------------------------------------- |
| Seznam ljudi s telefonskimi številkami | Wikipedijine strani s povezavami | Besedilo Enciklopedije Britannica |
| Temperatura v vseh sobah stavbe vsako minuto v zadnjih 20 letih | Zbirka znanstvenih člankov v formatu JSON z avtorji, datumom objave in povzetkom | Datotečna shramba s korporativnimi dokumenti |
| Temperatura v vseh sobah stavbe vsako minuto zadnjih 20 let | Zbirka znanstvenih člankov v formatu JSON z avtorji, datumom objave in povzetkom | Datotečna shramba s korporativnimi dokumenti |
| Podatki o starosti in spolu vseh ljudi, ki vstopajo v stavbo | Spletne strani | Surov video posnetek iz nadzorne kamere |
## Kje dobiti podatke
@ -70,29 +70,29 @@ Obstaja veliko možnih virov podatkov, zato jih je nemogoče vse našteti! Venda
- **Ankete**, ki jih prosimo uporabnike, da izpolnijo po nakupu ali po obisku spletne strani.
- **Analiza vedenja** lahko na primer pomaga razumeti, kako globoko uporabnik raziskuje spletno stran in kaj je tipičen razlog za zapustitev strani.
* **Nestrukturirani**
- **Besedila** so lahko bogat vir vpogledov, kot je skupna **ocena sentimenta** ali pridobivanje ključnih besed in semantičnega pomena.
- **Slike** ali **video**. Video iz nadzorne kamere lahko uporabimo za oceno prometa na cesti in obveščanje ljudi o morebitnih zastojih.
- **Dnevniki spletnih strežnikov** lahko pomagajo razumeti, katere strani naše spletne strani so najpogosteje obiskane in kako dolgo.
* **Polstrukturirani**
- **Grafi družbenih omrežij** so lahko odličen vir podatkov o osebnostih uporabnikov in potencialni učinkovitosti pri širjenju informacij.
- Ko imamo kup fotografij s zabave, lahko poskusimo pridobiti podatke o **skupinski dinamiki** z gradnjo grafa ljudi, ki se fotografirajo skupaj.
- **Besedila** so lahko bogat vir vpogledov, kot je splošna **ocena sentimenta** ali pridobivanje ključnih besed in semantičnega pomena.
- **Slike** ali **video posnetki**. Video posnetek iz nadzorne kamere se lahko uporabi za oceno prometa na cesti in obveščanje ljudi o morebitnih zastojih.
- **Dnevniki spletnih strežnikov** se lahko uporabijo za razumevanje, katere strani naše spletne strani so najpogosteje obiskane in kako dolgo.
* Polstrukturirani
- **Grafi družbenih omrežij** so lahko odlični viri podatkov o osebnostih uporabnikov in potencialni učinkovitosti pri širjenju informacij.
- Ko imamo kup fotografij s zabave, lahko poskusimo pridobiti podatke o **dinamiki skupine** z gradnjo grafa ljudi, ki se fotografirajo skupaj.
Z poznavanjem različnih možnih virov podatkov lahko razmišljate o različnih scenarijih, kjer je mogoče uporabiti tehnike podatkovne znanosti za boljše razumevanje situacije in izboljšanje poslovnih procesov.
Z poznavanjem različnih možnih virov podatkov lahko razmišljate o različnih scenarijih, kjer se lahko uporabijo tehnike podatkovne znanosti za boljše razumevanje situacije in izboljšanje poslovnih procesov.
## Kaj lahko storite s podatki
V podatkovni znanosti se osredotočamo na naslednje korake pri delu s podatki:
Seveda, odvisno od dejanskih podatkov, nekateri koraki morda manjkajo (npr. ko že imamo podatke v bazi podatkov ali ko ne potrebujemo usposabljanja modela), ali pa se nekateri koraki večkrat ponovijo (kot je obdelava podatkov).
Seveda, odvisno od dejanskih podatkov, nekateri koraki morda manjkajo (npr. ko že imamo podatke v bazi podatkov ali ko ne potrebujemo usposabljanja modela), ali pa se nekateri koraki lahko večkrat ponovijo (kot je obdelava podatkov).
## Digitalizacija in digitalna transformacija
V zadnjem desetletju so številna podjetja začela razumeti pomen podatkov pri sprejemanju poslovnih odločitev. Za uporabo načel podatkovne znanosti pri vodenju podjetja je najprej treba zbrati nekaj podatkov, tj. prevesti poslovne procese v digitalno obliko. To je znano kot **digitalizacija**. Uporaba tehnik podatkovne znanosti na teh podatkih za usmerjanje odločitev lahko vodi do znatnih povečanj produktivnosti (ali celo preoblikovanja poslovanja), kar imenujemo **digitalna transformacija**.
V zadnjem desetletju so številna podjetja začela razumeti pomen podatkov pri sprejemanju poslovnih odločitev. Da bi uporabili načela podatkovne znanosti pri vodenju podjetja, je najprej treba zbrati nekaj podatkov, tj. prevesti poslovne procese v digitalno obliko. To je znano kot **digitalizacija**. Uporaba tehnik podatkovne znanosti na teh podatkih za usmerjanje odločitev lahko vodi do znatnih povečanj produktivnosti (ali celo preoblikovanja poslovanja), kar imenujemo **digitalna transformacija**.
Poglejmo primer. Recimo, da imamo tečaj podatkovne znanosti (kot je ta), ki ga izvajamo prek spleta za študente, in želimo uporabiti podatkovno znanost za njegovo izboljšanje. Kako lahko to storimo?
Razmislimo o primeru. Recimo, da imamo tečaj podatkovne znanosti (kot je ta), ki ga izvajamo prek spleta za študente, in želimo uporabiti podatkovno znanost za njegovo izboljšanje. Kako lahko to storimo?
Začnemo lahko z vprašanjem "Kaj lahko digitaliziramo?" Najpreprostejši način bi bil merjenje časa, ki ga vsak študent porabi za dokončanje vsakega modula, ter merjenje pridobljenega znanja z večkratno izbiro testa na koncu vsakega modula. Z izračunom povprečnega časa dokončanja med vsemi študenti lahko ugotovimo, kateri moduli povzročajo največ težav študentom, in delamo na njihovi poenostavitvi.
> Lahko bi trdili, da ta pristop ni idealen, saj so moduli lahko različno dolgi. Verjetno bi bilo bolj pravično čas razdeliti glede na dolžino modula (v številu znakov) in primerjati te vrednosti namesto tega.
> Lahko bi trdili, da ta pristop ni idealen, saj so moduli lahko različno dolgi. Verjetno bi bilo bolj pravično čas razdeliti glede na dolžino modula (v številu znakov) in namesto tega primerjati te vrednosti.
Ko začnemo analizirati rezultate testov z več izbirami, lahko poskusimo ugotoviti, katere koncepte imajo študenti težave razumeti, in uporabimo te informacije za izboljšanje vsebine. Da bi to dosegli, moramo teste oblikovati tako, da vsako vprašanje ustreza določenemu konceptu ali delu znanja.
Če želimo stvari še bolj zaplesti, lahko primerjamo čas, potreben za dokončanje posameznega modula, glede na starostno kategorijo študentov. Morda ugotovimo, da za nekatere starostne kategorije traja neprimerno dolgo, da dokončajo modul, ali pa da študenti odnehajo, preden ga zaključijo. To nam lahko pomaga podati starostna priporočila za modul in zmanjšati nezadovoljstvo ljudi zaradi napačnih pričakovanj.
@ -107,11 +107,11 @@ Obiščite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defin
> Če ne veste, kako zagnati kodo v Jupyter Notebooku, si oglejte [ta članek](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Kvizi po predavanju](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Kvizi po predavanju](https://ff-quizzes.netlify.app/en/ds/)
## Naloge
* **Naloga 1**: Spremenite zgornjo kodo, da poiščete povezane koncepte za področji **Big Data** in **Machine Learning**.
* **Naloga 1**: Spremenite zgornjo kodo, da ugotovite povezane koncepte za področji **Big Data** in **Machine Learning**.
* **Naloga 2**: [Razmislite o scenarijih podatkovne znanosti](assignment.md)
## Zasluge
@ -121,4 +121,4 @@ To lekcijo je z ljubeznijo pripravil [Dmitry Soshnikov](http://soshnikov.com).
---
**Omejitev odgovornosti**:
Ta dokument je bil preveden z uporabo storitve za strojno prevajanje [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem maternem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo profesionalni človeški prevod. Ne prevzemamo odgovornosti za morebitne nesporazume ali napačne razlage, ki izhajajo iz uporabe tega prevoda.
Ta dokument je bil preveden z uporabo storitve za prevajanje z umetno inteligenco [Co-op Translator](https://github.com/Azure/co-op-translator). Čeprav si prizadevamo za natančnost, vas prosimo, da upoštevate, da lahko avtomatizirani prevodi vsebujejo napake ali netočnosti. Izvirni dokument v njegovem maternem jeziku je treba obravnavati kot avtoritativni vir. Za ključne informacije priporočamo profesionalni človeški prevod. Ne prevzemamo odgovornosti za morebitna nesporazume ali napačne razlage, ki bi nastale zaradi uporabe tega prevoda.

@ -1,15 +1,15 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-30T19:27:22+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:30:55+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "sr"
}
-->
## Типови података
Као што смо већ поменули, подаци су свуда око нас. Само их треба правилно ухватити! Корисно је разликовати **структуриране** и **неструктуриране** податке. Први су обично представљени у добро организованом облику, често као табела или више табела, док су други само збирка датотека. Понекад можемо говорити и о **полуструктурираним** подацима, који имају неку врсту структуре која може значајно варирати.
Као што смо већ поменули, подаци су свуда око нас. Само их треба правилно ухватити! Корисно је разликовати између **структурираних** и **неструктурираних** података. Први су обично представљени у добро организованом облику, често као табела или више табела, док су други само збирка датотека. Понекад можемо говорити и о **полуструктурираним** подацима, који имају неку врсту структуре која може значајно варирати.
| Структурирани | Полуструктурирани | Неструктурирани |
| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | --------------------------------------- |
@ -19,15 +19,15 @@ CO_OP_TRANSLATOR_METADATA:
## Где пронаћи податке
Постоји много могућих извора података, и немогуће је набројати све! Међутим, хајде да поменемо неке од типичних места где можете пронаћи податке:
Постоји много могућих извора података, и било би немогуће набројати их све! Међутим, хајде да поменемо неке од типичних места где можете пронаћи податке:
* **Структурирани**
- **Интернет ствари** (IoT), укључујући податке са различитих сензора, као што су сензори температуре или притиска, пружају много корисних података. На пример, ако је пословна зграда опремљена IoT сензорима, можемо аутоматски контролисати грејање и осветљење како бисмо минимизирали трошкове.
- **Анкете** које тражимо од корисника да попуне након куповине или посете веб сајту.
- **Анализа понашања** може, на пример, помоћи да разумемо колико дубоко корисник истражује сајт и који је типичан разлог за напуштање сајта.
- **Анкете** које тражимо од корисника да попуне након куповине или након посете веб сајту.
- **Анализа понашања** може, на пример, помоћи да разумемо колико дубоко корисник улази у сајт и који је типичан разлог за напуштање сајта.
* **Неструктурирани**
- **Текстови** могу бити богат извор увида, као што је укупна **оценa сентимента**, или извлачење кључних речи и семантичког значења.
- **Слике** или **видео записи**. Видео снимак са надзорне камере може се користити за процену саобраћаја на путу и информисање људи о потенцијалним гужвама.
- **Слике** или **Видео**. Видео са надзорне камере може се користити за процену саобраћаја на путу и информисање људи о потенцијалним гужвама.
- **Логови веб сервера** могу се користити за разумевање које странице нашег сајта се најчешће посећују и колико дуго.
* **Полуструктурирани**
- **Графови друштвених мрежа** могу бити одличан извор података о личностима корисника и потенцијалној ефикасности у ширењу информација.
@ -43,32 +43,32 @@ CO_OP_TRANSLATOR_METADATA:
## Дигитализација и дигитална трансформација
У последњој деценији, многе компаније су почеле да схватају важност података при доношењу пословних одлука. Да би се применили принципи науке о подацима у пословању, прво је потребно прикупити неке податке, односно превести пословне процесе у дигитални облик. Ово је познато као **дигитализација**. Примена техника науке о подацима на ове податке ради доношења одлука може довести до значајног повећања продуктивности (или чак пословног преокрета), што се назива **дигитална трансформација**.
У последњој деценији, многе компаније су почеле да схватају важност података при доношењу пословних одлука. Да би се применили принципи науке о подацима у вођењу пословања, прво је потребно прикупити неке податке, односно превести пословне процесе у дигитални облик. Ово је познато као **дигитализација**. Примена техника науке о подацима на ове податке ради доношења одлука може довести до значајног повећања продуктивности (или чак пословног преокрета), што се назива **дигитална трансформација**.
Хајде да размотримо пример. Претпоставимо да имамо курс науке о подацима (као овај) који онлајн предајемо студентима и желимо да користимо науку о подацима за његово побољшање. Како то можемо урадити?
Хајде да размотримо пример. Претпоставимо да имамо курс о науци о подацима (као овај) који онлајн предајемо студентима и желимо да користимо науку о подацима за његово побољшање. Како то можемо урадити?
Можемо почети питањем "Шта се може дигитализовати?" Најједноставнији начин би био да измеримо време које је сваком студенту потребно да заврши сваки модул и да измеримо стечено знање давањем теста са вишеструким избором на крају сваког модула. Просечним временом завршетка за све студенте можемо открити који модули представљају највеће потешкоће за студенте и радити на њиховом поједностављењу.
Можете тврдити да овај приступ није идеалан, јер модули могу бити различитих дужина. Вероватно је праведније поделити време са дужином модула (у броју карактера) и упоредити те вредности уместо тога.
Када почнемо да анализирамо резултате тестова са вишеструким избором, можемо покушати да утврдимо које концепте ученици имају потешкоћа да разумеју, и користимо те информације за побољшање садржаја. Да бисмо то урадили, потребно је да дизајнирамо тестове на такав начин да свако питање одговара одређеном концепту или делу знања.
Можемо почети питањем "Шта се може дигитализовати?" Најједноставнији начин би био да измеримо време које је сваком студенту потребно да заврши сваки модул и да измеримо стечено знање давањем теста са вишеструким избором на крају сваког модула. Просечним временом завршетка за све студенте можемо открити који модули изазивају највише потешкоћа и радити на њиховом поједностављењу.
> Можете тврдити да овај приступ није идеалан, јер модули могу бити различитих дужина. Вероватно је праведније поделити време са дужином модула (у броју карактера) и упоредити те вредности уместо тога.
Када почнемо да анализирамо резултате тестова са вишеструким избором, можемо покушати да утврдимо које концепте ученици тешко разумеју и искористимо те информације за побољшање садржаја. Да бисмо то урадили, потребно је да осмислимо тестове тако да свако питање одговара одређеном концепту или делу знања.
Ако желимо да идемо још сложеније, можемо приказати време потребно за сваки модул у односу на старосну категорију ученика. Можда ћемо открити да за неке старосне категорије треба непримерено дуго да се заврши модул, или да ученици одустану пре него што га заврше. Ово нам може помоћи да дамо препоруке за старосну групу за модул и минимизирамо незадовољство људи због погрешних очекивања.
Ако желимо да идемо још дубље, можемо упоредити време потребно за сваки модул са старосном категоријом ученика. Можда ћемо открити да за неке старосне категорије завршетак модула траје непримерено дуго или да ученици одустају пре него што га заврше. Ово нам може помоћи да дамо препоруке за старосну групу за модул и минимизирамо незадовољство људи због погрешних очекивања.
## 🚀 Изазов
У овом изазову, покушаћемо да пронађемо концепте релевантне за област Науке о подацима анализирајући текстове. Узет ћемо Википедијски чланак о Науци о подацима, преузети и обрадити текст, а затим направити облак речи попут овог:
У овом изазову, покушаћемо да пронађемо концепте релевантне за област науке о подацима анализирајући текстове. Узет ћемо Википедијски чланак о науци о подацима, преузети и обрадити текст, а затим направити облак речи попут овог:
![Облак речи за Науку о подацима](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.sr.png)
![Облак речи за науку о подацима](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.sr.png)
Посетите [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') да прочитате код. Такође можете покренути код и видети како у реалном времену врши све трансформације података.
Посетите [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') да бисте прочитали код. Такође можете покренути код и видети како он изводи све трансформације података у реалном времену.
> Ако не знате како да покренете код у Jupyter Notebook-у, погледајте [овај чланак](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Квиз након предавања](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Квиз након предавања](https://ff-quizzes.netlify.app/en/ds/)
## Задаци
* **Задатак 1**: Измените горњи код да бисте пронашли повезане концепте за области **Big Data** и **Machine Learning**
* **Задатак 2**: [Размислите о сценаријима Науке о подацима](assignment.md)
* **Задатак 2**: [Размислите о сценаријима из науке о подацима](assignment.md)
## Захвалнице

@ -1,19 +1,19 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-26T21:30:53+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:18:23+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "sv"
}
-->
## Typer av data
Som vi redan har nämnt, finns data överallt. Vi behöver bara fånga den på rätt sätt! Det är användbart att skilja mellan **strukturerad** och **ostrukturerad** data. Den förstnämnda representeras vanligtvis i en välstrukturerad form, ofta som en tabell eller flera tabeller, medan den sistnämnda bara är en samling filer. Ibland kan vi också tala om **semistrukturerad** data, som har någon form av struktur som kan variera mycket.
Som vi redan nämnt, finns data överallt. Vi behöver bara fånga den på rätt sätt! Det är användbart att skilja mellan **strukturerad** och **ostrukturerad** data. Den förstnämnda representeras ofta i en välstrukturerad form, som en tabell eller flera tabeller, medan den sistnämnda bara är en samling filer. Ibland kan vi också tala om **semistrukturerad** data, som har någon form av struktur som kan variera mycket.
| Strukturerad | Semistrukturerad | Ostrukturerad |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| Lista över personer med deras telefonnummer | Wikipedia-sidor med länkar | Text från Encyclopedia Britannica |
| Lista över personer med deras telefonnummer | Wikipediasidor med länkar | Text från Encyclopedia Britannica |
| Temperatur i alla rum i en byggnad varje minut under de senaste 20 åren | Samling av vetenskapliga artiklar i JSON-format med författare, publiceringsdatum och abstrakt | Filarkiv med företagsdokument |
| Data om ålder och kön för alla som går in i byggnaden | Internetsidor | Rå videoström från övervakningskamera |
@ -22,15 +22,15 @@ Som vi redan har nämnt, finns data överallt. Vi behöver bara fånga den på r
Det finns många möjliga källor till data, och det är omöjligt att lista alla! Men låt oss nämna några typiska platser där du kan få tag på data:
* **Strukturerad**
- **Internet of Things** (IoT), inklusive data från olika sensorer, såsom temperatur- eller trycksensorer, ger mycket användbar data. Till exempel, om en kontorsbyggnad är utrustad med IoT-sensorer, kan vi automatiskt kontrollera uppvärmning och belysning för att minimera kostnader.
- **Internet of Things** (IoT), inklusive data från olika sensorer, som temperatur- eller trycksensorer, ger mycket användbar data. Till exempel, om en kontorsbyggnad är utrustad med IoT-sensorer, kan vi automatiskt kontrollera uppvärmning och belysning för att minimera kostnader.
- **Enkäter** som vi ber användare att fylla i efter ett köp eller efter att ha besökt en webbplats.
- **Beteendeanalys** kan till exempel hjälpa oss att förstå hur djupt en användare går in på en webbplats och vad som är den typiska orsaken till att lämna sidan.
- **Beteendeanalys** kan till exempel hjälpa oss att förstå hur djupt en användare går in på en webbplats och vad som är den typiska anledningen till att lämna sidan.
* **Ostrukturerad**
- **Texter** kan vara en rik källa till insikter, såsom ett övergripande **sentimentsbetyg** eller att extrahera nyckelord och semantisk betydelse.
- **Bilder** eller **Video**. En video från en övervakningskamera kan användas för att uppskatta trafik på vägen och informera människor om potentiella trafikstockningar.
- **Loggar** från webbservrar kan användas för att förstå vilka sidor på vår webbplats som besöks mest och hur länge.
* **Semistrukturerad**
- **Sociala nätverks**-grafer kan vara utmärkta källor till data om användares personligheter och potentiell effektivitet i att sprida information.
- **Sociala nätverks** grafer kan vara utmärkta källor till data om användares personligheter och potentiell effektivitet i att sprida information.
- När vi har en samling fotografier från en fest kan vi försöka extrahera data om **gruppdynamik** genom att bygga en graf över personer som tar bilder med varandra.
Genom att känna till olika möjliga datakällor kan du försöka tänka på olika scenarier där datavetenskapliga tekniker kan tillämpas för att förstå situationen bättre och förbättra affärsprocesser.
@ -43,13 +43,13 @@ Inom datavetenskap fokuserar vi på följande steg i datans resa:
Under det senaste decenniet har många företag börjat förstå vikten av data vid beslutsfattande. För att tillämpa datavetenskapliga principer på att driva ett företag måste man först samla in data, det vill säga översätta affärsprocesser till digital form. Detta kallas **digitalisering**. Att använda datavetenskapliga tekniker på denna data för att vägleda beslut kan leda till betydande produktivitetsökningar (eller till och med en affärsomvandling), vilket kallas **digital transformation**.
Låt oss överväga ett exempel. Anta att vi har en datavetenskapskurs (som denna) som vi levererar online till studenter, och vi vill använda datavetenskap för att förbättra den. Hur kan vi göra det?
Låt oss ta ett exempel. Anta att vi har en datavetenskapskurs (som denna) som vi levererar online till studenter, och vi vill använda datavetenskap för att förbättra den. Hur kan vi göra det?
Vi kan börja med att fråga "Vad kan digitaliseras?" Det enklaste sättet skulle vara att mäta tiden det tar för varje student att slutföra varje modul och att mäta den förvärvade kunskapen genom att ge ett flervalsprov i slutet av varje modul. Genom att beräkna genomsnittlig tid för att slutföra modulerna över alla studenter kan vi ta reda på vilka moduler som orsakar mest svårigheter för studenterna och arbeta på att förenkla dem.
Du kanske hävdar att denna metod inte är optimal, eftersom moduler kan ha olika längder. Det är förmodligen mer rättvist att dela tiden med modulens längd (i antal tecken) och jämföra dessa värden istället.
När vi börjar analysera resultaten från flervalsprov kan vi försöka identifiera vilka koncept som elever har svårt att förstå, och använda den informationen för att förbättra innehållet. För att göra detta behöver vi utforma prov på ett sätt där varje fråga kopplas till ett visst koncept eller kunskapsområde.
När vi börjar analysera resultaten från flervalsprov kan vi försöka identifiera vilka koncept elever har svårt att förstå och använda den informationen för att förbättra innehållet. För att göra detta behöver vi utforma prov på ett sätt där varje fråga kopplas till ett visst koncept eller kunskapsområde.
Om vi vill göra det ännu mer avancerat kan vi plotta den tid som krävs för varje modul mot studenternas ålderskategori. Vi kanske upptäcker att det för vissa ålderskategorier tar oproportionerligt lång tid att slutföra modulen, eller att studenter hoppar av innan de är klara. Detta kan hjälpa oss att ge åldersrekommendationer för modulen och minimera missnöje från felaktiga förväntningar.
Om vi vill göra det ännu mer avancerat kan vi plotta den tid som krävs för varje modul mot studenternas ålderskategori. Vi kanske upptäcker att det för vissa ålderskategorier tar orimligt lång tid att slutföra modulen, eller att elever hoppar av innan de är klara. Detta kan hjälpa oss att ge åldersrekommendationer för modulen och minimera missnöje från felaktiga förväntningar.
## 🚀 Utmaning
@ -61,12 +61,12 @@ Besök [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-
> Om du inte vet hur man kör kod i en Jupyter Notebook, ta en titt på [denna artikel](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Quiz efter föreläsningen](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Quiz efter föreläsningen](https://ff-quizzes.netlify.app/en/ds/)
## Uppgifter
* **Uppgift 1**: Modifiera koden ovan för att hitta relaterade koncept för områdena **Big Data** och **Machine Learning**
* **Uppgift 2**: [Fundera över Data Science-scenarier](assignment.md)
* **Uppgift 2**: [Fundera Data Science-scenarier](assignment.md)
## Krediter
@ -75,4 +75,4 @@ Denna lektion har skapats med ♥️ av [Dmitry Soshnikov](http://soshnikov.com)
---
**Ansvarsfriskrivning**:
Detta dokument har översatts med hjälp av AI-översättningstjänsten [Co-op Translator](https://github.com/Azure/co-op-translator). Även om vi strävar efter noggrannhet, bör du vara medveten om att automatiserade översättningar kan innehålla fel eller felaktigheter. Det ursprungliga dokumentet på dess ursprungliga språk bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för eventuella missförstånd eller feltolkningar som uppstår vid användning av denna översättning.
Detta dokument har översatts med hjälp av AI-översättningstjänsten [Co-op Translator](https://github.com/Azure/co-op-translator). Även om vi strävar efter noggrannhet, bör det noteras att automatiserade översättningar kan innehålla fel eller brister. Det ursprungliga dokumentet på dess originalspråk bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för eventuella missförstånd eller feltolkningar som kan uppstå vid användning av denna översättning.

@ -1,21 +1,21 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-26T15:18:27+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:25:56+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "sw"
}
-->
## Aina za Data
Kama tulivyotaja tayari, data ipo kila mahali. Tunahitaji tu kuikusanya kwa njia sahihi! Ni muhimu kutofautisha kati ya **data iliyopangiliwa** na **data isiyopangiliwa**. Data iliyopangiliwa mara nyingi huwakilishwa kwa mfumo uliopangiliwa vizuri, mara nyingi kama jedwali au idadi ya majedwali, wakati data isiyopangiliwa ni mkusanyiko wa faili tu. Wakati mwingine tunaweza pia kuzungumzia **data nusu-pangiliwa**, ambayo ina aina fulani ya muundo unaoweza kutofautiana sana.
Kama tulivyotaja tayari, data ipo kila mahali. Tunahitaji tu kuikusanya kwa njia sahihi! Ni muhimu kutofautisha kati ya **data iliyopangiliwa** na **data isiyopangiliwa**. Data iliyopangiliwa mara nyingi huwakilishwa kwa mfumo ulio wazi, mara nyingi kama jedwali au idadi ya majedwali, wakati data isiyopangiliwa ni mkusanyiko wa faili tu. Wakati mwingine tunaweza pia kuzungumzia **data nusu-pangiliwa**, ambayo ina aina fulani ya muundo unaoweza kutofautiana sana.
| Iliyopangiliwa | Nusu-pangiliwa | Isiyopangiliwa |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| Orodha ya watu na namba zao za simu | Kurasa za Wikipedia zenye viungo | Maandishi ya Encyclopedia Britannica |
| Orodha ya watu na namba zao za simu | Kurasa za Wikipedia zilizo na viungo | Maandishi ya Encyclopedia Britannica |
| Joto katika vyumba vyote vya jengo kila dakika kwa miaka 20 iliyopita | Mkusanyiko wa makala za kisayansi katika muundo wa JSON zenye waandishi, tarehe ya kuchapishwa, na muhtasari | Hifadhi ya faili yenye nyaraka za kampuni |
| Data ya umri na jinsia ya watu wote wanaoingia jengo | Kurasa za mtandao | Video ghafi kutoka kamera ya ufuatiliaji |
| Data ya umri na jinsia ya watu wote wanaoingia jengo | Kurasa za mtandao | Video ghafi kutoka kamera ya ulinzi |
## Wapi pa Kupata Data
@ -23,13 +23,13 @@ Kuna vyanzo vingi vya data, na itakuwa vigumu kuorodhesha vyote! Hata hivyo, heb
* **Iliyopangiliwa**
- **Internet of Things** (IoT), ikijumuisha data kutoka kwa sensa mbalimbali, kama sensa za joto au shinikizo, hutoa data nyingi muhimu. Kwa mfano, ikiwa jengo la ofisi lina sensa za IoT, tunaweza kudhibiti kiotomatiki joto na taa ili kupunguza gharama.
- **Utafiti** tunaowauliza watumiaji kukamilisha baada ya ununuzi, au baada ya kutembelea tovuti.
- **Uchambuzi wa tabia** unaweza, kwa mfano, kutusaidia kuelewa jinsi mtumiaji anavyotumia tovuti, na sababu ya kawaida ya kuondoka kwenye tovuti.
- **Utafiti** tunaowaomba watumiaji kujaza baada ya kununua bidhaa au kutembelea tovuti.
- **Uchambuzi wa tabia** unaweza, kwa mfano, kutusaidia kuelewa jinsi mtumiaji anavyotumia tovuti, na sababu za kawaida za kuondoka kwenye tovuti.
* **Isiyopangiliwa**
- **Maandishi** yanaweza kuwa chanzo tajiri cha maarifa, kama alama ya jumla ya **hisia**, au uchimbaji wa maneno muhimu na maana ya kisemantiki.
- **Picha** au **Video**. Video kutoka kamera ya ufuatiliaji inaweza kutumika kukadiria msongamano wa magari barabarani, na kuwajulisha watu kuhusu foleni zinazoweza kutokea.
- **Maandishi** yanaweza kuwa chanzo kikubwa cha maarifa, kama vile alama ya jumla ya **hisia**, au uchimbaji wa maneno muhimu na maana ya kisemantiki.
- **Picha** au **Video**. Video kutoka kamera ya ulinzi inaweza kutumika kukadiria msongamano wa magari barabarani, na kuwajulisha watu kuhusu foleni zinazoweza kutokea.
- **Kumbukumbu za seva ya mtandao** zinaweza kutumika kuelewa ni kurasa zipi za tovuti yetu zinatembelewa mara nyingi zaidi, na kwa muda gani.
* Nusu-pangiliwa
* **Nusu-pangiliwa**
- **Grafu za Mitandao ya Kijamii** zinaweza kuwa vyanzo bora vya data kuhusu tabia za watumiaji na ufanisi wao wa kusambaza taarifa.
- Tunapokuwa na mkusanyiko wa picha kutoka sherehe, tunaweza kujaribu kuchambua data ya **Dinamiki ya Kundi** kwa kujenga grafu ya watu wanaopiga picha pamoja.
@ -39,17 +39,17 @@ Kwa kujua vyanzo mbalimbali vya data, unaweza kujaribu kufikiria hali tofauti am
Katika Sayansi ya Data, tunazingatia hatua zifuatazo za safari ya data:
Bila shaka, kulingana na data halisi, baadhi ya hatua zinaweza kukosekana (mfano, tunapokuwa tayari na data kwenye hifadhidata, au tunapokuwa hatuhitaji mafunzo ya modeli), au baadhi ya hatua zinaweza kurudiwa mara kadhaa (kama usindikaji wa data).
Bila shaka, kulingana na data halisi, baadhi ya hatua zinaweza kukosekana (mfano, tunapokuwa tayari na data kwenye hifadhidata, au tunapokuwa hatuhitaji mafunzo ya modeli), au hatua fulani zinaweza kurudiwa mara kadhaa (kama usindikaji wa data).
## Dijitalizaji na Mabadiliko ya Kidijitali
Katika muongo uliopita, biashara nyingi zimeanza kuelewa umuhimu wa data katika kufanya maamuzi ya kibiashara. Ili kutumia kanuni za sayansi ya data katika kuendesha biashara, mtu kwanza anahitaji kukusanya data fulani, yaani kutafsiri michakato ya biashara katika mfumo wa kidijitali. Hii inajulikana kama **dijitalizaji**. Kutumia mbinu za sayansi ya data kwa data hii ili kuongoza maamuzi kunaweza kusababisha ongezeko kubwa la tija (au hata mabadiliko ya biashara), yanayoitwa **mabadiliko ya kidijitali**.
Katika muongo uliopita, biashara nyingi zimeanza kuelewa umuhimu wa data katika kufanya maamuzi ya kibiashara. Ili kutumia kanuni za sayansi ya data katika kuendesha biashara, kwanza mtu anahitaji kukusanya data fulani, yaani kutafsiri michakato ya biashara katika mfumo wa kidijitali. Hii inajulikana kama **dijitalizaji**. Kutumia mbinu za sayansi ya data kwa data hii ili kuongoza maamuzi kunaweza kusababisha ongezeko kubwa la tija (au hata mabadiliko ya biashara), yanayoitwa **mabadiliko ya kidijitali**.
Hebu tuzingatie mfano. Tuseme tuna kozi ya sayansi ya data (kama hii) tunayoitoa mtandaoni kwa wanafunzi, na tunataka kutumia sayansi ya data kuiboresha. Tunawezaje kufanya hivyo?
Tunaweza kuanza kwa kujiuliza "Nini kinaweza kudijitalizwa?" Njia rahisi zaidi itakuwa kupima muda unaochukua kila mwanafunzi kukamilisha kila moduli, na kupima maarifa yaliyopatikana kwa kutoa mtihani wa chaguo nyingi mwishoni mwa kila moduli. Kwa kuhesabu wastani wa muda wa kukamilisha kwa wanafunzi wote, tunaweza kugundua ni moduli zipi zinazosababisha ugumu zaidi kwa wanafunzi, na kufanya kazi ya kuzirahisisha.
Unaweza kusema kwamba mbinu hii si bora, kwa sababu moduli zinaweza kuwa na urefu tofauti. Inawezekana ni haki zaidi kugawa muda kulingana na urefu wa moduli (kwa idadi ya herufi), na kulinganisha thamani hizo badala yake.
Tunapoanza kuchambua matokeo ya mitihani ya kuchagua jibu sahihi, tunaweza kujaribu kubaini ni dhana zipi wanafunzi wanapata ugumu wa kuelewa, na kutumia taarifa hiyo kuboresha maudhui. Ili kufanya hivyo, tunahitaji kubuni mitihani kwa njia ambayo kila swali linaendana na dhana fulani au kipande cha maarifa.
Unaweza kusema kwamba mbinu hii si bora, kwa sababu moduli zinaweza kuwa na urefu tofauti. Huenda ikawa haki zaidi kugawanya muda kwa urefu wa moduli (kwa idadi ya herufi), na kulinganisha thamani hizo badala yake.
Tunapoanza kuchambua matokeo ya mitihani ya chaguo nyingi, tunaweza kujaribu kubaini ni dhana zipi wanafunzi wanapata ugumu wa kuelewa, na kutumia taarifa hiyo kuboresha maudhui. Ili kufanya hivyo, tunahitaji kubuni mitihani kwa njia ambayo kila swali linaendana na dhana fulani au kipande cha maarifa.
Ikiwa tunataka kufanya uchambuzi wa kina zaidi, tunaweza kuchora muda unaotumika kwa kila moduli dhidi ya kundi la umri wa wanafunzi. Tunaweza kugundua kwamba kwa baadhi ya makundi ya umri, inachukua muda mrefu kupita kiasi kukamilisha moduli, au kwamba wanafunzi wanajiondoa kabla ya kuikamilisha. Hii inaweza kutusaidia kutoa mapendekezo ya umri kwa moduli, na kupunguza kutoridhika kwa watu kutokana na matarajio yasiyo sahihi.
@ -59,22 +59,22 @@ Katika changamoto hii, tutajaribu kutafuta dhana zinazohusiana na uwanja wa Saya
![Wingu la Maneno kwa Sayansi ya Takwimu](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.sw.png)
Tembelea [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') kusoma kupitia msimbo. Unaweza pia kuendesha msimbo, na kuona jinsi unavyofanya mabadiliko ya data kwa muda halisi.
Tembelea [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') kusoma kupitia msimbo. Unaweza pia kuendesha msimbo huo, na kuona jinsi unavyofanya mabadiliko ya data kwa wakati halisi.
> Ikiwa hujui jinsi ya kuendesha msimbo katika Jupyter Notebook, angalia [makala hii](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Jaribio la baada ya somo](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Jaribio la baada ya somo](https://ff-quizzes.netlify.app/en/ds/)
## Majukumu
* **Kazi ya 1**: Badilisha msimbo hapo juu ili kutafuta dhana zinazohusiana na nyanja za **Big Data** na **Machine Learning**
* **Kazi ya 2**: [Fikiria Kuhusu Matukio ya Sayansi ya Takwimu](assignment.md)
## Credits
## Shukrani
Somo hili limeandikwa kwa ♥️ na [Dmitry Soshnikov](http://soshnikov.com)
---
**Kanusho**:
Hati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kwa usahihi, tafadhali fahamu kuwa tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwa sahihi. Hati ya asili katika lugha yake ya awali inapaswa kuzingatiwa kama chanzo cha mamlaka. Kwa taarifa muhimu, inashauriwa kutumia huduma ya tafsiri ya kitaalamu ya binadamu. Hatutawajibika kwa maelewano mabaya au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii.
Hati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kuhakikisha usahihi, tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwa sahihi. Hati ya asili katika lugha yake ya awali inapaswa kuchukuliwa kama chanzo cha mamlaka. Kwa taarifa muhimu, tafsiri ya kitaalamu ya binadamu inapendekezwa. Hatutawajibika kwa kutoelewana au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii.

@ -1,69 +1,69 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-26T21:30:01+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:17:36+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "th"
}
-->
## ประเภทของข้อมูล
อย่างที่เราได้กล่าวไปแล้ว ข้อมูลมีอยู่ทุกที่ เราเพียงแค่ต้องเก็บข้อมูลในวิธีที่เหมาะสม! การแยกแยะระหว่างข้อมูล **ที่มีโครงสร้าง** และ **ไม่มีโครงสร้าง** เป็นสิ่งที่มีประโยชน์ ข้อมูลที่มีโครงสร้างมักจะถูกนำเสนอในรูปแบบที่มีโครงสร้างชัดเจน เช่น ตารางหรือหลายตาราง ในขณะที่ข้อมูลที่ไม่มีโครงสร้างเป็นเพียงชุดของไฟล์ บางครั้งเรายังสามารถพูดถึงข้อมูล **กึ่งโครงสร้าง** ซึ่งมีโครงสร้างบางส่วนที่อาจแตกต่างกันไปอย่างมาก
อย่างที่เราได้กล่าวไปแล้ว ข้อมูลมีอยู่ทุกที่ เราแค่ต้องจับมันให้ถูกวิธี! การแยกแยะระหว่าง **ข้อมูลที่มีโครงสร้าง** และ **ข้อมูลที่ไม่มีโครงสร้าง** เป็นสิ่งที่มีประโยชน์ ข้อมูลที่มีโครงสร้างมักจะถูกนำเสนอในรูปแบบที่มีโครงสร้างชัดเจน เช่น ตารางหรือหลายตาราง ในขณะที่ข้อมูลที่ไม่มีโครงสร้างเป็นเพียงชุดของไฟล์ บางครั้งเรายังสามารถพูดถึง **ข้อมูลกึ่งโครงสร้าง** ซึ่งมีโครงสร้างบางส่วนที่อาจแตกต่างกันไปอย่างมาก
| มีโครงสร้าง | กึ่งโครงสร้าง | ไม่มีโครงสร้าง |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| รายชื่อคนพร้อมหมายเลขโทรศัพท์ของพวกเขา | หน้าของ Wikipedia พร้อมลิงก์ | ข้อความของสารานุกรม Britannica |
| อุณหภูมิในทุกห้องของอาคารในทุกนาทีตลอด 20 ปีที่ผ่านมา | ชุดของบทความวิชาการในรูปแบบ JSON พร้อมผู้เขียน วันที่ตีพิมพ์ และบทคัดย่อ | ไฟล์เอกสารขององค์กร |
| ข้อมูลอายุและเพศของทุกคนที่เข้าอาคาร | หน้าอินเทอร์เน็ต | วิดีโอสดจากกล้องวงจรปิด |
| รายชื่อคนพร้อมเบอร์โทรศัพท์ของพวกเขา | หน้าของ Wikipedia พร้อมลิงก์ | ข้อความของสารานุกรม Britannica |
| อุณหภูมิในทุกห้องของอาคารในทุกนาทีตลอด 20 ปีที่ผ่านมา | ชุดบทความวิชาการในรูปแบบ JSON พร้อมผู้เขียน วันที่เผยแพร่ และบทคัดย่อ | ไฟล์แชร์ที่มีเอกสารขององค์กร |
| ข้อมูลอายุและเพศของทุกคนที่เข้ามาในอาคาร | หน้าเว็บ | วิดีโอสดจากกล้องวงจรปิด |
## แหล่งที่มาของข้อมูล
## แหล่งข้อมูล
มีแหล่งข้อมูลที่เป็นไปได้มากมาย และคงเป็นไปไม่ได้ที่จะระบุทั้งหมด! อย่างไรก็ตาม มาลองพูดถึงแหล่งข้อมูลทั่วไปบางส่วนที่คุณสามารถหาได้:
มีแหล่งข้อมูลมากมาย และคงเป็นไปไม่ได้ที่จะระบุทั้งหมด! อย่างไรก็ตาม เรามาพูดถึงสถานที่ทั่วไปที่คุณสามารถหาข้อมูลได้:
* **ข้อมูลที่มีโครงสร้าง**
- **Internet of Things** (IoT) รวมถึงข้อมูลจากเซ็นเซอร์ต่าง ๆ เช่น เซ็นเซอร์อุณหภูมิหรือความดัน ซึ่งให้ข้อมูลที่มีประโยชน์มากมาย ตัวอย่างเช่น หากอาคารสำนักงานติดตั้งเซ็นเซอร์ IoT เราสามารถควบคุมการทำความร้อนและแสงสว่างโดยอัตโนมัติเพื่อลดค่าใช้จ่าย
- **แบบสำรวจ** ที่เราขอให้ผู้ใช้กรอกหลังการซื้อสินค้าหรือหลังจากเยี่ยมชมเว็บไซต์
- **การวิเคราะห์พฤติกรรม** เช่น การช่วยให้เราเข้าใจว่าผู้ใช้เข้าไปในเว็บไซต์ลึกแค่ไหน และเหตุผลทั่วไปที่ทำให้พวกเขาออกจากเว็บไซต์
- **Internet of Things** (IoT) รวมถึงข้อมูลจากเซ็นเซอร์ต่าง ๆ เช่น เซ็นเซอร์อุณหภูมิหรือแรงดัน ซึ่งให้ข้อมูลที่มีประโยชน์มากมาย ตัวอย่างเช่น หากอาคารสำนักงานติดตั้งเซ็นเซอร์ IoT เราสามารถควบคุมการทำความร้อนและแสงสว่างโดยอัตโนมัติเพื่อลดค่าใช้จ่าย
- **แบบสำรวจ** ที่เราขอให้ผู้ใช้กรอกหลังการซื้อสินค้าหรือหลังการเยี่ยมชมเว็บไซต์
- **การวิเคราะห์พฤติกรรม** เช่น การเข้าใจว่าผู้ใช้เข้าไปในเว็บไซต์ลึกแค่ไหน และเหตุผลทั่วไปที่ทำให้ผู้ใช้ออกจากเว็บไซต์
* **ข้อมูลที่ไม่มีโครงสร้าง**
- **ข้อความ** สามารถเป็นแหล่งข้อมูลที่อุดมไปด้วย เช่น การวิเคราะห์ **คะแนนความรู้สึก** โดยรวม หรือการดึงคำสำคัญและความหมายเชิงความหมาย
- **ข้อความ** สามารถเป็นแหล่งข้อมูลที่อุดมไปด้วยข้อมูลเชิงลึก เช่น **คะแนนความรู้สึกโดยรวม** หรือการดึงคำสำคัญและความหมายเชิงความหมาย
- **ภาพ** หรือ **วิดีโอ** วิดีโอจากกล้องวงจรปิดสามารถใช้ประเมินการจราจรบนถนน และแจ้งเตือนผู้คนเกี่ยวกับการจราจรติดขัด
- **บันทึกเซิร์ฟเวอร์เว็บ** สามารถใช้เพื่อเข้าใจว่าหน้าใดของเว็บไซต์ของเราถูกเยี่ยมชมบ่อยที่สุด และใช้เวลานานแค่ไหน
* **กึ่งโครงสร้าง**
- **กราฟเครือข่ายสังคม** สามารถเป็นแหล่งข้อมูลที่ยอเย่ยมเกี่ยวกับบุคลิกภาพของผู้ใช้และประสิทธิภาพที่อาจเกิดขึ้นในการกระจายข้อมูล
- เมื่อเรามีภาพถ่ายจำนวนมากจากงานปาร์ตี้ เราสามารถพยายามดึงข้อมูล **พลวัตของกลุ่ม** โดยการสร้างกราฟของคนที่ถ่ายภาพร่วมกัน
- **Logs** ของเซิร์ฟเวอร์เว็บสามารถใช้เพื่อเข้าใจว่าหน้าใดของเว็บไซต์ที่มีการเยี่ยมชมบ่อยที่สุด และใช้เวลานานแค่ไหน
* **ข้อมูลกึ่งโครงสร้าง**
- **กราฟเครือข่ายสังคม** สามารถเป็นแหล่งข้อมูลที่ดีเกี่ยวกับบุคลิกภาพของผู้ใช้และประสิทธิภาพในการเผยแพร่ข้อมูล
- เมื่อเรามีภาพถ่ายจำนวนมากจากงานปาร์ตี้ เราสามารถลองดึงข้อมูล **พลวัตของกลุ่ม** โดยการสร้างกราฟของคนที่ถ่ายภาพร่วมกัน
เมื่อรู้แหล่งข้อมูลที่เป็นไปได้ต่าง ๆ คุณสามารถลองคิดถึงสถานการณ์ต่าง ๆ ที่เทคนิควิทยาศาสตร์ข้อมูลสามารถนำไปใช้เพื่อเข้าใจสถานการณ์ได้ดีขึ้น และปรับปรุงกระบวนการทางธุรกิจ
## สิ่งที่คุณสามารถทำได้กับข้อมูล
ในวิทยาศาสตร์ข้อมูล เรามุ่งเน้นไปที่ขั้นตอนต่อไปนี้ในเส้นทางของข้อมูล:
ในวิทยาศาสตร์ข้อมูล เรามุ่งเน้นไปที่ขั้นตอนต่าง ๆ ของการเดินทางของข้อมูล:
แน่นอนว่า ขึ้นอยู่กับข้อมูลจริง บางขั้นตอนอาจขาดหายไป (เช่น เมื่อเรามีข้อมูลอยู่ในฐานข้อมูลแล้ว หรือเมื่อเราไม่จำเป็นต้องฝึกโมเดล) หรือบางขั้นตอนอาจถูกทำซ้ำหลายครั้ง (เช่น การประมวลผลข้อมูล)
แน่นอนว่า ขึ้นอยู่กับข้อมูลจริง บางขั้นตอนอาจหายไป (เช่น เมื่อเรามีข้อมูลอยู่ในฐานข้อมูลแล้ว หรือเมื่อเราไม่จำเป็นต้องฝึกโมเดล) หรือบางขั้นตอนอาจถูกทำซ้ำหลายครั้ง (เช่น การประมวลผลข้อมูล)
## การแปลงเป็นดิจิทัลและการเปลี่ยนแปลงทางดิจิทัล
ในทศวรรษที่ผ่านมา ธุรกิจจำนวนมากเริ่มเข้าใจถึงความสำคัญของข้อมูลในการตัดสินใจทางธุรกิจ เพื่อใช้หลักการวิทยาศาสตร์ข้อมูลในการดำเนินธุรกิจ สิ่งแรกที่ต้องทำคือการเก็บรวบรวมข้อมูล กล่าวคือ แปลงกระบวนการทางธุรกิจให้อยู่ในรูปแบบดิจิทัล ซึ่งเรียกว่า **การแปลงเป็นดิจิทัล** การใช้เทคนิควิทยาศาสตร์ข้อมูลกับข้อมูลนี้เพื่อชี้นำการตัดสินใจสามารถนำไปสู่การเพิ่มประสิทธิภาพอย่างมาก (หรือแม้กระทั่งการเปลี่ยนแปลงธุรกิจ) ซึ่งเรียกว่า **การเปลี่ยนแปลงทางดิจิทัล**
ในทศวรรษที่ผ่านมา ธุรกิจหลายแห่งเริ่มเข้าใจถึงความสำคัญของข้อมูลในการตัดสินใจทางธุรกิจ เพื่อใช้หลักการวิทยาศาสตร์ข้อมูลในการดำเนินธุรกิจ สิ่งแรกที่ต้องทำคือรวบรวมข้อมูลบางอย่าง กล่าวคือ แปลงกระบวนการทางธุรกิจให้อยู่ในรูปแบบดิจิทัล ซึ่งเรียกว่า **การแปลงเป็นดิจิทัล** การใช้เทคนิควิทยาศาสตร์ข้อมูลกับข้อมูลนี้เพื่อเป็นแนวทางในการตัดสินใจสามารถนำไปสู่การเพิ่มประสิทธิภาพอย่างมาก (หรือแม้กระทั่งการเปลี่ยนแปลงธุรกิจ) ซึ่งเรียกว่า **การเปลี่ยนแปลงทางดิจิทัล**
ลองพิจารณาตัวอย่าง สมมติว่าเรามีหลักสูตรวิทยาศาสตร์ข้อมูล (เช่นหลักสูตรนี้) ที่เราสอนออนไลน์ให้กับนักเรียน และเราต้องการใช้วิทยาศาสตร์ข้อมูลเพื่อปรับปรุงหลักสูตร เราจะทำได้อย่างไร?
เราสามารถเริ่มต้นด้วยการถามว่า "อะไรที่สามารถแปลงเป็นดิจิทัลได้?" วิธีที่ง่ายที่สุดคือการวัดเวลาที่นักเรียนแต่ละคนใช้ในการเรียนแต่ละโมดูล และวัดความรู้ที่ได้รับโดยการให้ทำแบบทดสอบแบบปรนัยเมื่อจบแต่ละโมดูล โดยการเฉลี่ยเวลาที่ใช้เรียนในแต่ละโมดูลของนักเรียนทั้งหมด เราสามารถค้นหาได้ว่าโมดูลใดที่ทำให้นักเรียนมีปัญหามากที่สุด และทำงานเพื่อปรับปรุงให้เข้าใจง่ายขึ้น
คุณอาจแย้งได้ว่าวิธีนี้ไม่ใช่วิธีที่เหมาะสมที่สุด เพราะโมดูลอาจมีความยาวต่างกัน อาจจะยุติธรรมกว่าถ้าแบ่งเวลาโดยพิจารณาจากความยาวของโมดูล (ในจำนวนตัวอักษร) แล้วเปรียบเทียบค่าที่ได้แทน
เมื่อเราเริ่มวิเคราะห์ผลลัพธ์ของการทดสอบแบบปรนัย เราสามารถพยายามระบุแนวคิดที่นักเรียนมีปัญหาในการทำความเข้าใจ และใช้ข้อมูลนั้นเพื่อปรับปรุงเนื้อหาได้ เพื่อทำเช่นนั้น เราจำเป็นต้องออกแบบการทดสอบในลักษณะที่แต่ละคำถามเชื่อมโยงกับแนวคิดหรือส่วนความรู้ที่เฉพาะเจาะจง
เราสามารถเริ่มต้นด้วยการถามว่า "อะไรที่สามารถแปลงเป็นดิจิทัลได้?" วิธีที่ง่ายที่สุดคือการวัดเวลาที่นักเรียนแต่ละคนใช้ในการทำแต่ละโมดูลให้เสร็จ และวัดความรู้ที่ได้รับโดยการให้แบบทดสอบแบบเลือกตอบหลังจากแต่ละโมดูล โดยการเฉลี่ยเวลาที่ใช้ในการทำโมดูลให้เสร็จในหมู่นักเรียนทั้งหมด เราสามารถค้นหาได้ว่าโมดูลใดที่ทำให้นักเรียนมีความยากลำบากมากที่สุด และทำงานเพื่อทำให้มันง่ายขึ้น
คุณอาจแย้งว่าวิธีนี้ไม่ใช่วิธีที่เหมาะสมที่สุด เพราะโมดูลอาจมีความยาวต่างกัน อาจจะยุติธรรมกว่าถ้าแบ่งเวลาโดยพิจารณาจากความยาวของโมดูล (ในจำนวนตัวอักษร) แล้วเปรียบเทียบค่าที่ได้แทน
เมื่อเราเริ่มวิเคราะห์ผลของการทดสอบแบบปรนัย เราสามารถพยายามระบุแนวคิดที่นักเรียนมีปัญหาในการทำความเข้าใจ และใช้ข้อมูลนั้นเพื่อปรับปรุงเนื้อหาได้ ในการทำเช่นนั้น เราจำเป็นต้องออกแบบการทดสอบในลักษณะที่แต่ละคำถามเชื่อมโยงกับแนวคิดหรือส่วนความรู้เฉพาะ
หากเราต้องการทำให้ซับซ้อนยิ่งขึ้น เราสามารถวางแผนเปรียบเทียบเวลาที่ใช้ในแต่ละโมดูลกับกลุ่มอายุของนักเรียน เราอาจพบว่าในบางกลุ่มอายุใช้เวลานานเกินไปในการทำโมดูลให้เสร็จ หรือว่านักเรียนเลิกเรียนก่อนที่จะทำเสร็จ สิ่งนี้สามารถช่วยให้เราแนะนำอายุที่เหมาะสมสำหรับโมดูล และลดความไม่พอใจของผู้คนจากความคาดหวังที่ผิดพลาด
หากเราต้องการวิเคราะห์ในเชิงลึกยิ่งขึ้น เราสามารถวางแผนเปรียบเทียบเวลาที่ใช้ในแต่ละโมดูลกับกลุ่มอายุของนักเรียนได้ เราอาจพบว่าในบางกลุ่มอายุใช้เวลานานเกินไปในการทำโมดูลให้เสร็จ หรือว่านักเรียนบางคนเลิกเรียนก่อนที่จะทำโมดูลเสร็จ ข้อมูลนี้สามารถช่วยให้เราแนะนำอายุที่เหมาะสมสำหรับโมดูล และลดความไม่พอใจของผู้เรียนที่เกิดจากความคาดหวังที่ไม่ตรงกัน
## 🚀 ความท้าทาย
ในความท้าทายนี้ เราจะพยายามค้นหาแนวคิดที่เกี่ยวข้องกับสาขาวิทยาศาสตร์ข้อมูล (Data Science) โดยการดูจากข้อความ เราจะนำบทความจาก Wikipedia เกี่ยวกับวิทยาศาสตร์ข้อมูลมาดาวน์โหลดและประมวลผลข้อความ จากนั้นสร้าง Word Cloud ที่มีลักษณะดังนี้:
ในความท้าทายนี้ เราจะพยายามค้นหาแนวคิดที่เกี่ยวข้องกับสาขาวิทยาศาสตร์ข้อมูล (Data Science) โดยการดูจากข้อความ เราจะนำบทความจาก Wikipedia เกี่ยวกับวิทยาศาสตร์ข้อมูลมาดาวน์โหลดและประมวลผลข้อความ จากนั้นสร้างแผนภาพคำ (Word Cloud) เช่นตัวอย่างนี้:
![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.th.png)
เยี่ยมชม [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') เพื่ออ่านโค้ด คุณยังสามารถรันโค้ดและดูว่ามันทำการแปลงข้อมูลทั้งหมดแบบเรียลไทม์ได้อย่างไร
ไปที่ [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') เพื่ออ่านโค้ด คุณยังสามารถรันโค้ดและดูว่ามันทำการแปลงข้อมูลแบบเรียลไทม์ได้อย่างไร
> หากคุณไม่ทราบวิธีการรันโค้ดใน Jupyter Notebook ลองดู [บทความนี้](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)
## [แบบทดสอบหลังการบรรยาย](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [แบบทดสอบหลังการบรรยาย](https://ff-quizzes.netlify.app/en/ds/)
## งานที่ได้รับมอบหมาย
@ -72,7 +72,7 @@ CO_OP_TRANSLATOR_METADATA:
## เครดิต
บทเรียนนี้เขียนขึ้นด้วย ♥️ โดย [Dmitry Soshnikov](http://soshnikov.com)
บทเรียนนี้ถูกเขียนขึ้นด้วย ♥️ โดย [Dmitry Soshnikov](http://soshnikov.com)
---

@ -1,74 +1,118 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-28T02:45:04+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:25:00+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "tl"
}
-->
## Mga Uri ng Datos
# Pagpapakilala sa Data Science
Tulad ng nabanggit na, ang datos ay nasa lahat ng dako. Kailangan lang natin itong makuha sa tamang paraan! Mahalagang maunawaan ang pagkakaiba ng **structured** at **unstructured** na datos. Ang structured na datos ay karaniwang nasa maayos na anyo, madalas na nasa anyo ng isang talahanayan o maraming talahanayan, habang ang unstructured na datos ay isang koleksyon lamang ng mga file. Minsan, maaari rin nating pag-usapan ang tungkol sa **semi-structured** na datos, na may ilang uri ng istruktura na maaaring magkaiba-iba.
| ![ Sketchnote ni [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------: |
| Pagpapakilala sa Data Science - _Sketchnote ni [@nitya](https://twitter.com/nitya)_ |
| Structured | Semi-structured | Unstructured |
---
[![Video: Pagpapakilala sa Data Science](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.tl.png)](https://youtu.be/beZ7Mb_oz9I)
## [Pre-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## Ano ang Data?
Sa araw-araw nating buhay, palagi tayong napapalibutan ng data. Ang tekstong binabasa mo ngayon ay data. Ang listahan ng mga numero ng telepono ng iyong mga kaibigan sa iyong smartphone ay data, gayundin ang kasalukuyang oras na ipinapakita sa iyong relo. Bilang mga tao, natural tayong gumagamit ng data, tulad ng pagbibilang ng pera o pagsusulat ng liham sa mga kaibigan.
Gayunpaman, naging mas mahalaga ang data sa paglikha ng mga computer. Ang pangunahing layunin ng mga computer ay magsagawa ng mga kalkulasyon, ngunit kailangan nila ng data upang gumana. Kaya't mahalagang maunawaan kung paano iniimbak at pinoproseso ng mga computer ang data.
Sa pag-usbong ng Internet, mas lumaki ang papel ng mga computer bilang mga tagapamahala ng data. Kung iisipin mo, mas ginagamit na natin ngayon ang mga computer para sa pagproseso at komunikasyon ng data kaysa sa aktwal na pagkalkula. Kapag nagsusulat tayo ng e-mail sa isang kaibigan o naghahanap ng impormasyon sa Internet, lumilikha, nag-iimbak, nagpapadala, at nagmamaniobra tayo ng data.
> Kailan mo huling ginamit ang computer para aktwal na mag-compute ng isang bagay?
## Ano ang Data Science?
Ayon sa [Wikipedia](https://en.wikipedia.org/wiki/Data_science), ang **Data Science** ay tinutukoy bilang *isang larangang pang-agham na gumagamit ng mga siyentipikong pamamaraan upang makakuha ng kaalaman at pananaw mula sa nakaayos at hindi nakaayos na data, at gamitin ang kaalaman at mga actionable insights mula sa data sa iba't ibang larangan ng aplikasyon*.
Ang depinisyong ito ay nagbibigay-diin sa mga sumusunod na mahalagang aspeto ng data science:
* Ang pangunahing layunin ng data science ay **makakuha ng kaalaman** mula sa data, sa madaling salita - upang **maunawaan** ang data, tuklasin ang mga nakatagong relasyon, at bumuo ng isang **modelo**.
* Gumagamit ang data science ng mga **siyentipikong pamamaraan**, tulad ng probabilidad at estadistika. Sa katunayan, noong unang ipinakilala ang terminong *data science*, may mga nagsabi na ito ay bagong pangalan lamang para sa estadistika. Ngayon, malinaw na mas malawak ang saklaw ng larangang ito.
* Ang nakuhang kaalaman ay dapat gamitin upang makabuo ng mga **actionable insights**, o mga praktikal na pananaw na maaaring gamitin sa mga totoong sitwasyon sa negosyo.
* Dapat tayong marunong gumamit ng parehong **nakaayos** at **hindi nakaayos** na data. Tatalakayin natin ang iba't ibang uri ng data sa mga susunod na bahagi ng kurso.
* Ang **larangan ng aplikasyon** ay mahalaga, at madalas na kailangan ng mga data scientist ng kahit kaunting kaalaman sa larangan ng problema, tulad ng: pananalapi, medisina, marketing, at iba pa.
> Isa pang mahalagang aspeto ng Data Science ay ang pag-aaral kung paano kinokolekta, iniimbak, at pinoproseso ang data gamit ang mga computer. Habang ang estadistika ay nagbibigay ng mga pundasyong matematika, ang data science ay nag-aaplay ng mga konseptong matematika upang aktwal na makakuha ng mga pananaw mula sa data.
Isa sa mga paraan (na iniuugnay kay [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) upang tingnan ang data science ay ituring ito bilang isang hiwalay na paradigma ng agham:
* **Empirical**, kung saan umaasa tayo sa mga obserbasyon at resulta ng mga eksperimento
* **Theoretical**, kung saan lumalabas ang mga bagong konsepto mula sa umiiral na kaalamang pang-agham
* **Computational**, kung saan natutuklasan natin ang mga bagong prinsipyo batay sa mga computational experiments
* **Data-Driven**, batay sa pagtuklas ng mga relasyon at pattern sa data
## Iba Pang Kaugnay na Larangan
Dahil ang data ay laganap, ang data science mismo ay isang malawak na larangan na sumasaklaw sa maraming iba pang disiplina.
## Mga Uri ng Data
Tulad ng nabanggit na, ang data ay nasa lahat ng dako. Kailangan lang natin itong makuha sa tamang paraan! Mahalagang maunawaan ang pagkakaiba ng **nakaayos** at **hindi nakaayos** na data. Ang una ay karaniwang kinakatawan sa isang maayos na anyo, madalas bilang isang talahanayan o bilang ng mga talahanayan, habang ang huli ay isang koleksyon lamang ng mga file. Minsan, maaari rin nating pag-usapan ang tungkol sa **semi-structured** na data, na may ilang uri ng istruktura na maaaring mag-iba nang malaki.
| Nakaayos | Semi-structured | Hindi Nakaayos |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| Listahan ng mga tao kasama ang kanilang mga numero ng telepono | Mga pahina ng Wikipedia na may mga link | Teksto ng Encyclopedia Britannica |
| Listahan ng mga tao at kanilang mga numero ng telepono | Mga pahina ng Wikipedia na may mga link | Teksto ng Encyclopedia Britannica |
| Temperatura sa lahat ng silid ng isang gusali bawat minuto sa nakalipas na 20 taon | Koleksyon ng mga siyentipikong papel sa JSON format na may mga may-akda, petsa ng publikasyon, at abstrak | File share na may mga dokumentong pangkorporasyon |
| Datos ng edad at kasarian ng lahat ng pumapasok sa gusali | Mga pahina sa Internet | Raw na video feed mula sa surveillance camera |
| Data ng edad at kasarian ng lahat ng pumapasok sa gusali | Mga pahina sa Internet | Raw na video feed mula sa surveillance camera |
## Saan Kumuha ng Datos
## Saan Kumuha ng Data
Maraming posibleng mapagkukunan ng datos, at imposibleng mailista ang lahat ng ito! Gayunpaman, banggitin natin ang ilan sa mga karaniwang lugar kung saan maaaring makakuha ng datos:
Maraming posibleng mapagkukunan ng data, at imposibleng mailista ang lahat ng ito! Gayunpaman, banggitin natin ang ilan sa mga karaniwang lugar kung saan maaaring makakuha ng data:
* **Structured**
- **Internet of Things** (IoT), kabilang ang datos mula sa iba't ibang sensor, tulad ng temperatura o pressure sensors, na nagbibigay ng maraming kapaki-pakinabang na datos. Halimbawa, kung ang isang gusali ng opisina ay may IoT sensors, maaari nating awtomatikong kontrolin ang pag-init at pag-iilaw upang mabawasan ang gastos.
- **Mga Survey** na hinihiling nating sagutan ng mga gumagamit pagkatapos ng pagbili, o pagkatapos bumisita sa isang website.
* **Nakaayos**
- **Internet of Things** (IoT), kabilang ang data mula sa iba't ibang sensor, tulad ng temperatura o pressure sensors, na nagbibigay ng maraming kapaki-pakinabang na data. Halimbawa, kung ang isang gusali ng opisina ay may mga IoT sensor, maaari nating awtomatikong kontrolin ang pag-init at pag-iilaw upang mabawasan ang gastos.
- **Mga Survey** na hinihiling nating sagutan ng mga gumagamit pagkatapos ng pagbili o pagbisita sa isang website.
- **Pagsusuri ng Pag-uugali** na maaaring makatulong upang maunawaan kung gaano kalalim ang paggalugad ng isang gumagamit sa isang site, at kung ano ang karaniwang dahilan ng pag-alis sa site.
* **Unstructured**
- **Mga Teksto** na maaaring maging mayamang mapagkukunan ng mga pananaw, tulad ng pangkalahatang **sentiment score**, o pagkuha ng mga keyword at kahulugan ng semantika.
- **Mga Larawan** o **Video**. Ang isang video mula sa surveillance camera ay maaaring gamitin upang tantyahin ang trapiko sa kalsada, at ipaalam sa mga tao ang tungkol sa mga posibleng pagsisikip ng trapiko.
- **Logs** ng web server na maaaring gamitin upang maunawaan kung aling mga pahina ng ating site ang madalas bisitahin, at kung gaano katagal.
* **Hindi Nakaayos**
- **Mga Teksto** na maaaring maging mayamang mapagkukunan ng pananaw, tulad ng pangkalahatang **sentiment score**, o pagkuha ng mga keyword at kahulugan.
- **Mga Larawan** o **Video**. Ang video mula sa surveillance camera ay maaaring gamitin upang tantyahin ang trapiko sa kalsada at ipaalam sa mga tao ang posibleng pagsisikip.
- **Logs** ng web server na maaaring gamitin upang maunawaan kung aling mga pahina ng ating site ang madalas bisitahin at kung gaano katagal.
* **Semi-structured**
- **Mga Graph ng Social Network** na maaaring maging mahusay na mapagkukunan ng datos tungkol sa personalidad ng mga gumagamit at potensyal na pagiging epektibo sa pagpapakalat ng impormasyon.
- Kapag mayroon tayong koleksyon ng mga litrato mula sa isang party, maaari nating subukang kunin ang datos ng **Group Dynamics** sa pamamagitan ng paggawa ng graph ng mga taong nagpipicture kasama ang isa't isa.
- **Mga Graph ng Social Network** na maaaring maging mahusay na mapagkukunan ng data tungkol sa personalidad ng mga gumagamit at potensyal na pagiging epektibo sa pagpapakalat ng impormasyon.
- Kapag mayroon tayong koleksyon ng mga litrato mula sa isang party, maaari nating subukang kumuha ng data ng **Group Dynamics** sa pamamagitan ng paggawa ng graph ng mga taong nagpipicture kasama ang isa't isa.
Sa pamamagitan ng pag-alam sa iba't ibang posibleng mapagkukunan ng datos, maaari kang mag-isip ng iba't ibang mga senaryo kung saan maaaring gamitin ang mga teknik ng data science upang mas maunawaan ang sitwasyon, at mapabuti ang mga proseso ng negosyo.
Sa pamamagitan ng pag-alam sa iba't ibang posibleng mapagkukunan ng data, maaari kang mag-isip ng iba't ibang mga senaryo kung saan maaaring gamitin ang mga teknika ng data science upang mas maunawaan ang sitwasyon at mapabuti ang mga proseso ng negosyo.
## Ano ang Maaaring Gawin sa Datos
## Ano ang Magagawa Mo sa Data
Sa Data Science, nakatuon tayo sa mga sumusunod na hakbang ng paglalakbay ng datos:
Sa Data Science, nakatuon tayo sa mga sumusunod na hakbang ng data journey:
Siyempre, depende sa aktwal na datos, maaaring may mga hakbang na hindi na kailangan (halimbawa, kung ang datos ay nasa database na, o kung hindi na kailangan ang model training), o maaaring ulitin ang ilang hakbang nang maraming beses (tulad ng data processing).
Siyempre, depende sa aktwal na data, maaaring may mga hakbang na nawawala (halimbawa, kung mayroon na tayong data sa database, o kung hindi na kailangan ang model training), o maaaring ulitin ang ilang hakbang nang maraming beses (tulad ng data processing).
## Digitalisasyon at Digital Transformation
## Digitalization at Digital Transformation
Sa nakalipas na dekada, maraming negosyo ang nagsimulang maunawaan ang kahalagahan ng datos sa paggawa ng mga desisyon sa negosyo. Upang maipatupad ang mga prinsipyo ng data science sa pagpapatakbo ng negosyo, kailangang mangolekta muna ng datos, o isalin ang mga proseso ng negosyo sa digital na anyo. Ito ay kilala bilang **digitalisasyon**. Ang paggamit ng mga teknik ng data science sa datos na ito upang gabayan ang mga desisyon ay maaaring magdulot ng malaking pagtaas sa produktibidad (o kahit pagbabago ng negosyo), na tinatawag na **digital transformation**.
Sa nakalipas na dekada, maraming negosyo ang nagsimulang maunawaan ang kahalagahan ng data sa paggawa ng mga desisyon sa negosyo. Upang maipatupad ang mga prinsipyo ng data science sa pagpapatakbo ng negosyo, kailangang mangolekta muna ng data, o isalin ang mga proseso ng negosyo sa digital na anyo. Ito ay kilala bilang **digitalization**. Ang paggamit ng mga teknika ng data science sa data na ito upang gabayan ang mga desisyon ay maaaring humantong sa makabuluhang pagtaas ng produktibidad (o kahit pagbabago ng negosyo), na tinatawag na **digital transformation**.
Isaalang-alang natin ang isang halimbawa. Ipagpalagay nating mayroon tayong isang kurso sa data science (tulad ng kursong ito) na inihahatid online sa mga mag-aaral, at nais nating gamitin ang data science upang mapabuti ito. Paano natin ito magagawa?
Isaalang-alang natin ang isang halimbawa. Ipagpalagay nating mayroon tayong kurso sa data science (tulad ng kursong ito) na inihahatid online sa mga mag-aaral, at nais nating gamitin ang data science upang mapabuti ito. Paano natin ito magagawa?
Maaari tayong magsimula sa pagtatanong, "Ano ang maaaring gawing digital?" Ang pinakasimpleng paraan ay sukatin ang oras na ginugugol ng bawat mag-aaral upang matapos ang bawat module, at sukatin ang nakuha nilang kaalaman sa pamamagitan ng pagbibigay ng multiple-choice test sa dulo ng bawat module. Sa pamamagitan ng pagkuha ng average na oras ng pagkumpleto sa lahat ng mag-aaral, maaari nating malaman kung aling mga module ang nagdudulot ng pinakamaraming kahirapan sa mga mag-aaral, at magtrabaho sa pagpapasimple ng mga ito.
Maaari tayong magsimula sa pagtatanong, "Ano ang maaaring gawing digital?" Ang pinakasimpleng paraan ay sukatin ang oras na ginugugol ng bawat mag-aaral upang matapos ang bawat module, at sukatin ang nakuha nilang kaalaman sa pamamagitan ng pagbibigay ng multiple-choice test sa dulo ng bawat module. Sa pamamagitan ng pagkuha ng average na oras ng pagkumpleto sa lahat ng mag-aaral, malalaman natin kung aling mga module ang nagdudulot ng pinakamaraming kahirapan, at maaaring pagtuunan ng pansin ang pagpapasimple sa mga ito.
Maaaring sabihin mo na ang paraang ito ay hindi perpekto, dahil ang mga module ay maaaring magkakaiba ang haba. Mas makatarungan siguro kung hahatiin ang oras batay sa haba ng module (sa bilang ng mga karakter), at ikumpara ang mga halagang iyon sa halip.
Kapag sinimulan nating suriin ang mga resulta ng mga multiple-choice na pagsusulit, maaari nating subukang tukuyin kung aling mga konsepto ang mahirap maintindihan ng mga mag-aaral, at gamitin ang impormasyong iyon upang mapabuti ang nilalaman. Upang magawa ito, kailangan nating idisenyo ang mga pagsusulit sa paraang ang bawat tanong ay tumutukoy sa isang partikular na konsepto o bahagi ng kaalaman.
Kapag sinimulan nating suriin ang mga resulta ng mga multiple-choice na pagsusulit, maaari nating tukuyin kung aling mga konsepto ang mahirap maunawaan ng mga estudyante, at gamitin ang impormasyong iyon upang mapabuti ang nilalaman. Upang magawa ito, kailangan nating idisenyo ang mga pagsusulit sa paraang ang bawat tanong ay tumutukoy sa isang partikular na konsepto o bahagi ng kaalaman.
Kung nais nating gawing mas komplikado, maaari nating i-plot ang oras na ginugol sa bawat module laban sa kategorya ng edad ng mga mag-aaral. Maaaring matuklasan natin na para sa ilang mga kategorya ng edad, masyadong matagal ang kinakailangan upang matapos ang module, o kaya naman ay humihinto ang mga mag-aaral bago ito matapos. Makakatulong ito sa atin na magbigay ng mga rekomendasyon sa edad para sa module, at mabawasan ang pagkadismaya ng mga tao mula sa maling inaasahan.
Kung nais nating gawing mas komplikado, maaari nating i-plot ang oras na ginugol sa bawat module laban sa kategorya ng edad ng mga estudyante. Maaaring matuklasan natin na para sa ilang kategorya ng edad, masyadong matagal ang oras na kinakailangan upang makumpleto ang module, o kaya naman ay tumitigil ang mga estudyante bago ito matapos. Makakatulong ito sa atin na magbigay ng rekomendasyon sa edad para sa module, at mabawasan ang pagkadismaya ng mga tao mula sa maling inaasahan.
## 🚀 Hamon
Sa hamong ito, susubukan nating tukuyin ang mga konseptong may kaugnayan sa larangan ng Data Science sa pamamagitan ng pagsusuri sa mga teksto. Kukuha tayo ng isang artikulo mula sa Wikipedia tungkol sa Data Science, ida-download at ipoproseso ang teksto, at pagkatapos ay gagawa ng isang word cloud na katulad nito:
Sa hamong ito, susubukan nating tukuyin ang mga konseptong may kaugnayan sa larangan ng Data Science sa pamamagitan ng pagsusuri sa mga teksto. Kukuha tayo ng isang artikulo mula sa Wikipedia tungkol sa Data Science, ida-download at ipoproseso ang teksto, at pagkatapos ay gagawa ng isang word cloud na ganito:
![Word Cloud para sa Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.tl.png)
Bisitahin ang [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') upang basahin ang code. Maaari mo ring patakbuhin ang code, at makita kung paano nito isinasagawa ang lahat ng data transformations sa real time.
Bisitahin ang [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') upang basahin ang code. Maaari mo ring patakbuhin ang code, at makita kung paano nito isinasagawa ang lahat ng data transformations nang real-time.
> Kung hindi mo alam kung paano patakbuhin ang code sa isang Jupyter Notebook, tingnan ang [artikulong ito](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Post-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ds/)
## Mga Gawain
* **Gawain 1**: Baguhin ang code sa itaas upang tukuyin ang mga kaugnay na konsepto para sa mga larangan ng **Big Data** at **Machine Learning**
* **Gawain 2**: [Mag-isip Tungkol sa mga Senaryo ng Data Science](assignment.md)
* **Gawain 2**: [Pag-isipan ang mga Senaryo ng Data Science](assignment.md)
## Mga Kredito
@ -77,4 +121,4 @@ Ang araling ito ay isinulat nang may ♥️ ni [Dmitry Soshnikov](http://soshnik
---
**Paunawa**:
Ang dokumentong ito ay isinalin gamit ang AI translation service na [Co-op Translator](https://github.com/Azure/co-op-translator). Bagama't sinisikap naming maging tumpak, tandaan na ang mga awtomatikong pagsasalin ay maaaring maglaman ng mga pagkakamali o hindi pagkakatugma. Ang orihinal na dokumento sa kanyang katutubong wika ang dapat ituring na opisyal na sanggunian. Para sa mahalagang impormasyon, inirerekomenda ang propesyonal na pagsasalin ng tao. Hindi kami mananagot sa anumang hindi pagkakaunawaan o maling interpretasyon na dulot ng paggamit ng pagsasaling ito.
Ang dokumentong ito ay isinalin gamit ang AI translation service na [Co-op Translator](https://github.com/Azure/co-op-translator). Bagama't sinisikap naming maging tumpak, pakitandaan na ang mga awtomatikong pagsasalin ay maaaring maglaman ng mga pagkakamali o hindi pagkakatugma. Ang orihinal na dokumento sa kanyang orihinal na wika ang dapat ituring na opisyal na sanggunian. Para sa mahalagang impormasyon, inirerekomenda ang propesyonal na pagsasalin ng tao. Hindi kami mananagot sa anumang hindi pagkakaunawaan o maling interpretasyon na maaaring magmula sa paggamit ng pagsasaling ito.

@ -1,80 +1,80 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-28T11:23:45+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:15:25+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "tr"
}
-->
## Veri Türleri
Daha önce de belirttiğimiz gibi, veri her yerde. Sadece doğru şekilde yakalamamız gerekiyor! **Yapılandırılmış** ve **yapılandırılmamış** veri arasında ayrım yapmak faydalı olabilir. Yapılandırılmış veri genellikle bir tablo veya bir dizi tablo gibi iyi yapılandırılmış bir formda temsil edilirken, yapılandırılmamış veri sadece bir dosya koleksiyonudur. Bazen **yarı yapılandırılmış** veriden de bahsedebiliriz; bu tür veriler bir tür yapıya sahip olabilir ancak bu yapı büyük ölçüde değişkenlik gösterebilir.
Daha önce de belirttiğimiz gibi, veri her yerde. Sadece doğru şekilde yakalamamız gerekiyor! Veriyi **yapılandırılmış** ve **yapılandırılmamış** olarak ayırt etmek faydalıdır. Yapılandırılmış veri genellikle iyi organize edilmiş bir formda, genellikle bir tablo veya birden fazla tablo olarak temsil edilirken, yapılandırılmamış veri sadece bir dosya koleksiyonudur. Bazen, büyük ölçüde değişebilen bir yapıya sahip olan **yarı yapılandırılmış** verilerden de bahsedebiliriz.
| Yapılandırılmış | Yarı yapılandırılmış | Yapılandırılmamış |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| Yapılandırılmış | Yarı Yapılandırılmış | Yapılandırılmamış |
| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- | ------------------------------------- |
| İnsanların telefon numaralarıyla birlikte listesi | Bağlantılar içeren Wikipedia sayfaları | Encyclopedia Britannica'nın metni |
| Son 20 yılda bir binanın tüm odalarındaki her dakika sıcaklık ölçümleri | Yazarlar, yayın tarihi ve özet bilgileri içeren JSON formatında bilimsel makaleler koleksiyonu | Kurumsal belgeler içeren dosya paylaşımı |
| Binaya giren tüm insanların yaş ve cinsiyet bilgileri | İnternet sayfaları | Güvenlik kamerasından gelen ham video akışı |
| Son 20 yılda bir binanın tüm odalarındaki her dakika sıcaklık ölçümleri | Yazarlar, yayın tarihi ve özet bilgileriyle JSON formatında bilimsel makaleler koleksiyonu | Kurumsal belgelerle dolu bir dosya paylaşımı |
| Binaya giren tüm insanların yaş ve cinsiyet bilgileri | İnternet sayfaları | Gözetim kamerasından gelen ham video akışı |
## Veri Nereden Alınır?
## Veri Nereden Bulunur?
Veri elde edilebilecek birçok kaynak vardır ve hepsini listelemek imkansızdır! Ancak, bazı tipik veri kaynaklarını belirtelim:
* **Yapılandırılmış**
- **Nesnelerin İnterneti** (IoT), sıcaklık veya basınç sensörleri gibi farklı sensörlerden gelen veriler dahil olmak üzere, birçok faydalı veri sağlar. Örneğin, bir ofis binası IoT sensörleriyle donatılmışsa, ısıtma ve aydınlatmayı otomatik olarak kontrol ederek maliyetleri minimize edebiliriz.
- **Anketler**, kullanıcıların bir satın alma işleminden sonra veya bir web sitesini ziyaret ettikten sonra doldurmasını istediğimiz anketler.
- **Davranış analizi**, örneğin bir kullanıcının bir siteye ne kadar derinlemesine girdiğini ve siteyi terk etme nedenlerini anlamamıza yardımcı olabilir.
- **Nesnelerin İnterneti** (IoT), sıcaklık veya basınç sensörleri gibi çeşitli sensörlerden gelen veriler dahil, birçok faydalı veri sağlar. Örneğin, bir ofis binası IoT sensörleriyle donatılmışsa, ısıtma ve aydınlatmayı otomatik olarak kontrol ederek maliyetleri minimize edebiliriz.
- **Anketler**, kullanıcıların bir satın alma işleminden veya bir web sitesini ziyaret ettikten sonra doldurmasını istediğimiz formlar.
- **Davranış analizi**, örneğin, bir kullanıcının bir siteyi ne kadar derinlemesine incelediğini ve siteyi terk etme nedenlerini anlamamıza yardımcı olabilir.
* **Yapılandırılmamış**
- **Metinler**, genel bir **duygu skoru** veya anahtar kelimeler ve anlamsal anlam çıkarma gibi zengin bir bilgi kaynağı olabilir.
- **Görüntüler** veya **Videolar**. Bir güvenlik kamerasından gelen video, yoldaki trafiği tahmin etmek ve insanları olası trafik sıkışıklıkları hakkında bilgilendirmek için kullanılabilir.
- **Metinler**, genel bir **duygu skoru** veya anahtar kelimeler ve anlamsal anlam çıkarma gibi zengin içgörüler sağlayabilir.
- **Görseller** veya **Videolar**. Bir gözetim kamerasından alınan video, yoldaki trafiği tahmin etmek ve olası trafik sıkışıklıkları hakkında insanları bilgilendirmek için kullanılabilir.
- Web sunucusu **Günlükleri**, sitemizin en sık ziyaret edilen sayfalarını ve bu sayfalarda ne kadar süre kalındığını anlamak için kullanılabilir.
* **Yarı yapılandırılmış**
- **Sosyal Ağ** grafikleri, kullanıcı kişilikleri ve bilgiyi yayma potansiyel etkinliği hakkında veri sağlamak için harika kaynaklar olabilir.
- Bir partiden bir dizi fotoğrafımız olduğunda, fotoğraf çeken kişiler arasında bir grafik oluşturarak **Grup Dinamikleri** verilerini çıkarmayı deneyebiliriz.
* **Yarı Yapılandırılmış**
- **Sosyal Ağ** grafikleri, kullanıcı kişilikleri ve bilgilerin yayılma potansiyeli hakkında harika veri kaynakları olabilir.
- Bir partiden elde edilen bir grup fotoğrafı, insanlar arasındaki **Grup Dinamikleri** verilerini, birbirleriyle fotoğraf çektiren kişilerin bir grafiğini oluşturarak çıkarabilir.
Farklı veri kaynaklarını bilerek, veri bilimi tekniklerinin durumu daha iyi anlamak ve iş süreçlerini iyileştirmek için uygulanabileceği farklı senaryolar hakkında düşünebilirsiniz.
Farklı veri kaynaklarını bilerek, veri bilimi tekniklerinin hangi senaryolarda uygulanabileceğini, durumu daha iyi anlamak ve iş süreçlerini iyileştirmek için düşünebilirsiniz.
## Veriyle Neler Yapabilirsiniz?
## Verilerle Neler Yapabilirsiniz?
Veri Bilimi'nde, veri yolculuğunun şu adımlarına odaklanıyoruz:
Veri Bilimi'nde, veri yolculuğunun şu adımlarına odaklanırız:
Tabii ki, mevcut veriye bağlı olarak bazı adımlar eksik olabilir (örneğin, veriler zaten bir veritabanında olduğunda veya model eğitimi gerekmediğinde), ya da bazı adımlar birkaç kez tekrarlanabilir (örneğin veri işleme gibi).
Tabii ki, mevcut verilere bağlı olarak bazı adımlar atlanabilir (örneğin, veriler zaten bir veritabanında mevcutsa veya model eğitimi gerekmiyorsa), ya da bazı adımlar birkaç kez tekrarlanabilir (örneğin, veri işleme gibi).
## Dijitalleşme ve Dijital Dönüşüm
Son on yılda, birçok işletme iş kararları alırken verinin önemini anlamaya başladı. Veri bilimi prensiplerini bir işletmeyi yönetmek için uygulamak için önce bazı veriler toplamak, yani iş süreçlerini dijital forma dönüştürmek gerekir. Bu, **dijitalleşme** olarak bilinir. Bu veriye veri bilimi tekniklerini uygulayarak kararları yönlendirmek, üretkenlikte önemli artışlara (hatta işin yön değiştirmesine) yol açabilir ve bu da **dijital dönüşüm** olarak adlandırılır.
Son on yılda, birçok işletme iş kararları alırken verinin önemini anlamaya başladı. Veri bilimi ilkelerini bir işletmeyi yönetmek için uygulamak istiyorsanız, önce bazı veriler toplamanız, yani iş süreçlerini dijital forma çevirmeniz gerekir. Bu, **dijitalleşme** olarak bilinir. Bu verilere veri bilimi tekniklerini uygulayarak kararları yönlendirmek, üretkenlikte önemli artışlara (hatta iş modelinde değişimlere) yol açabilir ve bu da **dijital dönüşüm** olarak adlandırılır.
Bir örnek düşünelim. Diyelim ki bir veri bilimi kursumuz var (tıpkı bu kurs gibi) ve bunu çevrimiçi olarak öğrencilere sunuyoruz. Bu kursu geliştirmek için veri bilimi kullanmak istiyoruz. Bunu nasıl yapabiliriz?
Bir örnek düşünelim. Diyelim ki, öğrenciler için çevrimiçi olarak sunduğumuz bir veri bilimi kursumuz var (tıpkı bu kurs gibi) ve bunu geliştirmek için veri bilimi kullanmak istiyoruz. Bunu nasıl yapabiliriz?
"Ne dijitalleştirilebilir?" sorusuyla başlayabiliriz. En basit yol, her öğrencinin her modülü tamamlaması için geçen süreyi ölçmek ve her modülün sonunda çoktan seçmeli bir test vererek elde edilen bilgiyi ölçmek olabilir. Tüm öğrenciler arasında tamamlanma süresini ortalama alarak, öğrenciler için en zorlayıcı olan modülleri bulabilir ve onları basitleştirmek için çalışabiliriz.
Bu yaklaşımın ideal olmadığını savunabilirsiniz, çünkü modüller farklı uzunluklarda olabilir. Zamanı modülün uzunluğuna (karakter sayısına göre) bölmek ve bu değerleri karşılaştırmak muhtemelen daha adil olacaktır.
Çoktan seçmeli testlerin sonuçlarını analiz etmeye başladığımızda, öğrencilerin hangi kavramları anlamakta zorlandığını belirlemeye çalışabilir ve bu bilgiyi içeriği geliştirmek için kullanabiliriz. Bunu yapmak için, testleri her bir sorunun belirli bir kavram veya bilgi parçasıyla eşleştiği şekilde tasarlamamız gerekir.
"Ne dijitalleştirilebilir?" sorusuyla başlayabiliriz. En basit yol, her öğrencinin her modülü tamamlaması için geçen süreyi ölçmek ve her modülün sonunda çoktan seçmeli bir testle elde edilen bilgiyi ölçmek olabilir. Tüm öğrenciler arasında tamamlanma süresini ortalayarak, öğrenciler için en zorlayıcı olan modülleri bulabilir ve bunları basitleştirmek için çalışabiliriz.
Bu yaklaşımın ideal olmadığını savunabilirsiniz, çünkü modüller farklı uzunluklarda olabilir. Zamanı modülün uzunluğuna (karakter sayısına göre) bölmek ve bu değerleri karşılaştırmak muhtemelen daha adil bir yöntem olacaktır.
Çoktan seçmeli testlerin sonuçlarını analiz etmeye başladığımızda, öğrencilerin anlamakta zorlandığı kavramları belirlemeye çalışabilir ve bu bilgiyi içeriği geliştirmek için kullanabiliriz. Bunu yapmak için, her sorunun belirli bir kavram veya bilgi parçasına karşılık gelecek şekilde testler tasarlamamız gerekir.
Daha karmaşık bir analiz yapmak istersek, her modül için harcanan zamanı öğrencilerin yaş kategorilerine göre karşılaştırabiliriz. Bazı yaş kategorileri için modülü tamamlamanın gereğinden fazla uzun sürdüğünü veya öğrencilerin modülü tamamlamadan bıraktığını fark edebiliriz. Bu, modül için yaş önerileri sunmamıza ve yanlış beklentilerden kaynaklanan memnuniyetsizlikleri en aza indirmemize yardımcı olabilir.
Daha karmaşık bir analiz yapmak istersek, her modül için harcanan zamanı öğrencilerin yaş kategorilerine göre karşılaştırabiliriz. Bazı yaş kategorileri için modülü tamamlamak çok uzun zaman alıyor olabilir ya da öğrenciler modülü tamamlamadan bırakıyor olabilir. Bu, modül için yaş önerileri sunmamıza ve yanlış beklentilerden kaynaklanan memnuniyetsizliği en aza indirmemize yardımcı olabilir.
## 🚀 Zorluk
Bu zorlukta, metinlere bakarak Veri Bilimi alanıyla ilgili kavramları bulmaya çalışacağız. Veri Bilimi ile ilgili bir Wikipedia makalesi alacak, metni indirip işleyecek ve ardından şu şekilde bir kelime bulutu oluşturacağız:
Bu zorlukta, metinlere bakarak Veri Bilimi alanıyla ilgili kavramları bulmaya çalışacağız. Veri Bilimi ile ilgili bir Wikipedia makalesi alacağız, metni indirecek ve işleyeceğiz, ardından aşağıdaki gibi bir kelime bulutu oluşturacağız:
![Veri Bilimi için Kelime Bulutu](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.tr.png)
Kodu incelemek için [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') dosyasını ziyaret edin. Ayrıca kodu çalıştırabilir ve tüm veri dönüşümlerinin gerçek zamanlı olarak nasıl yapıldığını görebilirsiniz.
Kodları incelemek için [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') dosyasını ziyaret edin. Kodları çalıştırabilir ve tüm veri dönüşümlerinin gerçek zamanlı olarak nasıl gerçekleştirildiğini görebilirsiniz.
> Jupyter Notebook'ta kod çalıştırmayı bilmiyorsanız, [bu makaleye](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) göz atabilirsiniz.
## [Ders sonrası sınav](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Ders sonrası quiz](https://ff-quizzes.netlify.app/en/ds/)
## Görevler
## Ödevler
* **Görev 1**: Yukarıdaki kodu değiştirerek **Büyük Veri** ve **Makine Öğrenimi** alanlarıyla ilgili kavramları bulun.
* **Görev 2**: [Veri Bilimi Senaryoları Üzerine Düşünün](assignment.md)
* **Görev 2**: [Veri Bilimi Senaryolarını Düşünün](assignment.md)
## Katkıda Bulunanlar
## Katkılar
Bu ders, [Dmitry Soshnikov](http://soshnikov.com) tarafından ♥️ ile hazırlanmıştır.
---
**Feragatname**:
Bu belge, [Co-op Translator](https://github.com/Azure/co-op-translator) adlı yapay zeka çeviri hizmeti kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlıklar içerebileceğini lütfen unutmayın. Belgenin orijinal dili, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlama veya yanlış yorumlamalardan sorumlu değiliz.
Bu belge, AI çeviri hizmeti [Co-op Translator](https://github.com/Azure/co-op-translator) kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlık içerebileceğini lütfen unutmayın. Belgenin orijinal dili, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlamalar veya yanlış yorumlamalardan sorumlu değiliz.

@ -1,8 +1,8 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-25T16:51:36+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:05:04+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "tw"
}
@ -20,16 +20,16 @@ CO_OP_TRANSLATOR_METADATA:
## [課前測驗](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## 什麼是資料?
在我們的日常生活中,資料無處不在。你現在正在閱讀的文字就是資料。你手機裡朋友的電話號碼列表是資料,手錶上顯示的當前時間也是資料。作為人類,我們自然地使用資料,例如計算我們擁有的金錢或給朋友寫信
在我們的日常生活中,資料無處不在。你現在正在閱讀的文字就是資料。你手機裡朋友的電話號碼列表是資料,手錶上顯示的當前時間也是資料。作為人類,我們自然地使用資料,例如計算我們擁有的金錢或寫信給朋友。
然而,隨著電腦的誕生,資料變得更加重要。電腦的主要功能是進行計算,但它們需要資料來進行操作。因此,我們需要了解電腦如何存儲和處理資料。
然而,隨著電腦的誕生,資料變得更加重要。電腦的主要功能是進行計算,但它們需要資料來操作。因此,我們需要了解電腦如何存儲和處理資料。
隨著互聯網的出現,電腦作為資料處理設備的角色更加突出。如果仔細想想,我們現在使用電腦更多的是進行資料處理和通信,而不是實際的計算。當我們給朋友寫電子郵件或在互聯網上搜索信息時,我們本質上是在創建、存儲、傳輸和操作資料。
> 你能記得上一次使用電腦進行實際計算是什麼時候嗎?
> 你能記得上一次真正用電腦進行計算是什麼時候嗎?
## 什麼是資料科學?
根據 [維基百科](https://en.wikipedia.org/wiki/Data_science)**資料科學**被定義為*一個科學領域,使用科學方法從結構化和非結構化資料中提取知識和洞察,並將資料中的知識和可行洞察應用於廣泛的應用領域*。
[維基百科](https://en.wikipedia.org/wiki/Data_science)**資料科學**被定義為*一個科學領域,使用科學方法從結構化和非結構化資料中提取知識和洞察,並將資料中的知識和可行洞察應用於廣泛的應用領域*。
這個定義突出了資料科學的以下重要方面:
@ -37,7 +37,7 @@ CO_OP_TRANSLATOR_METADATA:
* 資料科學使用**科學方法**,例如概率和統計。事實上,當*資料科學*這個術語首次被提出時,有些人認為資料科學只是統計學的一個新潮名稱。然而,現在已經明顯地看到這個領域遠不止於此。
* 獲得的知識應該被應用以產生一些**可行的洞察**,即可以應用於實際商業情境的實用洞察。
* 我們應該能夠操作**結構化**和**非結構化**資料。我們稍後會在課程中討論不同類型的資料。
* **應用領域**是一個重要概念,資料科學家通常需要在問題領域中至少具備一定程度的專業知識,例如:金融、醫、行銷等。
* **應用領域**是一個重要概念,資料科學家通常需要在問題領域中至少具備一定程度的專業知識,例如:金融、醫、行銷等。
> 資料科學的另一個重要方面是研究如何使用電腦收集、存儲和操作資料。雖然統計學為我們提供了數學基礎,資料科學則將數學概念應用於實際從資料中提取洞察。
@ -56,10 +56,10 @@ CO_OP_TRANSLATOR_METADATA:
如我們之前提到的,資料無處不在。我們只需要以正確的方式捕捉它!區分**結構化**和**非結構化**資料是很有用的。前者通常以某種良好的結構形式表示,通常是表格或多個表格,而後者則只是文件的集合。有時我們也可以談論**半結構化**資料,它具有某種結構,但可能差異很大。
| 結構化資料 | 半結構化資料 | 非結構化資料 |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| 人員及其電話號碼列表 | 帶有連結的維基百科頁面 | 《大英百科全書》的文本 |
| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | --------------------------------------- |
| 人員及其電話號碼列表 | 帶有連結的維基百科頁面 | 《大英百科全書》的文字內容 |
| 過去20年中每分鐘建築物所有房間的溫度 | 以JSON格式存儲的科學論文集合包括作者、出版日期和摘要 | 包含公司文件的文件共享 |
| 進入建築物的所有人的年齡和性別資料 | 網頁 | 監控攝像頭的原始視頻流 |
| 進入建築物的所有人的年齡和性別資料 | 網頁 | 監控攝像機的原始視頻流 |
## 資料的來源
@ -71,8 +71,8 @@ CO_OP_TRANSLATOR_METADATA:
- **行為分析**,例如幫助我們了解用戶如何深入瀏覽網站,以及離開網站的典型原因。
* **非結構化資料**
- **文本**可以是洞察的豐富來源,例如整體**情感分數**,或提取關鍵字和語義含義。
- **圖像**或**視頻**。監控攝像的視頻可以用來估算道路上的交通流量,並通知人們可能的交通堵塞。
- 網頁伺服器的**日誌**可以用來了解我們網站最常被訪問的頁面,以及訪問時長。
- **圖像**或**視頻**。監控攝像的視頻可以用來估算道路上的交通流量,並通知人們可能的交通堵塞。
- 網頁伺服器的**日誌**可以用來了解我們網站最常被訪問的頁面,以及訪問時長。
* **半結構化資料**
- **社交網絡**圖表可以是關於用戶個性和在信息傳播中的潛在有效性的重要資料來源。
- 當我們有一堆派對照片時,我們可以嘗試通過建立人們互相拍照的圖表來提取**群體動態**資料。
@ -83,31 +83,31 @@ CO_OP_TRANSLATOR_METADATA:
在資料科學中,我們專注於資料旅程的以下步驟:
當然,根據實際資料,有些步驟可能會缺失(例如,當我們已經擁有資料庫中的資料,或者當我們不需要模型訓練時),或者有些步驟可能會重複多次(例如資料處理)。
當然,根據實際資料,有些步驟可能會缺失(例如,當我們已經擁有資料庫中的資料,或者不需要模型訓練時),或者某些步驟可能會重複多次(例如資料處理)。
## 數位化與數位轉型
在過去十年中,許多企業開始理解在做出業決策時資料的重要性。要將資料科學原則應用於經營業務,首先需要收集一些資料,即將業務流程轉化為數位形式。這被稱為**數位化**。將資料科學技術應用於這些資料以指導決策,可以顯著提高生產力(甚至業務轉型),這被稱為**數位轉型**。
在過去十年中,許多企業開始理解在做出業決策時資料的重要性。要將資料科學原則應用於經營業務,首先需要收集一些資料,即將業務流程轉化為數位形式。這被稱為**數位化**。將資料科學技術應用於這些資料以指導決策,可以顯著提高生產力(甚至業務轉型),這被稱為**數位轉型**。
讓我們考慮一個例子。假設我們有一門資料科學課程(像這門課程),我們在線上向學生提供,並希望使用資料科學來改進它。我們該怎麼做?
我們可以從問「什麼可以數位化?」開始。最簡單的方法是測量每位學生完成每個模組所需的時間,並通過在每個模組結束時進行選擇題測試來測量所獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模組對學生來說最具挑戰性,並著手簡化它們。
我們可以從問「什麼可以數位化?」開始。最簡單的方法是測量每位學生完成每個模組所需的時間,並通過在每個模組結束時進行選擇題測試來測量所獲得的知識。通過平均所有學生的完成時間,我們可以找出哪些模組對學生來說最具挑戰性,並著手簡化它們。
你可能會認為這種方法並不理想,因為模組的長度可能不同。或許更公平的做法是將時間除以模組的長度(以字元數計算),然後比較這些值。
當我們開始分析多選題測試的結果時,可以嘗試找出學生難以理解的概念,並利用這些資訊改進內容。為了達到這個目的,我們需要設計測試,使每個問題都能對應到某個特定概念或知識片段
當我們開始分析多選題測試的結果時,可以嘗試找出學生難以理解的概念,並利用這些資訊改進內容。為了達到這個目的,我們需要設計測試,使每個問題都能對應到某個特定的概念或知識點
如果我們想進一步深入分析,可以將每個模組所花費的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生完成模組所需時間過長,或者在完成之前就中途退出。這些資訊可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。
如果我們想進一步深入分析,可以將每個模組所花費的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生完成模組所需時間過長,或者在完成之前就中途退出。這些資訊可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。
## 🚀 挑戰
在這個挑戰中,我們將透過分析文本來尋找與資料科學領域相關的概念。我們會選取一篇關於資料科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲:
在這個挑戰中,我們將嘗試通過分析文本來找出與資料科學領域相關的概念。我們會選取一篇關於資料科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲:
![資料科學文字雲](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.tw.png)
訪問 [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 閱讀程式碼。您也可以執行程式碼,並即時查看它如何進行所有的數據轉換。
訪問 [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 閱讀程式碼。你也可以執行程式碼,並即時查看它如何進行所有的資料轉換。
> 如果您不知道如何在 Jupyter Notebook 中執行程式碼,可以參考 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。
> 如果你不知道如何在 Jupyter Notebook 中執行程式碼,可以查看 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。
## [課後測驗](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [課後測驗](https://ff-quizzes.netlify.app/en/ds/)
## 作業
@ -118,5 +118,7 @@ CO_OP_TRANSLATOR_METADATA:
這節課由 [Dmitry Soshnikov](http://soshnikov.com) 用 ♥️ 編寫完成
---
**免責聲明**
本文件使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。儘管我們努力確保翻譯的準確性,但請注意,自動翻譯可能包含錯誤或不準確之處。原始文件的母語版本應被視為權威來源。對於關鍵資訊,建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解釋不承擔責任。
本文件使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。儘管我們致力於提供準確的翻譯,請注意自動翻譯可能包含錯誤或不準確之處。原始文件的母語版本應被視為權威來源。對於重要資訊,建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解釋不承擔責任。

@ -1,8 +1,8 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-30T19:30:25+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:34:47+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "uk"
}
@ -13,21 +13,21 @@ CO_OP_TRANSLATOR_METADATA:
| Структуровані | Напівструктуровані | Неструктуровані |
| -------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | ---------------------------------------- |
| Список людей з їхніми номерами телефонів | Сторінки Вікіпедії з посиланнями | Текст Енциклопедії Британіка |
| Температура у всіх кімнатах будівлі щохвилини за останні 20 років | Колекція наукових статей у форматі JSON з авторами, датою публікації та анотацією | Файловий архів з корпоративними документами |
| Дані про вік і стать всіх людей, які заходять у будівлю | Інтернет-сторінки | Сирове відео з камери спостереження |
| Список людей із їхніми номерами телефонів | Сторінки Вікіпедії з посиланнями | Текст Енциклопедії Британіка |
| Температура у всіх кімнатах будівлі щохвилини за останні 20 років | Колекція наукових статей у форматі JSON з авторами, датою публікації та анотацією | Файловий архів із корпоративними документами |
| Дані про вік і стать усіх людей, які заходять у будівлю | Інтернет-сторінки | Сирове відео з камери спостереження |
## Де отримати дані
Існує багато можливих джерел даних, і неможливо перелічити всі! Однак, давайте згадаємо деякі типові місця, де можна отримати дані:
* **Структуровані**
- **Інтернет речей** (IoT), включаючи дані з різних датчиків, таких як датчики температури або тиску, надає багато корисних даних. Наприклад, якщо офісна будівля обладнана IoT-датчиками, ми можемо автоматично контролювати опалення та освітлення, щоб мінімізувати витрати.
- **Інтернет речей** (IoT), включаючи дані з різних датчиків, таких як датчики температури або тиску, забезпечує багато корисних даних. Наприклад, якщо офісна будівля обладнана IoT-датчиками, ми можемо автоматично контролювати опалення та освітлення, щоб мінімізувати витрати.
- **Опитування**, які ми просимо користувачів заповнити після покупки або після відвідування вебсайту.
- **Аналіз поведінки** може, наприклад, допомогти нам зрозуміти, наскільки глибоко користувач досліджує сайт і яка типова причина його залишення.
* **Неструктуровані**
- **Тексти** можуть бути багатим джерелом інформації, наприклад, загального **індексу настрою** або виділення ключових слів і семантичного значення.
- **Зображення** або **відео**. Відео з камери спостереження може бути використане для оцінки трафіку на дорозі та інформування людей про можливі затори.
- **Тексти** можуть бути багатим джерелом інсайтів, таких як загальний **індекс настрою** або виділення ключових слів і семантичного значення.
- **Зображення** або **відео**. Відео з камери спостереження може бути використане для оцінки трафіку на дорозі та інформування людей про потенційні затори.
- **Логи вебсерверів** можуть бути використані для розуміння, які сторінки нашого сайту найчастіше відвідуються і як довго.
* **Напівструктуровані**
- **Графи соціальних мереж** можуть бути чудовими джерелами даних про особистості користувачів і потенційну ефективність поширення інформації.
@ -39,38 +39,40 @@ CO_OP_TRANSLATOR_METADATA:
У науці про дані ми зосереджуємося на наступних етапах роботи з даними:
## Оцифрування та цифрова трансформація
Залежно від конкретних даних, деякі етапи можуть бути пропущені (наприклад, коли дані вже є в базі даних або коли не потрібне навчання моделі), або деякі етапи можуть повторюватися кілька разів (наприклад, обробка даних).
За останнє десятиліття багато бізнесів почали розуміти важливість даних при прийнятті бізнес-рішень. Щоб застосувати принципи науки про дані до ведення бізнесу, спочатку потрібно зібрати деякі дані, тобто перевести бізнес-процеси у цифрову форму. Це називається **оцифруванням**. Застосування технік науки про дані до цих даних для прийняття рішень може призвести до значного підвищення продуктивності (або навіть до зміни напрямку бізнесу), що називається **цифровою трансформацією**.
## Цифровізація та цифрова трансформація
За останнє десятиліття багато бізнесів почали розуміти важливість даних при прийнятті бізнес-рішень. Щоб застосувати принципи науки про дані до ведення бізнесу, спочатку потрібно зібрати деякі дані, тобто перевести бізнес-процеси в цифрову форму. Це називається **цифровізацією**. Застосування технік науки про дані до цих даних для прийняття рішень може призвести до значного підвищення продуктивності (або навіть до зміни напрямку бізнесу), що називається **цифровою трансформацією**.
Розглянемо приклад. Припустимо, у нас є курс з науки про дані (як цей), який ми проводимо онлайн для студентів, і ми хочемо використати науку про дані для його покращення. Як ми можемо це зробити?
Ми можемо почати з питання "Що можна оцифрувати?" Найпростіший спосіб — виміряти час, який кожен студент витрачає на завершення кожного модуля, і оцінити отримані знання, провівши тест з вибором варіантів відповіді наприкінці кожного модуля. Усереднивши час завершення серед усіх студентів, ми можемо визначити, які модулі викликають найбільші труднощі у студентів, і працювати над їх спрощенням.
Можна стверджувати, що цей підхід не є ідеальним, оскільки модулі можуть мати різну довжину. Можливо, більш справедливим було б поділити час на довжину модуля (у кількості символів) і порівнювати саме ці значення.
Коли ми починаємо аналізувати результати тестів із множинним вибором, ми можемо спробувати визначити, які концепції викликають труднощі у студентів, і використати цю інформацію для покращення контенту. Для цього необхідно розробити тести таким чином, щоб кожне питання відповідало певній концепції або блоку знань.
Можна стверджувати, що цей підхід не є ідеальним, оскільки модулі можуть мати різну довжину. Можливо, більш справедливим буде розділити час на довжину модуля (у кількості символів) і порівняти ці значення замість цього.
Коли ми починаємо аналізувати результати тестів з множинним вибором, ми можемо спробувати визначити, які концепції викликають труднощі у студентів, і використати цю інформацію для покращення контенту. Для цього необхідно створити тести таким чином, щоб кожне питання відповідало певній концепції або частині знань.
Якщо ми хочемо зробити аналіз ще складнішим, ми можемо зіставити час, витрачений на кожен модуль, із віковою категорією студентів. Можливо, ми виявимо, що для деяких вікових категорій проходження модуля займає надто багато часу або що студенти припиняють навчання, не завершивши модуль. Це може допомогти нам надати вікові рекомендації для модуля та зменшити незадоволення людей через неправильні очікування.
Якщо ми хочемо зробити аналіз ще складнішим, ми можемо зіставити час, витрачений на кожен модуль, з віковою категорією студентів. Можливо, ми виявимо, що для деяких вікових категорій проходження модуля займає надто багато часу або що студенти припиняють навчання, не завершивши модуль. Це може допомогти нам надати вікові рекомендації для модуля та мінімізувати незадоволення людей через неправильні очікування.
## 🚀 Виклик
У цьому завданні ми спробуємо знайти концепції, пов’язані з галуззю науки про дані, аналізуючи тексти. Ми візьмемо статтю з Вікіпедії про науку про дані, завантажимо та обробимо текст, а потім створимо хмару слів, схожу на цю:
У цьому виклику ми спробуємо знайти концепції, пов’язані з галуззю Data Science, аналізуючи тексти. Ми візьмемо статтю з Вікіпедії про Data Science, завантажимо та обробимо текст, а потім створимо хмару слів, схожу на цю:
![Хмара слів для науки про дані](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.uk.png)
![Хмара слів для Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.uk.png)
Відвідайте [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), щоб ознайомитися з кодом. Ви також можете запустити код і побачити, як він виконує всі перетворення даних у реальному часі.
Перейдіть до [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), щоб ознайомитися з кодом. Ви також можете запустити код і побачити, як він виконує всі трансформації даних у реальному часі.
> Якщо ви не знаєте, як запускати код у Jupyter Notebook, ознайомтеся з [цією статтею](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Тест після лекції](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Тест після лекції](https://ff-quizzes.netlify.app/en/ds/)
## Завдання
* **Завдання 1**: Змініть наведений вище код, щоб знайти пов’язані концепції для галузей **Big Data** та **Machine Learning**.
* **Завдання 2**: [Поміркуйте про сценарії науки про дані](assignment.md).
* **Завдання 1**: Змініть код вище, щоб знайти пов’язані концепції для галузей **Big Data** та **Machine Learning**
* **Завдання 2**: [Подумайте про сценарії Data Science](assignment.md)
## Подяки
## Авторство
Цей урок був створений з ♥️ [Дмитром Сошниковим](http://soshnikov.com).
Цей урок був створений з ♥️ [Дмитром Сошниковим](http://soshnikov.com)
---

@ -1,59 +1,59 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-27T08:59:49+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:01:58+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "ur"
}
-->
## ڈیٹا کی اقسام
جیسا کہ ہم پہلے ذکر کر چکے ہیں، ڈیٹا ہر جگہ موجود ہے۔ ہمیں صرف اسے صحیح طریقے سے حاصل کرنے کی ضرورت ہے! یہ مفید ہے کہ ہم **منظم** اور **غیر منظم** ڈیٹا کے درمیان فرق کریں۔ منظم ڈیٹا عام طور پر کسی منظم شکل میں پیش کیا جاتا ہے، جیسے کہ ایک ٹیبل یا کئی ٹیبلز، جبکہ غیر منظم ڈیٹا صرف فائلز کا مجموعہ ہوتا ہے۔ بعض اوقات ہم **نیم منظم** ڈیٹا کی بھی بات کر سکتے ہیں، جس میں کچھ حد تک ساخت ہوتی ہے جو بہت مختلف ہو سکتی ہے۔
جیسا کہ ہم پہلے ذکر کر چکے ہیں، ڈیٹا ہر جگہ موجود ہے۔ ہمیں صرف اسے صحیح طریقے سے حاصل کرنے کی ضرورت ہے! یہ مفید ہے کہ ہم **منظم** اور **غیر منظم** ڈیٹا کے درمیان فرق کریں۔ منظم ڈیٹا عام طور پر کسی اچھی طرح سے ترتیب دی گئی شکل میں پیش کیا جاتا ہے، اکثر ایک ٹیبل یا کئی ٹیبلز کی صورت میں، جبکہ غیر منظم ڈیٹا صرف فائلوں کا مجموعہ ہوتا ہے۔ کبھی کبھار ہم **نیم منظم** ڈیٹا کے بارے میں بھی بات کر سکتے ہیں، جس میں کچھ حد تک ساخت ہوتی ہے جو بہت مختلف ہو سکتی ہے۔
| منظم | نیم منظم | غیر منظم |
| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | ------------------------------------- |
| لوگوں کی فہرست ان کے فون نمبرز کے ساتھ | ویکیپیڈیا کے صفحات جن میں لنکس شامل ہیں | انسائیکلوپیڈیا برٹانیکا کا متن |
| پچھلے 20 سالوں میں ہر منٹ میں ایک عمارت کے تمام کمروں کا درجہ حرارت | سائنسی مقالوں کا مجموعہ JSON فارمیٹ میں، جس میں مصنفین، اشاعت کی تاریخ، اور خلاصہ شامل ہو | کارپوریٹ دستاویزات کے ساتھ فائل شیئر |
| عمارت میں داخل ہونے والے تمام لوگوں کی عمر اور جنس کا ڈیٹا | انٹرنیٹ کے صفحات | نگرانی کیمرے سے خام ویڈیو فیڈ |
| منظم ڈیٹا | نیم منظم ڈیٹا | غیر منظم ڈیٹا |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| لوگوں کی فہرست ان کے فون نمبرز کے ساتھ | ویکیپیڈیا صفحات لنکس کے ساتھ | انسائیکلوپیڈیا برٹانیکا کا متن |
| ایک عمارت کے تمام کمروں میں ہر منٹ کے درجہ حرارت کے 20 سالوں کے ڈیٹا | سائنسی مقالوں کا مجموعہ JSON فارمیٹ میں، مصنفین، اشاعت کی تاریخ، اور خلاصہ کے ساتھ | نگرانی کیمرے سے خام ویڈیو فیڈ |
| عمارت میں داخل ہونے والے تمام لوگوں کی عمر اور جنس کا ڈیٹا | انٹرنیٹ صفحات | کارپوریٹ دستاویزات کے ساتھ فائل شیئر |
## ڈیٹا کہاں سے حاصل کریں
ڈیٹا کے بہت سے ممکنہ ذرائع ہیں، اور ان سب کو فہرست میں شامل کرنا ناممکن ہوگا! تاہم، آئیے کچھ عام جگہوں کا ذکر کرتے ہیں جہاں سے آپ ڈیٹا حاصل کر سکتے ہیں:
* **منظم**
- **انٹرنیٹ آف تھنگز** (IoT)، جس میں مختلف سینسرز جیسے درجہ حرارت یا دباؤ سینسرز سے ڈیٹا شامل ہے، بہت مفید ڈیٹا فراہم کرتا ہے۔ مثال کے طور پر، اگر ایک دفتر کی عمارت IoT سینسرز سے لیس ہو، تو ہم خودکار طور پر حرارت اور روشنی کو کنٹرول کر سکتے ہیں تاکہ اخراجات کم کیے جا سکیں۔
- **سروے** جو ہم صارفین سے خریداری کے بعد یا ویب سائٹ دیکھنے کے بعد مکمل کرنے کو کہتے ہیں۔
- **رویے کا تجزیہ**، جو ہمیں یہ سمجھنے میں مدد دے سکتا ہے کہ صارف ویب سائٹ پر کتنی گہرائی میں جاتا ہے، اور عام طور پر ویب سائٹ چھوڑنے کی وجہ کیا ہوتی ہے۔
* **غیر منظم**
- **متن** ایک قیمتی ذریعہ ہو سکتا ہے، جیسے مجموعی **جذباتی اسکور**، یا کلیدی الفاظ اور معنوی مطلب نکالنا۔
- **تصاویر** یا **ویڈیوز**۔ نگرانی کیمرے سے ویڈیو سڑک پر ٹریفک کا اندازہ لگانے کے لیے استعمال کی جا سکتی ہے، اور لوگوں کو ممکنہ ٹریفک جام کے بارے میں مطلع کر سکتی ہے۔
- ویب سرور کے **لاگز** یہ سمجھنے کے لیے استعمال کیے جا سکتے ہیں کہ ہماری ویب سائٹ کے کون سے صفحات سب سے زیادہ دیکھے جاتے ہیں، اور کتنی دیر تک۔
* **نیم منظم**
- **سوشل نیٹ ورک** گراف صارفین کی شخصیتوں اور معلومات پھیلانے کی ممکنہ تاثیر کے بارے میں ڈیٹا کے بہترین ذرائع ہو سکتے ہیں۔
- جب ہمارے پاس کسی پارٹی کی تصاویر کا مجموعہ ہو، تو ہم **گروپ ڈائنامکس** کا ڈیٹا نکالنے کی کوشش کر سکتے ہیں، لوگوں کے ایک دوسرے کے ساتھ تصاویر لینے کے گراف بنا کر۔
* **منظم ڈیٹا**
- **انٹرنیٹ آف تھنگز** (IoT)، بشمول مختلف سینسرز جیسے درجہ حرارت یا دباؤ سینسرز، بہت سا مفید ڈیٹا فراہم کرتے ہیں۔ مثال کے طور پر، اگر ایک دفتر کی عمارت IoT سینسرز سے لیس ہو، تو ہم خودکار طور پر حرارت اور روشنی کو کنٹرول کر سکتے ہیں تاکہ اخراجات کو کم کیا جا سکے۔
- **سروے** جو ہم صارفین سے خریداری کے بعد یا ویب سائٹ کے دورے کے بعد مکمل کرنے کو کہتے ہیں۔
- **رویے کا تجزیہ**، جو ہمیں یہ سمجھنے میں مدد دے سکتا ہے کہ صارف ویب سائٹ پر کتنی گہرائی تک جاتا ہے اور عام طور پر ویب سائٹ چھوڑنے کی وجہ کیا ہوتی ہے۔
* **غیر منظم ڈیٹا**
- **متن**، جو بصیرت کا ایک بھرپور ذریعہ ہو سکتا ہے، جیسے مجموعی **جذباتی سکور** یا کلیدی الفاظ اور معنوی معنی نکالنا۔
- **تصاویر** یا **ویڈیوز**۔ نگرانی کیمرے سے ویڈیو سڑک پر ٹریفک کا اندازہ لگانے کے لیے استعمال کی جا سکتی ہے اور لوگوں کو ممکنہ ٹریفک جام کے بارے میں مطلع کر سکتی ہے۔
- ویب سرور **لاگز**، جو ہمیں یہ سمجھنے میں مدد دے سکتے ہیں کہ ہماری ویب سائٹ کے کون سے صفحات سب سے زیادہ دیکھے جاتے ہیں اور کتنی دیر تک۔
* **نیم منظم ڈیٹا**
- **سوشل نیٹ ورک** گراف، جو صارفین کی شخصیات اور معلومات پھیلانے میں ممکنہ تاثیر کے بارے میں ڈیٹا کا ایک بہترین ذریعہ ہو سکتے ہیں۔
- جب ہمارے پاس پارٹی کی تصاویر کا ایک مجموعہ ہو، تو ہم **گروپ ڈائنامکس** ڈیٹا نکالنے کی کوشش کر سکتے ہیں، لوگوں کے گراف بنا کر جو ایک دوسرے کے ساتھ تصاویر لے رہے ہیں۔
مختلف ممکنہ ڈیٹا کے ذرائع کو جان کر، آپ مختلف منظرناموں کے بارے میں سوچ سکتے ہیں جہاں ڈیٹا سائنس کی تکنیکوں کو بہتر طور پر سمجھنے اور کاروباری عمل کو بہتر بنانے کے لیے لاگو کیا جا سکتا ہے۔
مختلف ممکنہ ڈیٹا ذرائع کو جان کر، آپ مختلف منظرناموں کے بارے میں سوچ سکتے ہیں جہاں ڈیٹا سائنس کی تکنیکوں کو بہتر طور پر صورتحال کو سمجھنے اور کاروباری عمل کو بہتر بنانے کے لیے لاگو کیا جا سکتا ہے۔
## ڈیٹا کے ساتھ کیا کیا جا سکتا ہے
ڈیٹا سائنس میں، ہم ڈیٹا کے سفر کے درج ذیل مراحل پر توجہ مرکوز کرتے ہیں:
ڈیٹا سائنس میں، ہم ڈیٹا کے سفر کے درج ذیل مراحل پر توجہ دیتے ہیں:
## ڈیجیٹلائزیشن اور ڈیجیٹل ٹرانسفارمیشن
پچھلی دہائی میں، بہت سے کاروباروں نے یہ سمجھنا شروع کیا کہ کاروباری فیصلے کرتے وقت ڈیٹا کی اہمیت کتنی زیادہ ہے۔ ڈیٹا سائنس کے اصولوں کو کاروبار چلانے پر لاگو کرنے کے لیے، سب سے پہلے کچھ ڈیٹا جمع کرنا ضروری ہے، یعنی کاروباری عمل کو ڈیجیٹل شکل میں تبدیل کرنا۔ اسے **ڈیجیٹلائزیشن** کہا جاتا ہے۔ اس ڈیٹا پر ڈیٹا سائنس کی تکنیکوں کا اطلاق کر کے فیصلوں کی رہنمائی کرنا پیداواریت میں نمایاں اضافہ (یا یہاں تک کہ کاروباری تبدیلی) کا باعث بن سکتا ہے، جسے **ڈیجیٹل ٹرانسفارمیشن** کہا جاتا ہے۔
پچھلی دہائی میں، بہت سے کاروباروں نے یہ سمجھنا شروع کیا کہ کاروباری فیصلے کرتے وقت ڈیٹا کی اہمیت کتنی زیادہ ہے۔ ڈیٹا سائنس کے اصولوں کو کاروبار چلانے پر لاگو کرنے کے لیے، سب سے پہلے کچھ ڈیٹا جمع کرنا ضروری ہے، یعنی کاروباری عمل کو ڈیجیٹل شکل میں تبدیل کرنا۔ اسے **ڈیجیٹلائزیشن** کہا جاتا ہے۔ اس ڈیٹا پر ڈیٹا سائنس کی تکنیکوں کو لاگو کرنا اور فیصلوں کی رہنمائی کرنا پیداواریت میں نمایاں اضافہ (یا یہاں تک کہ کاروباری تبدیلی) کا باعث بن سکتا ہے، جسے **ڈیجیٹل ٹرانسفارمیشن** کہا جاتا ہے۔
آئیے ایک مثال پر غور کریں۔ فرض کریں کہ ہمارے پاس ایک ڈیٹا سائنس کورس ہے (جیسے یہ کورس) جو ہم آن لائن طلباء کو فراہم کرتے ہیں، اور ہم اسے بہتر بنانے کے لیے ڈیٹا سائنس کا استعمال کرنا چاہتے ہیں۔ ہم یہ کیسے کر سکتے ہیں؟
آئیے ایک مثال پر غور کریں۔ فرض کریں کہ ہمارے پاس ایک ڈیٹا سائنس کورس ہے (جیسے یہ کورس) جو ہم طلباء کو آن لائن فراہم کرتے ہیں، اور ہم اسے بہتر بنانے کے لیے ڈیٹا سائنس کا استعمال کرنا چاہتے ہیں۔ ہم اسے کیسے کر سکتے ہیں؟
ہم یہ سوال پوچھ کر شروع کر سکتے ہیں کہ "کیا چیز ڈیجیٹلائز کی جا سکتی ہے؟" سب سے آسان طریقہ یہ ہوگا کہ ہم یہ ناپیں کہ ہر طالب علم کو ہر ماڈیول مکمل کرنے میں کتنا وقت لگتا ہے، اور ہر ماڈیول کے اختتام پر ایک ملٹی پل چوائس ٹیسٹ دے کر حاصل کردہ علم کو ناپیں۔ تمام طلباء کے درمیان اوسط وقت نکال کر، ہم یہ معلوم کر سکتے ہیں کہ کون سے ماڈیول طلباء کے لیے سب سے زیادہ مشکلات پیدا کرتے ہیں، اور ان کو آسان بنانے پر کام کر سکتے ہیں۔
ہم یہ سوال پوچھ کر شروع کر سکتے ہیں کہ "کیا ڈیجیٹلائز کیا جا سکتا ہے؟" سب سے آسان طریقہ یہ ہوگا کہ ہر طالب علم کو ہر ماڈیول مکمل کرنے میں لگنے والے وقت کو ماپیں، اور ہر ماڈیول کے آخر میں ایک کثیر انتخابی ٹیسٹ دے کر حاصل کردہ علم کو ماپیں۔ تمام طلباء کے درمیان مکمل کرنے کے وقت کا اوسط لے کر، ہم یہ معلوم کر سکتے ہیں کہ کون سے ماڈیولز طلباء کے لیے سب سے زیادہ مشکلات پیدا کرتے ہیں، اور ان کو آسان بنانے پر کام کر سکتے ہیں۔
آپ یہ دلیل دے سکتے ہیں کہ یہ طریقہ مثالی نہیں ہے، کیونکہ ماڈیولز مختلف لمبائی کے ہو سکتے ہیں۔ شاید زیادہ مناسب یہ ہوگا کہ وقت کو ماڈیول کی لمبائی (حروف کی تعداد میں) کے حساب سے تقسیم کیا جائے، اور ان اقدار کا موازنہ کیا جائے۔
جب ہم کثیر انتخابی ٹیسٹ کے نتائج کا تجزیہ شروع کرتے ہیں، تو ہم یہ جاننے کی کوشش کر سکتے ہیں کہ کون سے تصورات طلباء کے لیے سمجھنے میں مشکل ہیں، اور اس معلومات کو مواد کو بہتر بنانے کے لیے استعمال کر سکتے ہیں۔ ایسا کرنے کے لیے، ہمیں ٹیسٹ اس طرح ڈیزائن کرنے کی ضرورت ہے کہ ہر سوال کسی خاص تصور یا علم کے حصے سے منسلک ہو۔
جب ہم کثیر انتخابی ٹیسٹ کے نتائج کا تجزیہ شروع کرتے ہیں، تو ہم یہ جاننے کی کوشش کر سکتے ہیں کہ کون سے تصورات طلباء کے لیے سمجھنا مشکل ہیں، اور اس معلومات کو مواد کو بہتر بنانے کے لیے استعمال کر سکتے ہیں۔ ایسا کرنے کے لیے، ہمیں ٹیسٹ اس طرح ڈیزائن کرنے کی ضرورت ہے کہ ہر سوال کسی خاص تصور یا علم کے حصے سے منسلک ہو۔
اگر ہم مزید پیچیدگی میں جانا چاہیں، تو ہم ہر ماڈیول کے لیے لی گئی وقت کو طلباء کی عمر کے زمرے کے ساتھ موازنہ کر سکتے ہیں۔ ہمیں معلوم ہو سکتا ہے کہ کچھ عمر کے زمرے کے لیے ماڈیول مکمل کرنے میں غیر مناسب طور پر زیادہ وقت لگتا ہے، یا طلباء اسے مکمل کرنے سے پہلے ہی چھوڑ دیتے ہیں۔ یہ ہمیں ماڈیول کے لیے عمر کی سفارشات فراہم کرنے میں مدد دے سکتا ہے، اور غلط توقعات سے لوگوں کی ناخوشی کو کم کر سکتا ہے۔
اگر ہم مزید پیچیدگی میں جانا چاہیں، تو ہم ہر ماڈیول کے لیے لگنے والے وقت کو طلباء کی عمر کے زمرے کے ساتھ موازنہ کر سکتے ہیں۔ ہمیں معلوم ہو سکتا ہے کہ کچھ عمر کے زمرے کے لیے ماڈیول مکمل کرنے میں غیر مناسب طور پر زیادہ وقت لگتا ہے، یا طلباء اسے مکمل کرنے سے پہلے ہی چھوڑ دیتے ہیں۔ یہ ہمیں ماڈیول کے لیے عمر کی سفارشات فراہم کرنے میں مدد دے سکتا ہے، اور غلط توقعات کی وجہ سے لوگوں کی ناخوشی کو کم کر سکتا ہے۔
## 🚀 چیلنج
اس چیلنج میں، ہم ڈیٹا سائنس کے میدان سے متعلق تصورات کو تلاش کرنے کی کوشش کریں گے، متن کو دیکھ کر۔ ہم ڈیٹا سائنس پر ایک ویکیپیڈیا مضمون لیں گے، متن کو ڈاؤنلوڈ اور پراسیس کریں گے، اور پھر ایک ورڈ کلاؤڈ بنائیں گے، جیسے یہ:
اس چیلنج میں، ہم ڈیٹا سائنس کے میدان سے متعلق تصورات تلاش کرنے کی کوشش کریں گے، متن کو دیکھ کر۔ ہم ڈیٹا سائنس پر ایک ویکیپیڈیا مضمون لیں گے، متن کو ڈاؤنلوڈ اور پراسیس کریں گے، اور پھر ایک ورڈ کلاؤڈ بنائیں گے، جیسا کہ یہ:
![ورڈ کلاؤڈ برائے ڈیٹا سائنس](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ur.png)
@ -61,7 +61,7 @@ CO_OP_TRANSLATOR_METADATA:
> اگر آپ کو معلوم نہیں کہ جیوپیٹر نوٹ بک میں کوڈ کیسے چلایا جائے، تو [اس مضمون](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) کو دیکھیں۔
## [لیکچر کے بعد کا کوئز](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [لیکچر کے بعد کا کوئز](https://ff-quizzes.netlify.app/en/ds/)
## اسائنمنٹس
@ -70,9 +70,9 @@ CO_OP_TRANSLATOR_METADATA:
## کریڈٹس
یہ سبق ♥️ کے ساتھ [Dmitry Soshnikov](http://soshnikov.com) کے ذریعے تحریر کیا گیا ہے۔
یہ سبق ♥️ کے ساتھ [دمتری سوشنیکوف](http://soshnikov.com) نے لکھا ہے۔
---
**ڈسکلیمر**:
یہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا عدم درستگی ہو سکتی ہیں۔ اصل دستاویز، جو اس کی مقامی زبان میں ہے، کو مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے لیے ہم ذمہ دار نہیں ہیں۔
یہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا غیر درستیاں ہو سکتی ہیں۔ اصل دستاویز کو اس کی اصل زبان میں مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ ہم اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے ذمہ دار نہیں ہیں۔

@ -1,61 +1,63 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-28T18:54:58+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:22:50+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "vi"
}
-->
## Các Loại Dữ Liệu
# Định nghĩa Khoa học Dữ liệu
Như đã đề cập, dữ liệu có mặt ở khắp mọi nơi. Chúng ta chỉ cần thu thập nó đúng cách! Việc phân biệt giữa dữ liệu **có cấu trúc****không có cấu trúc** là rất hữu ích. Dữ liệu có cấu trúc thường được biểu diễn dưới dạng có tổ chức, thường là một bảng hoặc nhiều bảng, trong khi dữ liệu không có cấu trúc chỉ là một tập hợp các tệp. Đôi khi, chúng ta cũng có thể nói về dữ liệu **bán cấu trúc**, có một số dạng cấu trúc nhưng có thể thay đổi rất nhiều.
| ![ Sketchnote của [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------: |
| Định nghĩa Khoa học Dữ liệu - _Sketchnote của [@nitya](https://twitter.com/nitya)_ |
| Có cấu trúc | Bán cấu trúc | Không có cấu trúc |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| Danh sách người với số điện thoại của họ | Các trang Wikipedia với các liên kết | Văn bản của Bách khoa toàn thư Britannica |
| Nhiệt độ trong tất cả các phòng của một tòa nhà mỗi phút trong 20 năm qua | Bộ sưu tập các bài báo khoa học ở định dạng JSON với tác giả, ngày xuất bản và tóm tắt | Chia sẻ tệp với các tài liệu công ty |
| Dữ liệu về tuổi và giới tính của tất cả những người vào tòa nhà | Các trang Internet | Video thô từ camera giám sát |
---
[![Video Định nghĩa Khoa học Dữ liệu](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.vi.png)](https://youtu.be/beZ7Mb_oz9I)
## [Câu hỏi trước bài giảng](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
## Nguồn Dữ Liệu
## Dữ liệu là gì?
Trong cuộc sống hàng ngày, chúng ta luôn được bao quanh bởi dữ liệu. Văn bản bạn đang đọc bây giờ là dữ liệu. Danh sách số điện thoại của bạn bè trong điện thoại thông minh của bạn là dữ liệu, cũng như thời gian hiện tại hiển thị trên đồng hồ của bạn. Là con người, chúng ta tự nhiên làm việc với dữ liệu bằng cách đếm tiền mình có hoặc viết thư cho bạn bè.
Có rất nhiều nguồn dữ liệu khác nhau, và sẽ không thể liệt kê hết tất cả! Tuy nhiên, hãy đề cập đến một số nơi điển hình mà bạn có thể lấy dữ liệu:
Tuy nhiên, dữ liệu trở nên quan trọng hơn nhiều với sự ra đời của máy tính. Vai trò chính của máy tính là thực hiện các phép tính, nhưng chúng cần dữ liệu để hoạt động. Do đó, chúng ta cần hiểu cách máy tính lưu trữ và xử lý dữ liệu.
* **Có cấu trúc**
- **Internet of Things** (IoT), bao gồm dữ liệu từ các cảm biến khác nhau, như cảm biến nhiệt độ hoặc áp suất, cung cấp rất nhiều dữ liệu hữu ích. Ví dụ, nếu một tòa nhà văn phòng được trang bị cảm biến IoT, chúng ta có thể tự động điều chỉnh hệ thống sưởi và chiếu sáng để giảm thiểu chi phí.
- **Khảo sát** mà chúng ta yêu cầu người dùng hoàn thành sau khi mua hàng hoặc sau khi truy cập một trang web.
- **Phân tích hành vi** có thể giúp chúng ta hiểu người dùng đi sâu vào trang web đến mức nào và lý do phổ biến khiến họ rời khỏi trang.
* **Không có cấu trúc**
- **Văn bản** có thể là một nguồn thông tin phong phú, chẳng hạn như điểm **cảm xúc tổng thể**, hoặc trích xuất từ khóa và ý nghĩa ngữ nghĩa.
- **Hình ảnh** hoặc **Video**. Một video từ camera giám sát có thể được sử dụng để ước tính lưu lượng giao thông trên đường và thông báo cho mọi người về các điểm tắc nghẽn tiềm năng.
- **Nhật ký máy chủ web** có thể được sử dụng để hiểu những trang nào trên trang web của chúng ta được truy cập nhiều nhất và trong bao lâu.
* **Bán cấu trúc**
- **Đồ thị mạng xã hội** có thể là nguồn dữ liệu tuyệt vời về tính cách người dùng và hiệu quả tiềm năng trong việc lan truyền thông tin.
- Khi chúng ta có một loạt ảnh từ một bữa tiệc, chúng ta có thể cố gắng trích xuất dữ liệu **Động lực nhóm** bằng cách xây dựng một đồ thị về những người chụp ảnh cùng nhau.
Với sự xuất hiện của Internet, vai trò của máy tính như các thiết bị xử lý dữ liệu đã tăng lên. Nếu bạn nghĩ về điều đó, chúng ta ngày càng sử dụng máy tính nhiều hơn để xử lý và giao tiếp dữ liệu, thay vì chỉ thực hiện các phép tính. Khi chúng ta viết email cho bạn bè hoặc tìm kiếm thông tin trên Internet - chúng ta thực chất đang tạo, lưu trữ, truyền tải và thao tác dữ liệu.
> Bạn có nhớ lần cuối cùng bạn sử dụng máy tính để thực sự tính toán điều gì đó không?
Bằng cách biết các nguồn dữ liệu khác nhau, bạn có thể nghĩ đến các kịch bản khác nhau mà các kỹ thuật khoa học dữ liệu có thể được áp dụng để hiểu rõ hơn tình hình và cải thiện quy trình kinh doanh.
## Khoa học Dữ liệu là gì?
## Bạn Có Thể Làm Gì Với Dữ Liệu
Theo [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **Khoa học Dữ liệu** được định nghĩa là *một lĩnh vực khoa học sử dụng các phương pháp khoa học để trích xuất kiến thức và thông tin từ dữ liệu có cấu trúc và không có cấu trúc, và áp dụng kiến thức và thông tin có thể hành động từ dữ liệu vào nhiều lĩnh vực ứng dụng khác nhau*.
Trong Khoa học Dữ liệu, chúng ta tập trung vào các bước sau trong hành trình dữ liệu:
Định nghĩa này nhấn mạnh các khía cạnh quan trọng sau của khoa học dữ liệu:
Tùy thuộc vào dữ liệu thực tế, một số bước có thể bị bỏ qua (ví dụ: khi chúng ta đã có dữ liệu trong cơ sở dữ liệu, hoặc khi không cần huấn luyện mô hình), hoặc một số bước có thể được lặp lại nhiều lần (chẳng hạn như xử lý dữ liệu).
* Mục tiêu chính của khoa học dữ liệu là **trích xuất kiến thức** từ dữ liệu, nói cách khác - **hiểu** dữ liệu, tìm ra các mối quan hệ ẩn và xây dựng một **mô hình**.
* Khoa học dữ liệu sử dụng các **phương pháp khoa học**, chẳng hạn như xác suất và thống kê. Thực tế, khi thuật ngữ *khoa học dữ liệu* lần đầu tiên được giới thiệu, một số người cho rằng khoa học dữ liệu chỉ là một cái tên mới mẻ cho thống kê. Ngày nay, rõ ràng rằng lĩnh vực này rộng lớn hơn nhiều.
* Kiến thức thu được nên được áp dụng để tạo ra các **thông tin có thể hành động**, tức là những thông tin thực tiễn mà bạn có thể áp dụng vào các tình huống kinh doanh thực tế.
* Chúng ta cần có khả năng làm việc với cả dữ liệu **có cấu trúc****không có cấu trúc**. Chúng ta sẽ quay lại thảo luận về các loại dữ liệu khác nhau sau trong khóa học.
* **Lĩnh vực ứng dụng** là một khái niệm quan trọng, và các nhà khoa học dữ liệu thường cần ít nhất một mức độ chuyên môn nhất định trong lĩnh vực vấn đề, ví dụ: tài chính, y học, tiếp thị, v.v.
## Số Hóa và Chuyển Đổi Số
> Một khía cạnh quan trọng khác của Khoa học Dữ liệu là nó nghiên cứu cách dữ liệu có thể được thu thập, lưu trữ và xử lý bằng máy tính. Trong khi thống kê cung cấp nền tảng toán học, khoa học dữ liệu áp dụng các khái niệm toán học để thực sự rút ra thông tin từ dữ liệu.
Trong thập kỷ qua, nhiều doanh nghiệp đã bắt đầu hiểu tầm quan trọng của dữ liệu trong việc đưa ra quyết định kinh doanh. Để áp dụng các nguyên tắc khoa học dữ liệu vào việc điều hành doanh nghiệp, trước tiên cần thu thập một số dữ liệu, tức là chuyển đổi các quy trình kinh doanh sang dạng số hóa. Điều này được gọi là **số hóa**. Việc áp dụng các kỹ thuật khoa học dữ liệu vào dữ liệu này để hướng dẫn các quyết định có thể dẫn đến sự gia tăng đáng kể về năng suất (hoặc thậm chí thay đổi hướng kinh doanh), được gọi là **chuyển đổi số**.
Một trong những cách (được gán cho [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) để nhìn nhận khoa học dữ liệu là coi nó như một mô hình khoa học riêng biệt:
* **Thực nghiệm**, trong đó chúng ta chủ yếu dựa vào quan sát và kết quả của các thí nghiệm
* **Lý thuyết**, nơi các khái niệm mới xuất hiện từ kiến thức khoa học hiện có
* **Tính toán**, nơi chúng ta khám phá các nguyên tắc mới dựa trên một số thí nghiệm tính toán
* **Dựa trên dữ liệu**, dựa trên việc khám phá các mối quan hệ và mẫu trong dữ liệu
Hãy xem xét một ví dụ. Giả sử chúng ta có một khóa học khoa học dữ liệu (như khóa học này) mà chúng ta cung cấp trực tuyến cho sinh viên, và chúng ta muốn sử dụng khoa học dữ liệu để cải thiện nó. Chúng ta có thể làm điều đó như thế nào?
## Các lĩnh vực liên quan khác
Chúng ta có thể bắt đầu bằng cách hỏi "Cái gì có thể được số hóa?" Cách đơn giản nhất là đo thời gian mỗi sinh viên hoàn thành từng mô-đun, và đo lường kiến thức đạt được bằng cách đưa ra một bài kiểm tra trắc nghiệm ở cuối mỗi mô-đun. Bằng cách tính trung bình thời gian hoàn thành của tất cả sinh viên, chúng ta có thể tìm ra những mô-đun gây khó khăn nhất cho sinh viên và làm việc để đơn giản hóa chúng.
Bạn có thể tranh luận rằng cách tiếp cận này không lý tưởng, vì các module có thể có độ dài khác nhau. Có lẽ sẽ công bằng hơn nếu chia thời gian theo độ dài của module (tính bằng số ký tự) và so sánh các giá trị đó thay thế.
Khi chúng ta bắt đầu phân tích kết quả của các bài kiểm tra trắc nghiệm, chúng ta có thể cố gắng xác định những khái niệm mà học sinh gặp khó khăn trong việc hiểu, và sử dụng thông tin đó để cải thiện nội dung. Để làm được điều này, chúng ta cần thiết kế các bài kiểm tra sao cho mỗi câu hỏi liên kết với một khái niệm hoặc phần kiến thức cụ thể.
Vì dữ liệu có mặt ở khắp mọi nơi, khoa học dữ liệu cũng là một lĩnh vực rộng lớn, liên quan đến nhiều ngành khác.
Bạn có thể tranh luận rằng cách tiếp cận này không lý tưởng, vì các mô-đun có thể có độ dài khác nhau. Có lẽ sẽ công bằng hơn nếu chia thời gian theo độ dài của mô-đun (tính bằng số ký tự) và so sánh các giá trị đó thay thế.
Khi chúng ta bắt đầu phân tích kết quả của các bài kiểm tra trắc nghiệm, chúng ta có thể cố gắng xác định những khái niệm mà học sinh gặp khó khăn trong việc hiểu, và sử dụng thông tin đó để cải thiện nội dung. Để làm được điều này, chúng ta cần thiết kế các bài kiểm tra sao cho mỗi câu hỏi liên kết với một khái niệm hoặc một phần kiến thức nhất định.
Nếu muốn phân tích phức tạp hơn, chúng ta có thể vẽ biểu đồ thời gian hoàn thành từng mô-đun so với nhóm tuổi của học sinh. Chúng ta có thể phát hiện rằng đối với một số nhóm tuổi, thời gian hoàn thành mô-đun quá dài hoặc học sinh bỏ dở trước khi hoàn thành. Điều này có thể giúp chúng ta đưa ra khuyến nghị về độ tuổi phù hợp cho mô-đun và giảm thiểu sự không hài lòng của mọi người do kỳ vọng sai lệch.
## 🚀 Thử thách
Trong thử thách này, chúng ta sẽ cố gắng tìm các khái niệm liên quan đến lĩnh vực Khoa học Dữ liệu bằng cách phân tích văn bản. Chúng ta sẽ lấy một bài viết trên Wikipedia về Khoa học Dữ liệu, tải xuống và xử lý văn bản, sau đó tạo một đám mây từ như hình dưới đây:
Trong thử thách này, chúng ta sẽ cố gắng tìm các khái niệm liên quan đến lĩnh vực Khoa học Dữ liệu bằng cách xem xét các văn bản. Chúng ta sẽ lấy một bài viết trên Wikipedia về Khoa học Dữ liệu, tải xuống và xử lý văn bản, sau đó tạo một đám mây từ như hình dưới đây:
![Đám mây từ cho Khoa học Dữ liệu](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.vi.png)
@ -63,7 +65,7 @@ Truy cập [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defin
> Nếu bạn không biết cách chạy mã trong Jupyter Notebook, hãy xem [bài viết này](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Câu hỏi sau bài giảng](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [Câu hỏi sau bài giảng](https://ff-quizzes.netlify.app/en/ds/)
## Bài tập
@ -77,4 +79,4 @@ Bài học này được viết với ♥️ bởi [Dmitry Soshnikov](http://sos
---
**Tuyên bố miễn trừ trách nhiệm**:
Tài liệu này đã được dịch bằng dịch vụ dịch thuật AI [Co-op Translator](https://github.com/Azure/co-op-translator). Mặc dù chúng tôi cố gắng đảm bảo độ chính xác, xin lưu ý rằng các bản dịch tự động có thể chứa lỗi hoặc không chính xác. Tài liệu gốc bằng ngôn ngữ bản địa nên được coi là nguồn thông tin chính thức. Đối với các thông tin quan trọng, khuyến nghị sử dụng dịch vụ dịch thuật chuyên nghiệp bởi con người. Chúng tôi không chịu trách nhiệm cho bất kỳ sự hiểu lầm hoặc diễn giải sai nào phát sinh từ việc sử dụng bản dịch này.
Tài liệu này đã được dịch bằng dịch vụ dịch thuật AI [Co-op Translator](https://github.com/Azure/co-op-translator). Mặc dù chúng tôi cố gắng đảm bảo độ chính xác, xin lưu ý rằng các bản dịch tự động có thể chứa lỗi hoặc không chính xác. Tài liệu gốc bằng ngôn ngữ bản địa nên được coi là nguồn thông tin chính thức. Đối với các thông tin quan trọng, nên sử dụng dịch vụ dịch thuật chuyên nghiệp bởi con người. Chúng tôi không chịu trách nhiệm cho bất kỳ sự hiểu lầm hoặc diễn giải sai nào phát sinh từ việc sử dụng bản dịch này.

@ -1,15 +1,15 @@
<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-25T16:50:43+00:00",
"original_hash": "8141e7195841682914be03ef930fe43d",
"translation_date": "2025-09-03T20:02:45+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "zh"
}
-->
## 数据的类型
正如我们已经提到的,数据无处不在。我们只需要以正确的方式捕捉它!区分**结构化数据**和**非结构化数据**是很有用的。前者通常以某种良好的结构形式表示,通常是表或多个表,而后者则只是文件的集合。有时我们也会提到**半结构化数据**,它具有某种结构,但可能差异很大。
正如我们已经提到的,数据无处不在。我们只需要以正确的方式捕捉它!区分**结构化数据**和**非结构化数据**是很有用的。前者通常以某种良好的结构形式表示,通常是一个表或多个表,而后者则只是文件的集合。有时我们也会提到**半结构化数据**,它具有某种结构,但可能差异很大。
| 结构化数据 | 半结构化数据 | 非结构化数据 |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
@ -22,7 +22,7 @@ CO_OP_TRANSLATOR_METADATA:
数据的来源有很多种,几乎无法全部列举!不过,我们可以提到一些典型的数据来源:
* **结构化数据**
- **物联网**IoT,包括来自不同传感器的数据,例如温度或压力传感器,提供了许多有用的数据。例如,如果办公楼配备了物联网传感器,我们可以自动控制供暖和照明,以降低成本。
- **物联网** (IoT),包括来自不同传感器的数据,例如温度或压力传感器,提供了许多有用的数据。例如,如果办公楼配备了物联网传感器,我们可以自动控制供暖和照明,以降低成本。
- **调查问卷**,例如用户在购买后或访问网站后填写的问卷。
- **行为分析**,例如帮助我们了解用户在网站上的深入程度,以及用户离开网站的典型原因。
* **非结构化数据**
@ -30,32 +30,32 @@ CO_OP_TRANSLATOR_METADATA:
- **图像**或**视频**。监控摄像头的视频可以用来估算道路上的交通流量,并通知人们潜在的交通拥堵。
- 网站服务器的**日志**可以用来了解我们网站上最常被访问的页面,以及访问时长。
* **半结构化数据**
- **社交网络**图可以是关于用户个性以及信息传播潜力的绝佳数据来源。
- **社交网络**图可以成为了解用户个性以及信息传播潜在效果的绝佳数据来源。
- 当我们有一堆聚会照片时,可以尝试通过构建人与人之间拍照的关系图来提取**群体动态**数据。
通过了解不同的数据来源,你可以尝试思考不同的场景,数据科学技术可以应用于这些场景以更好地了解情况并改善业务流程。
## 数据可以做什么
## 数据的用途
在数据科学中,我们专注于数据旅程的以下步骤:
当然,根据实际数据的情况,有些步骤可能会缺失(例如,当数据已经存储在数据库中,或者我们不需要进行模型训练时),或者某些步骤可能会重复多次(例如数据处理)。
当然,根据实际数据,有些步骤可能会缺失(例如,当数据已经存储在数据库中,或者我们不需要进行模型训练时),或者某些步骤可能会重复多次(例如数据处理)。
## 数字化与数字化转型
在过去十年中,许多企业开始识到在做出业务决策时数据的重要性。要将数据科学原则应用于企业运营,首先需要收集一些数据,即将业务流程转化为数字形式。这被称为**数字化**。将数据科学技术应用于这些数据以指导决策,可以显著提高生产力(甚至实现业务转型),这被称为**数字化转型**。
在过去十年中,许多企业开始识到在做出业务决策时数据的重要性。要将数据科学原则应用于企业运营,首先需要收集一些数据,即将业务流程转化为数字形式。这被称为**数字化**。将数据科学技术应用于这些数据以指导决策,可以显著提高生产力(甚至实现业务转型),这被称为**数字化转型**。
让我们来看一个例子。假设我们有一个数据科学课程(比如这个课程),我们在线向学生提供,并希望利用数据科学来改进它。我们该怎么做呢?
让我们来看一个例子。假设我们有一个数据科学课程(比如这个课程),我们在线向学生提供,并希望利用数据科学来改进它。我们该怎么做呢?
我们可以从问“什么可以数字化?”开始。最简单的方法是测量每学生完成每个模块所需的时间,并通过在每个模块结束时进行选择题测试来测量获得的知识。通过计算所有学生的平均完成时间,我们可以找出哪些模块对学生来说最困难,并着手简化这些模块。
你可能会认为这种方法并不理想,因为模块的长度可能不同。或许更公平的做法是根据模块的长度(以字符数计算)来划分时间,然后比较这些值。
当我们开始分析多选测试的结果时,可以尝试确定学生在哪些概念上存在理解困难,并利用这些信息改进内容。为此,我们需要设计测试,使每个问题都能映射到某个特定的概念或知识
我们可以从问“什么可以数字化?”开始。最简单的方法是测量每学生完成每个模块所需的时间,并通过在每个模块结束时进行选择题测试来测量获得的知识。通过计算所有学生的平均完成时间,我们可以找出哪些模块对学生来说最困难,并着手简化这些模块。
你可能会认为这种方法并不理想,因为模块的长度可能不同。或许更公平的做法是将时间除以模块的长度(以字符数计算),然后比较这些值。
当我们开始分析多测试的结果时,可以尝试确定学生在哪些概念上存在理解困难,并利用这些信息改进内容。为此,我们需要设计测试,使每个问题都能映射到某个特定的概念或知识
如果我们想更复杂一些,可以将每个模块所花费的时间与学生的年龄类别进行对比分析。我们可能会发现,对于某些年龄段来说,完成模块所需时间过长,或者学生在完成之前就中途退出。这可以帮助我们为模块提供年龄建议,并减少因错误期望而导致的不满。
如果我们想更复杂一些,可以将每个模块所花费的时间与学生的年龄类别进行对比分析。我们可能会发现,对于某些年龄段,完成模块所需时间过长,或者学生在完成之前就中途退出。这可以帮助我们为模块提供年龄建议,并减少因错误期望而导致的不满。
## 🚀 挑战
在这个挑战中,我们将通过分析文本来尝试找到与数据科学领域相关的概念。我们会选取一篇关于数据科学的维基百科文章,下载并处理文本,然后构建一个像这样的词云:
在这个挑战中,我们将通过分析文本来寻找与数据科学领域相关的概念。我们会选取一篇关于数据科学的维基百科文章,下载并处理文本,然后构建一个像这样的词云:
![数据科学词云](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.zh.png)
@ -63,7 +63,7 @@ CO_OP_TRANSLATOR_METADATA:
> 如果你不知道如何在 Jupyter Notebook 中运行代码,可以查看 [这篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。
## [课后测验](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## [课后测验](https://ff-quizzes.netlify.app/en/ds/)
## 作业
@ -74,5 +74,7 @@ CO_OP_TRANSLATOR_METADATA:
本课程由 [Dmitry Soshnikov](http://soshnikov.com) 倾情创作 ♥️
---
**免责声明**
本文档使用AI翻译服务[Co-op Translator](https://github.com/Azure/co-op-translator)进行翻译。虽然我们尽力确保翻译的准确性,但请注意,自动翻译可能包含错误或不准确之处。原始语言的文档应被视为权威来源。对于关键信息,建议使用专业人工翻译。我们对因使用此翻译而产生的任何误解或误读不承担责任。
本文档使用AI翻译服务 [Co-op Translator](https://github.com/Azure/co-op-translator) 进行翻译。尽管我们努力确保翻译的准确性,但请注意,自动翻译可能包含错误或不准确之处。原始语言的文档应被视为权威来源。对于重要信息,建议使用专业人工翻译。我们不对因使用此翻译而产生的任何误解或误读承担责任。
Loading…
Cancel
Save