diff --git a/translations/ar/1-Introduction/01-defining-data-science/README.md b/translations/ar/1-Introduction/01-defining-data-science/README.md index 647fcb1e..1596d54e 100644 --- a/translations/ar/1-Introduction/01-defining-data-science/README.md +++ b/translations/ar/1-Introduction/01-defining-data-science/README.md @@ -1,21 +1,21 @@ ## أنواع البيانات -كما ذكرنا سابقًا، البيانات موجودة في كل مكان. نحن فقط بحاجة إلى التقاطها بالطريقة الصحيحة! من المفيد التمييز بين البيانات **المهيكلة** و**غير المهيكلة**. البيانات المهيكلة عادةً ما تكون ممثلة في شكل منظم جيدًا، غالبًا كجدول أو مجموعة من الجداول، بينما البيانات غير المهيكلة هي مجرد مجموعة من الملفات. أحيانًا يمكننا أيضًا الحديث عن البيانات **شبه المهيكلة**، التي تحتوي على نوع من الهيكل الذي قد يختلف بشكل كبير. +كما ذكرنا سابقًا، البيانات موجودة في كل مكان. نحن فقط بحاجة إلى التقاطها بالطريقة الصحيحة! من المفيد التمييز بين البيانات **المهيكلة** و**غير المهيكلة**. البيانات المهيكلة عادةً ما تكون ممثلة في شكل منظم جيدًا، غالبًا كجدول أو عدد من الجداول، بينما البيانات غير المهيكلة هي مجرد مجموعة من الملفات. أحيانًا يمكننا أيضًا الحديث عن البيانات **شبه المهيكلة**، التي تحتوي على نوع من الهيكل الذي قد يختلف بشكل كبير. | مهيكلة | شبه مهيكلة | غير مهيكلة | | ------------------------------------------------------------------------ | --------------------------------------------------------------------------------------------- | --------------------------------------- | | قائمة بأسماء الأشخاص وأرقام هواتفهم | صفحات ويكيبيديا مع روابط | نص موسوعة بريتانيكا | -| درجات الحرارة في جميع غرف المبنى كل دقيقة على مدار العشرين عامًا الماضية | مجموعة من الأوراق العلمية بصيغة JSON تحتوي على المؤلفين، تاريخ النشر، والملخص | مشاركة ملفات تحتوي على مستندات الشركة | -| بيانات العمر والجنس لجميع الأشخاص الذين يدخلون المبنى | صفحات الإنترنت | فيديو خام من كاميرا مراقبة | +| درجات الحرارة في جميع غرف المبنى كل دقيقة على مدار العشرين عامًا الماضية | مجموعة من الأوراق العلمية بصيغة JSON تحتوي على المؤلفين، تاريخ النشر، والملخص | ملفات مشاركة تحتوي على مستندات الشركة | +| بيانات العمر والجنس لجميع الأشخاص الذين يدخلون المبنى | صفحات الإنترنت | فيديو خام من كاميرا مراقبة | ## من أين تحصل على البيانات @@ -23,12 +23,12 @@ CO_OP_TRANSLATOR_METADATA: * **مهيكلة** - **إنترنت الأشياء** (IoT)، بما في ذلك البيانات من مختلف المستشعرات، مثل مستشعرات الحرارة أو الضغط، توفر الكثير من البيانات المفيدة. على سبيل المثال، إذا كان مبنى المكتب مجهزًا بمستشعرات إنترنت الأشياء، يمكننا التحكم تلقائيًا في التدفئة والإضاءة لتقليل التكاليف. - - **الاستبيانات** التي نطلب من المستخدمين إكمالها بعد عملية شراء أو بعد زيارة موقع إلكتروني. + - **استطلاعات الرأي** التي نطلب من المستخدمين إكمالها بعد عملية شراء أو بعد زيارة موقع إلكتروني. - **تحليل السلوك** يمكن أن يساعدنا، على سبيل المثال، في فهم مدى تعمق المستخدم في الموقع، وما هو السبب النموذجي لمغادرة الموقع. * **غير مهيكلة** - **النصوص** يمكن أن تكون مصدرًا غنيًا للرؤى، مثل الحصول على **درجة الشعور العام** أو استخراج الكلمات الرئيسية والمعاني الدلالية. - **الصور** أو **الفيديو**. يمكن استخدام فيديو من كاميرا مراقبة لتقدير حركة المرور على الطريق، وإبلاغ الناس عن الاختناقات المرورية المحتملة. - - **سجلات خوادم الويب** يمكن استخدامها لفهم الصفحات الأكثر زيارة في موقعنا، ومدة الزيارة. + - **سجلات خادم الويب** يمكن استخدامها لفهم الصفحات الأكثر زيارة في موقعنا، ومدة الزيارة. * **شبه مهيكلة** - **رسوم الشبكات الاجتماعية** يمكن أن تكون مصادر رائعة للبيانات حول شخصيات المستخدمين وفعالية نشر المعلومات بينهم. - عندما يكون لدينا مجموعة من الصور من حفلة، يمكننا محاولة استخراج بيانات **ديناميكيات المجموعة** من خلال بناء رسم بياني للأشخاص الذين يلتقطون الصور مع بعضهم البعض. @@ -47,27 +47,27 @@ CO_OP_TRANSLATOR_METADATA: دعونا نأخذ مثالًا. لنفترض أن لدينا دورة في علم البيانات (مثل هذه الدورة) نقدمها عبر الإنترنت للطلاب، ونريد استخدام علم البيانات لتحسينها. كيف يمكننا القيام بذلك؟ -يمكننا البدء بسؤال "ما الذي يمكن رقمنته؟" أبسط طريقة ستكون قياس الوقت الذي يستغرقه كل طالب لإكمال كل وحدة، وقياس المعرفة المكتسبة من خلال تقديم اختبار متعدد الخيارات في نهاية كل وحدة. من خلال حساب متوسط الوقت اللازم للإكمال عبر جميع الطلاب، يمكننا معرفة الوحدات التي تسبب أكبر صعوبة للطلاب والعمل على تبسيطها. -قد تجادل بأن هذه الطريقة ليست مثالية، لأن الوحدات يمكن أن تكون بأطوال مختلفة. ربما يكون من الأكثر إنصافًا تقسيم الوقت حسب طول الوحدة (بعدد الأحرف)، ومقارنة تلك القيم بدلاً من ذلك. +يمكننا البدء بسؤال "ما الذي يمكن رقمنته؟" أبسط طريقة ستكون قياس الوقت الذي يستغرقه كل طالب لإكمال كل وحدة، وقياس المعرفة المكتسبة من خلال تقديم اختبار متعدد الخيارات في نهاية كل وحدة. من خلال حساب متوسط الوقت للإكمال عبر جميع الطلاب، يمكننا معرفة الوحدات التي تسبب أكبر صعوبة للطلاب والعمل على تبسيطها. +قد تجادل بأن هذه الطريقة ليست مثالية، لأن الوحدات يمكن أن تكون بأطوال مختلفة. ربما يكون من الأكثر إنصافًا تقسيم الوقت على طول الوحدة (بعدد الأحرف)، ومقارنة تلك القيم بدلاً من ذلك. عندما نبدأ في تحليل نتائج اختبارات الاختيار المتعدد، يمكننا محاولة تحديد المفاهيم التي يجد الطلاب صعوبة في فهمها، واستخدام تلك المعلومات لتحسين المحتوى. لتحقيق ذلك، نحتاج إلى تصميم الاختبارات بطريقة تجعل كل سؤال يرتبط بمفهوم معين أو جزء من المعرفة. إذا أردنا أن نكون أكثر تعقيدًا، يمكننا رسم الوقت المستغرق لكل وحدة دراسية مقابل الفئة العمرية للطلاب. قد نكتشف أن بعض الفئات العمرية تستغرق وقتًا طويلًا بشكل غير مناسب لإكمال الوحدة، أو أن الطلاب ينسحبون قبل إكمالها. يمكن أن يساعدنا هذا في تقديم توصيات عمرية للوحدة وتقليل عدم رضا الناس الناتج عن التوقعات الخاطئة. ## 🚀 التحدي -في هذا التحدي، سنحاول العثور على المفاهيم ذات الصلة بمجال علم البيانات من خلال النظر في النصوص. سنأخذ مقالة من ويكيبيديا عن علم البيانات، ونقوم بتنزيل النص ومعالجته، ثم نبني سحابة كلمات مثل هذه: +في هذا التحدي، سنحاول العثور على المفاهيم ذات الصلة بمجال علم البيانات من خلال النظر في النصوص. سنأخذ مقالة من ويكيبيديا عن علم البيانات، ونقوم بتنزيل ومعالجة النص، ثم نبني سحابة كلمات مثل هذه: -![سحابة كلمات لعلم البيانات](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![سحابة كلمات لعلم البيانات](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ar.png) -قم بزيارة [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') لقراءة الكود. يمكنك أيضًا تشغيل الكود ومشاهدة كيفية تنفيذ جميع تحويلات البيانات في الوقت الفعلي. +قم بزيارة [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') لقراءة الكود. يمكنك أيضًا تشغيل الكود ومشاهدة كيفية تنفيذ جميع تحويلات البيانات في الوقت الفعلي. -> إذا كنت لا تعرف كيفية تشغيل الكود في Jupyter Notebook، ألقِ نظرة على [هذه المقالة](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). +> إذا كنت لا تعرف كيفية تشغيل الكود في Jupyter Notebook، يمكنك الاطلاع على [هذه المقالة](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). ## [اختبار ما بعد المحاضرة](https://ff-quizzes.netlify.app/en/ds/quiz/1) -## الواجبات +## المهام -* **المهمة 1**: قم بتعديل الكود أعلاه للعثور على المفاهيم ذات الصلة بمجالي **البيانات الضخمة** و**تعلم الآلة** +* **المهمة 1**: قم بتعديل الكود أعلاه للعثور على المفاهيم ذات الصلة بمجالي **البيانات الضخمة** و**تعلم الآلة**. * **المهمة 2**: [فكر في سيناريوهات علم البيانات](assignment.md) ## الشكر diff --git a/translations/bg/1-Introduction/01-defining-data-science/README.md b/translations/bg/1-Introduction/01-defining-data-science/README.md index 98466654..5a934045 100644 --- a/translations/bg/1-Introduction/01-defining-data-science/README.md +++ b/translations/bg/1-Introduction/01-defining-data-science/README.md @@ -1,8 +1,8 @@ ## ডেটার ধরন -আমরা আগেই উল্লেখ করেছি, ডেটা সর্বত্রই রয়েছে। আমাদের শুধু সঠিকভাবে এটি সংগ্রহ করতে হবে! **সংগঠিত** এবং **অসংগঠিত** ডেটার মধ্যে পার্থক্য করা গুরুত্বপূর্ণ। সংগঠিত ডেটা সাধারণত একটি সুসংগঠিত আকারে উপস্থাপিত হয়, যেমন একটি টেবিল বা একাধিক টেবিল, যেখানে অসংগঠিত ডেটা শুধুমাত্র ফাইলের একটি সংগ্রহ। কখনও কখনও আমরা **আংশিক-সংগঠিত** ডেটার কথাও বলতে পারি, যার কিছুটা গঠন থাকে যা ব্যাপকভাবে পরিবর্তিত হতে পারে। +আমরা আগেই উল্লেখ করেছি, ডেটা সর্বত্রই রয়েছে। আমাদের শুধু সঠিকভাবে এটি সংগ্রহ করতে হবে! **সংগঠিত** এবং **অসংগঠিত** ডেটার মধ্যে পার্থক্য করা গুরুত্বপূর্ণ। সংগঠিত ডেটা সাধারণত একটি সুসংগঠিত আকারে উপস্থাপিত হয়, যেমন একটি টেবিল বা একাধিক টেবিল। অন্যদিকে, অসংগঠিত ডেটা হলো ফাইলের একটি সংগ্রহ। কখনও কখনও আমরা **আংশিক-সংগঠিত** ডেটার কথাও বলতে পারি, যার কিছুটা গঠন রয়েছে, তবে তা ব্যাপকভাবে পরিবর্তিত হতে পারে। | সংগঠিত | আংশিক-সংগঠিত | অসংগঠিত | -| ------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | ------------------------------------ | -| ফোন নম্বরসহ মানুষের তালিকা | উইকিপিডিয়া পেজগুলো লিঙ্কসহ | এনসাইক্লোপিডিয়া ব্রিটানিকার টেক্সট | -| গত ২০ বছরে প্রতিটি মিনিটে একটি ভবনের সব কক্ষের তাপমাত্রা | JSON ফরম্যাটে বৈজ্ঞানিক প্রবন্ধের সংগ্রহ, যেখানে লেখক, প্রকাশনার তারিখ এবং সারাংশ রয়েছে | কর্পোরেট ডকুমেন্টের ফাইল শেয়ার | -| ভবনে প্রবেশকারী সকল মানুষের বয়স এবং লিঙ্গ সম্পর্কিত ডেটা | ইন্টারনেট পেজগুলো | নজরদারি ক্যামেরার কাঁচা ভিডিও ফিড | +| -------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | ------------------------------------ | +| ফোন নম্বরসহ মানুষের তালিকা | উইকিপিডিয়া পেজগুলো লিঙ্কসহ | এনসাইক্লোপিডিয়া ব্রিটানিকার টেক্সট | +| গত ২০ বছরে প্রতিটি মিনিটে একটি ভবনের প্রতিটি কক্ষের তাপমাত্রা | JSON ফরম্যাটে বৈজ্ঞানিক প্রবন্ধের সংগ্রহ, যেখানে লেখক, প্রকাশনার তারিখ এবং সারাংশ রয়েছে | কর্পোরেট ডকুমেন্টের ফাইল শেয়ার | +| ভবনে প্রবেশকারী সকল মানুষের বয়স এবং লিঙ্গ সম্পর্কিত ডেটা | ইন্টারনেট পেজ | নজরদারি ক্যামেরার কাঁচা ভিডিও ফিড | -## ডেটা কোথায় পাওয়া যাবে +## ডেটা কোথায় পাওয়া যায় ডেটার অনেক সম্ভাব্য উৎস রয়েছে, এবং সবগুলো তালিকাভুক্ত করা অসম্ভব! তবে, আসুন কিছু সাধারণ জায়গা উল্লেখ করি যেখানে আপনি ডেটা পেতে পারেন: * **সংগঠিত** - - **ইন্টারনেট অফ থিংস** (IoT), যেমন বিভিন্ন সেন্সর থেকে ডেটা (তাপমাত্রা বা চাপ সেন্সর), অনেক দরকারী ডেটা সরবরাহ করে। উদাহরণস্বরূপ, যদি একটি অফিস ভবন IoT সেন্সর দিয়ে সজ্জিত থাকে, আমরা স্বয়ংক্রিয়ভাবে গরম এবং আলো নিয়ন্ত্রণ করতে পারি খরচ কমানোর জন্য। - - **জরিপ** যা আমরা ব্যবহারকারীদের একটি কেনাকাটার পরে বা একটি ওয়েবসাইট পরিদর্শনের পরে পূরণ করতে বলি। - - **আচরণের বিশ্লেষণ** আমাদের সাহায্য করতে পারে বুঝতে যে একজন ব্যবহারকারী একটি সাইটে কতটা গভীরে যায় এবং সাইট ছাড়ার সাধারণ কারণ কী। + - **ইন্টারনেট অফ থিংস** (IoT), যেমন বিভিন্ন সেন্সর থেকে ডেটা (তাপমাত্রা বা চাপ সেন্সর), অনেক দরকারী ডেটা সরবরাহ করে। উদাহরণস্বরূপ, যদি একটি অফিস ভবন IoT সেন্সর দিয়ে সজ্জিত থাকে, আমরা স্বয়ংক্রিয়ভাবে গরম এবং আলো নিয়ন্ত্রণ করতে পারি, যাতে খরচ কমানো যায়। + - **জরিপ** যা আমরা ব্যবহারকারীদের ক্রয়ের পর বা একটি ওয়েবসাইট পরিদর্শনের পর পূরণ করতে বলি। + - **আচরণের বিশ্লেষণ** আমাদের বুঝতে সাহায্য করতে পারে যে একজন ব্যবহারকারী একটি সাইটে কতটা গভীরে যায় এবং সাইট ত্যাগ করার সাধারণ কারণ কী। * **অসংগঠিত** - - **টেক্সট** একটি সমৃদ্ধ তথ্যের উৎস হতে পারে, যেমন সামগ্রিক **অনুভূতির স্কোর**, বা কীওয়ার্ড এবং অর্থপূর্ণ তথ্য বের করা। + - **টেক্সট** একটি সমৃদ্ধ তথ্যের উৎস হতে পারে, যেমন সামগ্রিক **অনুভূতির স্কোর**, বা কীওয়ার্ড এবং অর্থপূর্ণ তথ্য বের করা। - **ইমেজ** বা **ভিডিও**। নজরদারি ক্যামেরার একটি ভিডিও রাস্তার ট্রাফিক অনুমান করতে এবং সম্ভাব্য যানজট সম্পর্কে মানুষকে জানাতে ব্যবহার করা যেতে পারে। - - ওয়েব সার্ভার **লগ** আমাদের সাহায্য করতে পারে বুঝতে যে আমাদের সাইটের কোন পেজগুলো সবচেয়ে বেশি পরিদর্শিত হয় এবং কতক্ষণ ধরে। + - ওয়েব সার্ভার **লগ** আমাদের বুঝতে সাহায্য করতে পারে যে আমাদের সাইটের কোন পেজগুলো সবচেয়ে বেশি পরিদর্শিত হয় এবং কতক্ষণ ধরে। * আংশিক-সংগঠিত - - **সোশ্যাল নেটওয়ার্ক** গ্রাফ ব্যবহারকারীদের ব্যক্তিত্ব এবং তথ্য ছড়ানোর সম্ভাব্য কার্যকারিতা সম্পর্কে ডেটার একটি চমৎকার উৎস হতে পারে। - - যখন আমাদের একটি পার্টির ছবি থাকে, আমরা **গ্রুপ ডায়নামিক্স** ডেটা বের করার চেষ্টা করতে পারি, যেমন একে অপরের সাথে ছবি তোলার মানুষের একটি গ্রাফ তৈরি করে। + - **সোশ্যাল নেটওয়ার্ক** গ্রাফ ব্যবহারকারীদের ব্যক্তিত্ব এবং তথ্য ছড়িয়ে দেওয়ার সম্ভাব্য কার্যকারিতা সম্পর্কে ডেটার একটি চমৎকার উৎস হতে পারে। + - যখন আমাদের কাছে একটি পার্টির অনেক ছবি থাকে, আমরা **গ্রুপ ডায়নামিকস** ডেটা বের করার চেষ্টা করতে পারি, যেমন একে অপরের সাথে ছবি তোলার মানুষের গ্রাফ তৈরি করে। -ডেটার বিভিন্ন সম্ভাব্য উৎস সম্পর্কে জেনে, আপনি বিভিন্ন পরিস্থিতি সম্পর্কে চিন্তা করতে পারেন যেখানে ডেটা সায়েন্সের কৌশলগুলি প্রয়োগ করা যেতে পারে পরিস্থিতি আরও ভালোভাবে জানার জন্য এবং ব্যবসায়িক প্রক্রিয়াগুলি উন্নত করার জন্য। +ডেটার বিভিন্ন সম্ভাব্য উৎস সম্পর্কে জেনে, আপনি বিভিন্ন পরিস্থিতি নিয়ে চিন্তা করতে পারেন যেখানে ডেটা সায়েন্সের কৌশল প্রয়োগ করে পরিস্থিতি আরও ভালোভাবে বোঝা এবং ব্যবসার প্রক্রিয়া উন্নত করা সম্ভব। -## ডেটা দিয়ে আপনি কী করতে পারেন +## ডেটা দিয়ে কী করা যায় -ডেটা সায়েন্সে, আমরা ডেটার যাত্রার নিম্নলিখিত ধাপগুলোর উপর ফোকাস করি: +ডেটা সায়েন্সে, আমরা ডেটার যাত্রার নিম্নলিখিত ধাপগুলোর উপর ফোকাস করি: ## ডিজিটালাইজেশন এবং ডিজিটাল ট্রান্সফরমেশন -গত দশকে, অনেক ব্যবসা বুঝতে শুরু করেছে যে ব্যবসায়িক সিদ্ধান্ত নেওয়ার সময় ডেটা কতটা গুরুত্বপূর্ণ। ব্যবসা পরিচালনায় ডেটা সায়েন্সের নীতিগুলি প্রয়োগ করতে, প্রথমে কিছু ডেটা সংগ্রহ করতে হবে, অর্থাৎ ব্যবসায়িক প্রক্রিয়াগুলিকে ডিজিটাল আকারে রূপান্তর করতে হবে। এটি **ডিজিটালাইজেশন** নামে পরিচিত। এই ডেটার উপর ডেটা সায়েন্সের কৌশলগুলি প্রয়োগ করে সিদ্ধান্ত নেওয়া উল্লেখযোগ্য উৎপাদনশীলতা বৃদ্ধি (বা এমনকি ব্যবসায়িক পরিবর্তন) ঘটাতে পারে, যা **ডিজিটাল ট্রান্সফরমেশন** নামে পরিচিত। +গত দশকে, অনেক ব্যবসা সিদ্ধান্ত নেওয়ার ক্ষেত্রে ডেটার গুরুত্ব বুঝতে শুরু করেছে। ব্যবসা পরিচালনায় ডেটা সায়েন্সের নীতিগুলো প্রয়োগ করতে হলে প্রথমে কিছু ডেটা সংগ্রহ করতে হবে, অর্থাৎ ব্যবসার প্রক্রিয়াগুলোকে ডিজিটাল আকারে রূপান্তর করতে হবে। এটি **ডিজিটালাইজেশন** নামে পরিচিত। এই ডেটার উপর ডেটা সায়েন্সের কৌশল প্রয়োগ করে সিদ্ধান্ত নেওয়া উল্লেখযোগ্য উৎপাদনশীলতা বৃদ্ধি (বা এমনকি ব্যবসার পরিবর্তন) ঘটাতে পারে, যা **ডিজিটাল ট্রান্সফরমেশন** নামে পরিচিত। -চলুন একটি উদাহরণ বিবেচনা করি। ধরুন আমাদের একটি ডেটা সায়েন্স কোর্স (যেমন এই কোর্সটি) রয়েছে যা আমরা অনলাইনে শিক্ষার্থীদের কাছে সরবরাহ করি, এবং আমরা এটি উন্নত করতে ডেটা সায়েন্স ব্যবহার করতে চাই। আমরা কীভাবে এটি করতে পারি? +চলুন একটি উদাহরণ বিবেচনা করি। ধরুন আমাদের একটি ডেটা সায়েন্স কোর্স রয়েছে (যেমন এই কোর্সটি) যা আমরা অনলাইনে শিক্ষার্থীদের কাছে সরবরাহ করি, এবং আমরা এটি উন্নত করতে ডেটা সায়েন্স ব্যবহার করতে চাই। আমরা কীভাবে এটি করতে পারি? -আমরা "কী ডিজিটালাইজ করা যেতে পারে?" এই প্রশ্নটি দিয়ে শুরু করতে পারি। সবচেয়ে সহজ উপায় হবে প্রতিটি শিক্ষার্থীকে প্রতিটি মডিউল সম্পন্ন করতে কত সময় লাগে তা পরিমাপ করা এবং প্রতিটি মডিউলের শেষে একটি মাল্টিপল-চয়েস টেস্ট দিয়ে অর্জিত জ্ঞান পরিমাপ করা। সমস্ত শিক্ষার্থীর মধ্যে গড় সময়-সম্পন্ন করে, আমরা খুঁজে বের করতে পারি কোন মডিউলগুলো শিক্ষার্থীদের জন্য সবচেয়ে বেশি সমস্যার সৃষ্টি করে এবং সেগুলো সহজ করার জন্য কাজ করতে পারি। -আপনি হয়তো যুক্তি দিতে পারেন যে এই পদ্ধতি আদর্শ নয়, কারণ মডিউলগুলোর দৈর্ঘ্য বিভিন্ন হতে পারে। সম্ভবত মডিউলের দৈর্ঘ্য (অক্ষরের সংখ্যা অনুযায়ী) দিয়ে সময় ভাগ করা এবং সেই মানগুলো তুলনা করা আরও ন্যায্য হবে। -যখন আমরা বহু-বিকল্প প্রশ্নের পরীক্ষার ফলাফল বিশ্লেষণ শুরু করি, তখন আমরা চেষ্টা করতে পারি কোন ধারণাগুলি শিক্ষার্থীদের বুঝতে অসুবিধা হচ্ছে তা নির্ধারণ করতে এবং সেই তথ্য ব্যবহার করে বিষয়বস্তু উন্নত করতে। এটি করতে, আমাদের এমনভাবে পরীক্ষা ডিজাইন করতে হবে যাতে প্রতিটি প্রশ্ন একটি নির্দিষ্ট ধারণা বা জ্ঞানের অংশের সাথে সম্পর্কিত হয়। +আমরা "কী ডিজিটালাইজ করা যেতে পারে?" এই প্রশ্ন দিয়ে শুরু করতে পারি। সবচেয়ে সহজ উপায় হতে পারে প্রতিটি শিক্ষার্থীকে প্রতিটি মডিউল সম্পন্ন করতে কত সময় লাগে তা পরিমাপ করা এবং প্রতিটি মডিউলের শেষে একটি মাল্টিপল-চয়েস টেস্ট দিয়ে অর্জিত জ্ঞান পরিমাপ করা। সকল শিক্ষার্থীর মধ্যে গড় সময়-সম্পন্ন করে আমরা জানতে পারি কোন মডিউলগুলো শিক্ষার্থীদের জন্য সবচেয়ে বেশি সমস্যার সৃষ্টি করে এবং সেগুলো সহজ করার জন্য কাজ করতে পারি। +আপনি হয়তো যুক্তি দিতে পারেন যে এই পদ্ধতি আদর্শ নয়, কারণ মডিউলগুলোর দৈর্ঘ্য বিভিন্ন হতে পারে। সম্ভবত আরও ন্যায্য হবে সময়কে মডিউলের দৈর্ঘ্য (অক্ষরের সংখ্যার ভিত্তিতে) দিয়ে ভাগ করা এবং সেই মানগুলো তুলনা করা। +যখন আমরা বহু-বিকল্প প্রশ্নের পরীক্ষার ফলাফল বিশ্লেষণ শুরু করি, তখন আমরা চেষ্টা করতে পারি কোন ধারণাগুলি শিক্ষার্থীদের বুঝতে অসুবিধা হচ্ছে তা নির্ধারণ করতে এবং সেই তথ্য ব্যবহার করে বিষয়বস্তু উন্নত করতে। এটি করতে, আমাদের পরীক্ষাগুলি এমনভাবে ডিজাইন করতে হবে যাতে প্রতিটি প্রশ্ন একটি নির্দিষ্ট ধারণা বা জ্ঞানের অংশের সাথে সম্পর্কিত হয়। -যদি আমরা আরও জটিল হতে চাই, তাহলে আমরা প্রতিটি মডিউল সম্পন্ন করতে নেওয়া সময়কে শিক্ষার্থীদের বয়সের বিভাগের সাথে তুলনা করতে পারি। আমরা দেখতে পারি যে কিছু বয়স বিভাগের জন্য মডিউল সম্পন্ন করতে অযথা দীর্ঘ সময় লাগছে, অথবা শিক্ষার্থীরা এটি সম্পন্ন করার আগেই ছেড়ে দিচ্ছে। এটি আমাদের মডিউলের জন্য বয়সের সুপারিশ প্রদান করতে সাহায্য করতে পারে এবং ভুল প্রত্যাশা থেকে মানুষের অসন্তোষ কমাতে পারে। +যদি আমরা আরও জটিল হতে চাই, তাহলে আমরা প্রতিটি মডিউল সম্পন্ন করতে নেওয়া সময়কে শিক্ষার্থীদের বয়সের বিভাগের সাথে তুলনা করতে পারি। আমরা দেখতে পারি যে কিছু বয়সের বিভাগে মডিউল সম্পন্ন করতে অযথা দীর্ঘ সময় লাগে, অথবা শিক্ষার্থীরা এটি সম্পন্ন করার আগেই ছেড়ে দেয়। এটি আমাদের মডিউলের জন্য বয়সের সুপারিশ প্রদান করতে সাহায্য করতে পারে এবং ভুল প্রত্যাশা থেকে মানুষের অসন্তোষ কমাতে পারে। ## 🚀 চ্যালেঞ্জ -এই চ্যালেঞ্জে, আমরা ডেটা সায়েন্স ক্ষেত্রের সাথে সম্পর্কিত ধারণাগুলি খুঁজে বের করার চেষ্টা করব টেক্সট বিশ্লেষণ করে। আমরা ডেটা সায়েন্স সম্পর্কিত একটি উইকিপিডিয়া নিবন্ধ নেব, টেক্সট ডাউনলোড এবং প্রক্রিয়া করব, এবং তারপর একটি ওয়ার্ড ক্লাউড তৈরি করব যেমন এটি: +এই চ্যালেঞ্জে, আমরা ডেটা সায়েন্স ক্ষেত্রের সাথে সম্পর্কিত ধারণাগুলি খুঁজে বের করার চেষ্টা করব পাঠ্য বিশ্লেষণ করে। আমরা ডেটা সায়েন্স সম্পর্কিত একটি উইকিপিডিয়া নিবন্ধ নেব, পাঠ্যটি ডাউনলোড এবং প্রক্রিয়া করব, এবং তারপর একটি ওয়ার্ড ক্লাউড তৈরি করব যা এরকম দেখতে: -![ডেটা সায়েন্সের জন্য ওয়ার্ড ক্লাউড](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![ডেটা সায়েন্সের জন্য ওয়ার্ড ক্লাউড](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.bn.png) -[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') পরিদর্শন করুন কোডটি পড়ার জন্য। আপনি কোডটি চালাতে পারেন এবং দেখতে পারেন এটি কীভাবে রিয়েল টাইমে সমস্ত ডেটা রূপান্তর সম্পন্ন করে। +[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') পরিদর্শন করুন কোডটি পড়ার জন্য। আপনি কোডটি চালাতে পারেন এবং দেখতে পারেন এটি কীভাবে রিয়েল টাইমে সমস্ত ডেটা রূপান্তর সম্পন্ন করে। > যদি আপনি জানেন না কীভাবে জুপিটার নোটবুকে কোড চালাতে হয়, তাহলে [এই নিবন্ধটি](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) দেখুন। @@ -75,4 +75,4 @@ CO_OP_TRANSLATOR_METADATA: --- **অস্বীকৃতি**: -এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদ প্রদানের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা তার জন্য দায়ী থাকব না। \ No newline at end of file +এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদ প্রদানের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়বদ্ধ থাকব না। \ No newline at end of file diff --git a/translations/br/1-Introduction/01-defining-data-science/README.md b/translations/br/1-Introduction/01-defining-data-science/README.md index d487df58..a12d7bdf 100644 --- a/translations/br/1-Introduction/01-defining-data-science/README.md +++ b/translations/br/1-Introduction/01-defining-data-science/README.md @@ -1,8 +1,8 @@ ## Typy dat -Jak jsme již zmínili, data jsou všude kolem nás. Stačí je jen správně zachytit! Je užitečné rozlišovat mezi **strukturovanými** a **nestrukturovanými** daty. Strukturovaná data jsou obvykle reprezentována v dobře organizované formě, často jako tabulka nebo množina tabulek, zatímco nestrukturovaná data jsou jen sbírkou souborů. Někdy můžeme také mluvit o **polostrukturovaných** datech, která mají určitý druh struktury, jež se může značně lišit. +Jak jsme již zmínili, data jsou všude kolem nás. Stačí je jen správně zachytit! Je užitečné rozlišovat mezi **strukturovanými** a **nestrukturovanými** daty. Strukturovaná data jsou obvykle reprezentována v nějaké dobře organizované formě, často jako tabulka nebo více tabulek, zatímco nestrukturovaná data jsou jen sbírkou souborů. Někdy můžeme také mluvit o **polostrukturovaných** datech, která mají určitý druh struktury, jež se však může značně lišit. -| Strukturovaná | Polostrukturovaná | Nestrukturovaná | -| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- | -| Seznam lidí s jejich telefonními čísly | Stránky Wikipedie s odkazy | Text Encyklopedie Britannica | -| Teplota ve všech místnostech budovy každou minutu za posledních 20 let | Sbírka vědeckých článků ve formátu JSON s autory, datem publikace a abstraktem | Sdílené soubory s firemními dokumenty | -| Data o věku a pohlaví všech lidí vstupujících do budovy | Internetové stránky | Surový videozáznam z bezpečnostní kamery | +| Strukturovaná | Polostrukturovaná | Nestrukturovaná | +| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | --------------------------------------- | +| Seznam lidí s jejich telefonními čísly | Stránky Wikipedie s odkazy | Text Encyklopedie Britannica | +| Teplota ve všech místnostech budovy každou minutu za posledních 20 let | Sbírka vědeckých článků ve formátu JSON s autory, datem publikace a abstraktem | Sdílené soubory s firemními dokumenty | +| Data o věku a pohlaví všech lidí vstupujících do budovy | Internetové stránky | Surový videozáznam z bezpečnostní kamery | ## Kde získat data -Existuje mnoho možných zdrojů dat, a je nemožné je všechny vyjmenovat! Nicméně zmíníme některé typické místa, kde můžete data získat: +Existuje mnoho možných zdrojů dat, a není možné je všechny vyjmenovat! Nicméně zmíníme některá typická místa, kde můžete data získat: * **Strukturovaná** - **Internet věcí** (IoT), včetně dat z různých senzorů, jako jsou senzory teploty nebo tlaku, poskytuje mnoho užitečných dat. Například pokud je kancelářská budova vybavena IoT senzory, můžeme automaticky řídit vytápění a osvětlení, abychom minimalizovali náklady. - - **Dotazníky**, které žádáme uživatele vyplnit po nákupu nebo po návštěvě webové stránky. - - **Analýza chování** nám může například pomoci pochopit, jak hluboko uživatel proniká na web, a jaký je typický důvod jeho odchodu. + - **Průzkumy**, které žádáme uživatele vyplnit po nákupu nebo po návštěvě webové stránky. + - **Analýza chování** nám může například pomoci pochopit, jak hluboko uživatel prochází webovou stránku a jaký je typický důvod jejího opuštění. * **Nestrukturovaná** - - **Texty** mohou být bohatým zdrojem poznatků, jako je celkový **skóre sentimentu** nebo extrakce klíčových slov a sémantického významu. - - **Obrázky** nebo **video**. Video z bezpečnostní kamery může být použito k odhadu provozu na silnici a informování lidí o možných dopravních zácpách. + - **Texty** mohou být bohatým zdrojem poznatků, například celkového **skóre sentimentu** nebo extrakce klíčových slov a sémantického významu. + - **Obrázky** nebo **videa**. Video z bezpečnostní kamery může být použito k odhadu provozu na silnici a k informování lidí o možných dopravních zácpách. - **Logy** webových serverů mohou být použity k pochopení, které stránky našeho webu jsou nejčastěji navštěvovány a jak dlouho. * **Polostrukturovaná** - - **Grafy sociálních sítí** mohou být skvělým zdrojem dat o osobnostech uživatelů a potenciální efektivitě šíření informací. - - Když máme sbírku fotografií z večírku, můžeme se pokusit extrahovat data o **skupinové dynamice** vytvořením grafu lidí, kteří se fotili spolu. + - **Grafy sociálních sítí** mohou být skvělým zdrojem dat o osobnostech uživatelů a jejich potenciální efektivitě při šíření informací. + - Pokud máme sbírku fotografií z večírku, můžeme se pokusit extrahovat data o **skupinové dynamice** vytvořením grafu lidí, kteří se spolu fotili. -Pokud znáte různé možné zdroje dat, můžete přemýšlet o různých scénářích, kde lze aplikovat techniky datové vědy k lepšímu pochopení situace a zlepšení obchodních procesů. +Znalost různých možných zdrojů dat vám umožní přemýšlet o různých scénářích, kde lze aplikovat techniky datové vědy k lepšímu pochopení situace a ke zlepšení obchodních procesů. ## Co můžete dělat s daty -V datové vědě se zaměřujeme na následující kroky práce s daty: +V datové vědě se zaměřujeme na následující kroky v cestě dat: -Samozřejmě, v závislosti na konkrétních datech mohou některé kroky chybět (např. když už máme data v databázi nebo když nepotřebujeme trénovat model), nebo mohou být některé kroky opakovány několikrát (například zpracování dat). +Samozřejmě, v závislosti na konkrétních datech mohou některé kroky chybět (např. když již máme data v databázi nebo když nepotřebujeme trénovat model), nebo mohou být některé kroky opakovány několikrát (například zpracování dat). ## Digitalizace a digitální transformace -V posledním desetiletí mnoho podniků začalo chápat důležitost dat při rozhodování. Aby bylo možné aplikovat principy datové vědy na řízení podniku, je nejprve nutné shromáždit nějaká data, tj. převést obchodní procesy do digitální podoby. To se nazývá **digitalizace**. Použití technik datové vědy na tato data k usměrnění rozhodování může vést k významnému zvýšení produktivity (nebo dokonce k zásadní změně podnikání), což se nazývá **digitální transformace**. +V posledním desetiletí si mnoho podniků začalo uvědomovat důležitost dat při rozhodování. Aby bylo možné aplikovat principy datové vědy na řízení podniku, je nejprve nutné shromáždit nějaká data, tj. převést obchodní procesy do digitální podoby. To se nazývá **digitalizace**. Použití technik datové vědy na tato data k usměrnění rozhodování může vést k výraznému zvýšení produktivity (nebo dokonce k zásadní změně podnikání), což se nazývá **digitální transformace**. Podívejme se na příklad. Představme si, že máme kurz datové vědy (jako je tento), který poskytujeme online studentům, a chceme jej pomocí datové vědy zlepšit. Jak to můžeme udělat? -Můžeme začít otázkou „Co lze digitalizovat?“ Nejjednodušší způsob by byl měřit čas, který každý student potřebuje k dokončení každého modulu, a měřit získané znalosti pomocí testu s výběrem odpovědí na konci každého modulu. Průměrováním času potřebného k dokončení mezi všemi studenty můžeme zjistit, které moduly studentům způsobují největší potíže, a pracovat na jejich zjednodušení. -Můžete namítnout, že tento přístup není ideální, protože moduly mohou mít různou délku. Pravděpodobně by bylo spravedlivější rozdělit čas podle délky modulu (v počtu znaků) a porovnat tyto hodnoty místo toho. -Když začneme analyzovat výsledky testů s výběrem odpovědí, můžeme se pokusit zjistit, které koncepty dělají studentům problémy, a využít tyto informace k vylepšení obsahu. Abychom toho dosáhli, musíme navrhnout testy tak, aby každá otázka odpovídala určitému konceptu nebo části znalostí. +Můžeme začít otázkou „Co lze digitalizovat?“ Nejjednodušší způsob by byl měřit čas, který každý student potřebuje k dokončení každého modulu, a měřit získané znalosti pomocí testu s výběrem odpovědí na konci každého modulu. Průměrováním času na dokončení mezi všemi studenty můžeme zjistit, které moduly studentům způsobují největší potíže, a pracovat na jejich zjednodušení. +Můžete namítnout, že tento přístup není ideální, protože moduly mohou mít různou délku. Pravděpodobně by bylo spravedlivější rozdělit čas podle délky modulu (v počtu znaků) a místo toho porovnávat tyto hodnoty. +Když začneme analyzovat výsledky testů s výběrem odpovědí, můžeme se pokusit určit, které koncepty dělají studentům problémy, a využít tyto informace ke zlepšení obsahu. Abychom toho dosáhli, musíme navrhnout testy tak, aby každá otázka odpovídala určitému konceptu nebo části znalostí. -Pokud chceme být ještě složitější, můžeme vykreslit čas potřebný na dokončení každého modulu proti věkové kategorii studentů. Můžeme zjistit, že pro některé věkové kategorie trvá nepřiměřeně dlouho dokončit modul, nebo že studenti modul opouštějí před jeho dokončením. To nám může pomoci poskytnout věková doporučení pro modul a minimalizovat nespokojenost lidí z nesprávných očekávání. +Pokud chceme být ještě důkladnější, můžeme vykreslit čas potřebný na dokončení každého modulu ve vztahu k věkovým kategoriím studentů. Můžeme zjistit, že pro některé věkové kategorie trvá dokončení modulu nepřiměřeně dlouho, nebo že studenti modul nedokončí. To nám může pomoci doporučit vhodný věk pro daný modul a minimalizovat nespokojenost lidí způsobenou nesprávnými očekáváními. ## 🚀 Výzva -V této výzvě se pokusíme najít koncepty relevantní pro oblast Data Science tím, že se podíváme na texty. Vezmeme článek z Wikipedie o Data Science, stáhneme a zpracujeme text a poté vytvoříme slovní mrak, jako je tento: +V této výzvě se pokusíme najít koncepty relevantní pro oblast datové vědy analýzou textů. Vezmeme článek z Wikipedie o datové vědě, stáhneme a zpracujeme text a poté vytvoříme slovní mrak, jako je tento: -![Slovní mrak pro Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Slovní mrak pro datovou vědu](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.cs.png) -Navštivte [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') a projděte si kód. Můžete také spustit kód a sledovat, jak provádí všechny transformace dat v reálném čase. +Navštivte [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') a projděte si kód. Můžete také spustit kód a sledovat, jak provádí všechny transformace dat v reálném čase. > Pokud nevíte, jak spustit kód v Jupyter Notebooku, podívejte se na [tento článek](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). + + ## [Kvíz po přednášce](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## Úkoly -* **Úkol 1**: Upravte výše uvedený kód, abyste zjistili související koncepty pro oblasti **Big Data** a **Machine Learning** -* **Úkol 2**: [Přemýšlejte o scénářích Data Science](assignment.md) +* **Úkol 1**: Upravte výše uvedený kód tak, abyste našli související koncepty pro oblasti **Big Data** a **Machine Learning** +* **Úkol 2**: [Přemýšlejte o scénářích datové vědy](assignment.md) ## Poděkování -Tuto lekci vytvořil s ♥️ [Dmitry Soshnikov](http://soshnikov.com) +Tuto lekci s ♥️ vytvořil [Dmitry Soshnikov](http://soshnikov.com) --- **Prohlášení**: -Tento dokument byl přeložen pomocí služby pro automatický překlad [Co-op Translator](https://github.com/Azure/co-op-translator). Ačkoli se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace doporučujeme profesionální lidský překlad. Neodpovídáme za žádné nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu. \ No newline at end of file +Tento dokument byl přeložen pomocí služby pro automatický překlad [Co-op Translator](https://github.com/Azure/co-op-translator). Ačkoli se snažíme o přesnost, mějte na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Původní dokument v jeho původním jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Neodpovídáme za žádné nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu. \ No newline at end of file diff --git a/translations/da/1-Introduction/01-defining-data-science/README.md b/translations/da/1-Introduction/01-defining-data-science/README.md index 0e9adb7b..6e807c1f 100644 --- a/translations/da/1-Introduction/01-defining-data-science/README.md +++ b/translations/da/1-Introduction/01-defining-data-science/README.md @@ -1,8 +1,8 @@ -## Definition von Daten +## Arten von Daten -In unserem Alltag sind wir ständig von Daten umgeben. Der Text, den Sie gerade lesen, ist Daten. Die Liste der Telefonnummern Ihrer Freunde auf Ihrem Smartphone sind Daten, ebenso wie die aktuelle Uhrzeit auf Ihrer Uhr. Als Menschen arbeiten wir ganz natürlich mit Daten, sei es beim Zählen unseres Geldes oder beim Schreiben von Briefen an Freunde. +Wie bereits erwähnt, sind Daten überall. Wir müssen sie nur auf die richtige Weise erfassen! Es ist hilfreich, zwischen **strukturierten** und **unstrukturierten** Daten zu unterscheiden. Erstere werden typischerweise in einer gut strukturierten Form dargestellt, oft als Tabelle oder mehrere Tabellen, während letztere einfach eine Sammlung von Dateien sind. Manchmal sprechen wir auch von **halbstrukturierten** Daten, die eine gewisse Struktur aufweisen, die jedoch stark variieren kann. -Mit der Erfindung von Computern wurden Daten jedoch wesentlich wichtiger. Die Hauptaufgabe von Computern ist es, Berechnungen durchzuführen, aber sie benötigen Daten, um arbeiten zu können. Daher müssen wir verstehen, wie Computer Daten speichern und verarbeiten. - -Mit dem Aufkommen des Internets hat sich die Rolle von Computern als Datenverarbeitungsgeräte verstärkt. Wenn man darüber nachdenkt, nutzen wir Computer heutzutage immer mehr für die Datenverarbeitung und Kommunikation, anstatt für tatsächliche Berechnungen. Wenn wir eine E-Mail an einen Freund schreiben oder Informationen im Internet suchen, erstellen, speichern, übertragen und manipulieren wir im Wesentlichen Daten. -> Können Sie sich daran erinnern, wann Sie das letzte Mal einen Computer tatsächlich für Berechnungen genutzt haben? - -## Was ist Data Science? - -Laut [Wikipedia](https://en.wikipedia.org/wiki/Data_science) wird **Data Science** definiert als *ein wissenschaftliches Feld, das wissenschaftliche Methoden nutzt, um Wissen und Erkenntnisse aus strukturierten und unstrukturierten Daten zu gewinnen und dieses Wissen sowie umsetzbare Erkenntnisse aus Daten in einer Vielzahl von Anwendungsbereichen anzuwenden*. - -Diese Definition hebt die folgenden wichtigen Aspekte der Data Science hervor: - -* Das Hauptziel der Data Science ist es, **Wissen aus Daten zu gewinnen**, also Daten zu **verstehen**, versteckte Zusammenhänge zu finden und ein **Modell** zu erstellen. -* Data Science verwendet **wissenschaftliche Methoden**, wie Wahrscheinlichkeitsrechnung und Statistik. Tatsächlich argumentierten einige, als der Begriff *Data Science* erstmals eingeführt wurde, dass es sich lediglich um einen neuen, schicken Namen für Statistik handele. Heute ist klar, dass das Feld viel breiter ist. -* Das gewonnene Wissen sollte genutzt werden, um **umsetzbare Erkenntnisse** zu liefern, d.h. praktische Einsichten, die in realen Geschäftssituationen angewendet werden können. -* Wir sollten in der Lage sein, sowohl mit **strukturierten** als auch mit **unstrukturierten** Daten zu arbeiten. Später im Kurs werden wir auf die verschiedenen Datentypen zurückkommen. -* **Anwendungsbereiche** sind ein wichtiger Aspekt, und Data Scientists benötigen oft zumindest ein gewisses Maß an Fachwissen im jeweiligen Problemfeld, z.B. Finanzen, Medizin, Marketing usw. - -> Ein weiterer wichtiger Aspekt der Data Science ist, dass sie untersucht, wie Daten mit Computern gesammelt, gespeichert und verarbeitet werden können. Während die Statistik uns die mathematischen Grundlagen liefert, wendet die Data Science mathematische Konzepte an, um tatsächlich Erkenntnisse aus Daten zu gewinnen. - -Eine Möglichkeit (zugeschrieben [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))), Data Science zu betrachten, ist, sie als ein eigenes Paradigma der Wissenschaft zu sehen: -* **Empirisch**, wobei wir uns hauptsächlich auf Beobachtungen und Ergebnisse von Experimenten stützen -* **Theoretisch**, wo neue Konzepte aus bestehendem wissenschaftlichem Wissen entstehen -* **Computational**, wo wir neue Prinzipien basierend auf computergestützten Experimenten entdecken -* **Datengetrieben**, basierend auf der Entdeckung von Zusammenhängen und Mustern in den Daten - -## Andere verwandte Bereiche - -Da Daten allgegenwärtig sind, ist auch Data Science ein breites Feld, das viele andere Disziplinen berührt. - -## Datentypen - -Wie bereits erwähnt, sind Daten überall. Wir müssen sie nur auf die richtige Weise erfassen! Es ist hilfreich, zwischen **strukturierten** und **unstrukturierten** Daten zu unterscheiden. Erstere werden typischerweise in einer gut strukturierten Form dargestellt, oft als Tabelle oder mehrere Tabellen, während letztere einfach eine Sammlung von Dateien sind. Manchmal sprechen wir auch von **halbstrukturierten** Daten, die eine gewisse Struktur haben, die jedoch stark variieren kann. - -| Strukturiert | Halbstrukturiert | Unstrukturiert | -| ---------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------ | --------------------------------------- | -| Liste von Personen mit ihren Telefonnummern | Wikipedia-Seiten mit Links | Text der Encyclopedia Britannica | +| Strukturiert | Halbstrukturiert | Unstrukturiert | +| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | +| Liste von Personen mit ihren Telefonnummern | Wikipedia-Seiten mit Links | Text der Encyclopedia Britannica | | Temperatur in allen Räumen eines Gebäudes jede Minute der letzten 20 Jahre | Sammlung wissenschaftlicher Artikel im JSON-Format mit Autoren, Veröffentlichungsdatum und Abstract | Dateifreigabe mit Unternehmensdokumenten | -| Daten zu Alter und Geschlecht aller Personen, die das Gebäude betreten | Internetseiten | Rohes Videomaterial von Überwachungskameras | +| Daten zu Alter und Geschlecht aller Personen, die das Gebäude betreten | Internetseiten | Rohes Videomaterial von Überwachungskameras | -## Woher bekommt man Daten? +## Woher man Daten bekommt -Es gibt viele mögliche Datenquellen, und es wäre unmöglich, alle aufzuzählen! Lassen Sie uns jedoch einige typische Orte erwähnen, an denen Sie Daten finden können: +Es gibt viele mögliche Quellen für Daten, und es wäre unmöglich, alle aufzuzählen! Dennoch wollen wir einige typische Orte erwähnen, an denen man Daten finden kann: * **Strukturiert** - - **Internet of Things** (IoT), einschließlich Daten von verschiedenen Sensoren wie Temperatur- oder Drucksensoren, liefert viele nützliche Daten. Zum Beispiel können wir, wenn ein Bürogebäude mit IoT-Sensoren ausgestattet ist, automatisch Heizung und Beleuchtung steuern, um Kosten zu minimieren. - - **Umfragen**, die wir Benutzer nach einem Kauf oder nach dem Besuch einer Website ausfüllen lassen. - - **Verhaltensanalysen** können uns beispielsweise helfen zu verstehen, wie tief ein Benutzer in eine Website eintaucht und was der typische Grund für das Verlassen der Seite ist. + - **Internet of Things** (IoT), einschließlich Daten von verschiedenen Sensoren wie Temperatur- oder Drucksensoren, liefert viele nützliche Daten. Beispielsweise kann ein Bürogebäude mit IoT-Sensoren ausgestattet werden, um Heizung und Beleuchtung automatisch zu steuern und Kosten zu minimieren. + - **Umfragen**, die wir Nutzer nach einem Kauf oder nach dem Besuch einer Website ausfüllen lassen. + - **Verhaltensanalysen** können uns beispielsweise helfen zu verstehen, wie tief ein Nutzer in eine Website eintaucht und was der typische Grund für das Verlassen der Seite ist. * **Unstrukturiert** - - **Texte** können eine reiche Quelle von Erkenntnissen sein, wie z.B. eine allgemeine **Stimmungsbewertung** oder das Extrahieren von Schlüsselwörtern und semantischen Bedeutungen. + - **Texte** können eine reiche Quelle von Erkenntnissen sein, wie etwa eine allgemeine **Stimmungsbewertung** oder das Extrahieren von Schlüsselwörtern und semantischen Bedeutungen. - **Bilder** oder **Videos**. Ein Video von einer Überwachungskamera kann verwendet werden, um den Verkehr auf der Straße zu schätzen und Menschen über mögliche Staus zu informieren. - - **Webserver-Logs** können verwendet werden, um zu verstehen, welche Seiten unserer Website am häufigsten besucht werden und wie lange. + - **Webserver-Logs** können genutzt werden, um zu verstehen, welche Seiten unserer Website am häufigsten besucht werden und wie lange. * **Halbstrukturiert** - - **Soziale Netzwerke** können großartige Datenquellen über Benutzerpersönlichkeiten und potenzielle Effektivität bei der Verbreitung von Informationen sein. - - Wenn wir eine Sammlung von Fotos von einer Party haben, können wir versuchen, **Gruppendynamik**-Daten zu extrahieren, indem wir ein Netzwerk von Personen erstellen, die miteinander fotografiert wurden. + - **Soziale Netzwerk**-Graphen können großartige Datenquellen über Benutzerpersönlichkeiten und die potenzielle Effektivität bei der Verbreitung von Informationen sein. + - Wenn wir eine Sammlung von Fotos von einer Party haben, können wir versuchen, Daten zur **Gruppendynamik** zu extrahieren, indem wir einen Graphen von Personen erstellen, die miteinander fotografiert wurden. -Indem Sie verschiedene mögliche Datenquellen kennen, können Sie über verschiedene Szenarien nachdenken, in denen Data-Science-Techniken angewendet werden können, um die Situation besser zu verstehen und Geschäftsprozesse zu verbessern. +Wenn man die verschiedenen möglichen Datenquellen kennt, kann man über verschiedene Szenarien nachdenken, in denen Datenwissenschaftstechniken angewendet werden können, um die Situation besser zu verstehen und Geschäftsprozesse zu verbessern. -## Was Sie mit Daten machen können +## Was man mit Daten machen kann -In der Data Science konzentrieren wir uns auf die folgenden Schritte der Datenreise: +In der Datenwissenschaft konzentrieren wir uns auf die folgenden Schritte der Datenreise: -Natürlich können je nach den tatsächlichen Daten einige Schritte fehlen (z.B. wenn wir die Daten bereits in der Datenbank haben oder wenn wir kein Modelltraining benötigen), oder einige Schritte können mehrmals wiederholt werden (wie die Datenverarbeitung). +Natürlich können je nach den tatsächlichen Daten einige Schritte fehlen (z. B. wenn die Daten bereits in der Datenbank vorhanden sind oder wenn kein Modelltraining erforderlich ist), oder einige Schritte können mehrmals wiederholt werden (wie die Datenverarbeitung). ## Digitalisierung und digitale Transformation -In den letzten zehn Jahren haben viele Unternehmen begonnen, die Bedeutung von Daten bei Geschäftsentscheidungen zu erkennen. Um Data-Science-Prinzipien auf ein Unternehmen anzuwenden, muss zunächst eine Datensammlung erfolgen, d.h. Geschäftsprozesse müssen in digitale Form übersetzt werden. Dies wird als **Digitalisierung** bezeichnet. Die Anwendung von Data-Science-Techniken auf diese Daten zur Entscheidungsfindung kann zu erheblichen Produktivitätssteigerungen (oder sogar zu einer Neuausrichtung des Unternehmens) führen, was als **digitale Transformation** bezeichnet wird. +In den letzten zehn Jahren haben viele Unternehmen begonnen, die Bedeutung von Daten bei Geschäftsentscheidungen zu erkennen. Um Prinzipien der Datenwissenschaft auf ein Unternehmen anzuwenden, muss zunächst eine Datenerfassung erfolgen, d. h. Geschäftsprozesse müssen in digitale Form übersetzt werden. Dies wird als **Digitalisierung** bezeichnet. Die Anwendung von Datenwissenschaftstechniken auf diese Daten, um Entscheidungen zu lenken, kann zu erheblichen Produktivitätssteigerungen (oder sogar zu einer Neuausrichtung des Geschäfts) führen, was als **digitale Transformation** bezeichnet wird. -Betrachten wir ein Beispiel. Angenommen, wir haben einen Data-Science-Kurs (wie diesen hier), den wir online an Studenten anbieten, und wir möchten Data Science nutzen, um ihn zu verbessern. Wie können wir das tun? +Betrachten wir ein Beispiel. Angenommen, wir haben einen Datenwissenschaftskurs (wie diesen hier), den wir online an Studierende vermitteln, und wir möchten Datenwissenschaft nutzen, um ihn zu verbessern. Wie können wir das tun? -Wir können damit beginnen, uns zu fragen: "Was kann digitalisiert werden?" Der einfachste Weg wäre, die Zeit zu messen, die jeder Student benötigt, um jedes Modul abzuschließen, und das erworbene Wissen zu messen, indem am Ende jedes Moduls ein Multiple-Choice-Test durchgeführt wird. Indem wir die Abschlusszeiten aller Studenten mitteln, können wir herausfinden, welche Module den Studenten die größten Schwierigkeiten bereiten, und daran arbeiten, sie zu vereinfachen. -> Man könnte argumentieren, dass dieser Ansatz nicht ideal ist, da Module unterschiedlich lang sein können. Es wäre wahrscheinlich fairer, die Zeit durch die Länge des Moduls (in Anzahl der Zeichen) zu teilen und stattdessen diese Werte zu vergleichen. +Wir können damit beginnen, uns zu fragen: "Was kann digitalisiert werden?" Der einfachste Weg wäre, die Zeit zu messen, die jeder Studierende benötigt, um jedes Modul abzuschließen, und das erworbene Wissen zu messen, indem am Ende jedes Moduls ein Multiple-Choice-Test durchgeführt wird. Indem wir die Abschlusszeiten aller Studierenden mitteln, können wir herausfinden, welche Module den Studierenden die größten Schwierigkeiten bereiten, und daran arbeiten, sie zu vereinfachen. +Man könnte argumentieren, dass dieser Ansatz nicht ideal ist, da Module unterschiedlich lang sein können. Es wäre wahrscheinlich gerechter, die Zeit durch die Länge des Moduls (in Anzahl der Zeichen) zu teilen und stattdessen diese Werte zu vergleichen. Wenn wir beginnen, die Ergebnisse von Multiple-Choice-Tests zu analysieren, können wir versuchen herauszufinden, welche Konzepte den Schülern Schwierigkeiten bereiten, und diese Informationen nutzen, um die Inhalte zu verbessern. Um dies zu erreichen, müssen wir Tests so gestalten, dass jede Frage einem bestimmten Konzept oder Wissensbereich zugeordnet werden kann. -Wenn wir noch weiter ins Detail gehen möchten, können wir die benötigte Zeit für jedes Modul mit der Alterskategorie der Schüler vergleichen. Dabei könnten wir feststellen, dass es für bestimmte Altersgruppen unangemessen lange dauert, ein Modul abzuschließen, oder dass Schüler abbrechen, bevor sie es beendet haben. Dies kann uns helfen, Altersempfehlungen für das Modul zu geben und die Unzufriedenheit durch falsche Erwartungen zu minimieren. +Wenn wir es noch komplexer machen wollen, können wir die benötigte Zeit für jedes Modul gegen die Alterskategorie der Schüler auftragen. Dabei könnten wir herausfinden, dass es für einige Alterskategorien unangemessen lange dauert, ein Modul abzuschließen, oder dass Schüler abbrechen, bevor sie es beenden. Dies kann uns helfen, Altersempfehlungen für das Modul zu geben und die Unzufriedenheit durch falsche Erwartungen zu minimieren. ## 🚀 Herausforderung In dieser Herausforderung werden wir versuchen, relevante Konzepte für den Bereich Data Science zu finden, indem wir Texte analysieren. Wir nehmen einen Wikipedia-Artikel über Data Science, laden den Text herunter, verarbeiten ihn und erstellen dann eine Wortwolke wie diese: -![Wortwolke für Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Wortwolke für Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.de.png) -Besuche [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), um den Code durchzulesen. Du kannst den Code auch ausführen und sehen, wie er alle Datentransformationen in Echtzeit durchführt. +Besuche [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), um den Code durchzulesen. Du kannst den Code auch ausführen und sehen, wie er alle Datentransformationen in Echtzeit durchführt. > Wenn du nicht weißt, wie man Code in einem Jupyter Notebook ausführt, schau dir [diesen Artikel](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) an. @@ -101,7 +68,7 @@ Besuche [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining ## Aufgaben * **Aufgabe 1**: Ändere den oben genannten Code, um verwandte Konzepte für die Bereiche **Big Data** und **Machine Learning** zu finden. -* **Aufgabe 2**: [Denke über Data-Science-Szenarien nach](assignment.md) +* **Aufgabe 2**: [Denke über Szenarien in der Data Science nach](assignment.md) ## Credits @@ -110,4 +77,4 @@ Diese Lektion wurde mit ♥️ von [Dmitry Soshnikov](http://soshnikov.com) verf --- **Haftungsausschluss**: -Dieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die sich aus der Nutzung dieser Übersetzung ergeben. \ No newline at end of file +Dieses Dokument wurde mithilfe des KI-Übersetzungsdienstes [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, weisen wir darauf hin, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner ursprünglichen Sprache sollte als maßgebliche Quelle betrachtet werden. Für kritische Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die durch die Nutzung dieser Übersetzung entstehen. \ No newline at end of file diff --git a/translations/el/1-Introduction/01-defining-data-science/README.md b/translations/el/1-Introduction/01-defining-data-science/README.md index 81c9911e..798b1fe4 100644 --- a/translations/el/1-Introduction/01-defining-data-science/README.md +++ b/translations/el/1-Introduction/01-defining-data-science/README.md @@ -1,8 +1,8 @@ ## Tipos de Datos -Como ya hemos mencionado, los datos están en todas partes. ¡Solo necesitamos capturarlos de la manera correcta! Es útil distinguir entre datos **estructurados** y **no estructurados**. Los primeros suelen representarse en una forma bien organizada, a menudo como una tabla o varias tablas, mientras que los segundos son simplemente una colección de archivos. A veces también podemos hablar de datos **semi-estructurados**, que tienen algún tipo de estructura que puede variar considerablemente. +Como ya hemos mencionado, los datos están en todas partes. ¡Solo necesitamos capturarlos de la manera correcta! Es útil distinguir entre datos **estructurados** y **no estructurados**. Los primeros suelen estar representados en una forma bien organizada, a menudo como una tabla o varias tablas, mientras que los segundos son simplemente una colección de archivos. A veces también podemos hablar de datos **semi-estructurados**, que tienen algún tipo de estructura que puede variar considerablemente. -| Estructurados | Semi-estructurados | No estructurados | +| Estructurados | Semi-estructurados | No estructurados | | ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | | Lista de personas con sus números de teléfono | Páginas de Wikipedia con enlaces | Texto de la Enciclopedia Británica | | Temperatura en todas las habitaciones de un edificio cada minuto durante los últimos 20 años | Colección de artículos científicos en formato JSON con autores, fecha de publicación y resumen | Carpeta compartida con documentos corporativos | -| Datos de edad y género de todas las personas que ingresan al edificio | Páginas de Internet | Vídeo sin procesar de una cámara de vigilancia | +| Datos de edad y género de todas las personas que ingresan al edificio | Páginas de Internet | Vídeo sin procesar de una cámara de vigilancia | ## Dónde obtener Datos @@ -24,16 +24,16 @@ Existen muchas fuentes posibles de datos, ¡y sería imposible enumerarlas todas * **Estructurados** - **Internet de las Cosas** (IoT), incluyendo datos de diferentes sensores, como sensores de temperatura o presión, que proporcionan muchos datos útiles. Por ejemplo, si un edificio de oficinas está equipado con sensores IoT, podemos controlar automáticamente la calefacción y la iluminación para minimizar costos. - **Encuestas** que pedimos a los usuarios completar después de una compra o tras visitar un sitio web. - - **Análisis de comportamiento** puede, por ejemplo, ayudarnos a entender cuán profundamente un usuario navega en un sitio y cuál es la razón típica para abandonar el sitio. + - **Análisis de comportamiento** puede, por ejemplo, ayudarnos a entender qué tan profundamente un usuario navega en un sitio y cuál es la razón típica para abandonar el sitio. * **No estructurados** - **Textos** pueden ser una rica fuente de información, como un puntaje general de **sentimiento**, o la extracción de palabras clave y significado semántico. - - **Imágenes** o **Vídeos**. Un vídeo de una cámara de vigilancia puede usarse para estimar el tráfico en la carretera e informar a las personas sobre posibles atascos. + - **Imágenes** o **Vídeos**. Un vídeo de una cámara de vigilancia puede ser usado para estimar el tráfico en la carretera e informar a las personas sobre posibles atascos. - **Registros** de servidores web pueden ser utilizados para entender qué páginas de nuestro sitio son las más visitadas y durante cuánto tiempo. * **Semi-estructurados** - - Los gráficos de **Redes Sociales** pueden ser excelentes fuentes de datos sobre personalidades de usuarios y la posible efectividad en la difusión de información. - - Cuando tenemos un montón de fotografías de una fiesta, podemos intentar extraer datos de **Dinámica de Grupo** construyendo un gráfico de personas que se toman fotos juntas. + - Los gráficos de **Redes Sociales** pueden ser excelentes fuentes de datos sobre personalidades de los usuarios y la posible efectividad en la difusión de información. + - Cuando tenemos un montón de fotografías de una fiesta, podemos intentar extraer datos sobre **Dinámicas de Grupo** construyendo un gráfico de personas que se toman fotos juntas. -Conociendo las diferentes fuentes posibles de datos, puedes pensar en distintos escenarios donde las técnicas de ciencia de datos pueden aplicarse para comprender mejor la situación y mejorar los procesos empresariales. +Conociendo las diferentes fuentes posibles de datos, puedes pensar en distintos escenarios donde las técnicas de ciencia de datos pueden ser aplicadas para comprender mejor la situación y mejorar los procesos empresariales. ## Qué puedes hacer con los Datos @@ -43,23 +43,23 @@ Por supuesto, dependiendo de los datos específicos, algunos pasos pueden faltar ## Digitalización y Transformación Digital -En la última década, muchas empresas han comenzado a entender la importancia de los datos al tomar decisiones empresariales. Para aplicar los principios de la ciencia de datos en la gestión de un negocio, primero se necesita recopilar algunos datos, es decir, traducir los procesos empresariales a forma digital. Esto se conoce como **digitalización**. Aplicar técnicas de ciencia de datos a estos datos para guiar decisiones puede llevar a aumentos significativos en la productividad (o incluso a un cambio de rumbo en el negocio), lo que se denomina **transformación digital**. +En la última década, muchas empresas han comenzado a entender la importancia de los datos al tomar decisiones empresariales. Para aplicar los principios de la ciencia de datos a la gestión de un negocio, primero se necesita recopilar algunos datos, es decir, traducir los procesos empresariales a forma digital. Esto se conoce como **digitalización**. Aplicar técnicas de ciencia de datos a estos datos para guiar decisiones puede llevar a aumentos significativos en la productividad (o incluso a un cambio de rumbo en el negocio), lo que se denomina **transformación digital**. Consideremos un ejemplo. Supongamos que tenemos un curso de ciencia de datos (como este) que impartimos en línea a estudiantes, y queremos usar la ciencia de datos para mejorarlo. ¿Cómo podemos hacerlo? -Podemos comenzar preguntando "¿Qué se puede digitalizar?" La forma más sencilla sería medir el tiempo que cada estudiante tarda en completar cada módulo y evaluar el conocimiento adquirido mediante un examen de opción múltiple al final de cada módulo. Promediando el tiempo de finalización entre todos los estudiantes, podemos identificar qué módulos presentan más dificultades y trabajar en simplificarlos. -> Podrías argumentar que este enfoque no es ideal, porque los módulos pueden tener diferentes longitudes. Probablemente sea más justo dividir el tiempo por la longitud del módulo (en número de caracteres) y comparar esos valores en su lugar. +Podemos empezar preguntando "¿Qué se puede digitalizar?" La forma más sencilla sería medir el tiempo que cada estudiante tarda en completar cada módulo y evaluar el conocimiento adquirido mediante un examen de opción múltiple al final de cada módulo. Promediando el tiempo de finalización entre todos los estudiantes, podemos identificar qué módulos presentan más dificultades y trabajar en simplificarlos. +> Podrías argumentar que este enfoque no es ideal, porque los módulos pueden tener longitudes diferentes. Probablemente sea más justo dividir el tiempo por la longitud del módulo (en número de caracteres) y comparar esos valores en su lugar. Cuando comenzamos a analizar los resultados de pruebas de opción múltiple, podemos intentar determinar qué conceptos les resultan difíciles de entender a los estudiantes y usar esa información para mejorar el contenido. Para lograrlo, necesitamos diseñar las pruebas de manera que cada pregunta se asocie con un concepto o fragmento de conocimiento específico. -Si queremos complicarlo aún más, podemos graficar el tiempo que toma cada módulo en relación con la categoría de edad de los estudiantes. Podríamos descubrir que para algunas categorías de edad toma un tiempo excesivamente largo completar el módulo, o que los estudiantes abandonan antes de terminarlo. Esto puede ayudarnos a proporcionar recomendaciones de edad para el módulo y minimizar la insatisfacción de las personas debido a expectativas equivocadas. +Si queremos complicarlo aún más, podemos graficar el tiempo que toma cada módulo en relación con la categoría de edad de los estudiantes. Podríamos descubrir que para algunas categorías de edad, completar el módulo lleva un tiempo excesivamente largo o que los estudiantes abandonan antes de terminarlo. Esto puede ayudarnos a proporcionar recomendaciones de edad para el módulo y minimizar la insatisfacción de las personas debido a expectativas incorrectas. ## 🚀 Desafío En este desafío, intentaremos encontrar conceptos relevantes para el campo de la Ciencia de Datos analizando textos. Tomaremos un artículo de Wikipedia sobre Ciencia de Datos, descargaremos y procesaremos el texto, y luego construiremos una nube de palabras como esta: -![Nube de Palabras para Ciencia de Datos](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Nube de Palabras para Ciencia de Datos](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.es.png) -Visita [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') para revisar el código. También puedes ejecutar el código y ver cómo realiza todas las transformaciones de datos en tiempo real. +Visita [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') para leer el código. También puedes ejecutar el código y ver cómo realiza todas las transformaciones de datos en tiempo real. > Si no sabes cómo ejecutar código en un Jupyter Notebook, consulta [este artículo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). diff --git a/translations/fa/1-Introduction/01-defining-data-science/README.md b/translations/fa/1-Introduction/01-defining-data-science/README.md index a4dec036..387a26a8 100644 --- a/translations/fa/1-Introduction/01-defining-data-science/README.md +++ b/translations/fa/1-Introduction/01-defining-data-science/README.md @@ -1,41 +1,41 @@ -## انواع داده‌ها +## انواع داده -همان‌طور که قبلاً اشاره کردیم، داده‌ها همه‌جا هستند. فقط باید آن‌ها را به روش درست جمع‌آوری کنیم! مفید است که بین داده‌های **ساخت‌یافته** و **غیرساخت‌یافته** تمایز قائل شویم. داده‌های ساخت‌یافته معمولاً به صورت منظم و در قالب جدول یا چندین جدول ارائه می‌شوند، در حالی که داده‌های غیرساخت‌یافته فقط مجموعه‌ای از فایل‌ها هستند. گاهی اوقات می‌توانیم درباره داده‌های **نیمه‌ساخت‌یافته** صحبت کنیم که دارای نوعی ساختار هستند که ممکن است بسیار متفاوت باشد. +همان‌طور که قبلاً اشاره کردیم، داده‌ها همه‌جا هستند. فقط باید آن‌ها را به روش درست جمع‌آوری کنیم! مفید است که بین داده‌های **ساختاریافته** و **غیرساختاریافته** تمایز قائل شویم. داده‌های ساختاریافته معمولاً به صورت منظم و در قالب جدول یا چندین جدول ارائه می‌شوند، در حالی که داده‌های غیرساختاریافته فقط مجموعه‌ای از فایل‌ها هستند. گاهی اوقات می‌توانیم درباره داده‌های **نیمه‌ساختاریافته** صحبت کنیم که دارای نوعی ساختار هستند اما این ساختار ممکن است بسیار متغیر باشد. -| ساخت‌یافته | نیمه‌ساخت‌یافته | غیرساخت‌یافته | -| ----------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------- | ---------------------------------------- | -| لیست افراد با شماره تلفن‌هایشان | صفحات ویکی‌پدیا با لینک‌ها | متن دایرة‌المعارف بریتانیکا | -| دمای تمام اتاق‌های یک ساختمان در هر دقیقه طی ۲۰ سال گذشته | مجموعه مقالات علمی در قالب JSON با نویسندگان، تاریخ انتشار و چکیده | اشتراک فایل با اسناد شرکتی | -| داده‌های سن و جنسیت تمام افرادی که وارد ساختمان می‌شوند | صفحات اینترنت | ویدئوی خام از دوربین نظارتی | +| ساختاریافته | نیمه‌ساختاریافته | غیرساختاریافته | +| ------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------- | --------------------------------------- | +| لیست افراد همراه با شماره تلفن‌هایشان | صفحات ویکی‌پدیا با لینک‌ها | متن دایرة‌المعارف بریتانیکا | +| دمای تمام اتاق‌های یک ساختمان در هر دقیقه طی ۲۰ سال گذشته | مجموعه مقالات علمی در قالب JSON همراه با نویسندگان، تاریخ انتشار و چکیده | اشتراک فایل با اسناد شرکتی | +| داده‌های مربوط به سن و جنسیت تمام افرادی که وارد ساختمان می‌شوند | صفحات اینترنت | ویدئوی خام از دوربین نظارتی | -## از کجا داده‌ها را به دست آوریم +## از کجا داده تهیه کنیم -منابع زیادی برای داده‌ها وجود دارد و فهرست کردن همه آن‌ها غیرممکن است! با این حال، بیایید برخی از مکان‌های معمولی که می‌توان داده‌ها را از آن‌ها به دست آورد، ذکر کنیم: +منابع زیادی برای تهیه داده وجود دارد و فهرست کردن همه آن‌ها غیرممکن است! با این حال، بیایید برخی از مکان‌های معمول برای تهیه داده را ذکر کنیم: -* **ساخت‌یافته** - - **اینترنت اشیا** (IoT)، شامل داده‌های حسگرهای مختلف مانند حسگرهای دما یا فشار، داده‌های مفیدی ارائه می‌دهد. به عنوان مثال، اگر یک ساختمان اداری به حسگرهای IoT مجهز باشد، می‌توانیم به طور خودکار گرمایش و روشنایی را کنترل کنیم تا هزینه‌ها را به حداقل برسانیم. +* **ساختاریافته** + - **اینترنت اشیا** (IoT)، شامل داده‌های حسگرهای مختلف مانند حسگرهای دما یا فشار، داده‌های مفیدی ارائه می‌دهد. به عنوان مثال، اگر یک ساختمان اداری به حسگرهای IoT مجهز باشد، می‌توانیم به‌طور خودکار گرمایش و روشنایی را کنترل کنیم تا هزینه‌ها را به حداقل برسانیم. - **نظرسنجی‌ها** که از کاربران می‌خواهیم پس از خرید یا بازدید از یک وب‌سایت تکمیل کنند. - - **تحلیل رفتار** می‌تواند به ما کمک کند بفهمیم کاربران چقدر در یک سایت پیش می‌روند و دلیل معمول ترک سایت چیست. -* **غیرساخت‌یافته** + - **تحلیل رفتار** می‌تواند به ما کمک کند بفهمیم کاربران تا چه حد در یک سایت پیش می‌روند و دلیل معمول ترک سایت چیست. +* **غیرساختاریافته** - **متون** می‌توانند منبع غنی از بینش‌ها باشند، مانند امتیاز کلی **احساسات** یا استخراج کلمات کلیدی و معنای مفهومی. - - **تصاویر** یا **ویدئو**. یک ویدئو از دوربین نظارتی می‌تواند برای تخمین ترافیک جاده استفاده شود و مردم را از احتمال ترافیک سنگین مطلع کند. + - **تصاویر** یا **ویدئو**. یک ویدئو از دوربین نظارتی می‌تواند برای تخمین ترافیک جاده استفاده شود و به مردم درباره احتمال ترافیک سنگین اطلاع دهد. - **لاگ‌های سرور وب** می‌توانند برای فهمیدن اینکه کدام صفحات سایت ما بیشتر بازدید می‌شوند و برای چه مدت، استفاده شوند. -* **نیمه‌ساخت‌یافته** - - **گراف‌های شبکه‌های اجتماعی** می‌توانند منابع عالی داده درباره شخصیت کاربران و اثربخشی احتمالی در انتشار اطلاعات باشند. - - وقتی مجموعه‌ای از عکس‌های یک مهمانی داریم، می‌توانیم سعی کنیم داده‌های **پویایی گروه** را با ساختن گرافی از افرادی که با یکدیگر عکس می‌گیرند، استخراج کنیم. +* **نیمه‌ساختاریافته** + - **گراف‌های شبکه‌های اجتماعی** می‌توانند منابع عالی داده درباره شخصیت کاربران و اثربخشی بالقوه آن‌ها در انتشار اطلاعات باشند. + - وقتی مجموعه‌ای از عکس‌های یک مهمانی داریم، می‌توانیم سعی کنیم داده‌های **پویایی گروهی** را با ساختن گرافی از افرادی که با یکدیگر عکس می‌گیرند، استخراج کنیم. -با دانستن منابع مختلف داده، می‌توانید درباره سناریوهای مختلفی فکر کنید که تکنیک‌های علم داده می‌توانند برای درک بهتر وضعیت و بهبود فرآیندهای کسب‌وکار به کار گرفته شوند. +با دانستن منابع مختلف داده، می‌توانید درباره سناریوهای مختلفی فکر کنید که در آن‌ها تکنیک‌های علم داده می‌توانند برای درک بهتر وضعیت و بهبود فرآیندهای کسب‌وکار به کار گرفته شوند. -## چه کاری می‌توان با داده‌ها انجام داد +## چه کارهایی می‌توان با داده انجام داد در علم داده، ما بر مراحل زیر در مسیر داده تمرکز می‌کنیم: @@ -43,23 +43,23 @@ CO_OP_TRANSLATOR_METADATA: ## دیجیتالی‌سازی و تحول دیجیتال -در دهه گذشته، بسیاری از کسب‌وکارها اهمیت داده‌ها را در تصمیم‌گیری‌های تجاری درک کرده‌اند. برای اعمال اصول علم داده در مدیریت کسب‌وکار، ابتدا باید داده‌هایی جمع‌آوری شود، یعنی فرآیندهای کسب‌وکار به شکل دیجیتال ترجمه شوند. این فرآیند به عنوان **دیجیتالی‌سازی** شناخته می‌شود. استفاده از تکنیک‌های علم داده بر روی این داده‌ها برای هدایت تصمیم‌گیری‌ها می‌تواند منجر به افزایش قابل توجه بهره‌وری (یا حتی تغییر مسیر کسب‌وکار) شود که به آن **تحول دیجیتال** می‌گویند. +در دهه گذشته، بسیاری از کسب‌وکارها اهمیت داده‌ها را در تصمیم‌گیری‌های تجاری درک کرده‌اند. برای اعمال اصول علم داده در مدیریت یک کسب‌وکار، ابتدا باید داده‌هایی جمع‌آوری شود، یعنی فرآیندهای کسب‌وکار به شکل دیجیتال ترجمه شوند. این فرآیند به عنوان **دیجیتالی‌سازی** شناخته می‌شود. استفاده از تکنیک‌های علم داده بر روی این داده‌ها برای هدایت تصمیم‌گیری‌ها می‌تواند منجر به افزایش قابل توجه بهره‌وری (یا حتی تغییر مسیر کسب‌وکار) شود که به آن **تحول دیجیتال** می‌گویند. بیایید یک مثال را بررسی کنیم. فرض کنید ما یک دوره علم داده (مانند همین دوره) داریم که به صورت آنلاین به دانشجویان ارائه می‌شود و می‌خواهیم از علم داده برای بهبود آن استفاده کنیم. چگونه می‌توانیم این کار را انجام دهیم؟ -می‌توانیم با پرسیدن "چه چیزی می‌تواند دیجیتالی شود؟" شروع کنیم. ساده‌ترین راه این است که زمان لازم برای هر دانشجو برای تکمیل هر ماژول را اندازه‌گیری کنیم و دانش کسب‌شده را با دادن یک آزمون چندگزینه‌ای در پایان هر ماژول ارزیابی کنیم. با میانگین‌گیری زمان تکمیل در میان همه دانشجویان، می‌توانیم بفهمیم کدام ماژول‌ها بیشترین دشواری را برای دانشجویان ایجاد می‌کنند و روی ساده‌تر کردن آن‌ها کار کنیم. -ممکن است بحث کنید که این روش ایده‌آل نیست، زیرا طول ماژول‌ها می‌تواند متفاوت باشد. احتمالاً منصفانه‌تر است که زمان را بر اساس طول ماژول (بر حسب تعداد کاراکترها) تقسیم کرده و سپس این مقادیر را با یکدیگر مقایسه کنید. +می‌توانیم با پرسیدن این سؤال شروع کنیم: "چه چیزی می‌تواند دیجیتالی شود؟" ساده‌ترین راه این است که زمان لازم برای تکمیل هر ماژول توسط هر دانشجو را اندازه‌گیری کنیم و دانش کسب‌شده را با ارائه یک آزمون چندگزینه‌ای در پایان هر ماژول ارزیابی کنیم. با میانگین‌گیری زمان تکمیل در میان همه دانشجویان، می‌توانیم بفهمیم کدام ماژول‌ها برای دانشجویان بیشترین دشواری را ایجاد می‌کنند و روی ساده‌تر کردن آن‌ها کار کنیم. +ممکن است استدلال کنید که این روش ایده‌آل نیست، زیرا ماژول‌ها می‌توانند طول‌های متفاوتی داشته باشند. احتمالاً منصفانه‌تر است که زمان را بر اساس طول ماژول (بر حسب تعداد کاراکترها) تقسیم کرده و سپس آن مقادیر را با یکدیگر مقایسه کنیم. هنگامی که شروع به تحلیل نتایج آزمون‌های چندگزینه‌ای می‌کنیم، می‌توانیم تلاش کنیم تا مفاهیمی را که دانش‌آموزان در درک آن‌ها مشکل دارند شناسایی کنیم و از این اطلاعات برای بهبود محتوا استفاده کنیم. برای انجام این کار، باید آزمون‌ها را به گونه‌ای طراحی کنیم که هر سؤال به یک مفهوم یا بخش خاصی از دانش مرتبط باشد. -اگر بخواهیم پیچیدگی بیشتری اضافه کنیم، می‌توانیم زمان صرف‌شده برای هر ماژول را در مقابل دسته‌بندی سنی دانش‌آموزان رسم کنیم. ممکن است متوجه شویم که برای برخی دسته‌های سنی، تکمیل ماژول زمان بسیار زیادی می‌برد یا دانش‌آموزان قبل از تکمیل آن انصراف می‌دهند. این موضوع می‌تواند به ما کمک کند تا توصیه‌های سنی برای ماژول ارائه دهیم و نارضایتی افراد از انتظارات اشتباه را به حداقل برسانیم. +اگر بخواهیم موضوع را پیچیده‌تر کنیم، می‌توانیم زمان صرف‌شده برای هر ماژول را در مقابل دسته‌بندی سنی دانش‌آموزان رسم کنیم. ممکن است متوجه شویم که برای برخی دسته‌های سنی، تکمیل ماژول زمان بسیار زیادی می‌برد یا دانش‌آموزان قبل از تکمیل آن انصراف می‌دهند. این موضوع می‌تواند به ما کمک کند تا توصیه‌های سنی برای ماژول ارائه دهیم و نارضایتی افراد از انتظارات اشتباه را به حداقل برسانیم. ## 🚀 چالش -در این چالش، تلاش خواهیم کرد تا مفاهیم مرتبط با حوزه علم داده را با بررسی متون پیدا کنیم. ما یک مقاله ویکی‌پدیا درباره علم داده را دانلود کرده و متن آن را پردازش می‌کنیم، سپس یک ابر واژه مانند این نمونه ایجاد می‌کنیم: +در این چالش، تلاش خواهیم کرد تا مفاهیم مرتبط با حوزه علم داده را با بررسی متون پیدا کنیم. ما یک مقاله ویکی‌پدیا درباره علم داده را دانلود و پردازش می‌کنیم و سپس یک ابر کلمات مانند این تصویر ایجاد می‌کنیم: -![ابر واژه برای علم داده](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![ابر کلمات برای علم داده](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.fa.png) -به [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') مراجعه کنید تا کد را مرور کنید. همچنین می‌توانید کد را اجرا کنید و ببینید که چگونه تمام تبدیل‌های داده را به صورت زنده انجام می‌دهد. +به [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') مراجعه کنید تا کد را مرور کنید. همچنین می‌توانید کد را اجرا کنید و ببینید که چگونه تمام تبدیل‌های داده را به صورت زنده انجام می‌دهد. > اگر نمی‌دانید چگونه کد را در یک Jupyter Notebook اجرا کنید، به [این مقاله](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) نگاهی بیندازید. @@ -72,9 +72,9 @@ CO_OP_TRANSLATOR_METADATA: ## اعتبارها -این درس با ♥️ توسط [Dmitry Soshnikov](http://soshnikov.com) نوشته شده است. +این درس با ♥️ توسط [دمیتری سوشنیکوف](http://soshnikov.com) نوشته شده است. --- **سلب مسئولیت**: -این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما برای دقت تلاش می‌کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادقتی‌ها باشند. سند اصلی به زبان بومی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفه‌ای انسانی توصیه می‌شود. ما هیچ مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم. \ No newline at end of file +این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه می‌شود از ترجمه حرفه‌ای انسانی استفاده کنید. ما مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم. \ No newline at end of file diff --git a/translations/fi/1-Introduction/01-defining-data-science/README.md b/translations/fi/1-Introduction/01-defining-data-science/README.md index d02490df..b29755e3 100644 --- a/translations/fi/1-Introduction/01-defining-data-science/README.md +++ b/translations/fi/1-Introduction/01-defining-data-science/README.md @@ -1,109 +1,63 @@ -# Määritellään datatiede +## Tietotyypit -| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | -| :----------------------------------------------------------------------------------------------------: | -| Datatieteen määritelmä - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | +Kuten jo mainittiin, dataa on kaikkialla. Meidän täytyy vain osata kerätä se oikealla tavalla! On hyödyllistä erottaa toisistaan **strukturoitu** ja **strukturoimaton** data. Strukturoitu data esitetään yleensä hyvin jäsennellyssä muodossa, usein taulukkona tai useina taulukoina, kun taas strukturoimaton data on vain kokoelma tiedostoja. Joskus voidaan myös puhua **puolistrukturoidusta** datasta, jolla on jonkinlainen rakenne, mutta joka voi vaihdella suuresti. ---- - -[![Datatieteen määritelmä - Video](../../../../1-Introduction/01-defining-data-science/images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) - -## [Esiluentovisa](https://ff-quizzes.netlify.app/en/ds/quiz/0) - -## Mitä data on? -Arjessamme olemme jatkuvasti datan ympäröimiä. Teksti, jota luet juuri nyt, on dataa. Ystäviesi puhelinnumerolista älypuhelimessasi on dataa, samoin kuin kellossasi näkyvä nykyinen aika. Ihmisinä käsittelemme luonnostaan dataa esimerkiksi laskemalla rahojamme tai kirjoittamalla kirjeitä ystävillemme. - -Tietokoneiden keksimisen myötä datasta tuli kuitenkin paljon tärkeämpää. Tietokoneiden päätehtävä on suorittaa laskutoimituksia, mutta ne tarvitsevat dataa toimiakseen. Siksi meidän on ymmärrettävä, miten tietokoneet tallentavat ja käsittelevät dataa. - -Internetin myötä tietokoneiden rooli datan käsittelylaitteina kasvoi. Jos mietit asiaa, käytämme nykyään tietokoneita yhä enemmän datan käsittelyyn ja viestintään kuin varsinaisiin laskutoimituksiin. Kun kirjoitamme sähköpostia ystävälle tai etsimme tietoa internetistä, luomme, tallennamme, siirrämme ja käsittelemme dataa. -> Muistatko, milloin viimeksi käytit tietokonetta varsinaisesti laskemiseen? - -## Mitä on datatiede? - -[Wikipedian](https://en.wikipedia.org/wiki/Data_science) mukaan **datatiede** määritellään *tieteelliseksi alaksi, joka käyttää tieteellisiä menetelmiä tiedon ja oivallusten hankkimiseen rakenteisesta ja rakenteettomasta datasta sekä soveltaa näitä oivalluksia eri sovellusalueilla*. - -Tämä määritelmä korostaa seuraavia datatieteen tärkeitä piirteitä: +| Strukturoitu | Puolistrukturoitu | Strukturoimaton | +| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- | +| Lista ihmisistä ja heidän puhelinnumeroistaan | Wikipedian sivut linkkeineen | Encyclopedia Britannican teksti | +| Lämpötila kaikissa rakennuksen huoneissa joka minuutti viimeisen 20 vuoden ajalta | Tieteellisten artikkelien kokoelma JSON-muodossa, sisältäen kirjoittajat, julkaisupäivän ja tiivistelmän | Yrityksen dokumenttien tiedostojako | +| Tiedot rakennukseen saapuvien ihmisten iästä ja sukupuolesta | Internet-sivut | Valvontakameran raaka videokuva | -* Datatieteen päätavoite on **tiedon hankkiminen** datasta, toisin sanoen datan **ymmärtäminen**, piilotettujen yhteyksien löytäminen ja **mallin** rakentaminen. -* Datatiede käyttää **tieteellisiä menetelmiä**, kuten todennäköisyyslaskentaa ja tilastotiedettä. Kun termi *datatiede* otettiin ensimmäistä kertaa käyttöön, jotkut väittivät, että se oli vain uusi hieno nimi tilastotieteelle. Nykyään on selvää, että ala on paljon laajempi. -* Hankittua tietoa tulisi soveltaa tuottamaan **käytännön oivalluksia**, eli käytännöllisiä näkemyksiä, joita voidaan hyödyntää todellisissa liiketoimintatilanteissa. -* Meidän tulisi pystyä käsittelemään sekä **rakenteista** että **rakenteetonta** dataa. Palaamme myöhemmin kurssilla keskustelemaan eri datatyypeistä. -* **Sovellusalue** on tärkeä käsite, ja datatieteilijöillä on usein oltava ainakin jonkin verran asiantuntemusta ongelma-alueesta, esimerkiksi rahoituksesta, lääketieteestä tai markkinoinnista. +## Mistä saada dataa -> Toinen tärkeä datatieteen piirre on, että se tutkii, miten dataa voidaan kerätä, tallentaa ja käsitellä tietokoneilla. Vaikka tilastotiede antaa meille matemaattiset perusteet, datatiede soveltaa näitä matemaattisia käsitteitä saadakseen oivalluksia datasta. +Datalla on lukemattomia mahdollisia lähteitä, eikä kaikkia voi mitenkään listata! Mainitaan kuitenkin joitakin tyypillisiä paikkoja, joista dataa voi saada: -Yksi tapa (liitetty [Jim Grayhin](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) tarkastella datatiedettä on pitää sitä erillisenä tieteen paradigmana: -* **Empiirinen**, jossa tukeudutaan pääasiassa havaintoihin ja kokeiden tuloksiin -* **Teoreettinen**, jossa uudet käsitteet syntyvät olemassa olevasta tieteellisestä tiedosta -* **Laskennallinen**, jossa uusia periaatteita löydetään laskennallisten kokeiden avulla -* **Dataohjautuva**, jossa löydetään yhteyksiä ja kuvioita datasta - -## Muita läheisiä aloja - -Koska data on kaikkialla, myös datatiede on laaja ala, joka koskettaa monia muita tieteenaloja. - -## Datatyypit - -Kuten jo mainitsimme, dataa on kaikkialla. Meidän tarvitsee vain tallentaa se oikealla tavalla! On hyödyllistä erottaa toisistaan **rakenteinen** ja **rakenteeton** data. Ensimmäinen on tyypillisesti esitetty hyvin jäsennellyssä muodossa, usein taulukkona tai useina taulukkoina, kun taas jälkimmäinen on vain kokoelma tiedostoja. Joskus voidaan puhua myös **puolistrukturoidusta** datasta, jolla on jonkinlainen rakenne, joka voi vaihdella suuresti. - -| Rakenteinen | Puolistrukturoitu | Rakenteeton | -| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- | ------------------------------------ | -| Lista ihmisistä ja heidän puhelinnumeroistaan | Wikipedian sivut linkkeineen | Encyclopedia Britannican teksti | -| Rakennuksen kaikkien huoneiden lämpötila joka minuutti viimeisen 20 vuoden ajalta | Tieteellisten artikkelien kokoelma JSON-muodossa, sisältäen kirjoittajat, julkaisupäivän ja tiivistelmän | Yrityksen asiakirjojen tiedostokansio | -| Rakennukseen saapuvien ihmisten ikä- ja sukupuolitiedot | Internet-sivut | Valvontakameran raaka videokuva | - -## Mistä dataa saa - -Datalla on lukemattomia mahdollisia lähteitä, eikä kaikkia voi listata! Mainitaan kuitenkin joitakin tyypillisiä paikkoja, joista dataa voi saada: - -* **Rakenteinen** - - **Esineiden internet** (IoT), mukaan lukien erilaisista sensoreista, kuten lämpötila- tai paineantureista, saatava data tarjoaa paljon hyödyllistä tietoa. Esimerkiksi, jos toimistorakennus on varustettu IoT-sensoreilla, voimme automaattisesti ohjata lämmitystä ja valaistusta kustannusten minimoimiseksi. - - **Kyselyt**, joita pyydämme käyttäjiä täyttämään esimerkiksi ostoksen jälkeen tai verkkosivustolla vierailun jälkeen. - - **Käyttäytymisanalyysi** voi auttaa meitä ymmärtämään esimerkiksi, kuinka syvälle käyttäjä menee sivustolla ja mikä on tyypillinen syy sivustolta poistumiseen. -* **Rakenteeton** - - **Tekstit** voivat olla rikas oivallusten lähde, kuten yleinen **tunnelmapisteytys** tai avainsanojen ja semanttisen merkityksen poimiminen. - - **Kuvat** tai **videot**. Valvontakameran videoita voidaan käyttää liikenteen arvioimiseen ja ihmisten tiedottamiseen mahdollisista ruuhkista. - - Verkkopalvelimen **lokitiedot** voivat auttaa ymmärtämään, mitkä sivuston sivut ovat suosituimpia ja kuinka kauan niillä viivytään. +* **Strukturoitu** + - **Esineiden internet** (IoT), mukaan lukien erilaiset sensorit, kuten lämpötila- tai paineanturit, tuottavat paljon hyödyllistä dataa. Esimerkiksi, jos toimistorakennus on varustettu IoT-sensoreilla, voimme automaattisesti ohjata lämmitystä ja valaistusta kustannusten minimoimiseksi. + - **Kyselyt**, joita pyydämme käyttäjiä täyttämään ostoksen jälkeen tai verkkosivustolla vierailun jälkeen. + - **Käyttäytymisanalyysi** voi esimerkiksi auttaa ymmärtämään, kuinka syvälle käyttäjä menee sivustolla ja mikä on tyypillinen syy sivustolta poistumiseen. +* **Strukturoimaton** + - **Tekstit** voivat olla rikas lähde oivalluksille, kuten yleinen **tunnelmapisteytys** tai avainsanojen ja semanttisen merkityksen poiminta. + - **Kuvat** tai **videot**. Valvontakameran videoita voidaan käyttää liikenteen arvioimiseen tiellä ja tiedottamaan mahdollisista ruuhkista. + - Verkkopalvelimen **lokitiedostot** voivat auttaa ymmärtämään, mitkä sivuston sivut ovat useimmin vierailtuja ja kuinka kauan niillä viivytään. * **Puolistrukturoitu** - - **Sosiaalisen verkoston** graafit voivat olla loistavia tietolähteitä käyttäjien persoonallisuuksista ja tiedon leviämisen tehokkuudesta. - - Kun meillä on joukko valokuvia juhlista, voimme yrittää poimia **ryhmädynamiikkaa** rakentamalla graafin ihmisistä, jotka ottavat kuvia yhdessä. + - **Sosiaalisen verkoston** graafit voivat olla loistavia datalähteitä käyttäjien persoonallisuuksista ja potentiaalisesta tehokkuudesta tiedon levittämisessä. + - Kun meillä on joukko valokuvia juhlista, voimme yrittää poimia **ryhmädynamiikkaa** rakentamalla graafin ihmisistä, jotka ottavat kuvia toistensa kanssa. -Kun tunnet erilaiset mahdolliset datalähteet, voit miettiä erilaisia skenaarioita, joissa datatieteen tekniikoita voidaan soveltaa tilanteen ymmärtämiseksi paremmin ja liiketoimintaprosessien parantamiseksi. +Kun tiedät erilaiset mahdolliset datalähteet, voit miettiä erilaisia skenaarioita, joissa datatieteen tekniikoita voidaan soveltaa tilanteen parempaan ymmärtämiseen ja liiketoimintaprosessien parantamiseen. ## Mitä datalla voi tehdä Datatieteessä keskitymme seuraaviin datan käsittelyn vaiheisiin: -Tietenkin, riippuen käytettävästä datasta, jotkin vaiheet voivat puuttua (esim. kun data on jo tietokannassa tai kun mallin koulutusta ei tarvita), tai jotkin vaiheet voivat toistua useita kertoja (kuten datan käsittely). - ## Digitalisaatio ja digitaalinen transformaatio -Viimeisen vuosikymmenen aikana monet yritykset ovat alkaneet ymmärtää datan merkityksen liiketoimintapäätösten tekemisessä. Jotta datatieteen periaatteita voidaan soveltaa liiketoimintaan, on ensin kerättävä dataa, eli muutettava liiketoimintaprosessit digitaaliseen muotoon. Tätä kutsutaan **digitalisaatioksi**. Datatieteen tekniikoiden soveltaminen tähän dataan päätöksenteon ohjaamiseksi voi johtaa merkittäviin tuottavuuden kasvuun (tai jopa liiketoiminnan suunnanmuutokseen), jota kutsutaan **digitaaliseksi transformaatioksi**. +Viimeisen vuosikymmenen aikana monet yritykset ovat alkaneet ymmärtää datan merkityksen liiketoimintapäätösten tekemisessä. Jotta datatieteen periaatteita voidaan soveltaa liiketoiminnan pyörittämiseen, täytyy ensin kerätä dataa, eli muuttaa liiketoimintaprosessit digitaaliseen muotoon. Tätä kutsutaan **digitalisaatioksi**. Datatieteen tekniikoiden soveltaminen tähän dataan päätöksenteon ohjaamiseksi voi johtaa merkittäviin tuottavuuden kasvuun (tai jopa liiketoiminnan suunnanmuutokseen), jota kutsutaan **digitaaliseksi transformaatioksi**. Otetaan esimerkki. Oletetaan, että meillä on datatieteen kurssi (kuten tämä), jonka toimitamme verkossa opiskelijoille, ja haluamme käyttää datatiedettä sen parantamiseen. Miten voimme tehdä sen? -Voimme aloittaa kysymällä "Mitä voidaan digitalisoida?" Yksinkertaisin tapa olisi mitata, kuinka kauan jokaisella opiskelijalla kestää suorittaa kukin moduuli, ja mitata saavutettu tieto antamalla monivalintatesti kunkin moduulin lopussa. Laskemalla keskimääräisen suoritusajan kaikille opiskelijoille voimme selvittää, mitkä moduulit aiheuttavat eniten vaikeuksia opiskelijoille, ja työskennellä niiden yksinkertaistamiseksi. -Voit väittää, että tämä lähestymistapa ei ole ihanteellinen, koska moduulit voivat olla eripituisia. On todennäköisesti oikeudenmukaisempaa jakaa aika moduulin pituudella (merkkien lukumäärällä) ja verrata näitä arvoja sen sijaan. -Kun alamme analysoida monivalintatestien tuloksia, voimme yrittää selvittää, mitkä käsitteet ovat opiskelijoille vaikeita ymmärtää, ja käyttää tätä tietoa sisällön parantamiseen. Tätä varten meidän on suunniteltava testit siten, että jokainen kysymys liittyy tiettyyn käsitteeseen tai tietokokonaisuuteen. +Voimme aloittaa kysymällä "Mitä voidaan digitalisoida?" Yksinkertaisin tapa olisi mitata, kuinka kauan kullakin opiskelijalla kestää suorittaa kukin moduuli, ja mitata saavutettu tieto antamalla monivalintatesti kunkin moduulin lopussa. Kun lasketaan keskimääräinen suorittamisaika kaikkien opiskelijoiden kesken, voimme selvittää, mitkä moduulit aiheuttavat eniten vaikeuksia opiskelijoille ja työskennellä niiden yksinkertaistamiseksi. +Voit väittää, että tämä lähestymistapa ei ole ihanteellinen, koska moduulit voivat olla eripituisia. On luultavasti oikeudenmukaisempaa jakaa aika moduulin pituuden mukaan (merkkien lukumäärässä) ja verrata näitä arvoja sen sijaan. +Kun alamme analysoida monivalintatestien tuloksia, voimme yrittää selvittää, mitkä käsitteet tuottavat opiskelijoille vaikeuksia ymmärtää, ja käyttää tätä tietoa sisällön parantamiseen. Tätä varten meidän täytyy suunnitella testit siten, että jokainen kysymys liittyy tiettyyn käsitteeseen tai tietokokonaisuuteen. -Jos haluamme mennä vielä pidemmälle, voimme verrata kunkin moduulin suorittamiseen käytettyä aikaa opiskelijoiden ikäryhmiin. Saatamme huomata, että joillekin ikäryhmille moduulin suorittaminen vie kohtuuttoman kauan tai että opiskelijat keskeyttävät ennen sen loppuun suorittamista. Tämä voi auttaa meitä antamaan ikäsuosituksia moduulille ja vähentämään ihmisten tyytymättömyyttä vääristä odotuksista. +Jos haluamme mennä vielä pidemmälle, voimme verrata kunkin moduulin suorittamiseen käytettyä aikaa opiskelijoiden ikäryhmiin. Saatamme huomata, että joillekin ikäryhmille moduulin suorittaminen vie kohtuuttoman kauan, tai että opiskelijat keskeyttävät ennen moduulin loppuun suorittamista. Tämä voi auttaa meitä antamaan ikäsuosituksia moduulille ja vähentämään ihmisten tyytymättömyyttä vääristä odotuksista. ## 🚀 Haaste -Tässä haasteessa yritämme löytää Data Science -alaan liittyviä käsitteitä tarkastelemalla tekstejä. Otamme Wikipedia-artikkelin Data Sciencesta, lataamme ja käsittelemme tekstin, ja sen jälkeen luomme sanapilven, kuten tämän: +Tässä haasteessa yritämme löytää Data Science -alaan liittyviä käsitteitä tarkastelemalla tekstejä. Otamme Wikipedia-artikkelin Data Sciencesta, lataamme ja käsittelemme tekstin, ja sitten rakennamme sanapilven, kuten tämän: -![Sanapilvi Data Sciencesta](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Sanapilvi Data Sciencesta](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.fi.png) -Käy läpi koodi [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') -tiedostossa. Voit myös suorittaa koodin ja nähdä, miten se tekee kaikki datamuunnokset reaaliajassa. +Vieraile [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') -tiedostossa lukeaksesi koodin läpi. Voit myös suorittaa koodin ja nähdä, miten se tekee kaikki datamuunnokset reaaliajassa. > Jos et tiedä, miten suorittaa koodia Jupyter Notebookissa, tutustu [tähän artikkeliin](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). @@ -114,11 +68,11 @@ Käy läpi koodi [`notebook.ipynb`](../../../../../../../../../1-Introduction/01 * **Tehtävä 1**: Muokkaa yllä olevaa koodia löytääksesi liittyviä käsitteitä **Big Data**- ja **Machine Learning** -aloille. * **Tehtävä 2**: [Pohdi Data Science -skenaarioita](assignment.md) -## Tekijät +## Kiitokset Tämän oppitunnin on kirjoittanut ♥️:lla [Dmitry Soshnikov](http://soshnikov.com) --- **Vastuuvapauslauseke**: -Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua [Co-op Translator](https://github.com/Azure/co-op-translator). Vaikka pyrimme tarkkuuteen, huomioithan, että automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäisellä kielellä tulee pitää ensisijaisena lähteenä. Kriittisen tiedon osalta suositellaan ammattimaista ihmiskääntäjää. Emme ole vastuussa tämän käännöksen käytöstä johtuvista väärinkäsityksistä tai virhetulkinnoista. \ No newline at end of file +Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua [Co-op Translator](https://github.com/Azure/co-op-translator). Vaikka pyrimme tarkkuuteen, huomioithan, että automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäisellä kielellä tulee pitää ensisijaisena lähteenä. Kriittisen tiedon osalta suositellaan ammattimaista ihmiskääntämistä. Emme ole vastuussa tämän käännöksen käytöstä aiheutuvista väärinkäsityksistä tai virhetulkinnoista. \ No newline at end of file diff --git a/translations/fr/1-Introduction/01-defining-data-science/README.md b/translations/fr/1-Introduction/01-defining-data-science/README.md index 18294fab..d5eaf0c2 100644 --- a/translations/fr/1-Introduction/01-defining-data-science/README.md +++ b/translations/fr/1-Introduction/01-defining-data-science/README.md @@ -1,8 +1,8 @@ ## סוגי נתונים -כפי שכבר הזכרנו, נתונים נמצאים בכל מקום. אנחנו רק צריכים ללכוד אותם בצורה הנכונה! חשוב להבחין בין נתונים **מובנים** לנתונים **לא מובנים**. הראשונים מיוצגים בדרך כלל בצורה מסודרת, לעיתים קרובות כטבלה או מספר טבלאות, בעוד שהאחרונים הם פשוט אוסף של קבצים. לפעמים ניתן גם לדבר על נתונים **חצי-מובנים**, שיש להם סוג מסוים של מבנה שיכול להשתנות מאוד. +כפי שכבר ציינו, נתונים נמצאים בכל מקום. אנחנו רק צריכים לתפוס אותם בצורה הנכונה! חשוב להבחין בין נתונים **מובנים** לנתונים **לא מובנים**. נתונים מובנים מיוצגים בדרך כלל בצורה מסודרת, לעיתים כטבלה או מספר טבלאות, בעוד שנתונים לא מובנים הם פשוט אוסף של קבצים. לפעמים ניתן גם לדבר על נתונים **חצי-מובנים**, שיש להם סוג מסוים של מבנה שיכול להשתנות מאוד. | מובנים | חצי-מובנים | לא מובנים | | ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | | רשימת אנשים עם מספרי הטלפון שלהם | דפי ויקיפדיה עם קישורים | טקסט של אנציקלופדיה בריטניקה | -| טמפרטורה בכל חדרי הבניין בכל דקה ב-20 השנים האחרונות | אוסף מאמרים מדעיים בפורמט JSON עם מחברים, תאריך פרסום ותקציר | שיתוף קבצים עם מסמכים ארגוניים | -| נתונים על גיל ומגדר של כל האנשים שנכנסים לבניין | דפי אינטרנט | וידאו גולמי ממצלמת אבטחה | +| טמפרטורה בכל חדרי הבניין בכל דקה במשך 20 השנים האחרונות | אוסף מאמרים מדעיים בפורמט JSON עם מחברים, תאריך פרסום ותקציר | שיתוף קבצים עם מסמכים ארגוניים | +| נתונים על גיל ומגדר של כל האנשים הנכנסים לבניין | דפי אינטרנט | סרטון גולמי ממצלמת אבטחה | ## מאיפה להשיג נתונים -ישנם מקורות רבים לנתונים, ולא ניתן למנות את כולם! עם זאת, נזכיר כמה מהמקומות הטיפוסיים שבהם ניתן להשיג נתונים: +ישנם מקורות רבים לנתונים, ויהיה בלתי אפשרי למנות את כולם! עם זאת, נזכיר כמה מהמקומות הטיפוסיים שבהם ניתן להשיג נתונים: * **מובנים** - **האינטרנט של הדברים** (IoT), כולל נתונים מחיישנים שונים, כמו חיישני טמפרטורה או לחץ, מספקים הרבה נתונים שימושיים. לדוגמה, אם בניין משרדים מצויד בחיישני IoT, ניתן לשלוט אוטומטית בחימום ובתאורה כדי למזער עלויות. - **סקרים** שאנו מבקשים ממשתמשים למלא לאחר רכישה או לאחר ביקור באתר. - - **ניתוח התנהגות** יכול, למשל, לעזור לנו להבין עד כמה משתמש מעמיק באתר ומהי הסיבה הטיפוסית לעזיבתו. + - **ניתוח התנהגות** יכול, למשל, לעזור לנו להבין עד כמה משתמש מעמיק באתר ומה הסיבה הטיפוסית לעזיבתו. * **לא מובנים** - - **טקסטים** יכולים להיות מקור עשיר לתובנות, כמו ציון **תחושה כללית**, או חילוץ מילות מפתח ומשמעות סמנטית. - - **תמונות** או **וידאו**. וידאו ממצלמת אבטחה יכול לשמש להערכת עומסי תנועה בכביש ולהודיע לאנשים על פקקים אפשריים. - - **יומני שרת אינטרנט** יכולים לשמש להבנת אילו דפים באתר שלנו נצפים הכי הרבה זמן. + - **טקסטים** יכולים להיות מקור עשיר לתובנות, כמו ציון **תחושת כללית**, או חילוץ מילות מפתח ומשמעות סמנטית. + - **תמונות** או **וידאו**. סרטון ממצלמת אבטחה יכול לשמש להערכת תנועה בכביש ולהודיע לאנשים על פקקי תנועה אפשריים. + - **יומני שרת אינטרנט** יכולים לשמש להבנת אילו דפים באתר שלנו נצפים הכי הרבה ובמשך כמה זמן. * **חצי-מובנים** - - **גרפים של רשתות חברתיות** יכולים להיות מקורות מצוינים לנתונים על אישיות משתמשים ועל היכולת שלהם להפיץ מידע. - - כאשר יש לנו אוסף של תמונות ממסיבה, ניתן לנסות לחלץ נתונים על **דינמיקה קבוצתית** על ידי בניית גרף של אנשים שמצטלמים יחד. + - **גרפים של רשתות חברתיות** יכולים להיות מקורות מצוינים לנתונים על אישיות המשתמשים ועל פוטנציאל ההשפעה שלהם בהפצת מידע. + - כאשר יש לנו אוסף תמונות ממסיבה, ניתן לנסות לחלץ נתוני **דינמיקה קבוצתית** על ידי בניית גרף של אנשים המצטלמים יחד. על ידי הכרת מקורות הנתונים השונים, ניתן לחשוב על תרחישים שונים שבהם ניתן ליישם טכניקות מדע נתונים כדי להבין את המצב טוב יותר ולשפר תהליכים עסקיים. @@ -39,27 +39,27 @@ CO_OP_TRANSLATOR_METADATA: במדע הנתונים, אנו מתמקדים בשלבים הבאים במסע הנתונים: -כמובן, בהתאם לנתונים בפועל, ייתכן שחלק מהשלבים ייחסרו (למשל, כאשר הנתונים כבר נמצאים בבסיס נתונים, או כאשר אין צורך באימון מודל), או שחלק מהשלבים יחזרו על עצמם מספר פעמים (כמו עיבוד נתונים). +כמובן, בהתאם לנתונים בפועל, חלק מהשלבים עשויים להיות חסרים (למשל, כאשר הנתונים כבר נמצאים בבסיס נתונים, או כאשר אין צורך באימון מודל), או שחלק מהשלבים עשויים לחזור על עצמם מספר פעמים (כמו עיבוד נתונים). -## דיגיטציה וטרנספורמציה דיגיטלית +## דיגיטציה ושינוי דיגיטלי -בעשור האחרון, עסקים רבים החלו להבין את חשיבות הנתונים בקבלת החלטות עסקיות. כדי ליישם עקרונות מדע נתונים בניהול עסק, יש קודם כל לאסוף נתונים, כלומר לתרגם תהליכים עסקיים לצורה דיגיטלית. זה נקרא **דיגיטציה**. יישום טכניקות מדע נתונים על נתונים אלו כדי להנחות החלטות יכול להוביל לעלייה משמעותית בפרודוקטיביות (או אפילו לשינוי כיוון עסקי), הנקראת **טרנספורמציה דיגיטלית**. +בעשור האחרון, עסקים רבים התחילו להבין את החשיבות של נתונים בקבלת החלטות עסקיות. כדי ליישם עקרונות מדע נתונים בניהול עסק, קודם כל יש לאסוף נתונים, כלומר לתרגם תהליכים עסקיים לצורה דיגיטלית. זה נקרא **דיגיטציה**. יישום טכניקות מדע נתונים על נתונים אלו כדי להנחות החלטות יכול להוביל לשיפורים משמעותיים בפרודוקטיביות (או אפילו לשינוי עסקי), הנקרא **שינוי דיגיטלי**. -בואו נבחן דוגמה. נניח שיש לנו קורס מדע נתונים (כמו זה) שאנו מעבירים לסטודנטים באופן מקוון, ואנו רוצים להשתמש במדע נתונים כדי לשפר אותו. איך נוכל לעשות זאת? +בואו נבחן דוגמה. נניח שיש לנו קורס מדע נתונים (כמו זה) שאנו מעבירים לסטודנטים באופן מקוון, ואנו רוצים להשתמש במדע נתונים כדי לשפר אותו. איך אפשר לעשות זאת? -נוכל להתחיל בשאלה "מה ניתן לדיגיטציה?" הדרך הפשוטה ביותר תהיה למדוד את הזמן שלוקח לכל סטודנט להשלים כל מודול, ולמדוד את הידע שהושג על ידי מתן מבחן רב-ברירה בסוף כל מודול. על ידי חישוב ממוצע זמן ההשלמה של כל הסטודנטים, נוכל לגלות אילו מודולים גורמים לקשיים הגדולים ביותר ולעבוד על פישוטם. -אתם עשויים לטעון שהגישה הזו אינה אידיאלית, מכיוון שמודולים יכולים להיות באורכים שונים. ייתכן שיותר הוגן לחלק את הזמן לפי אורך המודול (במספר התווים), ולהשוות את הערכים הללו במקום. -כאשר אנו מתחילים לנתח תוצאות של מבחנים מרובי-ברירה, אנו יכולים לנסות לזהות אילו מושגים קשה לתלמידים להבין, ולהשתמש במידע הזה כדי לשפר את התוכן. כדי לעשות זאת, עלינו לעצב מבחנים כך שכל שאלה תתאים למושג מסוים או ליחידת ידע מסוימת. +ניתן להתחיל בשאלה "מה ניתן לדיגיטציה?" הדרך הפשוטה ביותר תהיה למדוד את הזמן שלוקח לכל סטודנט להשלים כל מודול, ולמדוד את הידע שהושג על ידי מתן מבחן רב-ברירה בסוף כל מודול. על ידי חישוב ממוצע זמן ההשלמה בין כל הסטודנטים, ניתן לגלות אילו מודולים גורמים לקשיים הגדולים ביותר לסטודנטים ולעבוד על פישוטם. +אתה עשוי לטעון שהגישה הזו אינה אידיאלית, מכיוון שמודולים יכולים להיות באורכים שונים. ייתכן שיותר הוגן לחלק את הזמן לפי אורך המודול (במספר התווים), ולהשוות את הערכים הללו במקום. +כאשר אנו מתחילים לנתח תוצאות של מבחנים רב-ברירתיים, אנו יכולים לנסות לקבוע אילו מושגים קשה לתלמידים להבין, ולהשתמש במידע הזה כדי לשפר את התוכן. כדי לעשות זאת, עלינו לעצב מבחנים כך שכל שאלה תתאים למושג מסוים או ליחידת ידע. -אם נרצה להעמיק עוד יותר, נוכל למפות את הזמן שנדרש לכל מודול מול קטגוריית הגיל של התלמידים. ייתכן שנגלה שבחלק מקטגוריות הגיל לוקח זמן רב מדי לסיים את המודול, או שתלמידים נושרים לפני שהם מסיימים אותו. מידע זה יכול לעזור לנו להמליץ על גילאים מתאימים למודול, ולהפחית את חוסר שביעות הרצון של אנשים מציפיות שגויות. +אם נרצה להעמיק עוד יותר, נוכל לשרטט את הזמן שנדרש לכל מודול מול קטגוריית הגיל של התלמידים. ייתכן שנגלה שבקטגוריות גיל מסוימות לוקח זמן רב מדי לסיים את המודול, או שהתלמידים נושרים לפני סיומו. זה יכול לעזור לנו להציע המלצות גיל למודול, ולהפחית את אי שביעות הרצון של אנשים מציפיות שגויות. ## 🚀 אתגר -באתגר הזה, ננסה למצוא מושגים רלוונטיים לתחום מדעי הנתונים על ידי ניתוח טקסטים. ניקח מאמר מוויקיפדיה על מדעי הנתונים, נוריד ונעבד את הטקסט, ואז נבנה ענן מילים כמו זה: +באתגר הזה, ננסה למצוא מושגים רלוונטיים לתחום מדעי הנתונים על ידי בחינת טקסטים. ניקח מאמר מוויקיפדיה על מדעי הנתונים, נוריד ונעבד את הטקסט, ואז נבנה ענן מילים כמו זה: -![ענן מילים למדעי הנתונים](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![ענן מילים למדעי הנתונים](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.he.png) -בקרו ב-[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') כדי לעבור על הקוד. תוכלו גם להריץ את הקוד ולראות כיצד הוא מבצע את כל השינויים בנתונים בזמן אמת. +בקרו ב-[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') כדי לקרוא את הקוד. תוכלו גם להריץ את הקוד ולראות כיצד הוא מבצע את כל השינויים בנתונים בזמן אמת. > אם אינכם יודעים כיצד להריץ קוד ב-Jupyter Notebook, עיינו במאמר הזה: [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). @@ -67,7 +67,7 @@ CO_OP_TRANSLATOR_METADATA: ## משימות -* **משימה 1**: שנו את הקוד למעלה כדי למצוא מושגים קשורים לתחומים של **ביג דאטה** ו-**למידת מכונה** +* **משימה 1**: שנו את הקוד לעיל כדי למצוא מושגים קשורים לתחומים של **Big Data** ו-**Machine Learning** * **משימה 2**: [חשבו על תרחישים במדעי הנתונים](assignment.md) ## קרדיטים @@ -77,4 +77,4 @@ CO_OP_TRANSLATOR_METADATA: --- **כתב ויתור**: -מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית [Co-op Translator](https://github.com/Azure/co-op-translator). למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית צריך להיחשב כמקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי בני אדם. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה. \ No newline at end of file +מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית [Co-op Translator](https://github.com/Azure/co-op-translator). למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית צריך להיחשב כמקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי בני אדם. איננו נושאים באחריות לאי-הבנות או לפרשנויות שגויות הנובעות משימוש בתרגום זה. \ No newline at end of file diff --git a/translations/hi/1-Introduction/01-defining-data-science/README.md b/translations/hi/1-Introduction/01-defining-data-science/README.md index ff54f4f6..c09246ae 100644 --- a/translations/hi/1-Introduction/01-defining-data-science/README.md +++ b/translations/hi/1-Introduction/01-defining-data-science/README.md @@ -1,8 +1,8 @@ +## 定義數據科學 + +| ![由 [(@sketchthedocs)](https://sketchthedocs.dev) 繪製的手繪筆記](../../sketchnotes/01-Definitions.png) | +| :----------------------------------------------------------------------------------------------------: | +| 定義數據科學 - _由 [@nitya](https://twitter.com/nitya) 繪製的手繪筆記_ | + +--- + +[![定義數據科學影片](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.hk.png)](https://youtu.be/beZ7Mb_oz9I) + +## [課前測驗](https://ff-quizzes.netlify.app/en/ds/quiz/0) + +## 什麼是數據? +在我們的日常生活中,我們無時無刻不被數據包圍著。你現在正在閱讀的文字就是數據。你智能手機裡朋友的電話號碼列表是數據,你手錶上顯示的當前時間也是數據。作為人類,我們天生就會處理數據,比如數錢或者給朋友寫信。 + +然而,隨著電腦的誕生,數據變得更加重要。電腦的主要功能是進行計算,但它們需要數據來操作。因此,我們需要了解電腦如何存儲和處理數據。 + +隨著互聯網的出現,電腦作為數據處理設備的角色進一步增強。如果你仔細想想,我們現在使用電腦更多的是進行數據處理和通信,而不是純粹的計算。當我們給朋友寫電子郵件或在互聯網上搜索信息時,我們實際上是在創建、存儲、傳輸和操作數據。 +> 你能記得上一次真正用電腦進行計算是什麼時候嗎? + +## 什麼是數據科學? + +根據 [維基百科](https://en.wikipedia.org/wiki/Data_science),**數據科學**被定義為*一個使用科學方法從結構化和非結構化數據中提取知識和洞察力,並將這些知識和可行的洞察力應用於廣泛應用領域的科學領域*。 + +這一定義突出了數據科學的以下重要方面: + +* 數據科學的主要目的是從數據中**提取知識**,換句話說,就是**理解**數據,發現隱藏的關係並構建**模型**。 +* 數據科學使用**科學方法**,例如概率和統計。事實上,當*數據科學*這個術語首次被提出時,有些人認為數據科學只是統計學的一個新潮名稱。然而,現在已經明顯看出這個領域要廣泛得多。 +* 獲得的知識應該被應用於產生一些**可行的洞察力**,即可以應用於實際商業情境的實用洞察。 +* 我們應該能夠處理**結構化**和**非結構化**數據。我們稍後會在課程中討論不同類型的數據。 +* **應用領域**是一個重要的概念,數據科學家通常需要對問題領域(例如金融、醫學、營銷等)有一定程度的專業知識。 + +> 數據科學的另一個重要方面是研究如何使用電腦收集、存儲和操作數據。雖然統計學為我們提供了數學基礎,但數據科學將數學概念應用於實際從數據中獲取洞察。 + +根據 [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist)) 的觀點,數據科學可以被視為一種獨立的科學範式: +* **經驗科學**,主要依賴觀察和實驗結果 +* **理論科學**,從現有的科學知識中產生新概念 +* **計算科學**,通過計算實驗發現新原則 +* **數據驅動科學**,基於發現數據中的關係和模式 + +## 相關領域 + +由於數據無處不在,數據科學本身也是一個廣泛的領域,涉及許多其他學科。 + ## 數據的類型 -如我們之前提到,數據無處不在。我們只需要以正確的方式捕捉它!區分 **結構化數據** 和 **非結構化數據** 是很有用的。前者通常以某種良好的結構形式表示,通常是表格或多個表格,而後者則僅僅是一堆文件。有時我們也會提到 **半結構化數據**,它具有某種結構,但可能差異很大。 +正如我們之前提到的,數據無處不在。我們只需要以正確的方式捕捉它!區分**結構化**和**非結構化**數據是很有用的。前者通常以某種結構化的形式表示,通常是表格或多個表格,而後者則只是文件的集合。有時我們還可以談到**半結構化**數據,它具有某種結構,但可能差異很大。 -| 結構化數據 | 半結構化數據 | 非結構化數據 | -| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- | -| 人員名單及其電話號碼 | 帶有鏈接的維基百科頁面 | 《大英百科全書》的文本 | -| 過去20年中每分鐘建築物所有房間的溫度 | 以JSON格式存儲的科學論文集合,包括作者、出版日期和摘要 | 包含公司文件的文件共享 | -| 進入建築物的所有人的年齡和性別數據 | 網頁 | 監控攝像頭的原始視頻流 | +| 結構化數據 | 半結構化數據 | 非結構化數據 | +| -------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | ------------------------------------- | +| 包含人員及其電話號碼的列表 | 包含鏈接的維基百科頁面 | 《大英百科全書》的文本 | +| 過去 20 年內每分鐘建築物內所有房間的溫度 | 以 JSON 格式存儲的科學論文集合,包含作者、發表日期和摘要 | 包含公司文件的文件共享 | +| 記錄進入建築物的所有人的年齡和性別數據 | 網頁 | 監控攝像頭的原始視頻流 | ## 數據的來源 -數據的來源有很多,列舉所有可能的來源是不可能的!然而,我們可以提到一些典型的數據來源: +數據的來源有很多,無法一一列舉!然而,我們可以提到一些典型的數據來源: * **結構化數據** - - **物聯網** (IoT),包括來自不同傳感器(如溫度或壓力傳感器)的數據,提供了大量有用的數據。例如,如果辦公樓配備了物聯網傳感器,我們可以自動控制供暖和照明以降低成本。 - - **調查問卷**,例如在購買後或訪問網站後要求用戶完成的問卷。 - - **行為分析**,例如幫助我們了解用戶在網站上的瀏覽深度,以及離開網站的典型原因。 + - **物聯網**(IoT),包括來自不同傳感器(如溫度或壓力傳感器)的數據,提供了大量有用的數據。例如,如果辦公樓配備了物聯網傳感器,我們可以自動控制供暖和照明以降低成本。 + - **調查問卷**,例如我們在用戶購買後或訪問網站後要求他們完成的問卷。 + - **行為分析**,例如可以幫助我們了解用戶在網站上的瀏覽深度,以及用戶離開網站的典型原因。 * **非結構化數據** - - **文本**可以提供豐富的洞察,例如整體的 **情感分數**,或提取關鍵詞和語義信息。 - - **圖像**或 **視頻**。監控攝像頭的視頻可以用來估算道路上的交通流量,並通知人們可能的交通堵塞。 - - 網絡服務器的 **日誌** 可以用來了解我們網站上最常被訪問的頁面,以及訪問時長。 + - **文本**可以是豐富的洞察來源,例如整體的**情感分數**,或者提取關鍵詞和語義含義。 + - **圖像**或**視頻**。監控攝像頭的視頻可以用來估算道路上的交通流量,並通知人們潛在的交通擁堵。 + - 網絡服務器的**日誌**可以用來了解我們網站上哪些頁面最常被訪問,以及訪問時長。 * **半結構化數據** - - **社交網絡**圖表可以提供有關用戶個性及信息傳播潛在效果的數據。 - - 當我們擁有一堆派對照片時,我們可以嘗試通過建立人們互相拍照的圖表來提取 **群體動態** 數據。 + - **社交網絡**圖譜可以是關於用戶個性和信息傳播潛在效果的極佳數據來源。 + - 當我們擁有一堆派對照片時,我們可以通過構建人們互相拍照的圖譜來提取**群體動態**數據。 -了解不同的數據來源後,你可以嘗試思考不同的場景,看看數據科學技術如何應用於更好地了解情況並改善業務流程。 +通過了解不同的數據來源,你可以嘗試思考不同的場景,看看數據科學技術如何應用於更好地了解情況並改進業務流程。 -## 數據的用途 +## 數據可以做什麼 在數據科學中,我們專注於數據旅程的以下步驟: +當然,根據實際數據的情況,有些步驟可能會缺失(例如,當我們已經擁有數據庫中的數據,或者當我們不需要模型訓練時),或者某些步驟可能會重複多次(例如數據處理)。 + ## 數字化與數字化轉型 -在過去十年中,許多企業開始意識到在做出業務決策時數據的重要性。要將數據科學原則應用於業務運營,首先需要收集一些數據,即將業務流程轉化為數字形式,這被稱為 **數字化**。將數據科學技術應用於這些數據以指導決策,可以顯著提高生產力(甚至可能改變業務方向),這被稱為 **數字化轉型**。 +在過去的十年中,許多企業開始意識到數據在商業決策中的重要性。要將數據科學原則應用於企業運營,首先需要收集一些數據,即將業務流程轉化為數字形式,這被稱為**數字化**。將數據科學技術應用於這些數據以指導決策,可能會帶來生產力的顯著提升(甚至是業務轉型),這被稱為**數字化轉型**。 -讓我們考慮一個例子。假設我們有一門數據科學課程(像這門課程),我們在線上向學生提供,並希望利用數據科學來改進它。我們該如何做? +讓我們考慮一個例子。假設我們有一門數據科學課程(比如這門課程),我們在線上向學生提供,並希望利用數據科學來改進它。我們該怎麼做? -我們可以從問「什麼可以被數字化?」開始。最簡單的方法是測量每位學生完成每個模塊所需的時間,並通過在每個模塊結束時進行選擇題測試來測量所獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模塊對學生來說最具挑戰性,並著手簡化它們。 +我們可以從問「什麼可以被數字化?」開始。最簡單的方法是測量每位學生完成每個模塊所需的時間,並通過在每個模塊結束時進行選擇題測試來測量獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模塊對學生來說最具挑戰性,並著手簡化它們。 你可能會認為這種方法並不理想,因為模組的長度可能各不相同。或許更公平的做法是根據模組的長度(以字元數計算)來分配時間,然後比較這些數值。 -當我們開始分析多項選擇題的結果時,可以嘗試找出學生在哪些概念上存在理解困難,並利用這些資訊改進內容。為了達到這個目的,我們需要設計測試,使每個問題都能對應到某個特定概念或知識點。 +當我們開始分析多項選擇題的結果時,可以嘗試找出學生在哪些概念上有困難,並利用這些資訊改進內容。為了做到這一點,我們需要設計測試,使每個問題對應到某個特定的概念或知識塊。 -如果我們想進一步深入分析,可以將每個模組所花的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生完成模組所需時間過長,或者在完成之前就中途退出。這些資訊可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。 +如果我們想進一步深入分析,可以將每個模組所需的時間與學生的年齡類別進行對比。我們可能會發現,某些年齡類別的學生完成模組所需的時間過長,或者在完成之前就中途退出。這可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿意。 ## 🚀 挑戰 -在這個挑戰中,我們將嘗試透過分析文本來找出與數據科學相關的概念。我們會選取一篇關於數據科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲: +在這個挑戰中,我們將嘗試通過分析文本來找出與數據科學領域相關的概念。我們將選取一篇關於數據科學的維基百科文章,下載並處理文本,然後生成一個像這樣的文字雲: -![數據科學文字雲](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![數據科學文字雲](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.hk.png) -訪問 [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 閱讀程式碼。你也可以執行程式碼,並即時查看它如何進行所有數據轉換。 +訪問 [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 查看代碼。你也可以運行代碼,並即時觀察它如何執行所有數據轉換。 -> 如果你不知道如何在 Jupyter Notebook 中執行程式碼,可以查看 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。 +> 如果你不知道如何在 Jupyter Notebook 中運行代碼,可以參考 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。 ## [課後測驗](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## 作業 -* **任務 1**:修改上述程式碼,找出與 **大數據** 和 **機器學習** 相關的概念 +* **任務 1**:修改上述代碼,找出與 **大數據** 和 **機器學習** 領域相關的概念 * **任務 2**:[思考數據科學場景](assignment.md) -## 致謝 +## 鳴謝 -這節課由 [Dmitry Soshnikov](http://soshnikov.com) 用 ♥️ 編寫 +這節課由 [Dmitry Soshnikov](http://soshnikov.com) 用 ♥️ 編寫。 --- **免責聲明**: -本文件已使用人工智能翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。儘管我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。原始文件的母語版本應被視為權威來源。對於重要信息,建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解釋概不負責。 \ No newline at end of file +此文件已使用人工智能翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議尋求專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解讀概不負責。 \ No newline at end of file diff --git a/translations/hr/1-Introduction/01-defining-data-science/README.md b/translations/hr/1-Introduction/01-defining-data-science/README.md index e138d8cd..f9d27e63 100644 --- a/translations/hr/1-Introduction/01-defining-data-science/README.md +++ b/translations/hr/1-Introduction/01-defining-data-science/README.md @@ -1,65 +1,109 @@ +# Definiranje podatkovne znanosti + +| ![ Sketchnote autora [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | +| :-------------------------------------------------------------------------------------------------------: | +| Definiranje podatkovne znanosti - _Sketchnote autora [@nitya](https://twitter.com/nitya)_ | + +--- + +[![Video o definiranju podatkovne znanosti](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.hr.png)](https://youtu.be/beZ7Mb_oz9I) + +## [Kviz prije predavanja](https://ff-quizzes.netlify.app/en/ds/quiz/0) + +## Što su podaci? +U svakodnevnom životu stalno smo okruženi podacima. Tekst koji sada čitate su podaci. Popis telefonskih brojeva vaših prijatelja u pametnom telefonu su podaci, kao i trenutno vrijeme prikazano na vašem satu. Kao ljudska bića, prirodno baratamo podacima, bilo da brojimo novac koji imamo ili pišemo pisma prijateljima. + +Međutim, podaci su postali mnogo značajniji s pojavom računala. Primarna uloga računala je obavljanje izračuna, ali za to im trebaju podaci. Stoga je važno razumjeti kako računala pohranjuju i obrađuju podatke. + +S pojavom interneta, uloga računala kao uređaja za rukovanje podacima dodatno je porasla. Ako razmislite, danas računala sve više koristimo za obradu i komunikaciju podataka, a ne samo za izračune. Kada pišemo e-mail prijatelju ili pretražujemo informacije na internetu, zapravo stvaramo, pohranjujemo, prenosimo i manipuliramo podacima. +> Možete li se sjetiti kada ste zadnji put koristili računalo za stvarni izračun? + +## Što je podatkovna znanost? + +Na [Wikipediji](https://en.wikipedia.org/wiki/Data_science), **podatkovna znanost** definirana je kao *znanstveno područje koje koristi znanstvene metode za izvlačenje znanja i uvida iz strukturiranih i nestrukturiranih podataka te primjenu tog znanja i praktičnih uvida u širokom spektru primjena*. + +Ova definicija naglašava sljedeće važne aspekte podatkovne znanosti: + +* Glavni cilj podatkovne znanosti je **izvlačenje znanja** iz podataka, drugim riječima - **razumijevanje** podataka, pronalaženje skrivenih odnosa i izgradnja **modela**. +* Podatkovna znanost koristi **znanstvene metode**, poput vjerojatnosti i statistike. Zapravo, kada je pojam *podatkovna znanost* prvi put uveden, neki su tvrdili da je to samo novi, moderni naziv za statistiku. Danas je jasno da je ovo područje mnogo šire. +* Dobiveno znanje treba primijeniti kako bi se proizveli **praktični uvidi**, tj. uvidi koji se mogu primijeniti u stvarnim poslovnim situacijama. +* Trebali bismo biti sposobni raditi s **strukturiranim** i **nestrukturiranim** podacima. Kasnije u tečaju detaljnije ćemo raspraviti različite vrste podataka. +* **Područje primjene** je važan koncept, a podatkovni znanstvenici često trebaju barem osnovno razumijevanje specifičnog područja problema, poput financija, medicine, marketinga itd. + +> Još jedan važan aspekt podatkovne znanosti je proučavanje načina na koji se podaci mogu prikupljati, pohranjivati i obrađivati pomoću računala. Dok nam statistika daje matematičke temelje, podatkovna znanost primjenjuje matematičke koncepte za stvarno izvlačenje uvida iz podataka. + +Jedan od načina (pripisan [Jimu Grayu](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) za promatranje podatkovne znanosti je razmatranje kao zasebnog znanstvenog pristupa: +* **Empirijski**, gdje se oslanjamo na opažanja i rezultate eksperimenata +* **Teorijski**, gdje novi koncepti proizlaze iz postojećeg znanstvenog znanja +* **Računalni**, gdje otkrivamo nove principe temeljem računalnih eksperimenata +* **Vođen podacima**, temeljen na otkrivanju odnosa i obrazaca u podacima + +## Ostala povezana područja + +Budući da su podaci sveprisutni, i podatkovna znanost je široko područje koje dotiče mnoge druge discipline. + ## Vrste podataka -Kao što smo već spomenuli, podaci su svugdje oko nas. Samo ih trebamo pravilno zabilježiti! Korisno je razlikovati **strukturirane** i **nestrukturirane** podatke. Strukturirani podaci obično su predstavljeni u nekom dobro organiziranom obliku, često kao tablica ili niz tablica, dok su nestrukturirani podaci samo zbirka datoteka. Ponekad možemo govoriti i o **polustrukturiranim** podacima, koji imaju neku vrstu strukture koja može značajno varirati. +Kao što smo već spomenuli, podaci su svugdje. Samo ih trebamo pravilno zabilježiti! Korisno je razlikovati **strukturirane** i **nestrukturirane** podatke. Prvi su obično predstavljeni u nekom dobro strukturiranom obliku, često kao tablica ili niz tablica, dok su drugi samo zbirka datoteka. Ponekad možemo govoriti i o **polustrukturiranim** podacima, koji imaju neku vrstu strukture koja može značajno varirati. -| Strukturirani | Polustrukturirani | Nestrukturirani | -| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | --------------------------------------- | -| Popis ljudi s njihovim telefonskim brojevima | Wikipedijine stranice s poveznicama | Tekst Enciklopedije Britannica | -| Temperatura u svim sobama zgrade svake minute tijekom posljednjih 20 godina | Zbirka znanstvenih radova u JSON formatu s autorima, datumom objave i sažetkom | Datoteke s korporativnim dokumentima | -| Podaci o dobi i spolu svih ljudi koji ulaze u zgradu | Internetske stranice | Sirovi videozapis s nadzorne kamere | +| Strukturirani | Polustrukturirani | Nestrukturirani | +| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------- | -------------------------------------- | +| Popis ljudi s njihovim telefonskim brojevima | Wikipedijine stranice s poveznicama | Tekst Enciklopedije Britannica | +| Temperatura u svim sobama zgrade svake minute tijekom posljednjih 20 godina | Zbirka znanstvenih radova u JSON formatu s autorima, datumom objave i sažetkom | Dijeljena mapa s korporativnim dokumentima | +| Podaci o dobi i spolu svih ljudi koji ulaze u zgradu | Internetske stranice | Sirovi videozapis s nadzorne kamere | -## Odakle dobiti podatke +## Gdje pronaći podatke -Postoji mnogo mogućih izvora podataka, i bilo bi nemoguće nabrojati ih sve! Međutim, spomenimo neke od tipičnih mjesta gdje možete dobiti podatke: +Postoji mnogo mogućih izvora podataka, i bilo bi nemoguće sve ih nabrojati! Međutim, spomenimo neka tipična mjesta gdje možete pronaći podatke: * **Strukturirani** - **Internet stvari** (IoT), uključujući podatke s različitih senzora, poput senzora temperature ili tlaka, pruža mnogo korisnih podataka. Na primjer, ako je poslovna zgrada opremljena IoT senzorima, možemo automatski kontrolirati grijanje i rasvjetu kako bismo smanjili troškove. - **Ankete** koje tražimo od korisnika da ispune nakon kupnje ili posjeta web stranici. - - **Analiza ponašanja** može nam, na primjer, pomoći da razumijemo koliko duboko korisnik ulazi na stranicu i koji je tipičan razlog za napuštanje stranice. + - **Analiza ponašanja** može nam, primjerice, pomoći razumjeti koliko duboko korisnik istražuje stranicu i koji su tipični razlozi za napuštanje stranice. * **Nestrukturirani** - - **Tekstovi** mogu biti bogat izvor uvida, poput ukupnog **sentiment rezultata** ili izdvajanja ključnih riječi i semantičkog značenja. - - **Slike** ili **videozapisi**. Videozapis s nadzorne kamere može se koristiti za procjenu prometa na cesti i obavještavanje ljudi o potencijalnim gužvama. - - **Dnevnici** web poslužitelja mogu se koristiti za razumijevanje koje stranice naše web stranice se najčešće posjećuju i koliko dugo. -* Polustrukturirani - - **Grafovi društvenih mreža** mogu biti izvrsni izvori podataka o osobnostima korisnika i potencijalnoj učinkovitosti u širenju informacija. - - Kada imamo niz fotografija s zabave, možemo pokušati izvući podatke o **dinamici grupe** izradom grafa ljudi koji se fotografiraju zajedno. + - **Tekstovi** mogu biti bogat izvor uvida, poput ukupnog **sentiment skora** ili izdvajanja ključnih riječi i semantičkog značenja. + - **Slike** ili **videozapisi**. Videozapis s nadzorne kamere može se koristiti za procjenu prometa na cesti i obavještavanje ljudi o mogućim gužvama. + - **Dnevnici web poslužitelja** mogu se koristiti za razumijevanje koje stranice naše stranice se najčešće posjećuju i koliko dugo. +* **Polustrukturirani** + - **Grafovi društvenih mreža** mogu biti izvrsni izvori podataka o osobnostima korisnika i potencijalnoj učinkovitosti širenja informacija. + - Kada imamo hrpu fotografija s neke zabave, možemo pokušati izvući podatke o **grupnoj dinamici** izgradnjom grafa ljudi koji se međusobno fotografiraju. -Poznavanjem različitih mogućih izvora podataka možete razmišljati o različitim scenarijima u kojima se tehnike znanosti o podacima mogu primijeniti za bolje razumijevanje situacije i poboljšanje poslovnih procesa. +Poznavanjem različitih mogućih izvora podataka, možete razmisliti o različitim scenarijima u kojima se tehnike podatkovne znanosti mogu primijeniti za bolje razumijevanje situacije i poboljšanje poslovnih procesa. ## Što možete učiniti s podacima -U znanosti o podacima fokusiramo se na sljedeće korake u radu s podacima: +U podatkovnoj znanosti fokusiramo se na sljedeće korake u radu s podacima: -Naravno, ovisno o stvarnim podacima, neki koraci mogu nedostajati (npr. kada već imamo podatke u bazi podataka ili kada nije potrebno treniranje modela), ili se neki koraci mogu ponoviti nekoliko puta (poput obrade podataka). +Naravno, ovisno o stvarnim podacima, neki koraci mogu nedostajati (npr. kada već imamo podatke u bazi podataka ili kada nije potrebno treniranje modela), ili se neki koraci mogu ponavljati nekoliko puta (poput obrade podataka). ## Digitalizacija i digitalna transformacija -U posljednjem desetljeću mnoge su tvrtke počele shvaćati važnost podataka pri donošenju poslovnih odluka. Kako bi se primijenili principi znanosti o podacima na vođenje poslovanja, prvo je potrebno prikupiti neke podatke, tj. prevesti poslovne procese u digitalni oblik. To se naziva **digitalizacija**. Primjena tehnika znanosti o podacima na te podatke za donošenje odluka može dovesti do značajnih povećanja produktivnosti (ili čak poslovnog zaokreta), što nazivamo **digitalnom transformacijom**. +U posljednjem desetljeću, mnoge su tvrtke počele shvaćati važnost podataka pri donošenju poslovnih odluka. Kako bi se principi podatkovne znanosti primijenili na vođenje poslovanja, prvo je potrebno prikupiti neke podatke, tj. prevesti poslovne procese u digitalni oblik. Ovo je poznato kao **digitalizacija**. Primjena tehnika podatkovne znanosti na te podatke za donošenje odluka može dovesti do značajnih povećanja produktivnosti (ili čak poslovnog zaokreta), što nazivamo **digitalnom transformacijom**. -Razmotrimo primjer. Pretpostavimo da imamo tečaj znanosti o podacima (poput ovog) koji se online dostavlja studentima, i želimo koristiti znanost o podacima za njegovo poboljšanje. Kako to možemo učiniti? +Razmotrimo primjer. Pretpostavimo da imamo tečaj podatkovne znanosti (poput ovog) koji se isporučuje online studentima i želimo koristiti podatkovnu znanost za njegovo poboljšanje. Kako to možemo učiniti? -Možemo započeti pitanjem "Što se može digitalizirati?" Najjednostavniji način bio bi mjerenje vremena koje svakom studentu treba za dovršavanje svakog modula, te mjerenje stečenog znanja davanjem testa s višestrukim izborom na kraju svakog modula. Prosječnim vremenom dovršavanja među svim studentima možemo otkriti koji moduli uzrokuju najviše poteškoća studentima i raditi na njihovom pojednostavljivanju. +Možemo započeti pitanjem "Što se može digitalizirati?" Najjednostavniji način bio bi mjerenje vremena potrebnog svakom studentu za završetak svakog modula i mjerenje stečenog znanja davanjem testa s višestrukim izborom na kraju svakog modula. Prosječnim vremenom završetka za sve studente možemo otkriti koji moduli uzrokuju najviše poteškoća i raditi na njihovom pojednostavljivanju. Možete tvrditi da ovaj pristup nije idealan, jer moduli mogu biti različitih duljina. Vjerojatno je pravednije podijeliti vrijeme s duljinom modula (u broju znakova) i usporediti te vrijednosti umjesto toga. -Kada počnemo analizirati rezultate testova s višestrukim izborom, možemo pokušati odrediti koje koncepte učenici imaju poteškoća razumjeti i koristiti te informacije za poboljšanje sadržaja. Da bismo to učinili, moramo osmisliti testove na način da svako pitanje odgovara određenom konceptu ili dijelu znanja. +Kada počnemo analizirati rezultate testova s višestrukim izborom, možemo pokušati utvrditi koje koncepte učenici teško razumiju i iskoristiti te informacije za poboljšanje sadržaja. Da bismo to postigli, trebamo osmisliti testove na način da svako pitanje odgovara određenom konceptu ili dijelu znanja. -Ako želimo ići još dalje, možemo prikazati vrijeme potrebno za svaki modul u odnosu na dobnu kategoriju učenika. Možda ćemo otkriti da za neke dobne kategorije treba neprikladno dugo vremena za dovršavanje modula ili da učenici odustaju prije nego što ga završe. To nam može pomoći da damo preporuke za module prema dobi i smanjimo nezadovoljstvo ljudi zbog pogrešnih očekivanja. +Ako želimo ići još dublje, možemo usporediti vrijeme potrebno za svaki modul s dobnim kategorijama učenika. Možda ćemo otkriti da za neke dobne skupine treba neprimjereno dugo vremena za završetak modula ili da učenici odustaju prije nego što ga završe. Ovo nam može pomoći da damo preporuke za module prema dobi i smanjimo nezadovoljstvo ljudi zbog pogrešnih očekivanja. ## 🚀 Izazov -U ovom izazovu pokušat ćemo pronaći koncepte relevantne za područje Data Science analizirajući tekstove. Uzet ćemo Wikipedia članak o Data Science, preuzeti i obraditi tekst, a zatim izraditi oblak riječi poput ovog: +U ovom izazovu pokušat ćemo pronaći koncepte relevantne za područje Data Science analizirajući tekstove. Uzet ćemo članak s Wikipedije o Data Science, preuzeti i obraditi tekst, a zatim izraditi oblak riječi poput ovog: -![Oblak riječi za Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Oblak riječi za Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.hr.png) -Posjetite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') kako biste pregledali kod. Također možete pokrenuti kod i vidjeti kako u stvarnom vremenu obavlja sve transformacije podataka. +Posjetite [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') kako biste pregledali kod. Također možete pokrenuti kod i vidjeti kako u stvarnom vremenu provodi sve transformacije podataka. > Ako ne znate kako pokrenuti kod u Jupyter Notebooku, pogledajte [ovaj članak](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). @@ -67,14 +111,14 @@ Posjetite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defini ## Zadaci -* **Zadatak 1**: Modificirajte gornji kod kako biste pronašli povezane koncepte za područja **Big Data** i **Machine Learning** +* **Zadatak 1**: Izmijenite gornji kod kako biste pronašli povezane koncepte za područja **Big Data** i **Machine Learning** * **Zadatak 2**: [Razmislite o scenarijima za Data Science](assignment.md) -## Zasluge +## Zahvale -Ovu lekciju je s ljubavlju napisao [Dmitry Soshnikov](http://soshnikov.com) +Ovu lekciju s ljubavlju je napisao [Dmitry Soshnikov](http://soshnikov.com) --- **Odricanje od odgovornosti**: -Ovaj dokument je preveden pomoću AI usluge za prevođenje [Co-op Translator](https://github.com/Azure/co-op-translator). Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane ljudskog prevoditelja. Ne preuzimamo odgovornost za bilo kakve nesporazume ili pogrešne interpretacije koje proizlaze iz korištenja ovog prijevoda. \ No newline at end of file +Ovaj dokument je preveden pomoću AI usluge za prevođenje [Co-op Translator](https://github.com/Azure/co-op-translator). Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati autoritativnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane ljudskog prevoditelja. Ne preuzimamo odgovornost za nesporazume ili pogrešna tumačenja koja mogu proizaći iz korištenja ovog prijevoda. \ No newline at end of file diff --git a/translations/hu/1-Introduction/01-defining-data-science/README.md b/translations/hu/1-Introduction/01-defining-data-science/README.md index ed349dce..f29426ae 100644 --- a/translations/hu/1-Introduction/01-defining-data-science/README.md +++ b/translations/hu/1-Introduction/01-defining-data-science/README.md @@ -1,63 +1,65 @@ -## Adatelemzés típusai +## Az adatok típusai -Ahogy már említettük, az adatok mindenhol jelen vannak. Csak megfelelő módon kell őket rögzíteni! Hasznos megkülönböztetni a **strukturált** és **nem strukturált** adatokat. Az előbbi általában jól strukturált formában jelenik meg, gyakran táblázatként vagy táblázatok sorozataként, míg az utóbbi csak fájlok gyűjteménye. Néha beszélhetünk **félig strukturált** adatokról is, amelyeknek van valamilyen szerkezete, de az nagyban változhat. +Ahogy már említettük, az adatok mindenhol jelen vannak. Csak meg kell találnunk a megfelelő módot, hogy rögzítsük őket! Hasznos megkülönböztetni a **strukturált** és **strukturálatlan** adatokat. Az előbbi általában jól strukturált formában jelenik meg, gyakran táblázatként vagy táblázatok sorozataként, míg az utóbbi csupán fájlok gyűjteménye. Néha beszélhetünk **félig strukturált** adatokról is, amelyek valamilyen szerkezettel rendelkeznek, de ez a szerkezet nagyban változhat. -| Strukturált | Félig strukturált | Nem strukturált | +| Strukturált | Félig strukturált | Strukturálatlan | | ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------- | --------------------------------------- | -| Emberek listája telefonszámaikkal | Wikipédia oldalak hivatkozásokkal | Az Encyclopedia Britannica szövege | -| Egy épület összes szobájának hőmérséklete minden percben az elmúlt 20 évben | Tudományos cikkek gyűjteménye JSON formátumban szerzőkkel, publikáció dátumával és absztrakttal | Vállalati dokumentumok fájlmegosztása | -| Az épületbe belépő emberek életkora és neme | Internetes oldalak | Nyers videófelvétel megfigyelő kamerából | +| Emberek listája a telefonszámaikkal | Wikipédia oldalak hivatkozásokkal | Az Encyclopedia Britannica szövege | +| Egy épület összes szobájának hőmérséklete minden percben az elmúlt 20 évben | Tudományos cikkek gyűjteménye JSON formátumban szerzőkkel, publikáció dátumával és absztrakttal | Vállalati dokumentumok fájlmegosztása | +| Az épületbe belépő emberek életkora és neme | Internetes oldalak | Nyers videófelvétel egy megfigyelő kamerából | -## Hol találhatók adatok? +## Honnan szerezhetünk adatokat? -Számos lehetséges adatforrás létezik, és lehetetlen lenne mindet felsorolni! Azonban említsünk meg néhány tipikus helyet, ahol adatokat találhatunk: +Számos lehetséges adatforrás létezik, és lehetetlen lenne mindet felsorolni! Azonban említsünk meg néhány tipikus helyet, ahonnan adatokat szerezhetünk: * **Strukturált** - - **Internet of Things** (IoT), beleértve különböző szenzorok, például hőmérséklet- vagy nyomásszenzorok adatait, amelyek sok hasznos információt nyújtanak. Például, ha egy irodaház IoT szenzorokkal van felszerelve, automatikusan szabályozhatjuk a fűtést és világítást a költségek minimalizálása érdekében. - - **Kérdőívek**, amelyeket a felhasználóktól kérünk kitölteni vásárlás után vagy egy weboldal meglátogatása után. - - **Viselkedéselemzés**, amely például segíthet megérteni, hogy egy felhasználó milyen mélyen merül el egy weboldalon, és miért hagyja el azt. -* **Nem strukturált** - - **Szövegek**, amelyek gazdag információforrást jelenthetnek, például általános **hangulatpontszámot**, kulcsszavak és szemantikai jelentés kinyerését. - - **Képek** vagy **videók**. Egy megfigyelő kamera videója felhasználható az útforgalom becslésére, és az emberek tájékoztatására a lehetséges torlódásokról. + - **Dolgok Internete** (IoT), beleértve különböző szenzorok, például hőmérséklet- vagy nyomásérzékelők adatait, amelyek sok hasznos információt nyújthatnak. Például, ha egy irodaház IoT szenzorokkal van felszerelve, automatikusan szabályozhatjuk a fűtést és a világítást a költségek minimalizálása érdekében. + - **Kérdőívek**, amelyeket a felhasználókkal töltetünk ki egy vásárlás vagy egy weboldal meglátogatása után. + - **Viselkedéselemzés**, amely például segíthet megérteni, hogy a felhasználó milyen mélyen merül el egy weboldalon, és miért hagyja el azt. +* **Strukturálatlan** + - **Szövegek**, amelyek gazdag információforrást jelenthetnek, például általános **érzelmi pontszámot**, kulcsszavak és szemantikai jelentés kinyerését. + - **Képek** vagy **videók**. Egy megfigyelő kamera videója például felhasználható az út forgalmának becslésére, és az emberek tájékoztatására a lehetséges dugókról. - Webszerver **naplók**, amelyek segítségével megérthetjük, hogy weboldalunk mely oldalait látogatják meg leggyakrabban, és mennyi ideig. -* Félig strukturált - - **Közösségi hálózatok** gráfjai kiváló adatforrások lehetnek a felhasználók személyiségéről és az információ terjesztésének hatékonyságáról. - - Ha van egy csomó fényképünk egy buliról, megpróbálhatunk **csoportdinamikai** adatokat kinyerni azáltal, hogy gráfot építünk azokról az emberekről, akik egymással fényképezkedtek. +* **Félig strukturált** + - **Közösségi hálózatok** gráfjai, amelyek nagyszerű adatforrások lehetnek a felhasználók személyiségéről és az információ terjesztésének hatékonyságáról. + - Ha van egy csomó fényképünk egy partiról, megpróbálhatunk **csoportdinamikai** adatokat kinyerni azáltal, hogy gráfot építünk azokról az emberekről, akik közös képeket készítettek. -Ha ismerjük az adatok lehetséges forrásait, gondolkodhatunk különböző forgatókönyveken, ahol az adatelemzési technikák alkalmazhatók a helyzet jobb megértésére és az üzleti folyamatok javítására. +Ha ismerjük az adatok különböző lehetséges forrásait, gondolkodhatunk különböző forgatókönyveken, ahol az adattudományi technikák alkalmazhatók a helyzet jobb megértésére és az üzleti folyamatok javítására. ## Mit lehet kezdeni az adatokkal? -Az adatelemzés során az alábbi lépéseket követjük az adatok feldolgozása során: +Az adattudományban az adatfeldolgozás következő lépéseire összpontosítunk: -## Digitalizáció és digitális átalakulás +Természetesen az adatok jellegétől függően néhány lépés kimaradhat (például, ha az adat már egy adatbázisban van, vagy ha nincs szükség modellképzésre), vagy néhány lépést többször is megismételhetünk (például az adatfeldolgozást). -Az elmúlt évtizedben sok vállalkozás kezdte felismerni az adatok fontosságát az üzleti döntések meghozatalában. Ahhoz, hogy az adatelemzés elveit alkalmazzuk egy vállalkozás működtetésére, először adatokat kell gyűjteni, azaz az üzleti folyamatokat digitális formába kell átültetni. Ezt nevezzük **digitalizációnak**. Az adatelemzési technikák alkalmazása ezekre az adatokra jelentős termelékenységnövekedést (vagy akár üzleti irányváltást) eredményezhet, amit **digitális átalakulásnak** nevezünk. +## Digitalizáció és digitális transzformáció -Vegyünk egy példát. Tegyük fel, hogy van egy adatelemzési kurzusunk (mint ez), amelyet online kínálunk a diákoknak, és szeretnénk adatelemzést alkalmazni annak fejlesztésére. Hogyan tehetjük ezt meg? +Az elmúlt évtizedben sok vállalkozás kezdte felismerni az adatok fontosságát az üzleti döntések meghozatalában. Ahhoz, hogy az adattudomány elveit alkalmazzuk egy vállalkozás működtetésére, először adatokat kell gyűjtenünk, azaz az üzleti folyamatokat digitális formába kell önteni. Ezt nevezzük **digitalizációnak**. Az adattudományi technikák alkalmazása ezekre az adatokra, hogy irányítsuk a döntéseket, jelentős termelékenységnövekedéshez (vagy akár üzleti irányváltáshoz) vezethet, amit **digitális transzformációnak** nevezünk. -Először is feltehetjük a kérdést: "Mit lehet digitalizálni?" A legegyszerűbb mód az lenne, ha mérnénk, mennyi időbe telik minden diáknak egy-egy modul elvégzése, és a megszerzett tudást egy feleletválasztós teszttel mérnénk a modul végén. Az összes diák átlagos modul-elvégzési idejének kiszámításával megtudhatjuk, mely modulok okozzák a legtöbb nehézséget, és dolgozhatunk azok egyszerűsítésén. +Vegyünk egy példát. Tegyük fel, hogy van egy adattudományi kurzusunk (mint ez itt), amelyet online tartunk a diákoknak, és szeretnénk adattudományi módszerekkel javítani rajta. Hogyan tehetjük ezt meg? + +Kezdhetjük azzal a kérdéssel, hogy "Mit lehet digitalizálni?" A legegyszerűbb mód az lenne, ha mérnénk, mennyi időbe telik minden diáknak befejezni az egyes modulokat, és a megszerzett tudást egy feleletválasztós teszttel mérnénk a modul végén. Az összes diák átlagos modulbefejezési idejét elemezve kideríthetjük, mely modulok okozzák a legtöbb nehézséget, és dolgozhatunk azok egyszerűsítésén. > Vitatható, hogy ez a megközelítés nem ideális, mivel a modulok hossza eltérő lehet. Valószínűleg igazságosabb lenne az időt a modul hosszával (karakterek száma alapján) elosztani, és az így kapott értékeket összehasonlítani. -Amikor elkezdjük elemezni a feleletválasztós tesztek eredményeit, megpróbálhatjuk meghatározni, hogy mely fogalmak megértése okoz nehézséget a diákoknak, és ezt az információt felhasználhatjuk a tartalom fejlesztésére. Ehhez úgy kell megterveznünk a teszteket, hogy minden kérdés egy adott fogalomhoz vagy tudáselemhez kapcsolódjon. +Amikor elkezdjük elemezni a feleletválasztós tesztek eredményeit, megpróbálhatjuk meghatározni, hogy mely fogalmak megértése okoz nehézséget a diákoknak, és ezt az információt felhasználhatjuk a tartalom javítására. Ehhez úgy kell megterveznünk a teszteket, hogy minden kérdés egy adott fogalomhoz vagy tudáselemhez kapcsolódjon. -Ha még bonyolultabb elemzést szeretnénk végezni, összevethetjük az egyes modulok elvégzéséhez szükséges időt a diákok korcsoportjaival. Lehet, hogy kiderül, hogy bizonyos korcsoportok számára túl hosszú időt vesz igénybe a modul befejezése, vagy hogy a diákok még a modul befejezése előtt lemorzsolódnak. Ez segíthet abban, hogy korosztály-specifikus ajánlásokat adjunk a modulhoz, és csökkentsük az emberek elégedetlenségét a téves elvárások miatt. +Ha még bonyolultabbá szeretnénk tenni az elemzést, ábrázolhatjuk az egyes modulok elvégzéséhez szükséges időt a diákok korcsoportjai szerint. Kiderülhet például, hogy bizonyos korcsoportok számára aránytalanul hosszú időbe telik a modul elvégzése, vagy hogy a diákok még a befejezés előtt lemorzsolódnak. Ez segíthet abban, hogy korosztály-specifikus ajánlásokat adjunk a modulhoz, és csökkentsük az emberek elégedetlenségét a helytelen elvárások miatt. ## 🚀 Kihívás -Ebben a kihívásban megpróbálunk a Data Science területéhez kapcsolódó fogalmakat azonosítani szövegek elemzésével. Egy Wikipedia-cikket fogunk használni a Data Science témájában, letöltjük és feldolgozzuk a szöveget, majd készítünk egy szófelhőt, amely így néz ki: +Ebben a kihívásban megpróbáljuk azonosítani azokat a fogalmakat, amelyek a Data Science területéhez kapcsolódnak, szövegek elemzésével. Egy Wikipedia-cikket fogunk használni a Data Science-ről, letöltjük és feldolgozzuk a szöveget, majd készítünk egy szófelhőt, például ilyet: -![Szófelhő a Data Science-ről](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Szófelhő a Data Science témában](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.hu.png) -Látogass el a [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') fájlhoz, hogy átnézd a kódot. A kódot futtathatod is, és valós időben láthatod, hogyan hajtja végre az adattranszformációkat. +Látogass el a [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') fájlhoz, hogy átnézd a kódot. A kódot futtathatod is, és valós időben láthatod, hogyan hajtja végre az adattranszformációkat. > Ha nem tudod, hogyan kell kódot futtatni egy Jupyter Notebookban, nézd meg [ezt a cikket](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). @@ -65,8 +67,8 @@ Látogass el a [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-d ## Feladatok -* **1. feladat**: Módosítsd a fenti kódot, hogy azonosítsd a **Big Data** és **Machine Learning** területeihez kapcsolódó fogalmakat. -* **2. feladat**: [Gondolkodj Data Science forgatókönyveken](assignment.md) +* **1. feladat**: Módosítsd a fenti kódot, hogy megtaláld a **Big Data** és a **Machine Learning** területeihez kapcsolódó fogalmakat. +* **2. feladat**: [Gondolkodj el a Data Science forgatókönyveken](assignment.md) ## Köszönetnyilvánítás @@ -74,5 +76,5 @@ Ezt a leckét ♥️-val készítette [Dmitry Soshnikov](http://soshnikov.com). --- -**Felelősség kizárása**: -Ez a dokumentum az AI fordítási szolgáltatás [Co-op Translator](https://github.com/Azure/co-op-translator) segítségével lett lefordítva. Bár törekszünk a pontosságra, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az eredeti nyelvén tekintendő hiteles forrásnak. Kritikus információk esetén javasolt professzionális emberi fordítást igénybe venni. Nem vállalunk felelősséget semmilyen félreértésért vagy téves értelmezésért, amely a fordítás használatából eredhet. \ No newline at end of file +**Felelősségkizárás**: +Ez a dokumentum az [Co-op Translator](https://github.com/Azure/co-op-translator) AI fordítási szolgáltatás segítségével készült. Bár törekszünk a pontosságra, kérjük, vegye figyelembe, hogy az automatikus fordítások hibákat vagy pontatlanságokat tartalmazhatnak. Az eredeti dokumentum az eredeti nyelvén tekintendő hiteles forrásnak. Kritikus információk esetén javasolt professzionális, emberi fordítást igénybe venni. Nem vállalunk felelősséget a fordítás használatából eredő félreértésekért vagy téves értelmezésekért. \ No newline at end of file diff --git a/translations/id/1-Introduction/01-defining-data-science/README.md b/translations/id/1-Introduction/01-defining-data-science/README.md index fd1e5c36..004a2a52 100644 --- a/translations/id/1-Introduction/01-defining-data-science/README.md +++ b/translations/id/1-Introduction/01-defining-data-science/README.md @@ -1,124 +1,80 @@ -# Mendefinisikan Ilmu Data - -| ![ Sketchnote oleh [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | -| :----------------------------------------------------------------------------------------------------: | -| Mendefinisikan Ilmu Data - _Sketchnote oleh [@nitya](https://twitter.com/nitya)_ | - ---- - -[![Video Mendefinisikan Ilmu Data](../../../../1-Introduction/01-defining-data-science/images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) - -## [Kuis sebelum kuliah](https://ff-quizzes.netlify.app/en/ds/quiz/0) - -## Apa itu Data? -Dalam kehidupan sehari-hari, kita selalu dikelilingi oleh data. Teks yang sedang Anda baca sekarang adalah data. Daftar nomor telepon teman-teman Anda di ponsel adalah data, begitu juga dengan waktu saat ini yang ditampilkan di jam tangan Anda. Sebagai manusia, kita secara alami beroperasi dengan data, seperti menghitung uang yang kita miliki atau menulis surat kepada teman. - -Namun, data menjadi jauh lebih penting dengan adanya komputer. Peran utama komputer adalah melakukan perhitungan, tetapi mereka memerlukan data untuk diolah. Oleh karena itu, kita perlu memahami bagaimana komputer menyimpan dan memproses data. - -Dengan munculnya Internet, peran komputer sebagai perangkat pengolah data semakin meningkat. Jika dipikirkan, kita sekarang lebih sering menggunakan komputer untuk memproses dan berkomunikasi data daripada untuk perhitungan sebenarnya. Ketika kita menulis email kepada teman atau mencari informasi di Internet, kita pada dasarnya sedang menciptakan, menyimpan, mengirimkan, dan memanipulasi data. -> Bisakah Anda mengingat kapan terakhir kali Anda menggunakan komputer untuk benar-benar menghitung sesuatu? - -## Apa itu Ilmu Data? - -Menurut [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **Ilmu Data** didefinisikan sebagai *bidang ilmiah yang menggunakan metode ilmiah untuk mengekstrak pengetahuan dan wawasan dari data terstruktur dan tidak terstruktur, serta menerapkan pengetahuan dan wawasan yang dapat ditindaklanjuti dari data di berbagai domain aplikasi*. - -Definisi ini menyoroti beberapa aspek penting dari ilmu data: - -* Tujuan utama ilmu data adalah **mengekstrak pengetahuan** dari data, dengan kata lain - untuk **memahami** data, menemukan hubungan tersembunyi, dan membangun **model**. -* Ilmu data menggunakan **metode ilmiah**, seperti probabilitas dan statistik. Faktanya, ketika istilah *ilmu data* pertama kali diperkenalkan, beberapa orang berpendapat bahwa ilmu data hanyalah nama baru yang keren untuk statistik. Namun, sekarang telah jelas bahwa bidang ini jauh lebih luas. -* Pengetahuan yang diperoleh harus diterapkan untuk menghasilkan **wawasan yang dapat ditindaklanjuti**, yaitu wawasan praktis yang dapat diterapkan pada situasi bisnis nyata. -* Kita harus mampu mengolah data **terstruktur** maupun **tidak terstruktur**. Kita akan kembali membahas jenis-jenis data ini nanti dalam kursus. -* **Domain aplikasi** adalah konsep penting, dan ilmuwan data sering kali membutuhkan setidaknya sedikit keahlian dalam domain masalah, misalnya: keuangan, kedokteran, pemasaran, dll. - -> Aspek penting lain dari Ilmu Data adalah mempelajari bagaimana data dapat dikumpulkan, disimpan, dan diolah menggunakan komputer. Sementara statistik memberikan dasar matematika, ilmu data menerapkan konsep matematika untuk benar-benar mendapatkan wawasan dari data. - -Salah satu cara (yang dikaitkan dengan [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) untuk melihat ilmu data adalah menganggapnya sebagai paradigma ilmu pengetahuan yang terpisah: -* **Empiris**, di mana kita terutama mengandalkan pengamatan dan hasil eksperimen -* **Teoretis**, di mana konsep baru muncul dari pengetahuan ilmiah yang sudah ada -* **Komputasional**, di mana kita menemukan prinsip baru berdasarkan beberapa eksperimen komputasi -* **Berbasis Data**, berdasarkan penemuan hubungan dan pola dalam data - -## Bidang Terkait Lainnya - -Karena data ada di mana-mana, ilmu data itu sendiri juga merupakan bidang yang luas, yang menyentuh banyak disiplin ilmu lainnya. - ## Jenis Data -Seperti yang telah disebutkan, data ada di mana-mana. Kita hanya perlu menangkapnya dengan cara yang tepat! Penting untuk membedakan antara **data terstruktur** dan **tidak terstruktur**. Data terstruktur biasanya direpresentasikan dalam bentuk yang terorganisir dengan baik, sering kali sebagai tabel atau sejumlah tabel, sedangkan data tidak terstruktur hanyalah kumpulan file. Kadang-kadang kita juga dapat berbicara tentang **data semi-terstruktur**, yang memiliki semacam struktur yang dapat sangat bervariasi. +Seperti yang telah disebutkan sebelumnya, data ada di mana-mana. Kita hanya perlu menangkapnya dengan cara yang tepat! Penting untuk membedakan antara **data terstruktur** dan **data tidak terstruktur**. Data terstruktur biasanya direpresentasikan dalam bentuk yang terorganisir dengan baik, sering kali berupa tabel atau sejumlah tabel, sedangkan data tidak terstruktur hanyalah kumpulan file. Kadang-kadang kita juga dapat berbicara tentang **data semi-terstruktur**, yang memiliki semacam struktur yang dapat sangat bervariasi. -| Terstruktur | Semi-terstruktur | Tidak Terstruktur | -| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | ------------------------------------- | -| Daftar orang dengan nomor telepon mereka | Halaman Wikipedia dengan tautan | Teks dari Ensiklopedia Britannica | -| Suhu di semua ruangan sebuah gedung setiap menit selama 20 tahun terakhir | Koleksi makalah ilmiah dalam format JSON dengan penulis, tanggal publikasi, dan abstrak | Berkas dokumen perusahaan | -| Data usia dan jenis kelamin semua orang yang masuk ke gedung | Halaman internet | Rekaman video mentah dari kamera pengawas | +| Terstruktur | Semi-terstruktur | Tidak terstruktur | +| --------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- | +| Daftar orang dengan nomor telepon mereka | Halaman Wikipedia dengan tautan | Teks dari Ensiklopedia Britannica | +| Suhu di semua ruangan gedung setiap menit selama 20 tahun terakhir | Kumpulan makalah ilmiah dalam format JSON dengan penulis, tanggal publikasi, dan abstrak | File berbagi dengan dokumen perusahaan | +| Data usia dan jenis kelamin semua orang yang masuk ke gedung | Halaman internet | Rekaman video mentah dari kamera pengawas | -## Dari Mana Mendapatkan Data +## Sumber Data -Ada banyak sumber data yang mungkin, dan tidak mungkin untuk mencantumkan semuanya! Namun, mari kita sebutkan beberapa tempat khas di mana Anda dapat memperoleh data: +Ada banyak sumber data yang mungkin, dan tidak mungkin untuk mencantumkan semuanya! Namun, mari kita sebutkan beberapa tempat umum di mana Anda dapat memperoleh data: * **Terstruktur** - - **Internet of Things** (IoT), termasuk data dari berbagai sensor, seperti sensor suhu atau tekanan, menyediakan banyak data yang berguna. Misalnya, jika sebuah gedung perkantoran dilengkapi dengan sensor IoT, kita dapat secara otomatis mengontrol pemanasan dan pencahayaan untuk meminimalkan biaya. - - **Survei** yang kita minta pengguna untuk mengisi setelah pembelian, atau setelah mengunjungi situs web. - - **Analisis perilaku** dapat, misalnya, membantu kita memahami seberapa dalam seorang pengguna menjelajahi situs, dan apa alasan utama mereka meninggalkan situs. -* **Tidak Terstruktur** - - **Teks** dapat menjadi sumber wawasan yang kaya, seperti **skor sentimen** secara keseluruhan, atau ekstraksi kata kunci dan makna semantik. - - **Gambar** atau **Video**. Rekaman video dari kamera pengawas dapat digunakan untuk memperkirakan lalu lintas di jalan, dan memberi tahu orang-orang tentang potensi kemacetan. + - **Internet of Things** (IoT), termasuk data dari berbagai sensor seperti sensor suhu atau tekanan, menyediakan banyak data yang berguna. Misalnya, jika sebuah gedung kantor dilengkapi dengan sensor IoT, kita dapat secara otomatis mengontrol pemanasan dan pencahayaan untuk meminimalkan biaya. + - **Survei** yang kita minta pengguna untuk isi setelah pembelian, atau setelah mengunjungi situs web. + - **Analisis perilaku** dapat, misalnya, membantu kita memahami seberapa dalam pengguna menjelajahi situs, dan apa alasan umum mereka meninggalkan situs. +* **Tidak terstruktur** + - **Teks** dapat menjadi sumber wawasan yang kaya, seperti skor **sentimen keseluruhan**, atau ekstraksi kata kunci dan makna semantik. + - **Gambar** atau **Video**. Video dari kamera pengawas dapat digunakan untuk memperkirakan lalu lintas di jalan, dan memberi tahu orang-orang tentang potensi kemacetan. - **Log** server web dapat digunakan untuk memahami halaman mana dari situs kita yang paling sering dikunjungi, dan berapa lama. * **Semi-terstruktur** - Grafik **Jejaring Sosial** dapat menjadi sumber data yang hebat tentang kepribadian pengguna dan potensi efektivitas dalam menyebarkan informasi. - - Ketika kita memiliki sekumpulan foto dari sebuah pesta, kita dapat mencoba mengekstrak data **Dinamika Kelompok** dengan membangun grafik orang-orang yang berfoto bersama. + - Ketika kita memiliki kumpulan foto dari sebuah pesta, kita dapat mencoba mengekstrak data **Dinamika Kelompok** dengan membangun grafik orang-orang yang berfoto bersama. -Dengan mengetahui berbagai sumber data yang mungkin, Anda dapat mencoba memikirkan berbagai skenario di mana teknik ilmu data dapat diterapkan untuk memahami situasi dengan lebih baik, dan meningkatkan proses bisnis. +Dengan mengetahui berbagai sumber data yang mungkin, Anda dapat mencoba memikirkan berbagai skenario di mana teknik ilmu data dapat diterapkan untuk memahami situasi dengan lebih baik, dan untuk meningkatkan proses bisnis. ## Apa yang Bisa Dilakukan dengan Data Dalam Ilmu Data, kita fokus pada langkah-langkah berikut dalam perjalanan data: -Tentu saja, tergantung pada data yang ada, beberapa langkah mungkin tidak diperlukan (misalnya, ketika kita sudah memiliki data di dalam basis data, atau ketika kita tidak memerlukan pelatihan model), atau beberapa langkah mungkin diulang beberapa kali (seperti pemrosesan data). +Tentu saja, tergantung pada data yang sebenarnya, beberapa langkah mungkin tidak diperlukan (misalnya, ketika kita sudah memiliki data di dalam database, atau ketika kita tidak memerlukan pelatihan model), atau beberapa langkah mungkin diulang beberapa kali (seperti pemrosesan data). ## Digitalisasi dan Transformasi Digital -Dalam dekade terakhir, banyak bisnis mulai memahami pentingnya data dalam pengambilan keputusan bisnis. Untuk menerapkan prinsip-prinsip ilmu data dalam menjalankan bisnis, pertama-tama kita perlu mengumpulkan data, yaitu menerjemahkan proses bisnis ke dalam bentuk digital. Ini dikenal sebagai **digitalisasi**. Menerapkan teknik ilmu data pada data ini untuk memandu keputusan dapat menghasilkan peningkatan produktivitas yang signifikan (atau bahkan perubahan arah bisnis), yang disebut **transformasi digital**. +Dalam dekade terakhir, banyak bisnis mulai memahami pentingnya data dalam membuat keputusan bisnis. Untuk menerapkan prinsip ilmu data dalam menjalankan bisnis, pertama-tama kita perlu mengumpulkan data, yaitu menerjemahkan proses bisnis ke dalam bentuk digital. Ini dikenal sebagai **digitalisasi**. Menerapkan teknik ilmu data pada data ini untuk memandu keputusan dapat menghasilkan peningkatan produktivitas yang signifikan (atau bahkan perubahan arah bisnis), yang disebut **transformasi digital**. Mari kita pertimbangkan sebuah contoh. Misalkan kita memiliki kursus ilmu data (seperti ini) yang kita sampaikan secara online kepada siswa, dan kita ingin menggunakan ilmu data untuk meningkatkannya. Bagaimana kita bisa melakukannya? -Kita dapat memulai dengan bertanya "Apa yang bisa didigitalisasi?" Cara paling sederhana adalah dengan mengukur waktu yang dibutuhkan setiap siswa untuk menyelesaikan setiap modul, dan mengukur pengetahuan yang diperoleh dengan memberikan tes pilihan ganda di akhir setiap modul. Dengan menghitung rata-rata waktu penyelesaian di seluruh siswa, kita dapat mengetahui modul mana yang paling sulit bagi siswa, dan bekerja untuk menyederhanakannya. +Kita dapat mulai dengan bertanya "Apa yang bisa didigitalisasi?" Cara paling sederhana adalah dengan mengukur waktu yang dibutuhkan setiap siswa untuk menyelesaikan setiap modul, dan mengukur pengetahuan yang diperoleh dengan memberikan tes pilihan ganda di akhir setiap modul. Dengan merata-ratakan waktu penyelesaian di seluruh siswa, kita dapat mengetahui modul mana yang paling sulit bagi siswa, dan bekerja untuk menyederhanakannya. Anda mungkin berpendapat bahwa pendekatan ini tidak ideal, karena modul dapat memiliki panjang yang berbeda. Mungkin lebih adil untuk membagi waktu berdasarkan panjang modul (dalam jumlah karakter), dan membandingkan nilai-nilai tersebut sebagai gantinya. -Ketika kita mulai menganalisis hasil tes pilihan ganda, kita dapat mencoba menentukan konsep mana yang sulit dipahami oleh siswa, dan menggunakan informasi tersebut untuk meningkatkan konten. Untuk melakukannya, kita perlu merancang tes sedemikian rupa sehingga setiap pertanyaan terkait dengan konsep atau bagian pengetahuan tertentu. +Ketika kita mulai menganalisis hasil tes pilihan ganda, kita dapat mencoba menentukan konsep mana yang sulit dipahami oleh siswa, dan menggunakan informasi tersebut untuk meningkatkan konten. Untuk melakukan itu, kita perlu merancang tes sedemikian rupa sehingga setiap pertanyaan terhubung dengan konsep atau bagian pengetahuan tertentu. -Jika kita ingin membuatnya lebih rumit, kita dapat memplot waktu yang dibutuhkan untuk setiap modul terhadap kategori usia siswa. Kita mungkin menemukan bahwa untuk beberapa kategori usia, dibutuhkan waktu yang terlalu lama untuk menyelesaikan modul, atau siswa berhenti sebelum menyelesaikannya. Hal ini dapat membantu kita memberikan rekomendasi usia untuk modul tersebut, dan meminimalkan ketidakpuasan orang akibat ekspektasi yang salah. +Jika kita ingin membuatnya lebih kompleks, kita dapat memplot waktu yang dihabiskan untuk setiap modul terhadap kategori usia siswa. Kita mungkin menemukan bahwa untuk beberapa kategori usia, waktu yang diperlukan untuk menyelesaikan modul terlalu lama, atau siswa berhenti sebelum menyelesaikannya. Hal ini dapat membantu kita memberikan rekomendasi usia untuk modul tersebut, dan meminimalkan ketidakpuasan orang akibat ekspektasi yang salah. ## 🚀 Tantangan -Dalam tantangan ini, kita akan mencoba menemukan konsep-konsep yang relevan dengan bidang Data Science dengan melihat teks. Kita akan mengambil artikel Wikipedia tentang Data Science, mengunduh dan memproses teksnya, lalu membuat word cloud seperti ini: +Dalam tantangan ini, kita akan mencoba menemukan konsep yang relevan dengan bidang Data Science dengan melihat teks. Kita akan mengambil artikel Wikipedia tentang Data Science, mengunduh dan memproses teksnya, lalu membuat word cloud seperti ini: -![Word Cloud untuk Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Word Cloud untuk Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.id.png) -Kunjungi [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') untuk membaca kode. Anda juga dapat menjalankan kode tersebut, dan melihat bagaimana kode tersebut melakukan semua transformasi data secara real time. +Kunjungi [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') untuk membaca kode. Anda juga dapat menjalankan kode tersebut, dan melihat bagaimana kode tersebut melakukan semua transformasi data secara langsung. > Jika Anda tidak tahu cara menjalankan kode di Jupyter Notebook, lihat [artikel ini](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). -## [Kuis setelah kuliah](https://ff-quizzes.netlify.app/en/ds/quiz/1) +## [Kuis setelah pelajaran](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## Tugas * **Tugas 1**: Modifikasi kode di atas untuk menemukan konsep terkait untuk bidang **Big Data** dan **Machine Learning** -* **Tugas 2**: [Pikirkan Tentang Skenario Data Science](assignment.md) +* **Tugas 2**: [Pikirkan tentang Skenario Data Science](assignment.md) ## Kredit -Pelajaran ini dibuat dengan ♥️ oleh [Dmitry Soshnikov](http://soshnikov.com) +Pelajaran ini telah dibuat dengan ♥️ oleh [Dmitry Soshnikov](http://soshnikov.com) --- **Penafian**: -Dokumen ini telah diterjemahkan menggunakan layanan penerjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Meskipun kami berupaya untuk memberikan hasil yang akurat, harap diperhatikan bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang berwenang. Untuk informasi yang bersifat kritis, disarankan menggunakan jasa penerjemahan manusia profesional. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang keliru yang timbul dari penggunaan terjemahan ini. \ No newline at end of file +Dokumen ini telah diterjemahkan menggunakan layanan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Meskipun kami berupaya untuk memberikan hasil yang akurat, harap diperhatikan bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang berwenang. Untuk informasi yang bersifat kritis, disarankan menggunakan jasa penerjemah manusia profesional. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang keliru yang timbul dari penggunaan terjemahan ini. \ No newline at end of file diff --git a/translations/it/1-Introduction/01-defining-data-science/README.md b/translations/it/1-Introduction/01-defining-data-science/README.md index 642b12d6..e10cd4ec 100644 --- a/translations/it/1-Introduction/01-defining-data-science/README.md +++ b/translations/it/1-Introduction/01-defining-data-science/README.md @@ -1,8 +1,8 @@ ## データの種類 -すでに述べたように、データは至る所に存在しています。ただし、適切な方法で収集する必要があります!データには、**構造化データ**と**非構造化データ**を区別することが有用です。構造化データは通常、表や複数の表の形式で整理されており、非構造化データは単なるファイルの集合です。また、**半構造化データ**についても話すことがあり、これはある程度の構造を持ちながらも、その構造が大きく異なる場合があります。 +前述の通り、データは至る所に存在しています。ただし、それを適切に収集する必要があります!データには、**構造化データ**と**非構造化データ**を区別することが有用です。構造化データは通常、表や複数の表の形式で整理されており、非構造化データは単なるファイルの集合です。また、**半構造化データ**についても言及することがあります。これはある程度の構造を持っていますが、その構造は大きく異なる場合があります。 -| 構造化データ | 半構造化データ | 非構造化データ | -| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | -| 人々のリストとその電話番号 | リンク付きのWikipediaページ | Encyclopedia Britannicaのテキスト | -| 過去20年間の建物内の各部屋の毎分の温度 | 著者、出版日、要約を含むJSON形式の科学論文のコレクション | 企業文書が保存されたファイル共有 | -| 建物に入るすべての人々の年齢と性別のデータ | インターネットページ | 監視カメラの生のビデオフィード | +| 構造化データ | 半構造化データ | 非構造化データ | +| ------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------ | ------------------------------------- | +| 人々の名前と電話番号のリスト | リンク付きのWikipediaページ | ブリタニカ百科事典のテキスト | +| 過去20年間の建物内の各部屋の毎分ごとの温度 | 著者、発行日、要約を含むJSON形式の科学論文のコレクション | 企業文書が保存されたファイル共有 | +| 建物に入るすべての人の年齢と性別のデータ | インターネットページ | 監視カメラからの生のビデオフィード | ## データの入手先 -データの入手先は非常に多く、すべてを挙げることは不可能です!しかし、典型的なデータの入手先をいくつか挙げてみましょう。 +データの入手先は無数にあり、すべてを列挙するのは不可能です!しかし、典型的なデータの入手先をいくつか挙げてみましょう: * **構造化データ** - - **IoT(Internet of Things)**:温度センサーや圧力センサーなど、さまざまなセンサーからのデータは非常に有用です。例えば、オフィスビルがIoTセンサーを備えている場合、暖房や照明を自動的に制御してコストを最小化することができます。 - - **アンケート**:購入後やウェブサイト訪問後にユーザーに回答を求めるアンケート。 - - **行動分析**:例えば、ユーザーがサイト内でどれだけ深く進むか、またはサイトを離れる典型的な理由を理解するのに役立ちます。 + - **IoT(モノのインターネット)**:温度センサーや圧力センサーなど、さまざまなセンサーからのデータは非常に有用です。例えば、オフィスビルがIoTセンサーで装備されている場合、コストを最小限に抑えるために暖房や照明を自動的に制御できます。 + - **アンケート**:購入後やウェブサイト訪問後にユーザーに記入してもらうアンケート。 + - **行動分析**:例えば、ユーザーがサイト内でどの程度深く進むのか、またはサイトを離れる典型的な理由を理解するのに役立ちます。 * **非構造化データ** - - **テキスト**:全体的な**感情スコア**やキーワード抽出、意味の解析など、豊富な洞察を提供します。 - - **画像**や**ビデオ**:監視カメラのビデオは道路の交通量を推定し、渋滞の可能性を人々に知らせるのに役立ちます。 - - ウェブサーバーの**ログ**:サイトのどのページが最も頻繁に訪問されているか、または滞在時間を理解するのに役立ちます。 + - **テキスト**:全体的な**感情スコア**やキーワードや意味の抽出など、豊富な洞察を得ることができます。 + - **画像**や**ビデオ**:監視カメラのビデオは、道路の交通量を推定し、潜在的な渋滞について人々に通知するのに役立ちます。 + - ウェブサーバーの**ログ**:サイト内で最も頻繁に訪問されるページや滞在時間を理解するのに役立ちます。 * **半構造化データ** - **ソーシャルネットワーク**のグラフ:ユーザーの性格や情報拡散の効果を知るための優れたデータ源となります。 - - パーティーの写真がたくさんある場合、写真を撮り合った人々のグラフを作成することで**グループダイナミクス**データを抽出することができます。 + - パーティーで撮影された写真の束がある場合、写真を撮り合った人々のグラフを作成することで、**グループダイナミクス**データを抽出できます。 -さまざまなデータの入手先を知ることで、データサイエンス技術を適用して状況をよりよく理解し、ビジネスプロセスを改善するためのさまざまなシナリオを考えることができます。 +さまざまなデータの入手先を知ることで、データサイエンスの技術を適用して状況をよりよく理解し、ビジネスプロセスを改善するためのさまざまなシナリオを考えることができます。 ## データでできること データサイエンスでは、データの旅の次のステップに焦点を当てます: -もちろん、実際のデータに応じて、いくつかのステップが省略される場合があります(例:すでにデータがデータベースにある場合や、モデルのトレーニングが不要な場合)。また、いくつかのステップが何度も繰り返される場合もあります(例:データ処理)。 +もちろん、実際のデータに応じて、いくつかのステップが省略される場合があります(例えば、すでにデータベースにデータがある場合や、モデルのトレーニングが不要な場合)。また、いくつかのステップが何度も繰り返される場合もあります(例えば、データ処理など)。 ## デジタル化とデジタルトランスフォーメーション -過去10年間、多くの企業がビジネスの意思決定におけるデータの重要性を理解し始めました。ビジネス運営にデータサイエンスの原則を適用するには、まずデータを収集する必要があります。つまり、ビジネスプロセスをデジタル形式に変換する必要があります。これを**デジタル化**と呼びます。このデータにデータサイエンス技術を適用して意思決定を導くことで、生産性の大幅な向上(またはビジネスの方向転換)を実現することができ、これを**デジタルトランスフォーメーション**と呼びます。 +過去10年間、多くの企業がビジネスの意思決定におけるデータの重要性を理解し始めました。データサイエンスの原則をビジネス運営に適用するには、まずデータを収集する必要があります。つまり、ビジネスプロセスをデジタル形式に変換する必要があります。これを**デジタル化**と呼びます。このデータにデータサイエンス技術を適用して意思決定を導くことで、生産性の大幅な向上(またはビジネスの方向転換)を実現することができ、これを**デジタルトランスフォーメーション**と呼びます。 -例を考えてみましょう。オンラインで学生に提供するデータサイエンスコース(このコースのようなもの)があり、それを改善するためにデータサイエンスを活用したいとします。どのようにすればよいでしょうか? +例を考えてみましょう。データサイエンスのコース(このコースのようなもの)をオンラインで学生に提供しているとします。そして、データサイエンスを活用してコースを改善したいと考えています。どうすればよいでしょうか? -まず、「何をデジタル化できるか?」を考えることから始めます。最も簡単な方法は、各モジュールを完了するのにかかる時間を各学生ごとに測定し、各モジュールの終了時に選択式テストを実施して得られた知識を測定することです。すべての学生の平均完了時間を計算することで、学生にとって最も難しいモジュールを特定し、それを簡素化するために取り組むことができます。 +まず、「何をデジタル化できるか?」を考えることから始めます。最も簡単な方法は、各モジュールを完了するのに各学生がかかった時間を測定し、各モジュールの最後に選択式テストを実施して得られた知識を測定することです。すべての学生の平均完了時間を計算することで、学生にとって最も難しいモジュールを特定し、それを簡略化するための作業を行うことができます。 モジュールの長さが異なる可能性があるため、このアプローチが理想的ではないと主張するかもしれません。モジュールの長さ(文字数)で時間を割り、その値を比較する方が、おそらくより公平でしょう。 複数選択式テストの結果を分析し始めるとき、学生が理解に苦労している概念を特定し、その情報を使ってコンテンツを改善することができます。そのためには、各質問が特定の概念や知識の一部に対応するようにテストを設計する必要があります。 -さらに複雑にしたい場合は、各モジュールにかかった時間を学生の年齢カテゴリと比較してプロットすることもできます。特定の年齢カテゴリでは、モジュールを完了するのに不適切に長い時間がかかることや、完了する前に学生が離脱してしまうことが分かるかもしれません。これにより、モジュールに対する年齢推奨を提供し、誤った期待による不満を最小限に抑えることができます。 +さらに複雑にしたい場合は、各モジュールにかかる時間を学生の年齢カテゴリと比較してプロットすることもできます。ある年齢カテゴリではモジュールを完了するのに不適切に長い時間がかかる、または学生が完了する前に離脱してしまうことが分かるかもしれません。この情報を活用して、モジュールの年齢推奨を提供し、不適切な期待による不満を最小限に抑えることができます。 ## 🚀 チャレンジ -このチャレンジでは、テキストを調べることでデータサイエンスの分野に関連する概念を見つけようとします。データサイエンスに関するWikipediaの記事を取得し、テキストを処理して、以下のようなワードクラウドを作成します: +このチャレンジでは、テキストを調べることでデータサイエンス分野に関連する概念を見つけようとします。データサイエンスに関するWikipediaの記事を取得し、テキストを処理した後、以下のようなワードクラウドを作成します: -![データサイエンスのワードクラウド](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![データサイエンスのワードクラウド](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ja.png) -[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') を訪問してコードを確認してください。コードを実行して、データ変換がリアルタイムでどのように行われるかを見ることもできます。 +[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') を訪れてコードを読んでみてください。コードを実行して、データ変換がリアルタイムでどのように行われるかを確認することもできます。 > Jupyter Notebookでコードを実行する方法が分からない場合は、[この記事](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)を参照してください。 @@ -68,13 +68,13 @@ CO_OP_TRANSLATOR_METADATA: ## 課題 * **タスク 1**: 上記のコードを修正して、**ビッグデータ**や**機械学習**の分野に関連する概念を見つけてください。 -* **タスク 2**: [データサイエンスのシナリオについて考える](assignment.md) +* **タスク 2**: [データサイエンスのシナリオを考える](assignment.md) ## クレジット -このレッスンは[ドミトリー・ソシュニコフ](http://soshnikov.com)によって♥️を込めて作成されました。 +このレッスンは [Dmitry Soshnikov](http://soshnikov.com) によって ♥️ を込めて作成されました。 --- **免責事項**: -この文書は、AI翻訳サービス [Co-op Translator](https://github.com/Azure/co-op-translator) を使用して翻訳されています。正確性を追求しておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があります。元の言語で記載された原文が正式な情報源と見なされるべきです。重要な情報については、専門の人間による翻訳を推奨します。本翻訳の利用に起因する誤解や誤訳について、当社は一切の責任を負いません。 \ No newline at end of file +この文書は、AI翻訳サービス [Co-op Translator](https://github.com/Azure/co-op-translator) を使用して翻訳されています。正確性を期すよう努めておりますが、自動翻訳には誤りや不正確な表現が含まれる可能性があります。元の言語で記載された原文が公式な情報源と見なされるべきです。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤解釈について、当方は一切の責任を負いません。 \ No newline at end of file diff --git a/translations/ko/1-Introduction/01-defining-data-science/README.md b/translations/ko/1-Introduction/01-defining-data-science/README.md index 80727add..4e0fc531 100644 --- a/translations/ko/1-Introduction/01-defining-data-science/README.md +++ b/translations/ko/1-Introduction/01-defining-data-science/README.md @@ -1,8 +1,8 @@ ## Duomenų tipai -Kaip jau minėjome, duomenys yra visur. Tereikia juos tinkamai užfiksuoti! Naudinga atskirti **struktūrizuotus** ir **nestruktūrizuotus** duomenis. Struktūrizuoti duomenys paprastai pateikiami gerai organizuota forma, dažniausiai lentelėje ar kelių lentelių pavidalu, o nestruktūrizuoti duomenys yra tiesiog failų rinkinys. Kartais galime kalbėti ir apie **pusiau struktūrizuotus** duomenis, kurie turi tam tikrą struktūrą, tačiau ji gali labai skirtis. +Kaip jau minėjome, duomenys yra visur. Tereikia juos tinkamai užfiksuoti! Naudinga atskirti **struktūrizuotus** ir **nestruktūrizuotus** duomenis. Struktūrizuoti duomenys paprastai pateikiami gerai organizuota forma, dažnai kaip lentelė ar kelios lentelės, o nestruktūrizuoti – tiesiog failų rinkinys. Kartais galime kalbėti ir apie **pusiau struktūrizuotus** duomenis, kurie turi tam tikrą struktūrą, tačiau ji gali labai skirtis. | Struktūrizuoti | Pusiau struktūrizuoti | Nestruktūrizuoti | | ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- | @@ -17,49 +17,49 @@ Kaip jau minėjome, duomenys yra visur. Tereikia juos tinkamai užfiksuoti! Naud | Temperatūra visose pastato patalpose kas minutę per pastaruosius 20 metų | Mokslinių straipsnių rinkinys JSON formatu su autoriais, publikavimo data ir santrauka | Failų saugykla su įmonės dokumentais | | Duomenys apie amžių ir lytį visų žmonių, įeinančių į pastatą | Interneto puslapiai | Neapdorotas vaizdo įrašas iš stebėjimo kameros | -## Kur gauti duomenų +## Kur gauti duomenis -Yra daugybė galimų duomenų šaltinių, ir būtų neįmanoma išvardyti visų! Tačiau paminėkime keletą tipinių vietų, kur galima gauti duomenų: +Yra daugybė galimų duomenų šaltinių, ir būtų neįmanoma išvardyti visų! Tačiau paminėkime keletą tipinių vietų, kur galima gauti duomenis: * **Struktūrizuoti** - **Daiktų internetas** (IoT), įskaitant duomenis iš įvairių jutiklių, tokių kaip temperatūros ar slėgio jutikliai, teikia daug naudingų duomenų. Pavyzdžiui, jei biurų pastatas yra aprūpintas IoT jutikliais, galime automatiškai valdyti šildymą ir apšvietimą, kad sumažintume išlaidas. - **Apklausos**, kurias prašome vartotojų užpildyti po pirkimo ar apsilankymo svetainėje. - - **Elgsenos analizė** gali padėti suprasti, kaip giliai vartotojas naršo svetainėje ir kokios yra tipinės priežastys, kodėl jis ją palieka. + - **Elgsenos analizė** gali, pavyzdžiui, padėti suprasti, kaip giliai vartotojas naršo svetainėje ir kokia yra tipinė priežastis, kodėl jis ją palieka. * **Nestruktūrizuoti** - **Tekstai** gali būti turtingas įžvalgų šaltinis, pavyzdžiui, bendras **nuotaikos balas** arba raktažodžių ir semantinės prasmės išgavimas. - **Vaizdai** ar **vaizdo įrašai**. Vaizdo įrašas iš stebėjimo kameros gali būti naudojamas eismo intensyvumui kelyje įvertinti ir informuoti žmones apie galimus kamščius. - - Interneto serverio **žurnalai** gali padėti suprasti, kurie mūsų svetainės puslapiai yra dažniausiai lankomi ir kiek laiko. + - Interneto serverio **žurnalai** gali būti naudojami suprasti, kurie mūsų svetainės puslapiai yra dažniausiai lankomi ir kiek laiko. * **Pusiau struktūrizuoti** - **Socialinių tinklų** grafai gali būti puikūs duomenų šaltiniai apie vartotojų asmenybes ir potencialų efektyvumą skleidžiant informaciją. - Kai turime daugybę nuotraukų iš vakarėlio, galime pabandyti išgauti **grupės dinamikos** duomenis, sudarydami žmonių, fotografuojančių vieni kitus, grafą. -Žinodami įvairius galimus duomenų šaltinius, galite pabandyti pagalvoti apie skirtingus scenarijus, kur duomenų mokslo metodai gali būti taikomi situacijai geriau suprasti ir verslo procesams tobulinti. +Žinodami įvairius galimus duomenų šaltinius, galite pabandyti pagalvoti apie skirtingus scenarijus, kur duomenų mokslo technikos gali būti taikomos situacijai geriau suprasti ir verslo procesams tobulinti. ## Ką galima daryti su duomenimis Duomenų moksle mes sutelkiame dėmesį į šiuos duomenų kelionės etapus: -Žinoma, priklausomai nuo konkrečių duomenų, kai kurie etapai gali būti praleisti (pvz., kai duomenys jau yra duomenų bazėje arba kai nereikia modelio mokymo), o kai kurie etapai gali būti kartojami kelis kartus (pvz., duomenų apdorojimas). +Žinoma, priklausomai nuo faktinių duomenų, kai kurie etapai gali būti praleisti (pvz., kai jau turime duomenis duomenų bazėje arba kai nereikia modelio mokymo), arba kai kurie etapai gali būti kartojami kelis kartus (pvz., duomenų apdorojimas). ## Skaitmenizacija ir skaitmeninė transformacija -Pastarąjį dešimtmetį daugelis verslų pradėjo suprasti duomenų svarbą priimant verslo sprendimus. Norint taikyti duomenų mokslo principus verslo valdymui, pirmiausia reikia surinkti tam tikrus duomenis, t. y. verslo procesus paversti skaitmenine forma. Tai vadinama **skaitmenizacija**. Duomenų mokslo metodų taikymas šiems duomenims sprendimams priimti gali lemti reikšmingą produktyvumo padidėjimą (ar net verslo krypties pakeitimą), vadinamą **skaitmenine transformacija**. +Pastarąjį dešimtmetį daugelis verslų pradėjo suprasti duomenų svarbą priimant verslo sprendimus. Norint taikyti duomenų mokslo principus verslo valdymui, pirmiausia reikia surinkti tam tikrus duomenis, t. y. verslo procesus paversti skaitmenine forma. Tai vadinama **skaitmenizacija**. Duomenų mokslo technikų taikymas šiems duomenims sprendimams priimti gali lemti reikšmingą produktyvumo padidėjimą (ar net verslo krypties pakeitimą), vadinamą **skaitmenine transformacija**. -Pažvelkime į pavyzdį. Tarkime, turime duomenų mokslo kursą (kaip šis), kurį pristatome internetu studentams, ir norime jį patobulinti pasitelkdami duomenų mokslą. Kaip tai galime padaryti? +Pažvelkime į pavyzdį. Tarkime, turime duomenų mokslo kursą (kaip šis), kurį pristatome internetu studentams, ir norime pasitelkti duomenų mokslą, kad jį patobulintume. Kaip tai galime padaryti? -Galime pradėti klausdami: „Ką galima skaitmenizuoti?“ Paprasčiausias būdas būtų matuoti laiką, kurio kiekvienam studentui reikia kiekvienam modulio užbaigimui, ir įvertinti įgytas žinias, pateikiant daugiapakopį testą modulio pabaigoje. Vidutiniškai apskaičiavę laiką, reikalingą modulio užbaigimui visiems studentams, galime nustatyti, kurie moduliai studentams kelia daugiausia sunkumų, ir dirbti ties jų supaprastinimu. +Galime pradėti klausdami: „Ką galima skaitmenizuoti?“ Paprasčiausias būdas būtų matuoti laiką, kurį kiekvienas studentas praleidžia kiekviename modulyje, ir įvertinti įgytas žinias, pateikiant daugiapakopį testą kiekvieno modulio pabaigoje. Vidutiniškai apskaičiuodami laiką, praleistą kiekviename modulyje, galime nustatyti, kurie moduliai studentams kelia daugiausia sunkumų, ir dirbti ties jų supaprastinimu. Galite teigti, kad toks požiūris nėra idealus, nes moduliai gali būti skirtingo ilgio. Tikriausiai būtų teisingiau laiką padalyti iš modulio ilgio (simbolių skaičiumi) ir palyginti šias reikšmes vietoj to. -Kai pradedame analizuoti daugybinio pasirinkimo testų rezultatus, galime pabandyti nustatyti, su kokiomis sąvokomis studentams sunkiausia susidoroti, ir naudoti šią informaciją turiniui tobulinti. Tam reikia sukurti testus taip, kad kiekvienas klausimas būtų susietas su tam tikra sąvoka ar žinių dalimi. +Kai pradedame analizuoti daugiapakopius testus, galime pabandyti nustatyti, kokios sąvokos kelia sunkumų studentams, ir pasinaudoti šia informacija turinio tobulinimui. Tam reikia sukurti testus taip, kad kiekvienas klausimas būtų susietas su tam tikra sąvoka ar žinių dalimi. -Jei norime eiti dar sudėtingesniu keliu, galime sudaryti grafiką, kuriame pavaizduotas laikas, praleistas kiekviename modulyje, palyginti su studentų amžiaus kategorijomis. Galime pastebėti, kad kai kurioms amžiaus grupėms užtrunka neproporcingai ilgai užbaigti modulį arba kad studentai meta mokymąsi jo nebaigę. Tai gali padėti pateikti amžiaus rekomendacijas moduliui ir sumažinti žmonių nusivylimą dėl neteisingų lūkesčių. +Jei norime eiti dar sudėtingesniu keliu, galime sudaryti grafiką, kuriame būtų pavaizduotas laikas, praleistas kiekviename modulyje, palyginti su studentų amžiaus kategorijomis. Galime pastebėti, kad kai kurioms amžiaus grupėms moduliui užbaigti reikia neproporcingai daug laiko arba kad studentai meta modulį jo nebaigę. Tai gali padėti mums pateikti amžiaus rekomendacijas moduliui ir sumažinti žmonių nepasitenkinimą dėl neteisingų lūkesčių. ## 🚀 Iššūkis Šiame iššūkyje bandysime rasti sąvokas, susijusias su duomenų mokslo sritimi, analizuodami tekstus. Paimsime Vikipedijos straipsnį apie duomenų mokslą, atsisiųsime ir apdorosime tekstą, o tada sukursime žodžių debesį, panašų į šį: -![Žodžių debesis apie duomenų mokslą](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Žodžių debesis apie duomenų mokslą](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.lt.png) -Apsilankykite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), kad peržiūrėtumėte kodą. Taip pat galite paleisti kodą ir pamatyti, kaip jis realiuoju laiku atlieka visus duomenų transformavimus. +Apsilankykite [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), kad peržiūrėtumėte kodą. Taip pat galite paleisti kodą ir pamatyti, kaip jis realiu laiku atlieka visus duomenų transformavimus. > Jei nežinote, kaip paleisti kodą Jupyter Notebook aplinkoje, peržiūrėkite [šį straipsnį](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). @@ -70,11 +70,11 @@ Apsilankykite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-de * **Užduotis 1**: Pakeiskite aukščiau pateiktą kodą, kad rastumėte susijusias sąvokas **Didžiųjų duomenų** ir **Mašininio mokymosi** srityse. * **Užduotis 2**: [Pagalvokite apie duomenų mokslo scenarijus](assignment.md) -## Autorystė +## Kreditas -Šią pamoką su ♥️ parengė [Dmitry Soshnikov](http://soshnikov.com) +Ši pamoka sukurta su ♥️ [Dmitry Soshnikov](http://soshnikov.com). --- **Atsakomybės apribojimas**: -Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Dėl svarbios informacijos rekomenduojame kreiptis į profesionalius vertėjus. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/mo/1-Introduction/01-defining-data-science/README.md b/translations/mo/1-Introduction/01-defining-data-science/README.md index 9552a6ec..e72d4923 100644 --- a/translations/mo/1-Introduction/01-defining-data-science/README.md +++ b/translations/mo/1-Introduction/01-defining-data-science/README.md @@ -1,72 +1,74 @@ ## 資料的類型 -如前所述,資料無處不在。我們只需要以正確的方式捕捉它!區分 **結構化** 和 **非結構化** 資料是很有幫助的。前者通常以某種良好的結構形式表示,通常是表格或多個表格,而後者則僅僅是一堆檔案。有時我們也會提到 **半結構化** 資料,它具有某種結構,但可能差異很大。 +如前所述,資料無處不在。我們只需要以正確的方式捕捉它!區分 **結構化資料** 和 **非結構化資料** 是很有幫助的。前者通常以某種良好結構的形式表示,通常是表格或多個表格,而後者則僅僅是一堆檔案。有時我們也會提到 **半結構化資料**,它具有某種結構,但可能差異很大。 | 結構化資料 | 半結構化資料 | 非結構化資料 | | ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- | -| 包含人名及其電話號碼的列表 | 帶有連結的維基百科頁面 | 《大英百科全書》的文字內容 | -| 過去 20 年中每分鐘建築物所有房間的溫度記錄 | 以 JSON 格式存儲的科學論文集合,包括作者、出版日期和摘要 | 包含公司文件的檔案共享 | -| 進入建築物的所有人的年齡和性別資料 | 網頁 | 監控攝影機的原始視頻流 | +| 人員名單及其電話號碼 | 帶有連結的維基百科頁面 | 《大英百科全書》的文字內容 | +| 過去 20 年中每分鐘建築物所有房間的溫度 | 以 JSON 格式存儲的科學論文集合,包括作者、出版日期和摘要 | 包含公司文件的檔案共享 | +| 進入建築物的所有人員的年齡和性別資料 | 網頁 | 監控攝像頭的原始視頻流 | ## 資料的來源 資料的來源有很多,幾乎不可能列出所有可能的來源!然而,我們可以提到一些典型的資料來源: * **結構化資料** - - **物聯網** (IoT),包括來自不同感測器(如溫度或壓力感測器)的資料,提供了大量有用的資訊。例如,如果辦公樓配備了物聯網感測器,我們可以自動控制暖氣和照明以降低成本。 - - **問卷調查**,例如在購買後或訪問網站後要求用戶完成的問卷。 + - **物聯網** (IoT),包括來自不同感測器(如溫度或壓力感測器)的資料,提供了大量有用的資訊。例如,如果辦公樓配備了物聯網感測器,我們可以自動控制供暖和照明,以降低成本。 + - **問卷調查**,例如在購買後或訪問網站後要求用戶完成的調查。 - **行為分析**,例如幫助我們了解用戶在網站上的瀏覽深度,以及離開網站的典型原因。 * **非結構化資料** - - **文字**可以提供豐富的洞察,例如整體的 **情感分數**,或提取關鍵字和語義。 - - **圖片**或 **視頻**。監控攝影機的視頻可以用來估算道路上的交通流量,並通知人們可能的交通堵塞。 - - 網頁伺服器的 **日誌** 可以用來了解我們網站上最常被訪問的頁面,以及訪問的時長。 + - **文本**可以提供豐富的洞察,例如整體 **情感分數**,或提取關鍵字和語義含義。 + - **圖像**或 **視頻**。監控攝像頭的視頻可以用來估算道路上的交通流量,並通知人們可能的交通堵塞。 + - 網頁伺服器的 **日誌** 可以用來了解我們網站上最常被訪問的頁面,以及訪問時長。 * **半結構化資料** - **社交網絡**圖表可以提供有關用戶個性及其在信息傳播中的潛在影響力的資料。 - - 當我們擁有一堆派對照片時,我們可以通過建立人們互相拍照的圖表來提取 **群體動態** 資料。 + - 當我們擁有一堆派對照片時,可以嘗試通過建立人們互相拍照的圖表來提取 **群體動態** 資料。 -了解不同的資料來源後,您可以思考不同的場景,嘗試應用資料科學技術來更好地了解情況並改善業務流程。 +了解不同的資料來源後,您可以嘗試思考不同的場景,應用資料科學技術來更好地了解情況並改進業務流程。 ## 資料的用途 在資料科學中,我們專注於資料旅程的以下步驟: -## 數位化與數位轉型 +當然,根據實際資料的情況,有些步驟可能會缺失(例如,當資料已經存儲在資料庫中,或者不需要模型訓練時),或者某些步驟可能會重複多次(例如資料處理)。 -在過去十年中,許多企業開始意識到在做出業務決策時資料的重要性。要將資料科學原則應用於業務運營,首先需要收集一些資料,也就是將業務流程轉化為數位形式,這被稱為 **數位化**。將資料科學技術應用於這些資料以指導決策,可以顯著提高生產力(甚至可能改變業務方向),這被稱為 **數位轉型**。 +## 數字化與數字轉型 -讓我們來看一個例子。假設我們有一門資料科學課程(像這門課程),我們在線上向學生提供,並希望利用資料科學來改進它。我們該如何做? +在過去十年中,許多企業開始意識到在做出業務決策時資料的重要性。要將資料科學原則應用於業務運營,首先需要收集一些資料,即將業務流程轉化為數字形式,這被稱為 **數字化**。將資料科學技術應用於這些資料以指導決策,可以顯著提高生產力(甚至可能改變業務方向),這被稱為 **數字轉型**。 -我們可以從問「什麼可以數位化?」開始。最簡單的方法是測量每位學生完成每個模組所需的時間,並通過在每個模組結束時進行選擇題測試來測量所獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模組對學生來說最具挑戰性,並著手簡化它們。 +讓我們考慮一個例子。假設我們有一門資料科學課程(如本課程),我們在線上向學生提供,並希望利用資料科學來改進它。我們該如何做? + +我們可以從問「什麼可以數字化?」開始。最簡單的方法是測量每位學生完成每個模組所需的時間,並通過在每個模組結束時進行選擇題測試來測量所獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模組對學生來說最具挑戰性,並著手簡化它們。 你可能會認為這種方法並不理想,因為模組的長度可能有所不同。或許更公平的做法是根據模組的長度(以字元數計算)來分配時間,然後比較這些數值。 -當我們開始分析多選測驗的結果時,可以嘗試找出學生難以理解的概念,並利用這些資訊改進內容。為了達到這個目的,我們需要設計測驗,使每個問題都能對應到某個特定概念或知識塊。 +當我們開始分析選擇題測試的結果時,可以嘗試判斷學生在哪些概念上存在理解困難,並利用這些資訊來改進內容。為了達到這個目的,我們需要設計測試,使每個問題都能對應到某個特定的概念或知識塊。 -如果我們想進一步深入分析,可以將每個模組所花費的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生完成模組所需時間過長,或者在完成之前就中途退出。這些資訊可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。 +如果我們想進一步深入分析,可以將每個模組所花費的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生完成模組所需的時間過長,或者學生在完成模組之前就中途退出。這些資訊可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。 ## 🚀 挑戰 -在這個挑戰中,我們將嘗試透過分析文本來找出與資料科學領域相關的概念。我們會選取一篇關於資料科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲: +在這次挑戰中,我們將嘗試透過分析文本來找出與數據科學領域相關的概念。我們會選取一篇關於數據科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲: -![資料科學文字雲](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![數據科學文字雲](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.mo.png) -請訪問 [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 閱讀程式碼。您也可以執行程式碼,並即時查看它如何進行所有的資料轉換。 +訪問 [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 來閱讀程式碼。你也可以執行程式碼,並即時查看它如何進行所有數據轉換。 -> 如果您不知道如何在 Jupyter Notebook 中執行程式碼,可以參考 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。 +> 如果你不知道如何在 Jupyter Notebook 中執行程式碼,可以查看 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。 ## [課後測驗](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## 作業 * **任務 1**:修改上述程式碼,找出與 **大數據** 和 **機器學習** 領域相關的概念 -* **任務 2**:[思考資料科學情境](assignment.md) +* **任務 2**:[思考數據科學場景](assignment.md) ## 致謝 @@ -75,4 +77,4 @@ CO_OP_TRANSLATOR_METADATA: --- **免責聲明**: -本文件使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議尋求專業人工翻譯。我們對於因使用此翻譯而引起的任何誤解或錯誤解讀概不負責。 \ No newline at end of file +本文件已使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊,建議尋求專業人工翻譯。我們對因使用此翻譯而產生的任何誤解或錯誤解讀概不負責。 \ No newline at end of file diff --git a/translations/mr/1-Introduction/01-defining-data-science/README.md b/translations/mr/1-Introduction/01-defining-data-science/README.md index 543d2102..51f1d4d2 100644 --- a/translations/mr/1-Introduction/01-defining-data-science/README.md +++ b/translations/mr/1-Introduction/01-defining-data-science/README.md @@ -1,39 +1,39 @@ ## डेटा प्रकार -जसे आपण आधीच उल्लेख केले आहे, डेटा सर्वत्र आहे. फक्त योग्य प्रकारे तो पकडण्याची गरज आहे! **संरचित** आणि **असंरचित** डेटामध्ये फरक करणे उपयुक्त आहे. संरचित डेटा सामान्यतः चांगल्या प्रकारे संरचित स्वरूपात सादर केला जातो, अनेकदा टेबल किंवा टेबल्सच्या स्वरूपात, तर असंरचित डेटा फक्त फाइल्सचा संग्रह असतो. कधी कधी **अर्ध-संरचित** डेटाबद्दलही बोलता येते, ज्यामध्ये काही प्रकारची रचना असते जी मोठ्या प्रमाणात बदलू शकते. +जसे आपण आधीच उल्लेख केले आहे, डेटा सर्वत्र आहे. फक्त योग्य पद्धतीने तो पकडण्याची गरज आहे! **संरचित** आणि **असंरचित** डेटामध्ये फरक करणे उपयुक्त ठरते. संरचित डेटा सामान्यतः चांगल्या प्रकारे संरचित स्वरूपात सादर केला जातो, जसे की टेबल किंवा अनेक टेबल्स, तर असंरचित डेटा फक्त फाइल्सचा संग्रह असतो. कधी कधी आपण **अर्ध-संरचित** डेटाबद्दलही बोलतो, ज्यामध्ये काही प्रकारची रचना असते, परंतु ती खूप वेगवेगळ्या प्रकारे बदलू शकते. | संरचित | अर्ध-संरचित | असंरचित | | ------------------------------------------------------------------------ | -------------------------------------------------------------------------------------------- | ----------------------------------- | -| लोकांची यादी त्यांच्या फोन नंबरसह | विकिपीडिया पृष्ठे लिंकसह | एनसायक्लोपीडिया ब्रिटानिकाचा मजकूर | -| एका इमारतीतील सर्व खोल्यांतील तापमान दर मिनिटाला मागील २० वर्षांसाठी | वैज्ञानिक पेपर्सचा JSON स्वरूपातील संग्रह, ज्यामध्ये लेखक, प्रकाशन तारीख, आणि सारांश आहे | कॉर्पोरेट दस्तऐवजांसह फाइल शेअर | -| इमारतीत प्रवेश करणाऱ्या सर्व लोकांचे वय आणि लिंग यांचा डेटा | इंटरनेट पृष्ठे | देखरेख कॅमेरामधून कच्चा व्हिडिओ फीड | +| लोकांची यादी त्यांच्या फोन नंबरसह | विकिपीडिया पृष्ठे लिंकसह | एनसायक्लोपीडिया ब्रिटानिका मजकूर | +| एका इमारतीतील प्रत्येक खोलीतील तापमान मागील २० वर्षांतील प्रत्येक मिनिटासाठी | JSON स्वरूपात वैज्ञानिक पेपरांचा संग्रह, ज्यामध्ये लेखक, प्रकाशनाची तारीख, आणि सारांश आहे | कॉर्पोरेट दस्तऐवजांसह फाइल शेअर | +| इमारतीत प्रवेश करणाऱ्या सर्व लोकांचे वय आणि लिंग डेटा | इंटरनेट पृष्ठे | देखरेख कॅमेऱ्याचा कच्चा व्हिडिओ फीड | -## डेटा कुठे मिळवायचा +## डेटा कुठून मिळवायचा -डेटा मिळवण्यासाठी अनेक संभाव्य स्रोत आहेत, आणि त्यांची यादी करणे अशक्य आहे! मात्र, काही सामान्य ठिकाणांचा उल्लेख करूया जिथे तुम्हाला डेटा मिळू शकतो: +डेटा मिळवण्यासाठी अनेक संभाव्य स्रोत आहेत, आणि त्यांची यादी करणे अशक्य आहे! परंतु, आपण काही सामान्य ठिकाणांचा उल्लेख करूया जिथे डेटा मिळवता येतो: * **संरचित** - - **इंटरनेट ऑफ थिंग्स** (IoT), ज्यामध्ये विविध सेन्सर्समधून डेटा मिळतो, जसे तापमान किंवा दाब सेन्सर्स, उपयुक्त डेटा प्रदान करतात. उदाहरणार्थ, जर ऑफिस इमारत IoT सेन्सर्सने सुसज्ज असेल, तर आम्ही खर्च कमी करण्यासाठी स्वयंचलितपणे हीटिंग आणि लाइटिंग नियंत्रित करू शकतो. - - **सर्वेक्षण** जे आम्ही वापरकर्त्यांना खरेदी केल्यानंतर किंवा वेबसाइटला भेट दिल्यानंतर पूर्ण करण्यास सांगतो. - - **वर्तन विश्लेषण** उदाहरणार्थ, आम्हाला समजून घेण्यास मदत करू शकते की वापरकर्ता साइटमध्ये किती खोलवर जातो आणि साइट सोडण्याचे सामान्य कारण काय आहे. + - **इंटरनेट ऑफ थिंग्स** (IoT), ज्यामध्ये विविध सेन्सर्समधून डेटा मिळतो, जसे की तापमान किंवा दाब सेन्सर्स. उदाहरणार्थ, जर ऑफिस इमारत IoT सेन्सर्सने सुसज्ज असेल, तर आपण खर्च कमी करण्यासाठी स्वयंचलितपणे हीटिंग आणि लाइटिंग नियंत्रित करू शकतो. + - **सर्वेक्षण**, जे आपण वापरकर्त्यांना खरेदी केल्यानंतर किंवा वेबसाइटला भेट दिल्यानंतर पूर्ण करण्यास सांगतो. + - **वर्तन विश्लेषण**, ज्यामुळे आपण समजू शकतो की वापरकर्ता साइटमध्ये किती खोलवर जातो आणि साइट सोडण्याचे सामान्य कारण काय आहे. * **असंरचित** - - **मजकूर** हा अंतर्दृष्टीचा समृद्ध स्रोत असू शकतो, जसे एकूण **भावना स्कोअर**, किंवा कीवर्ड आणि अर्थपूर्ण अर्थ काढणे. - - **प्रतिमा** किंवा **व्हिडिओ**. देखरेख कॅमेरामधून व्हिडिओ रस्त्यावर वाहतूक अंदाजासाठी वापरला जाऊ शकतो आणि लोकांना संभाव्य वाहतूक कोंडीबद्दल माहिती दिली जाऊ शकते. - - वेब सर्व्हर **लॉग्स** वापरले जाऊ शकतात ज्यामुळे समजते की आमच्या साइटवरील कोणती पृष्ठे सर्वाधिक वेळा भेट दिली जातात आणि किती वेळासाठी. + - **मजकूर**, जो समग्र **भावना स्कोअर** किंवा कीवर्ड आणि अर्थपूर्ण अर्थ काढण्यासाठी समृद्ध स्रोत असू शकतो. + - **प्रतिमा** किंवा **व्हिडिओ**. देखरेख कॅमेऱ्याचा व्हिडिओ रस्त्यावरच्या वाहतुकीचा अंदाज घेण्यासाठी वापरला जाऊ शकतो आणि लोकांना संभाव्य वाहतूक कोंडीबद्दल माहिती दिली जाऊ शकते. + - वेब सर्व्हर **लॉग्स**, ज्यामुळे आपण समजू शकतो की आमच्या साइटवरील कोणती पृष्ठे सर्वाधिक वेळा भेट दिली जातात आणि किती वेळासाठी. * अर्ध-संरचित - - **सोशल नेटवर्क** ग्राफ्स वापरकर्त्यांच्या व्यक्तिमत्त्वांबद्दल आणि माहिती पसरविण्याच्या संभाव्य प्रभावीतेबद्दल डेटा मिळवण्यासाठी उत्कृष्ट स्रोत असू शकतात. - - जेव्हा आमच्याकडे पार्टीमधील छायाचित्रांचा संग्रह असतो, तेव्हा आम्ही लोक एकमेकांसोबत छायाचित्रे घेत असल्याचा ग्राफ तयार करून **गट गतिशीलता** डेटा काढण्याचा प्रयत्न करू शकतो. + - **सोशल नेटवर्क** ग्राफ्स, जे वापरकर्त्यांच्या व्यक्तिमत्त्वाबद्दल आणि माहिती पसरविण्याच्या संभाव्य प्रभावीतेबद्दल डेटा मिळवण्यासाठी उत्कृष्ट स्रोत असू शकतात. + - जर आपल्याकडे पार्टीतील छायाचित्रांचा संग्रह असेल, तर आपण लोक एकमेकांसोबत छायाचित्रे घेत असल्याचा ग्राफ तयार करून **गट गतिकी** डेटा काढण्याचा प्रयत्न करू शकतो. -डेटाचे विविध संभाव्य स्रोत माहित असल्याने, तुम्ही वेगवेगळ्या परिस्थितींबद्दल विचार करू शकता जिथे डेटा सायन्स तंत्रे लागू केली जाऊ शकतात, परिस्थिती चांगल्या प्रकारे जाणून घेण्यासाठी आणि व्यवसाय प्रक्रिया सुधारण्यासाठी. +डेटाचे विविध संभाव्य स्रोत माहित असल्याने, आपण विविध परिस्थितींबद्दल विचार करू शकतो जिथे डेटा सायन्स तंत्रे लागू केली जाऊ शकतात, परिस्थिती अधिक चांगल्या प्रकारे जाणून घेण्यासाठी आणि व्यवसाय प्रक्रिया सुधारण्यासाठी. ## डेटा सह काय करता येईल @@ -41,32 +41,32 @@ CO_OP_TRANSLATOR_METADATA: ## डिजिटलायझेशन आणि डिजिटल ट्रान्सफॉर्मेशन -गेल्या दशकात, अनेक व्यवसायांनी व्यवसाय निर्णय घेताना डेटाचे महत्त्व समजून घेतले आहे. व्यवसाय चालवण्यासाठी डेटा सायन्स तत्त्वे लागू करण्यासाठी, प्रथम काही डेटा गोळा करणे आवश्यक आहे, म्हणजेच व्यवसाय प्रक्रियांना डिजिटल स्वरूपात अनुवादित करणे. याला **डिजिटलायझेशन** म्हणतात. या डेटावर डेटा सायन्स तंत्रे लागू करून निर्णयांचे मार्गदर्शन केल्याने उत्पादकतेत लक्षणीय वाढ (किंवा व्यवसायातील मोठा बदल) होऊ शकतो, ज्याला **डिजिटल ट्रान्सफॉर्मेशन** म्हणतात. +गेल्या दशकात, अनेक व्यवसायांनी व्यवसाय निर्णय घेताना डेटाचे महत्त्व ओळखले आहे. व्यवसाय चालवण्यासाठी डेटा सायन्स तत्त्वे लागू करण्यासाठी, प्रथम काही डेटा गोळा करणे आवश्यक आहे, म्हणजेच व्यवसाय प्रक्रियांना डिजिटल स्वरूपात अनुवादित करणे. याला **डिजिटलायझेशन** म्हणतात. या डेटावर डेटा सायन्स तंत्रे लागू करून निर्णयांचे मार्गदर्शन करणे उत्पादकतेत लक्षणीय वाढ (किंवा व्यवसायाचा बदल) करू शकते, ज्याला **डिजिटल ट्रान्सफॉर्मेशन** म्हणतात. -चला एक उदाहरण विचार करूया. समजा आमच्याकडे एक डेटा सायन्स कोर्स आहे (जसे हा आहे) जो आम्ही विद्यार्थ्यांना ऑनलाइन वितरित करतो, आणि आम्हाला तो सुधारण्यासाठी डेटा सायन्स वापरायचा आहे. आम्ही ते कसे करू शकतो? +चला एक उदाहरण विचार करूया. समजा आमच्याकडे एक डेटा सायन्स कोर्स आहे (जसे की हा), जो आम्ही विद्यार्थ्यांना ऑनलाइन वितरित करतो, आणि आम्हाला तो सुधारण्यासाठी डेटा सायन्स वापरायचा आहे. आपण ते कसे करू शकतो? -आम्ही विचारू शकतो "काय डिजिटल स्वरूपात बदलता येईल?" सर्वात सोपा मार्ग म्हणजे प्रत्येक विद्यार्थ्याला प्रत्येक मॉड्यूल पूर्ण करण्यासाठी लागणारा वेळ मोजणे आणि प्रत्येक मॉड्यूलच्या शेवटी बहुपर्यायी चाचणी देऊन मिळालेल्या ज्ञानाचे मोजमाप करणे. सर्व विद्यार्थ्यांमध्ये पूर्ण करण्यासाठी लागणाऱ्या वेळेचा सरासरी काढून, आम्ही शोधू शकतो की कोणते मॉड्यूल्स विद्यार्थ्यांसाठी सर्वाधिक अडचणी निर्माण करतात आणि त्यांना सोपे करण्यावर काम करू शकतो. -आपण असा युक्तिवाद करू शकता की हा दृष्टिकोन आदर्श नाही, कारण मॉड्यूल्स वेगवेगळ्या लांबीचे असू शकतात. वेळ मॉड्यूलच्या लांबीने (अक्षरांच्या संख्येने) विभागणे आणि त्या मूल्यांची तुलना करणे कदाचित अधिक न्याय्य ठरेल. -जेव्हा आपण बहुपर्यायी परीक्षांच्या निकालांचे विश्लेषण करण्यास सुरुवात करतो, तेव्हा आपण ठरवू शकतो की विद्यार्थ्यांना कोणत्या संकल्पना समजण्यात अडचण येत आहे आणि त्या माहितीचा उपयोग सामग्री सुधारण्यासाठी करू शकतो. हे करण्यासाठी, आपल्याला परीक्षांचे असे डिझाइन करणे आवश्यक आहे की प्रत्येक प्रश्न विशिष्ट संकल्पना किंवा ज्ञानाच्या भागाशी संबंधित असेल. +आपण विचारू शकतो "काय डिजिटल स्वरूपात बदलता येईल?" सर्वात सोपी पद्धत म्हणजे प्रत्येक विद्यार्थ्याला प्रत्येक मॉड्यूल पूर्ण करण्यासाठी लागणारा वेळ मोजणे आणि प्रत्येक मॉड्यूलच्या शेवटी बहुपर्यायी चाचणी देऊन मिळवलेले ज्ञान मोजणे. सर्व विद्यार्थ्यांमध्ये पूर्ण करण्यासाठी लागणारा वेळ सरासरी करून, आम्ही शोधू शकतो की कोणते मॉड्यूल्स विद्यार्थ्यांसाठी सर्वाधिक अडचणी निर्माण करतात आणि त्यांना सोपे करण्यासाठी काम करू शकतो. +आपण असा युक्तिवाद करू शकता की हा दृष्टिकोन आदर्श नाही, कारण मॉड्यूल्स वेगवेगळ्या लांबीचे असू शकतात. कदाचित मॉड्यूलच्या लांबीने (अक्षरांच्या संख्येने) वेळ विभागणे अधिक न्याय्य ठरेल आणि त्या मूल्यांची तुलना करणे अधिक योग्य ठरेल. +जेव्हा आपण बहुपर्यायी परीक्षांच्या निकालांचे विश्लेषण करायला सुरुवात करतो, तेव्हा आपण हे ठरवू शकतो की विद्यार्थ्यांना कोणत्या संकल्पना समजण्यात अडचण येत आहे आणि त्या माहितीचा उपयोग सामग्री सुधारण्यासाठी करू शकतो. हे करण्यासाठी, आपल्याला परीक्षांचे असे डिझाइन करणे आवश्यक आहे की प्रत्येक प्रश्न विशिष्ट संकल्पना किंवा ज्ञानाच्या भागाशी संबंधित असेल. -जर आपण आणखी गुंतागुंतीचे व्हायचे ठरवले, तर आपण प्रत्येक मॉड्यूलसाठी घेतलेला वेळ विद्यार्थ्यांच्या वयोगटाच्या विरोधात प्लॉट करू शकतो. आपल्याला कदाचित असे आढळेल की काही वयोगटांसाठी मॉड्यूल पूर्ण करण्यासाठी अनावश्यकपणे जास्त वेळ लागतो, किंवा विद्यार्थी ते पूर्ण करण्यापूर्वीच सोडून देतात. यामुळे आपल्याला मॉड्यूलसाठी वयोमर्यादा शिफारसी देण्यास मदत होईल आणि चुकीच्या अपेक्षांमुळे होणारे असमाधान कमी करता येईल. +जर आपण आणखी गुंतागुंतीचे व्हायचे ठरवले, तर आपण प्रत्येक मॉड्यूलसाठी घेतलेल्या वेळेचा विद्यार्थ्यांच्या वयोगटाशी संबंध लावू शकतो. कदाचित आपल्याला असे आढळेल की काही वयोगटांसाठी मॉड्यूल पूर्ण करण्यासाठी अनावश्यकपणे जास्त वेळ लागतो, किंवा विद्यार्थी ते पूर्ण करण्याआधीच सोडून देतात. यामुळे आपल्याला मॉड्यूलसाठी वयोमर्यादा शिफारसी देण्यात मदत होईल आणि चुकीच्या अपेक्षांमुळे होणारी असमाधानता कमी करता येईल. ## 🚀 आव्हान -या आव्हानात, आपण डेटा सायन्स क्षेत्राशी संबंधित संकल्पना शोधण्याचा प्रयत्न करू, तेही मजकुरावरून. आपण डेटा सायन्सवरील विकिपीडिया लेख घेऊ, मजकूर डाउनलोड आणि प्रक्रिया करू, आणि नंतर असा वर्ड क्लाउड तयार करू: +या आव्हानात, आपण डेटा सायन्स क्षेत्राशी संबंधित संकल्पना शोधण्याचा प्रयत्न करू, आणि त्यासाठी मजकुराचा अभ्यास करू. आपण डेटा सायन्सवरील विकिपीडिया लेख घेऊ, मजकूर डाउनलोड करून प्रक्रिया करू, आणि नंतर खालीलप्रमाणे वर्ड क्लाउड तयार करू: -![डेटा सायन्ससाठी वर्ड क्लाउड](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![डेटा सायन्ससाठी वर्ड क्लाउड](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.mr.png) -कोड वाचण्यासाठी [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') ला भेट द्या. आपण कोड चालवू शकता आणि तो डेटा ट्रान्सफॉर्मेशन कसे रिअल टाइममध्ये करतो ते पाहू शकता. +कोड वाचण्यासाठी [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') ला भेट द्या. तुम्ही कोड चालवून पाहू शकता आणि तो डेटा ट्रान्सफॉर्मेशन कसे करतो हे रिअल टाइममध्ये पाहू शकता. -> जर तुम्हाला Jupyter Notebook मध्ये कोड कसा चालवायचा हे माहित नसेल, तर [हा लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) वाचा. +> जर तुम्हाला जुपिटर नोटबुकमध्ये कोड कसा चालवायचा हे माहित नसेल, तर [हा लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) वाचा. -## [व्याख्यानानंतरची प्रश्नमंजुषा](https://ff-quizzes.netlify.app/en/ds/quiz/1) +## [व्याख्यानानंतरची क्विझ](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## असाइनमेंट्स -* **कार्य 1**: वरील कोडमध्ये बदल करून **Big Data** आणि **Machine Learning** क्षेत्रांसाठी संबंधित संकल्पना शोधा. -* **कार्य 2**: [डेटा सायन्स परिदृश्यांबद्दल विचार करा](assignment.md) +* **कार्य 1**: वरील कोडमध्ये बदल करून **बिग डेटा** आणि **मशीन लर्निंग** क्षेत्रांसाठी संबंधित संकल्पना शोधा. +* **कार्य 2**: [डेटा सायन्स परिदृश्यांवर विचार करा](assignment.md) ## श्रेय @@ -75,4 +75,4 @@ CO_OP_TRANSLATOR_METADATA: --- **अस्वीकरण**: -हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात ठेवा की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून निर्माण होणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही. \ No newline at end of file +हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील मूळ दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी, व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून उद्भवणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही. \ No newline at end of file diff --git a/translations/ms/1-Introduction/01-defining-data-science/README.md b/translations/ms/1-Introduction/01-defining-data-science/README.md index 94cbf818..327ef52a 100644 --- a/translations/ms/1-Introduction/01-defining-data-science/README.md +++ b/translations/ms/1-Introduction/01-defining-data-science/README.md @@ -1,8 +1,8 @@ ## ဒေတာအမျိုးအစားများ -ကျွန်တော်တို့ ပြောခဲ့သလို ဒေတာဟာ နေရာတိုင်းမှာရှိပါတယ်။ ဒေတာကို မှန်ကန်တဲ့နည်းလမ်းနဲ့ ဖမ်းယူနိုင်ရုံသာလိုအပ်ပါတယ်! **ဖွဲ့စည်းထားသော** ဒေတာနဲ့ **မဖွဲ့စည်းထားသော** ဒေတာကို ခွဲခြားဖို့ အသုံးဝင်ပါတယ်။ ဖွဲ့စည်းထားသော ဒေတာဟာ အများအားဖြင့် အလှည့်ကျစွာ ဖွဲ့စည်းထားတဲ့ ပုံစံတစ်ခုခု (အတန်းများ၊ အချို့သော အတန်းများ) အနေနဲ့ ကိုယ်စားပြုထားပြီး မဖွဲ့စည်းထားသော ဒေတာဟာ ဖိုင်များစုစည်းမှုသာဖြစ်ပါတယ်။ တစ်ခါတစ်လေ **တစ်စိတ်တစ်ပိုင်း ဖွဲ့စည်းထားသော** ဒေတာကိုလည်း ပြောနိုင်ပြီး၊ ဒါဟာ ဖွဲ့စည်းမှုတစ်ခုခုရှိပေမယ့် အလွန်ကွဲပြားနိုင်ပါတယ်။ +ကျွန်တော်တို့ ပြောခဲ့သလို ဒေတာဟာ နေရာတိုင်းမှာရှိပါတယ်။ ဒေတာကို မှန်ကန်တဲ့နည်းလမ်းနဲ့ ဖမ်းယူနိုင်ရုံသာလိုအပ်ပါတယ်! **ဖွဲ့စည်းထားသော** ဒေတာနဲ့ **မဖွဲ့စည်းထားသော** ဒေတာကို ခွဲခြားဖို့ အသုံးဝင်ပါတယ်။ ဖွဲ့စည်းထားသော ဒေတာဟာ အများအားဖြင့် စနစ်တကျ ဖွဲ့စည်းထားတဲ့ ပုံစံတစ်ခုခု (ဥပမာ - ဇယားတစ်ခု သို့မဟုတ် ဇယားများစွာ) အနေနဲ့ ဖော်ပြထားပြီး မဖွဲ့စည်းထားသော ဒေတာဟာ ဖိုင်များစုစည်းမှုသာဖြစ်ပါတယ်။ တစ်ခါတစ်ရံ **အနည်းငယ်ဖွဲ့စည်းထားသော** ဒေတာကိုလည်း ပြောနိုင်ပြီး၊ ဒါဟာ တစ်ခုခုသော ဖွဲ့စည်းမှုရှိပေမယ့် အလွန်ပုံစံကွဲပြားနိုင်ပါတယ်။ -| ဖွဲ့စည်းထားသော | တစ်စိတ်တစ်ပိုင်း ဖွဲ့စည်းထားသော | မဖွဲ့စည်းထားသော | -| ---------------- | ------------------------------- | ----------------- | -| လူများနဲ့ သူတို့ရဲ့ ဖုန်းနံပါတ်စာရင်း | Wikipedia စာမျက်နှာများ (လင့်များပါရှိ) | Encyclopedia Britannica စာသား | -| ၂၀ နှစ်အတွင်း အခန်းများအတွင်း အပူချိန် | JSON ပုံစံနဲ့ သိပ္ပံစာတမ်းများ (စာရေးသူများ၊ ထုတ်ဝေသည့်ရက်စွဲ၊ အကျဉ်းချုပ်) | ကော်ပိုရိတ်စာရွက်စာတမ်းများပါရှိသော ဖိုင်များ | -| အဆောက်အဦးထဲကို ဝင်လာသော လူများ၏ အသက်နှင့် ကျားမ | အင်တာနက်စာမျက်နှာများ | စောင့်ကြည့်ကင်မရာမှ ရုပ်သံဖိုင် | +| ဖွဲ့စည်းထားသော | အနည်းငယ်ဖွဲ့စည်းထားသော | မဖွဲ့စည်းထားသော | +| ---------------- | ------------------------ | ----------------- | +| လူများ၏ ဖုန်းနံပါတ်စာရင်း | လင့်များပါရှိသော Wikipedia စာမျက်နှာများ | Encyclopedia Britannica စာသား | +| ၂၀ နှစ်အတွင်း အခန်းများ၏ အပူချိန် | JSON ပုံစံဖြင့် စာတမ်းများ (စာရေးသူများ၊ ထုတ်ဝေသည့်ရက်စွဲ၊ အကျဉ်းချုပ်) | ကုမ္ပဏီစာရွက်စာတမ်းများပါရှိသော ဖိုင်များ | +| အဆောက်အဦးထဲသို့ ဝင်ရောက်သော လူများ၏ အသက်နှင့် ကျားမ | အင်တာနက်စာမျက်နှာများ | စောင့်ကြည့်ကင်မရာမှ raw ဗီဒီယိုဖိုင် | ## ဒေတာကို ဘယ်မှာရနိုင်မလဲ -ဒေတာရရှိနိုင်တဲ့ အရင်းအမြစ်တွေ အများကြီးရှိပြီး၊ အားလုံးကို စာရင်းပြုစုဖို့ မဖြစ်နိုင်ပါဘူး! သို့သော် အများအားဖြင့် ဒေတာရနိုင်တဲ့ နေရာများကို ပြောပြပါမယ်: +ဒေတာရရှိနိုင်တဲ့ အရင်းအမြစ်တွေ အများကြီးရှိပြီး၊ အားလုံးကို စာရင်းပြုစုဖော်ပြဖို့ မဖြစ်နိုင်ပါဘူး! သို့သော် ဒေတာရရှိနိုင်တဲ့ နေရာများအနက် အများဆုံးတွေ့ရတဲ့ နေရာများကို ပြောပါမယ်။ * **ဖွဲ့စည်းထားသော** - - **Internet of Things (IoT)**: အပူချိန်၊ ဖိအား စသည့် အာရုံခံကိရိယာများမှ ဒေတာများကို ပေးစွမ်းနိုင်ပါတယ်။ ဥပမာအားဖြင့် အဆောက်အဦးတစ်ခုမှာ IoT အာရုံခံကိရိယာများရှိပါက၊ အပူနှင့် အလင်းရောင်ကို အလိုအလျောက်ထိန်းချုပ်ပြီး ကုန်ကျစရိတ်ကို လျှော့ချနိုင်ပါတယ်။ - - **စစ်တမ်းများ**: ဝယ်ယူပြီးနောက်၊ သို့မဟုတ် ဝဘ်ဆိုဒ်ကို သွားရောက်ပြီးနောက် အသုံးပြုသူများကို ဖြေဆိုရန် တောင်းဆိုသော စစ်တမ်းများ။ - - **အပြုအမူခွဲခြားခြင်း**: ဥပမာအားဖြင့် အသုံးပြုသူတစ်ဦးသည် ဝဘ်ဆိုဒ်ကို ဘယ်လောက်နက်နက်ရှိုင်းရှိုင်း သွားရောက်ကြည့်ရှုသလဲ၊ ဘယ်အကြောင်းအရင်းကြောင့် ဝဘ်ဆိုဒ်ကို ထွက်ခွာသွားသလဲဆိုတာကို နားလည်နိုင်ပါတယ်။ + - **Internet of Things (IoT)**: အပူချိန်၊ ဖိအား စသည့် အာရုံခံကိရိယာများမှ ဒေတာများကို ရရှိနိုင်ပါတယ်။ ဥပမာအားဖြင့် အဆောက်အဦးတစ်ခု IoT အာရုံခံကိရိယာများဖြင့် တပ်ဆင်ထားပါက၊ အပူနှင့် အလင်းရောင်ကို အလိုအလျောက်ထိန်းချုပ်ပြီး ကုန်ကျစရိတ်ကို လျှော့ချနိုင်ပါတယ်။ + - **စစ်တမ်းများ**: ဝယ်ယူပြီးနောက် သို့မဟုတ် ဝဘ်ဆိုဒ်ကို သွားရောက်ပြီးနောက် အသုံးပြုသူများကို ဖြေဆိုရန် တောင်းဆိုသော စစ်တမ်းများ။ + - **အပြုအမူဆန်းစစ်ခြင်း**: အသုံးပြုသူတစ်ဦးဦးသည် ဝဘ်ဆိုဒ်ကို ဘယ်လောက်အထိ အသုံးပြုသွားသလဲ၊ ဘယ်အကြောင်းကြောင့် ဝဘ်ဆိုဒ်မှ ထွက်သွားသလဲ စသည့်အချက်များကို သိရှိနိုင်ပါတယ်။ * **မဖွဲ့စည်းထားသော** - - **စာသားများ**: စိတ်ခံစားမှုအဆင့်ကို ခန့်မှန်းခြင်း၊ သို့မဟုတ် အဓိကအချက်များနှင့် အဓိပ္ပါယ်ကို ထုတ်ယူခြင်းစသည့် အမြင်များရရှိနိုင်သော အရင်းအမြစ်များ။ - - **ပုံများ** သို့မဟုတ် **ရုပ်သံများ**: စောင့်ကြည့်ကင်မရာမှ ရုပ်သံကို လမ်းပေါ်မှာ ယာဉ်ကြောအခြေအနေကို ခန့်မှန်းပြီး ယာဉ်ကြောပိတ်ဆို့မှုအကြောင်းကို လူများကို အသိပေးနိုင်ပါတယ်။ - - ဝဘ်ဆာဗာ **မှတ်တမ်းများ**: ဝဘ်ဆိုဒ်၏ ဘယ်စာမျက်နှာများကို အများဆုံးလည်ပတ်ကြည့်ရှုသလဲ၊ ဘယ်လောက်ကြာကြာကြည့်ရှုသလဲဆိုတာကို နားလည်နိုင်ပါတယ်။ -* တစ်စိတ်တစ်ပိုင်း ဖွဲ့စည်းထားသော - - **Social Network**: အသုံးပြုသူများ၏ ကိုယ်ရည်ကိုယ်သွေးနှင့် သတင်းအချက်အလက်များကို ပြန့်ပျံ့စေမှုအကျိုးရှိမှုကို ခန့်မှန်းနိုင်သော အရင်းအမြစ်များ။ - - ပါတီမှ ဓာတ်ပုံများကို စုစည်းထားသောအခါ၊ လူများအကြား ဓာတ်ပုံရိုက်ခြင်းဆိုင်ရာ **အဖွဲ့မူအပြုအမူ** ဒေတာကို ထုတ်ယူနိုင်ပါတယ်။ + - **စာသားများ**: စုစုပေါင်း **sentiment score** ကို သိရှိခြင်း၊ သို့မဟုတ် keyword များနှင့် အဓိပ္ပါယ်ဆိုင်ရာ အချက်များကို ထုတ်ယူခြင်း။ + - **ပုံများ** သို့မဟုတ် **ဗီဒီယိုများ**: စောင့်ကြည့်ကင်မရာမှ ဗီဒီယိုကို လမ်းပေါ်ရှိ ယာဉ်အသွားအလာကို ခန့်မှန်းရန် အသုံးပြုနိုင်ပြီး၊ ယာဉ်ကြောပိတ်ဆို့မှုများအကြောင်း သတိပေးနိုင်ပါတယ်။ + - ဝဘ်ဆာဗာ **Logs**: ဝဘ်ဆိုဒ်၏ ဘယ်စာမျက်နှာများကို အများဆုံးလည်ပတ်ကြသည်၊ ဘယ်လောက်ကြာကြာလည်ပတ်ကြသည် စသည့်အချက်များကို သိရှိနိုင်ပါတယ်။ +* **အနည်းငယ်ဖွဲ့စည်းထားသော** + - **Social Network** graphs: အသုံးပြုသူများ၏ ပုဂ္ဂိုလ်ရေးအချက်အလက်များနှင့် သတင်းအချက်အလက်များကို ပြန့်ပွားစေမှုအကျိုးရှိမှုကို သိရှိရန် အရင်းအမြစ်ကောင်းများဖြစ်နိုင်ပါတယ်။ + - ပါတီမှ ဓာတ်ပုံများစွာရှိပါက၊ ဓာတ်ပုံရိုက်ထားသော လူများ၏ **Group Dynamics** ကို graph တစ်ခုအဖြစ် ဖွဲ့စည်းပြီး အချက်အလက်များကို ထုတ်ယူနိုင်ပါတယ်။ -ဒေတာရရှိနိုင်တဲ့ အရင်းအမြစ်များကို သိရှိခြင်းအားဖြင့်၊ ဒေတာသိပ္ပံနည်းလမ်းများကို အသုံးပြုပြီး အခြေအနေကို ပိုမိုနားလည်နိုင်ရန်၊ လုပ်ငန်းလုပ်ငန်းစဉ်များကို တိုးတက်အောင်လုပ်နိုင်ရန် အခြေအနေများကို စဉ်းစားနိုင်ပါတယ်။ +ဒေတာရရှိနိုင်တဲ့ အရင်းအမြစ်များကို သိရှိထားခြင်းဖြင့်၊ ဒေတာသိပ္ပံနည်းလမ်းများကို အသုံးပြုပြီး အခြေအနေကို ပိုမိုနားလည်စေခြင်းနှင့် စီးပွားရေးလုပ်ငန်းများကို တိုးတက်စေခြင်းအတွက် အခြားသော နေရာအခြေအနေများကို စဉ်းစားနိုင်ပါတယ်။ ## ဒေတာနဲ့ ဘာလုပ်နိုင်မလဲ @@ -41,32 +41,32 @@ CO_OP_TRANSLATOR_METADATA: ## ဒစ်ဂျစ်တိုင်ဇေးရှင်းနှင့် ဒစ်ဂျစ်တယ် ပြောင်းလဲမှု -နောက်ဆုံးတစ်ဆယ်စုနှစ်အတွင်း လုပ်ငန်းများစွာသည် လုပ်ငန်းဆောင်ရွက်မှုအတွက် ဒေတာ၏ အရေးပါမှုကို နားလည်လာကြသည်။ ဒေတာသိပ္ပံနည်းလမ်းများကို လုပ်ငန်းလုပ်ငန်းစဉ်များတွင် အသုံးပြုရန်အတွက် ပထမဦးဆုံး ဒေတာကို စုဆောင်းရမည်ဖြစ်ပြီး၊ လုပ်ငန်းလုပ်ငန်းစဉ်များကို ဒစ်ဂျစ်တယ်ပုံစံသို့ ပြောင်းလဲရမည်ဖြစ်သည်။ ဒါကို **ဒစ်ဂျစ်တိုင်ဇေးရှင်း** ဟုခေါ်သည်။ ဒေတာသိပ္ပံနည်းလမ်းများကို ဒေတာတွင် အသုံးပြုခြင်းအားဖြင့် ထိရောက်မှုတိုးတက်မှု (သို့မဟုတ် လုပ်ငန်းပြောင်းလဲမှု) ရရှိနိုင်သည်။ ဒါကို **ဒစ်ဂျစ်တယ် ပြောင်းလဲမှု** ဟုခေါ်သည်။ +နောက်ဆုံးတစ်ဆယ်စုနှစ်အတွင်း စီးပွားရေးလုပ်ငန်းများစွာသည် စီးပွားရေးဆိုင်ရာ ဆုံးဖြတ်ချက်များကို ချမှတ်ရာတွင် ဒေတာ၏ အရေးပါမှုကို နားလည်လာကြသည်။ စီးပွားရေးလုပ်ငန်းများကို ဒေတာသိပ္ပံနည်းလမ်းများဖြင့် လုပ်ဆောင်ရန်အတွက် ပထမဦးဆုံး ဒေတာကို စုဆောင်းရမည်ဖြစ်ပြီး၊ စီးပွားရေးလုပ်ငန်းလုပ်ငန်းစဉ်များကို ဒစ်ဂျစ်တယ်ပုံစံသို့ ပြောင်းလဲရမည်ဖြစ်သည်။ ဒါကို **ဒစ်ဂျစ်တိုင်ဇေးရှင်း** ဟုခေါ်သည်။ ဒေတာသိပ္ပံနည်းလမ်းများကို ဒီဒေတာတွင် အသုံးပြုခြင်းဖြင့် ထုတ်လုပ်မှုတိုးတက်မှု (သို့မဟုတ် စီးပွားရေးလုပ်ငန်းပြောင်းလဲမှု) ကို ရရှိစေသည်။ ဒါကို **ဒစ်ဂျစ်တယ် ပြောင်းလဲမှု** ဟုခေါ်သည်။ -ဥပမာတစ်ခုကို စဉ်းစားကြည့်ပါ။ ကျွန်တော်တို့မှာ (ဒီလို) ဒေတာသိပ္ပံသင်တန်းတစ်ခုရှိပြီး၊ ကျောင်းသားများကို အွန်လိုင်းမှ သင်ကြားပေးပြီး၊ ဒါကို တိုးတက်အောင်လုပ်ရန် ဒေတာသိပ္ပံကို အသုံးပြုချင်တယ်ဆိုပါစို့။ +ဥပမာတစ်ခုကို စဉ်းစားကြည့်ပါ။ ကျွန်တော်တို့မှာ (ဒီလို) ဒေတာသိပ္ပံသင်တန်းတစ်ခုရှိပြီး၊ ကျောင်းသားများကို အွန်လိုင်းမှ သင်ကြားပေးနေသည်။ ဒါကို တိုးတက်အောင်လုပ်ရန် ဒေတာသိပ္ပံကို အသုံးပြုချင်တယ်ဆိုပါစို့။ -"ဘာတွေကို ဒစ်ဂျစ်တိုင်ဇေးရှင်းလုပ်နိုင်မလဲ?" ဆိုတာကို စတင်မေးမြန်းနိုင်ပါတယ်။ အလွယ်ဆုံးနည်းလမ်းကတော့ ကျောင်းသားတစ်ဦးစီက module တစ်ခုစီကို ပြီးမြောက်ရန် ကြာမြင့်ချိန်ကို တိုင်းတာပြီး၊ module တစ်ခုစီ၏ အဆုံးမှာ မေးခွန်းရွေးချယ်မှု စမ်းသပ်မှုကို ပေးပြီး ရရှိသော အသိပညာကို တိုင်းတာခြင်းဖြစ်နိုင်ပါတယ်။ module တစ်ခုစီကို ပြီးမြောက်ရန် ကြာမြင့်ချိန်ကို ကျောင်းသားအားလုံးအတွက် ပျမ်းမျှတွက်ချက်ခြင်းအားဖြင့်၊ module များအနက် ကျောင်းသားများအတွက် အခက်အခဲများဖြစ်စေသော module များကို ရှာဖွေနိုင်ပြီး၊ module များကို လွယ်ကူအောင် ပြုလုပ်နိုင်ပါတယ်။ +"ဘာတွေကို ဒစ်ဂျစ်တိုင်ဇေးရှင်းလုပ်နိုင်မလဲ?" ဆိုတဲ့ မေးခွန်းကို စတင်မေးနိုင်ပါတယ်။ အလွယ်ဆုံးနည်းလမ်းကတော့ ကျောင်းသားတစ်ဦးစီသည် module တစ်ခုစီကို ပြီးမြောက်ရန် ကြာမြင့်ချိန်ကို တိုင်းတာခြင်းနှင့် module တစ်ခုစီ၏ အဆုံးတွင် multiple-choice စမ်းသပ်မှုဖြင့် ရရှိသော အသိပညာကို တိုင်းတာခြင်းဖြစ်နိုင်ပါတယ်။ module တစ်ခုစီကို ပြီးမြောက်ရန် ကြာမြင့်ချိန်ကို ကျောင်းသားအားလုံးအတွက် ပျမ်းမျှတွက်ချက်ခြင်းဖြင့်၊ ကျောင်းသားများအတွက် အခက်အခဲများဖြစ်စေသော module များကို ရှာဖွေနိုင်ပြီး၊ module များကို လွယ်ကူအောင် ပြုပြင်နိုင်ပါတယ်။ သင်ဤနည်းလမ်းကို အကောင်းဆုံးမဟုတ်ဘူးလို့ အငြင်းပွားနိုင်ပါတယ်၊ အကြောင်းကတော့ module တွေဟာ အရှည်အတို မတူညီနိုင်ပါတယ်။ module ရဲ့ အရှည် (အက္ခရာအရေအတွက်) ကို အချိန်နဲ့ ခွဲခြားပြီး၊ အဲဒီတန်ဖိုးတွေကို နှိုင်းယှဉ်တာက ပိုတရားမျှတနိုင်ပါတယ်။ -အများပြည်သူရွေးချယ်မှု စမ်းသပ်မှုရလဒ်များကို စတင်လေ့လာသုံးသပ်တဲ့အခါမှာ ကျောင်းသားတွေ နားလည်ဖို့အခက်အခဲရှိတဲ့ အကြောင်းအရာတွေကို သတ်မှတ်နိုင်ဖို့ ကြိုးစားနိုင်ပါတယ်။ ဒီအချက်အလက်ကို အသုံးပြုပြီး အကြောင်းအရာတွေကို ပိုမိုကောင်းမွန်အောင် ပြင်ဆင်နိုင်ပါတယ်။ ဒါကိုလုပ်ဖို့ဆိုရင် စမ်းသပ်မှုတွေကို တစ်ခုချင်းစီကို သတ်မှတ်ထားတဲ့ အကြောင်းအရာတစ်ခု သို့မဟုတ် အသိပညာတစ်ခုနဲ့ ဆက်စပ်အောင် ဒီဇိုင်းဆွဲဖို့ လိုအပ်ပါတယ်။ +အများပြည်သူရွေးချယ်မှု စမ်းသပ်မှုရလဒ်များကို စတင်လေ့လာတဲ့အခါမှာ ကျောင်းသားတွေ နားလည်ဖို့ အခက်အခဲရှိတဲ့ အကြောင်းအရာတွေကို သတ်မှတ်နိုင်ဖို့ ကြိုးစားနိုင်ပါတယ်။ ဒီအချက်အလက်တွေကို အသုံးပြုပြီး အကြောင်းအရာတွေကို ပိုမိုကောင်းမွန်အောင် ပြင်ဆင်နိုင်ပါတယ်။ ဒါကိုလုပ်ဖို့အတွက် စမ်းသပ်မေးခွန်းတွေကို တစ်ခုချင်းစီ အကြောင်းအရာတစ်ခုတည်းနဲ့ သက်ဆိုင်အောင် ဒီဇိုင်းဆွဲဖို့ လိုအပ်ပါတယ်။ -ပိုမိုရှုပ်ထွေးတဲ့အဆင့်ကို ရောက်ချင်ရင် ကျောင်းသားတွေ အသက်အရွယ်အုပ်စုနဲ့ module တစ်ခုစီကို ပြီးမြောက်ဖို့ ကြာချိန်ကို ရှုထောင့်ပေါ်မှာ ရေးဆွဲနိုင်ပါတယ်။ အသက်အရွယ်အုပ်စုတစ်ချို့အတွက် module ကို ပြီးမြောက်ဖို့ အချိန်အလွန်ကြာတာတွေ၊ module ကို မပြီးမြောက်ခင် ကျောင်းသားတွေ ထွက်သွားတာတွေကို တွေ့နိုင်ပါတယ်။ ဒီအချက်အလက်တွေက module အတွက် အသက်အရွယ်အကြံပြုချက်တွေ ပေးနိုင်ဖို့နဲ့ မျှော်လင့်ချက်မှားမှုကြောင့် လူတွေ မကျေနပ်မှုကို လျော့ချနိုင်ဖို့ အထောက်အကူဖြစ်စေပါတယ်။ +ပိုမိုရှုပ်ထွေးတဲ့အဆင့်ကို ရောက်ချင်ရင် ကျောင်းသားတွေ အသက်အရွယ်အုပ်စုနဲ့ module တစ်ခုစီကို ပြီးမြောက်ဖို့ ကြာချိန်ကို ရှုထောင့်ပေါ်မှာ ရေးဆွဲနိုင်ပါတယ်။ အသက်အရွယ်အုပ်စုတစ်ချို့အတွက် module ကို ပြီးမြောက်ဖို့ မသင့်တော်တဲ့အချိန်ကြာမြင့်မှုရှိတတ်တာ၊ ဒါမှမဟုတ် module ကို ပြီးမြောက်မချင်း ကျောင်းသားတွေ ထွက်ခွာသွားတတ်တာကို တွေ့နိုင်ပါတယ်။ ဒီအချက်အလက်တွေက module အတွက် အသက်အရွယ်အကြံပြုချက်တွေ ပေးနိုင်ဖို့၊ လူတွေ မျှော်လင့်ချက်မှားပြီး မကျေနပ်မှုကို လျော့ချနိုင်ဖို့ ကူညီပေးနိုင်ပါတယ်။ ## 🚀 စိန်ခေါ်မှု -ဒီစိန်ခေါ်မှုမှာ Data Science နယ်ပယ်နဲ့ ဆက်စပ်တဲ့ အကြောင်းအရာတွေကို စာသားတွေကို ကြည့်ပြီး ရှာဖွေကြည့်ပါမယ်။ Data Science အကြောင်း Wikipedia ဆောင်းပါးတစ်ခုကို ယူပြီး စာသားကို ဒေါင်းလုပ်လုပ်ပြီး အချက်အလက်တွေကို ပြုပြင်ပါမယ်။ ပြီးရင် အောက်ပါပုံလို word cloud တစ်ခု တည်ဆောက်ပါမယ်။ +ဒီစိန်ခေါ်မှုမှာ Data Science နယ်ပယ်နဲ့ သက်ဆိုင်တဲ့ အကြောင်းအရာတွေကို စာသားတွေကို ကြည့်ပြီး ရှာဖွေကြည့်ပါမယ်။ Data Science အကြောင်း Wikipedia ဆောင်းပါးတစ်ခုကို ယူပြီး စာသားကို ဒေါင်းလုပ်လုပ်၊ ပြုပြင်ပြီးတော့ ဒီလို word cloud တစ်ခုကို တည်ဆောက်ပါမယ်: -![Word Cloud for Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.my.png) -[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') ကို သွားပြီး ကုဒ်ကို ဖတ်ရှုပါ။ ကုဒ်ကို လည်း run လုပ်ပြီး အချက်အလက်ပြောင်းလဲမှုတွေကို အချိန်နဲ့တပြေးညီ ဘယ်လိုလုပ်ဆောင်သလဲ ကြည့်ရှုနိုင်ပါတယ်။ +[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') ကို သွားပြီး code ကို ဖတ်ရှုပါ။ code ကို run လုပ်ပြီး data transformation တွေကို အချိန်နဲ့တပြေးညီ ဘယ်လိုလုပ်ဆောင်သွားတယ်ဆိုတာ ကြည့်နိုင်ပါတယ်။ -> Jupyter Notebook မှာ ကုဒ်ကို ဘယ်လို run လုပ်ရမလဲ မသိရင် [ဒီဆောင်းပါး](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ကို ကြည့်ပါ။ +> Jupyter Notebook မှာ code ကို ဘယ်လို run လုပ်ရမလဲ မသိရင် [ဒီဆောင်းပါး](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ကို ကြည့်ပါ။ ## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ds/quiz/1) -## လုပ်ဆောင်ရန်များ +## အလုပ်များ -* **Task 1**: အထက်ပါကုဒ်ကို ပြင်ဆင်ပြီး **Big Data** နဲ့ **Machine Learning** နယ်ပယ်တွေအတွက် ဆက်စပ်တဲ့ အကြောင်းအရာတွေကို ရှာဖွေပါ။ -* **Task 2**: [Data Science ရဲ့ အခြေအနေတွေကို စဉ်းစားပါ](assignment.md) +* **Task 1**: အထက်ပါ code ကို ပြင်ဆင်ပြီး **Big Data** နဲ့ **Machine Learning** နယ်ပယ်တွေအတွက် သက်ဆိုင်တဲ့ အကြောင်းအရာတွေကို ရှာဖွေပါ။ +* **Task 2**: [Data Science အခြေအနေတွေကို စဉ်းစားပါ](assignment.md) ## အကျိုးတူ @@ -74,5 +74,5 @@ CO_OP_TRANSLATOR_METADATA: --- -**အကြောင်းကြားချက်**: -ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှုအတွက် ကြိုးစားနေသော်လည်း၊ အလိုအလျောက် ဘာသာပြန်ခြင်းတွင် အမှားများ သို့မဟုတ် မတိကျမှုများ ပါရှိနိုင်သည်ကို သတိပြုပါ။ မူရင်းဘာသာစကားဖြင့် ရေးသားထားသော စာရွက်စာတမ်းကို အာဏာတရ အရင်းအမြစ်အဖြစ် ရှုယူသင့်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူ့ဘာသာပြန်ပညာရှင်များမှ ပရော်ဖက်ရှင်နယ် ဘာသာပြန်ခြင်းကို အကြံပြုပါသည်။ ဤဘာသာပြန်ကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော အလွဲအမှားများ သို့မဟုတ် အနားလွဲမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။ \ No newline at end of file +**ဝက်ဘ်ဆိုက်မှတ်ချက်**: +ဤစာရွက်စာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှု [Co-op Translator](https://github.com/Azure/co-op-translator) ကို အသုံးပြု၍ ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် တိကျမှန်ကန်မှုအတွက် ကြိုးစားနေပါသော်လည်း၊ အလိုအလျောက်ဘာသာပြန်မှုများတွင် အမှားများ သို့မဟုတ် မမှန်ကန်မှုများ ပါဝင်နိုင်သည်ကို ကျေးဇူးပြု၍ သတိပြုပါ။ မူရင်းစာရွက်စာတမ်းကို ၎င်း၏ မူလဘာသာစကားဖြင့် အာဏာတည်သောရင်းမြစ်အဖြစ် သတ်မှတ်ရန် လိုအပ်ပါသည်။ အရေးကြီးသော အချက်အလက်များအတွက် လူက ဘာသာပြန်မှုကို အသုံးပြုရန် အကြံပြုပါသည်။ ဤဘာသာပြန်မှုကို အသုံးပြုခြင်းမှ ဖြစ်ပေါ်လာသော နားလည်မှုမှားမှုများ သို့မဟုတ် အဓိပ္ပါယ်မှားမှုများအတွက် ကျွန်ုပ်တို့သည် တာဝန်မယူပါ။ \ No newline at end of file diff --git a/translations/ne/1-Introduction/01-defining-data-science/README.md b/translations/ne/1-Introduction/01-defining-data-science/README.md index 8c32349a..a1c38e94 100644 --- a/translations/ne/1-Introduction/01-defining-data-science/README.md +++ b/translations/ne/1-Introduction/01-defining-data-science/README.md @@ -1,26 +1,26 @@ -# डाटा विज्ञानको परिभाषा +# डाटा विज्ञान परिभाषा -| ![ [(@sketchthedocs)](https://sketchthedocs.dev) द्वारा बनाइएको स्केच नोट ](../../sketchnotes/01-Definitions.png) | -| :-------------------------------------------------------------------------------------------------------------: | -| डाटा विज्ञानको परिभाषा - _[@nitya](https://twitter.com/nitya) द्वारा बनाइएको स्केच नोट_ | +| ![ [(@sketchthedocs)](https://sketchthedocs.dev) द्वारा स्केच नोट ](../../sketchnotes/01-Definitions.png) | +| :----------------------------------------------------------------------------------------------------: | +| डाटा विज्ञान परिभाषा - _[@nitya](https://twitter.com/nitya) द्वारा स्केच नोट_ | --- -[![डाटा विज्ञानको परिभाषा भिडियो](../../../../1-Introduction/01-defining-data-science/images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) +[![डाटा विज्ञान परिभाषा भिडियो](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.ne.png)](https://youtu.be/beZ7Mb_oz9I) ## [पूर्व-व्याख्यान क्विज](https://ff-quizzes.netlify.app/en/ds/quiz/0) ## डाटा के हो? -हाम्रो दैनिक जीवनमा हामी निरन्तर डाटाले घेरिएका छौं। तपाईं अहिले पढ्दै गरेको पाठ डाटा हो। तपाईंको स्मार्टफोनमा तपाईंका साथीहरूको फोन नम्बरहरूको सूची डाटा हो, र तपाईंको घडीमा देखाइएको वर्तमान समय पनि डाटा हो। मानिसको रूपमा, हामी स्वाभाविक रूपमा डाटासँग काम गर्छौं, जस्तै हामीसँग भएको पैसा गन्नु वा साथीहरूलाई पत्र लेख्नु। +हाम्रो दैनिक जीवनमा, हामी निरन्तर डाटाले घेरिएका छौं। तपाईं अहिले पढ्दै गरेको पाठ डाटा हो। तपाईंको स्मार्टफोनमा तपाईंका साथीहरूको फोन नम्बरहरूको सूची डाटा हो, र तपाईंको घडीमा देखाइएको वर्तमान समय पनि डाटा हो। मानिसको रूपमा, हामी स्वाभाविक रूपमा डाटासँग काम गर्छौं, जस्तै हामीसँग भएको पैसा गन्नु वा साथीहरूलाई पत्र लेख्नु। तर, कम्प्युटरको आविष्कारसँगै डाटाको महत्त्व धेरै बढ्यो। कम्प्युटरको मुख्य भूमिका गणना गर्नु हो, तर तिनीहरूलाई काम गर्न डाटाको आवश्यकता पर्छ। त्यसैले, हामीले बुझ्नुपर्छ कि कम्प्युटरले डाटालाई कसरी भण्डारण र प्रशोधन गर्छ। @@ -29,19 +29,19 @@ CO_OP_TRANSLATOR_METADATA: ## डाटा विज्ञान के हो? -[विकिपीडिया](https://en.wikipedia.org/wiki/Data_science) अनुसार, **डाटा विज्ञान** लाई *वैज्ञानिक क्षेत्र जसले संरचित र असंरचित डाटाबाट ज्ञान र अन्तर्दृष्टि निकाल्न वैज्ञानिक विधिहरू प्रयोग गर्दछ, र विभिन्न अनुप्रयोग क्षेत्रहरूमा डाटाबाट प्राप्त ज्ञान र व्यावहारिक अन्तर्दृष्टि लागू गर्दछ* भनेर परिभाषित गरिएको छ। +[विकिपीडिया](https://en.wikipedia.org/wiki/Data_science) अनुसार, **डाटा विज्ञान** लाई *वैज्ञानिक क्षेत्रको रूपमा परिभाषित गरिएको छ, जसले संरचित र असंरचित डाटाबाट ज्ञान र अन्तर्दृष्टि निकाल्न वैज्ञानिक विधिहरू प्रयोग गर्दछ, र विभिन्न अनुप्रयोग क्षेत्रहरूमा डाटाबाट प्राप्त ज्ञान र व्यावहारिक अन्तर्दृष्टि लागू गर्दछ।* यस परिभाषाले डाटा विज्ञानका निम्न महत्त्वपूर्ण पक्षहरूलाई उजागर गर्दछ: -* डाटा विज्ञानको मुख्य लक्ष्य भनेको डाटाबाट **ज्ञान निकाल्नु** हो, अर्थात् - डाटालाई **बुझ्नु**, केही लुकेका सम्बन्धहरू पत्ता लगाउनु र **मोडेल** निर्माण गर्नु। -* डाटा विज्ञानले **वैज्ञानिक विधिहरू** प्रयोग गर्दछ, जस्तै सम्भाव्यता र तथ्याङ्क। वास्तवमा, जब *डाटा विज्ञान* शब्द पहिलो पटक प्रस्तुत गरियो, केही मानिसहरूले डाटा विज्ञानलाई तथ्याङ्कको नयाँ आकर्षक नाम मात्र हो भनेर तर्क गरे। तर अहिले यो स्पष्ट भएको छ कि यो क्षेत्र धेरै व्यापक छ। +* डाटा विज्ञानको मुख्य लक्ष्य भनेको डाटाबाट **ज्ञान निकाल्नु** हो, अर्थात् - डाटालाई **बुझ्नु**, केही लुकेका सम्बन्धहरू पत्ता लगाउनु, र **मोडेल** निर्माण गर्नु। +* डाटा विज्ञानले **वैज्ञानिक विधिहरू** प्रयोग गर्दछ, जस्तै सम्भाव्यता र तथ्याङ्क। वास्तवमा, जब *डाटा विज्ञान* शब्द पहिलो पटक प्रस्तुत गरियो, केही मानिसहरूले डाटा विज्ञानलाई तथ्याङ्कको नयाँ आकर्षक नाम मात्र भने। तर अहिले यो स्पष्ट भएको छ कि यो क्षेत्र धेरै व्यापक छ। * प्राप्त ज्ञानलाई केही **व्यावहारिक अन्तर्दृष्टि** उत्पादन गर्न प्रयोग गर्नुपर्छ, अर्थात् वास्तविक व्यापारिक परिस्थितिमा लागू गर्न सकिने व्यावहारिक अन्तर्दृष्टि। * हामीले **संरचित** र **असंरचित** दुबै डाटामा काम गर्न सक्षम हुनुपर्छ। हामी यस कोर्समा पछि विभिन्न प्रकारका डाटाबारे छलफल गर्नेछौं। * **अनुप्रयोग क्षेत्र** महत्त्वपूर्ण अवधारणा हो, र डाटा वैज्ञानिकहरूले प्रायः समस्या क्षेत्र, जस्तै: वित्त, चिकित्सा, मार्केटिङ, आदि, मा कम्तिमा केही हदसम्म विशेषज्ञता आवश्यक पर्छ। -> डाटा विज्ञानको अर्को महत्त्वपूर्ण पक्ष भनेको यसले डाटालाई कसरी सङ्कलन, भण्डारण र कम्प्युटर प्रयोग गरेर सञ्चालन गर्न सकिन्छ भन्ने अध्ययन गर्दछ। तथ्याङ्कले हामीलाई गणितीय आधार प्रदान गर्छ, जबकि डाटा विज्ञानले गणितीय अवधारणाहरूलाई डाटाबाट अन्तर्दृष्टि निकाल्न प्रयोग गर्दछ। +> डाटा विज्ञानको अर्को महत्त्वपूर्ण पक्ष भनेको यसले डाटालाई कसरी सङ्कलन, भण्डारण, र कम्प्युटर प्रयोग गरेर सञ्चालन गर्न सकिन्छ भन्ने अध्ययन गर्दछ। तथ्याङ्कले हामीलाई गणितीय आधार प्रदान गर्छ, जबकि डाटा विज्ञानले गणितीय अवधारणाहरूलाई डाटाबाट अन्तर्दृष्टि निकाल्न प्रयोग गर्दछ। -डाटा विज्ञानलाई हेर्ने एउटा तरिका (जसलाई [जिम ग्रे](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist)) सँग जोडिएको छ) भनेको यसलाई विज्ञानको छुट्टै दृष्टिकोण मान्नु हो: +डाटा विज्ञानलाई हेर्ने एउटा तरिका (जसलाई [जिम ग्रे](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist)) सँग जोडिएको छ) भनेको यसलाई विज्ञानको छुट्टै प्रतिमान मान्नु हो: * **अनुभवजन्य**, जसमा हामी प्रायः अवलोकन र प्रयोगको परिणाममा भर पर्छौं * **सैद्धान्तिक**, जहाँ नयाँ अवधारणाहरू विद्यमान वैज्ञानिक ज्ञानबाट उत्पन्न हुन्छन् * **गणनात्मक**, जहाँ हामी केही कम्प्युटेशनल प्रयोगहरूमा आधारित नयाँ सिद्धान्तहरू पत्ता लगाउँछौं @@ -49,67 +49,67 @@ CO_OP_TRANSLATOR_METADATA: ## अन्य सम्बन्धित क्षेत्रहरू -डाटा सर्वव्यापी भएकाले, डाटा विज्ञान आफैं पनि एक व्यापक क्षेत्र हो, जसले धेरै अन्य विषयहरूलाई छोएको छ। +किनभने डाटा सर्वव्यापी छ, डाटा विज्ञान आफैं पनि एक व्यापक क्षेत्र हो, जसले धेरै अन्य अनुशासनहरूलाई छोएको छ। ## डाटाका प्रकारहरू -जसरी हामीले पहिले नै उल्लेख गरिसकेका छौं, डाटा हरेक ठाउँमा छ। हामीले यसलाई सही तरिकाले सङ्कलन गर्न मात्र आवश्यक छ! **संरचित** र **असंरचित** डाटाबीच भिन्नता गर्न उपयोगी हुन्छ। संरचित डाटा प्रायः राम्रोसँग संरचित रूपमा प्रस्तुत गरिन्छ, प्रायः तालिका वा तालिकाहरूको रूपमा, जबकि असंरचित डाटा फाइलहरूको सङ्कलन मात्र हो। कहिलेकाहीँ हामी **अर्ध-संरचित** डाटाको पनि कुरा गर्न सक्छौं, जसमा केही प्रकारको संरचना हुन्छ, तर त्यो धेरै फरक हुन सक्छ। +जसरी हामीले पहिले नै उल्लेख गरिसकेका छौं, डाटा हरेक ठाउँमा छ। हामीले यसलाई सही तरिकाले सङ्कलन गर्न मात्र आवश्यक छ! **संरचित** र **असंरचित** डाटाबीच भिन्नता गर्न उपयोगी हुन्छ। संरचित डाटा प्रायः राम्रोसँग संरचित रूपमा प्रस्तुत गरिन्छ, प्रायः तालिका वा तालिकाहरूको रूपमा, जबकि असंरचित डाटा फाइलहरूको सङ्कलन मात्र हो। कहिलेकाहीँ हामी **अर्ध-संरचित** डाटाको पनि कुरा गर्न सक्छौं, जसमा केही प्रकारको संरचना हुन्छ, जुन धेरै फरक हुन सक्छ। -| संरचित | अर्ध-संरचित | असंरचित | -| ------------------------------------------------------------------------ | -------------------------------------------------------------------------------------------- | ----------------------------------- | -| व्यक्तिहरूको सूची र तिनीहरूको फोन नम्बरहरू | विकिपीडिया पृष्ठहरू जसमा लिङ्कहरू छन् | इनसाइक्लोपेडिया ब्रिटानिकाको पाठ | -| पछिल्ला २० वर्षका प्रत्येक मिनेटमा भवनका सबै कोठाहरूको तापक्रम | वैज्ञानिक कागजातहरूको सङ्कलन (JSON ढाँचामा) जसमा लेखक, प्रकाशन मिति, र सारांश छन् | कर्पोरेट कागजातहरूको फाइल शेयर | -| भवनमा प्रवेश गर्ने सबै व्यक्तिहरूको उमेर र लिङ्गको डाटा | इन्टरनेट पृष्ठहरू | निगरानी क्यामेराबाट कच्चा भिडियो | +| संरचित | अर्ध-संरचित | असंरचित | +| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | +| व्यक्तिहरूको सूची र तिनीहरूको फोन नम्बर | विकिपीडिया पृष्ठहरू जसमा लिङ्कहरू छन् | इनसाइक्लोपेडिया ब्रिटानिकाको पाठ | +| पछिल्ला २० वर्षका प्रत्येक मिनेटमा भवनका सबै कोठाहरूको तापक्रम | JSON ढाँचामा वैज्ञानिक कागजातहरूको सङ्कलन, जसमा लेखकहरू, प्रकाशन मिति, र सारांश छन् | कर्पोरेट कागजातहरूको फाइल शेयर | +| भवनमा प्रवेश गर्ने सबै व्यक्तिहरूको उमेर र लिङ्गको डाटा | इन्टरनेट पृष्ठहरू | निगरानी क्यामेराबाट कच्चा भिडियो फिड | ## डाटा कहाँबाट प्राप्त गर्ने -डाटाका धेरै सम्भावित स्रोतहरू छन्, र तिनीहरू सबै सूचीबद्ध गर्न असम्भव हुनेछ! तर, केही सामान्य स्थानहरूको चर्चा गरौं जहाँबाट तपाईं डाटा प्राप्त गर्न सक्नुहुन्छ: +डाटाका धेरै सम्भावित स्रोतहरू छन्, र तिनीहरू सबै सूचीबद्ध गर्न असम्भव हुनेछ! तर, केही सामान्य स्थानहरूको चर्चा गरौं, जहाँबाट तपाईं डाटा प्राप्त गर्न सक्नुहुन्छ: * **संरचित** - - **इन्टरनेट अफ थिङ्स** (IoT), जसमा विभिन्न सेन्सरहरू (जस्तै तापक्रम वा दबाब सेन्सर) बाट डाटा समावेश हुन्छ, धेरै उपयोगी डाटा प्रदान गर्दछ। उदाहरणका लागि, यदि कुनै कार्यालय भवन IoT सेन्सरहरूले सुसज्जित छ भने, हामी स्वचालित रूपमा तापक्रम र प्रकाश नियन्त्रण गर्न सक्छौं ताकि लागत कम गर्न सकियोस्। - - **सर्वेक्षणहरू**, जुन हामी प्रयोगकर्ताहरूलाई खरिद पछि वा वेबसाइट भ्रमण गरेपछि पूरा गर्न अनुरोध गर्छौं। - - **व्यवहारको विश्लेषण** जसले, उदाहरणका लागि, हामीलाई प्रयोगकर्ताले साइटमा कति गहिरो जान्छन् र साइट छोड्ने सामान्य कारण के हो भन्ने बुझ्न मद्दत गर्न सक्छ। + - **इन्टरनेट अफ थिङ्स** (IoT), जसमा विभिन्न सेन्सरहरू, जस्तै तापक्रम वा दबाब सेन्सरहरू, धेरै उपयोगी डाटा प्रदान गर्छ। उदाहरणका लागि, यदि कुनै कार्यालय भवन IoT सेन्सरहरूले सुसज्जित छ भने, हामी स्वचालित रूपमा तापक्रम र प्रकाश नियन्त्रण गर्न सक्छौं, लागत घटाउनका लागि। + - **सर्वेक्षणहरू**, जुन हामी प्रयोगकर्ताहरूलाई खरिद पछि वा वेबसाइट भ्रमण पछि पूरा गर्न अनुरोध गर्छौं। + - **व्यवहारको विश्लेषण**ले, उदाहरणका लागि, हामीलाई प्रयोगकर्ताले साइटमा कति गहिरो जान्छन् र साइट छोड्ने सामान्य कारण के हो भन्ने बुझ्न मद्दत गर्न सक्छ। * **असंरचित** - - **पाठहरू** अन्तर्दृष्टिको धनी स्रोत हुन सक्छन्, जस्तै समग्र **भावना स्कोर**, वा कुञ्जी शब्दहरू र अर्थपूर्ण जानकारी निकाल्ने। + - **पाठहरू** अन्तर्दृष्टिको धनी स्रोत हुन सक्छन्, जस्तै समग्र **भावना स्कोर**, वा कुञ्जी शब्दहरू र अर्थपूर्ण अर्थ निकाल्ने। - **तस्बिरहरू** वा **भिडियो**। निगरानी क्यामेराबाट प्राप्त भिडियोले सडकमा ट्राफिकको अनुमान गर्न र सम्भावित ट्राफिक जामबारे जानकारी दिन प्रयोग गर्न सकिन्छ। - - वेब सर्भरका **लगहरू** जसले हाम्रो साइटका कुन पृष्ठहरू सबैभन्दा बढी भ्रमण गरिन्छन् र कति समयसम्मका लागि भनेर बुझ्न मद्दत गर्न सक्छ। -* **अर्ध-संरचित** - - **सामाजिक सञ्जाल** ग्राफहरूले प्रयोगकर्ताको व्यक्तित्व र जानकारी फैलाउनको सम्भावित प्रभावकारिताबारे डाटा प्रदान गर्न सक्छ। - - पार्टीबाट खिचिएका तस्बिरहरूको सङ्कलन हुँदा, हामी **समूह गतिको** डाटा निकाल्न प्रयास गर्न सक्छौं, जस्तै एकअर्कासँग तस्बिर खिच्ने व्यक्तिहरूको ग्राफ निर्माण गरेर। + - वेब सर्भर **लगहरू**ले हाम्रो साइटका कुन पृष्ठहरू सबैभन्दा बढी भ्रमण गरिन्छन् र कति समयसम्मका लागि भन्ने बुझ्न मद्दत गर्न सक्छ। +* अर्ध-संरचित + - **सामाजिक सञ्जाल** ग्राफहरूले प्रयोगकर्ताको व्यक्तित्व र जानकारी फैलाउनको सम्भावित प्रभावकारिताबारे डाटाको उत्कृष्ट स्रोत हुन सक्छ। + - जब हामीसँग पार्टीका तस्बिरहरूको सङ्कलन हुन्छ, हामी **समूह गतिको** डाटा निकाल्न प्रयास गर्न सक्छौं, मानिसहरूले एकअर्कासँग तस्बिर खिचेको ग्राफ निर्माण गरेर। -डाटाका विभिन्न सम्भावित स्रोतहरू जान्दा, तपाईं विभिन्न परिदृश्यहरूको बारेमा सोच्न सक्नुहुन्छ जहाँ डाटा विज्ञान प्रविधिहरू प्रयोग गरेर स्थिति राम्रोसँग बुझ्न र व्यापार प्रक्रियाहरू सुधार गर्न सकिन्छ। +डाटाका विभिन्न सम्भावित स्रोतहरू जान्दा, तपाईं विभिन्न परिदृश्यहरूको बारेमा सोच्न सक्नुहुन्छ, जहाँ डाटा विज्ञान प्रविधिहरू प्रयोग गरेर स्थिति राम्रोसँग बुझ्न र व्यापार प्रक्रियाहरू सुधार गर्न सकिन्छ। ## डाटासँग के गर्न सकिन्छ डाटा विज्ञानमा, हामी डाटाको यात्राका निम्न चरणहरूमा ध्यान केन्द्रित गर्छौं: -## डिजिटलाइजेशन र डिजिटल रूपान्तरण +## डिजिटलाइजेसन र डिजिटल रूपान्तरण -पछिल्लो दशकमा, धेरै व्यवसायहरूले व्यापारिक निर्णयहरू गर्दा डाटाको महत्त्व बुझ्न थालेका छन्। व्यापार सञ्चालनमा डाटा विज्ञानका सिद्धान्तहरू लागू गर्न, पहिले केही डाटा सङ्कलन गर्नुपर्छ, अर्थात् व्यापार प्रक्रियाहरूलाई डिजिटल रूपान्तरण गर्नुपर्छ। यसलाई **डिजिटलाइजेशन** भनिन्छ। यस डाटामा डाटा विज्ञान प्रविधिहरू लागू गर्दा उत्पादकत्वमा उल्लेखनीय वृद्धि (वा व्यवसायको नयाँ दिशा) हुन सक्छ, जसलाई **डिजिटल रूपान्तरण** भनिन्छ। +पछिल्लो दशकमा, धेरै व्यवसायहरूले व्यापारिक निर्णयहरू गर्दा डाटाको महत्त्व बुझ्न थालेका छन्। व्यापार सञ्चालनमा डाटा विज्ञानका सिद्धान्तहरू लागू गर्न, पहिले केही डाटा सङ्कलन गर्नुपर्छ, अर्थात् व्यापार प्रक्रियाहरूलाई डिजिटल रूपान्तरण गर्नुपर्छ। यसलाई **डिजिटलाइजेसन** भनिन्छ। यस डाटामा डाटा विज्ञान प्रविधिहरू लागू गर्दा उत्पादकत्वमा उल्लेखनीय वृद्धि (वा व्यवसायको नयाँ दिशा) हुन सक्छ, जसलाई **डिजिटल रूपान्तरण** भनिन्छ। -उदाहरणका लागि सोचौं। मानौं हामीसँग एउटा डाटा विज्ञान कोर्स छ (जस्तै यो कोर्स) जुन हामी अनलाइन विद्यार्थीहरूलाई प्रदान गर्छौं, र हामी यसलाई सुधार गर्न डाटा विज्ञान प्रयोग गर्न चाहन्छौं। हामी यसलाई कसरी गर्न सक्छौं? +उदाहरणका लागि विचार गरौं। मानौं, हामीसँग एउटा डाटा विज्ञान कोर्स छ (जस्तै यो कोर्स), जुन हामी अनलाइन विद्यार्थीहरूलाई प्रदान गर्छौं, र हामी यसलाई सुधार गर्न डाटा विज्ञान प्रयोग गर्न चाहन्छौं। हामी यसलाई कसरी गर्न सक्छौं? -हामी "के डिजिटलाइज गर्न सकिन्छ?" भनेर सोध्न सुरु गर्न सक्छौं। सबैभन्दा सरल तरिका भनेको प्रत्येक विद्यार्थीलाई प्रत्येक मोड्युल पूरा गर्न लाग्ने समय मापन गर्नु र प्रत्येक मोड्युलको अन्त्यमा बहुविकल्पीय परीक्षण दिएर प्राप्त ज्ञान मापन गर्नु हो। सबै विद्यार्थीहरूको औसत समय निकालेर, हामी पत्ता लगाउन सक्छौं कि कुन मोड्युलहरूले विद्यार्थीहरूलाई सबैभन्दा बढी कठिनाइ दिन्छ, र तिनीहरूलाई सरल बनाउन काम गर्न सक्छौं। -तपाईं बहस गर्न सक्नुहुन्छ कि यो दृष्टिकोण आदर्श छैन, किनभने मोड्युलहरू फरक-फरक लम्बाइका हुन सक्छन्। समयलाई मोड्युलको लम्बाइ (अक्षरहरूको सङ्ख्यामा) द्वारा विभाजन गरेर, र ती मानहरूलाई तुलना गर्नु सम्भवतः अझ न्यायोचित हुनेछ। -जब हामी बहुविकल्पीय परीक्षाको नतिजा विश्लेषण गर्न सुरु गर्छौं, हामी विद्यार्थीहरूले कुन अवधारणाहरू बुझ्न कठिनाइ महसुस गर्छन् भनेर पत्ता लगाउन सक्छौं, र त्यस जानकारीलाई सामग्री सुधार गर्न प्रयोग गर्न सक्छौं। त्यसका लागि, हामीले परीक्षालाई यसरी डिजाइन गर्नुपर्छ कि प्रत्येक प्रश्नले निश्चित अवधारणा वा ज्ञानको टुक्रासँग सम्बन्धित होस्। +हामी "के डिजिटलाइज गर्न सकिन्छ?" भनेर सोध्न सुरु गर्न सक्छौं। सबैभन्दा सरल तरिका भनेको प्रत्येक विद्यार्थीलाई प्रत्येक मोड्युल पूरा गर्न लाग्ने समय मापन गर्नु र प्रत्येक मोड्युलको अन्त्यमा बहुविकल्पीय परीक्षण दिएर प्राप्त ज्ञान मापन गर्नु हो। सबै विद्यार्थीहरूको औसत समय-देखि-समाप्ति मापन गरेर, हामी पत्ता लगाउन सक्छौं कि कुन मोड्युलहरूले विद्यार्थीहरूलाई सबैभन्दा बढी कठिनाइ दिन्छ, र तिनीहरूलाई सरल बनाउन काम गर्न सक्छौं। +तपाईंले तर्क गर्न सक्नुहुन्छ कि यो विधि आदर्श होइन, किनकि मोड्युलहरू विभिन्न लम्बाइका हुन सक्छन्। सम्भवतः मोड्युलको लम्बाइ (अक्षरहरूको संख्या) अनुसार समय विभाजन गर्नु र ती मानहरू तुलना गर्नु अधिक न्यायसंगत हुनेछ। +जब हामी बहुविकल्पीय परीक्षाको नतिजा विश्लेषण गर्न सुरु गर्छौं, हामी विद्यार्थीहरूले कुन अवधारणाहरू बुझ्न कठिनाइ महसुस गरिरहेका छन् भनेर पत्ता लगाउन सक्छौं, र त्यस जानकारीलाई सामग्री सुधार गर्न प्रयोग गर्न सक्छौं। त्यसका लागि, हामीले परीक्षालाई यसरी डिजाइन गर्नुपर्छ कि प्रत्येक प्रश्नले निश्चित अवधारणा वा ज्ञानको टुक्रासँग सम्बन्धित होस्। यदि हामी अझ जटिल हुन चाहन्छौं भने, हामी प्रत्येक मोड्युल पूरा गर्न लागेको समयलाई विद्यार्थीहरूको उमेर समूहसँग तुलना गर्न सक्छौं। हामीले पत्ता लगाउन सक्छौं कि केही उमेर समूहका लागि मोड्युल पूरा गर्न अत्यधिक समय लाग्छ, वा विद्यार्थीहरूले मोड्युल पूरा गर्नु अघि नै छोड्छन्। यसले हामीलाई मोड्युलका लागि उमेर सिफारिसहरू प्रदान गर्न मद्दत गर्न सक्छ, र गलत अपेक्षाबाट हुने असन्तुष्टि कम गर्न सक्छ। ## 🚀 चुनौती -यस चुनौतीमा, हामी डेटा साइन्सको क्षेत्रमा सम्बन्धित अवधारणाहरू पत्ता लगाउन प्रयास गर्नेछौं। हामी डेटा साइन्सको विषयमा रहेको विकिपिडिया लेख लिनेछौं, पाठ डाउनलोड गरेर प्रक्रिया गर्नेछौं, र त्यसपछि यस्तो वर्ड क्लाउड बनाउनेछौं: +यस चुनौतीमा, हामी डेटा साइन्सको क्षेत्रमा सम्बन्धित अवधारणाहरू पत्ता लगाउने प्रयास गर्नेछौं। हामी डेटा साइन्सको विषयमा रहेको विकिपिडिया लेख लिनेछौं, पाठ डाउनलोड गरेर प्रक्रिया गर्नेछौं, र त्यसपछि यस्तो शब्द बादल (word cloud) बनाउनेछौं: -![डेटा साइन्सको लागि वर्ड क्लाउड](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![डेटा साइन्सको लागि शब्द बादल](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ne.png) -[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') मा गएर कोड पढ्न सक्नुहुन्छ। तपाईं कोड चलाउन पनि सक्नुहुन्छ, र वास्तविक समयमा सबै डेटा रूपान्तरणहरू कसरी काम गर्छन् भनेर हेर्न सक्नुहुन्छ। +[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') मा गएर कोड पढ्न सक्नुहुन्छ। तपाईं कोड चलाउन पनि सक्नुहुन्छ, र यसले वास्तविक समयमा सबै डेटा रूपान्तरण कसरी गर्छ भनेर हेर्न सक्नुहुन्छ। > यदि तपाईंलाई Jupyter Notebook मा कोड कसरी चलाउने थाहा छैन भने, [यो लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) हेर्नुहोस्। -## [पाठपश्चात क्विज](https://ff-quizzes.netlify.app/en/ds/quiz/1) +## [पाठपछिको क्विज](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## असाइनमेन्टहरू -* **कार्य १**: माथिको कोडलाई परिमार्जन गरेर **बिग डेटा** र **मेसिन लर्निङ** क्षेत्रका सम्बन्धित अवधारणाहरू पत्ता लगाउनुहोस्। +* **कार्य १**: माथिको कोडलाई परिमार्जन गरेर **Big Data** र **Machine Learning** क्षेत्रका सम्बन्धित अवधारणाहरू पत्ता लगाउनुहोस्। * **कार्य २**: [डेटा साइन्स परिदृश्यहरूबारे सोच्नुहोस्](assignment.md) ## श्रेय @@ -119,4 +119,4 @@ CO_OP_TRANSLATOR_METADATA: --- **अस्वीकरण**: -यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं। \ No newline at end of file +यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छन्। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं। \ No newline at end of file diff --git a/translations/nl/1-Introduction/01-defining-data-science/README.md b/translations/nl/1-Introduction/01-defining-data-science/README.md index 8dd005b3..2947719b 100644 --- a/translations/nl/1-Introduction/01-defining-data-science/README.md +++ b/translations/nl/1-Introduction/01-defining-data-science/README.md @@ -1,109 +1,63 @@ -# Definiëren van Data Science - -| ![ Sketchnote door [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | -| :----------------------------------------------------------------------------------------------------: | -| Definiëren van Data Science - _Sketchnote door [@nitya](https://twitter.com/nitya)_ | - ---- - -[![Definiëren van Data Science Video](../../../../1-Introduction/01-defining-data-science/images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) - -## [Quiz voorafgaand aan de les](https://ff-quizzes.netlify.app/en/ds/quiz/0) - -## Wat is Data? -In ons dagelijks leven worden we voortdurend omringd door data. De tekst die je nu leest is data. De lijst met telefoonnummers van je vrienden in je smartphone is data, net als de huidige tijd die op je horloge wordt weergegeven. Als mensen werken we van nature met data door bijvoorbeeld het geld dat we hebben te tellen of door brieven aan onze vrienden te schrijven. - -Data werd echter veel belangrijker met de komst van computers. De primaire rol van computers is het uitvoeren van berekeningen, maar ze hebben data nodig om mee te werken. Daarom moeten we begrijpen hoe computers data opslaan en verwerken. - -Met de opkomst van het internet is de rol van computers als apparaten voor gegevensverwerking toegenomen. Als je erover nadenkt, gebruiken we computers nu steeds meer voor gegevensverwerking en communicatie, in plaats van voor daadwerkelijke berekeningen. Wanneer we een e-mail naar een vriend schrijven of informatie op internet zoeken, zijn we in feite bezig met het creëren, opslaan, verzenden en manipuleren van data. -> Kun je je de laatste keer herinneren dat je een computer hebt gebruikt om echt iets te berekenen? - -## Wat is Data Science? - -Volgens [Wikipedia](https://en.wikipedia.org/wiki/Data_science) wordt **Data Science** gedefinieerd als *een wetenschappelijk vakgebied dat wetenschappelijke methoden gebruikt om kennis en inzichten te halen uit gestructureerde en ongestructureerde data, en deze kennis en toepasbare inzichten uit data toe te passen in een breed scala aan toepassingsgebieden*. - -Deze definitie benadrukt de volgende belangrijke aspecten van data science: - -* Het hoofddoel van data science is om **kennis te extraheren** uit data, met andere woorden - om data te **begrijpen**, verborgen relaties te vinden en een **model** te bouwen. -* Data science maakt gebruik van **wetenschappelijke methoden**, zoals kansberekening en statistiek. Toen de term *data science* voor het eerst werd geïntroduceerd, beweerden sommigen dat het slechts een nieuwe, hippe naam voor statistiek was. Tegenwoordig is het duidelijk geworden dat het vakgebied veel breder is. -* De verkregen kennis moet worden toegepast om **bruikbare inzichten** te produceren, dat wil zeggen praktische inzichten die je kunt toepassen in echte zakelijke situaties. -* We moeten kunnen werken met zowel **gestructureerde** als **ongestructureerde** data. Later in de cursus zullen we terugkomen op de verschillende soorten data. -* **Toepassingsgebied** is een belangrijk concept, en datawetenschappers hebben vaak ten minste enige mate van expertise nodig in het probleemgebied, bijvoorbeeld: financiën, geneeskunde, marketing, enz. - -> Een ander belangrijk aspect van Data Science is dat het bestudeert hoe data kan worden verzameld, opgeslagen en verwerkt met behulp van computers. Terwijl statistiek ons de wiskundige basis geeft, past data science wiskundige concepten toe om daadwerkelijk inzichten uit data te halen. - -Een van de manieren (toegeschreven aan [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) om naar data science te kijken, is door het te beschouwen als een apart wetenschappelijk paradigma: -* **Empirisch**, waarbij we voornamelijk vertrouwen op observaties en resultaten van experimenten -* **Theoretisch**, waar nieuwe concepten voortkomen uit bestaande wetenschappelijke kennis -* **Computationeel**, waar we nieuwe principes ontdekken op basis van computationele experimenten -* **Data-gedreven**, gebaseerd op het ontdekken van relaties en patronen in de data - -## Andere Gerelateerde Vakgebieden - -Omdat data overal aanwezig is, is data science zelf ook een breed vakgebied dat veel andere disciplines raakt. - ## Soorten Data -Zoals we al hebben genoemd, is data overal. We hoeven het alleen maar op de juiste manier vast te leggen! Het is nuttig om onderscheid te maken tussen **gestructureerde** en **ongestructureerde** data. De eerste wordt meestal weergegeven in een goed gestructureerde vorm, vaak als een tabel of een aantal tabellen, terwijl de laatste gewoon een verzameling bestanden is. Soms kunnen we ook spreken van **semi-gestructureerde** data, die een bepaalde structuur hebben die sterk kan variëren. +Zoals we al hebben vermeld, is data overal. We hoeven het alleen op de juiste manier vast te leggen! Het is handig om onderscheid te maken tussen **gestructureerde** en **ongestructureerde** data. Gestructureerde data wordt meestal weergegeven in een goed georganiseerde vorm, vaak als een tabel of meerdere tabellen, terwijl ongestructureerde data gewoon een verzameling bestanden is. Soms spreken we ook over **semi-gestructureerde** data, die een bepaalde mate van structuur heeft die sterk kan variëren. | Gestructureerd | Semi-gestructureerd | Ongestructureerd | -| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- | +| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | | Lijst van mensen met hun telefoonnummers | Wikipedia-pagina's met links | Tekst van de Encyclopaedia Britannica | -| Temperatuur in alle kamers van een gebouw, elke minuut van de afgelopen 20 jaar | Verzameling wetenschappelijke artikelen in JSON-formaat met auteurs, publicatiedatum en samenvatting | Bestandsdeling met bedrijfsdocumenten | -| Gegevens over leeftijd en geslacht van alle mensen die het gebouw binnenkomen | Internetpagina's | Ruwe videobeelden van een bewakingscamera | +| Temperatuur in alle kamers van een gebouw, elke minuut gedurende de laatste 20 jaar | Verzameling wetenschappelijke artikelen in JSON-formaat met auteurs, publicatiedatum en samenvatting | Bestandsdeling met bedrijfsdocumenten | +| Gegevens over leeftijd en geslacht van alle mensen die het gebouw binnenkomen | Internetpagina's | Ruwe videobeelden van een bewakingscamera | -## Waar Data te Vinden +## Waar Data vandaan halen -Er zijn veel mogelijke bronnen van data, en het is onmogelijk om ze allemaal op te sommen! Laten we echter enkele typische plaatsen noemen waar je data kunt vinden: +Er zijn veel mogelijke bronnen van data, en het is onmogelijk om ze allemaal op te sommen! Laten we echter enkele typische plekken noemen waar je data kunt vinden: * **Gestructureerd** - - **Internet of Things** (IoT), inclusief gegevens van verschillende sensoren, zoals temperatuur- of druksensoren, levert veel nuttige data op. Bijvoorbeeld, als een kantoorgebouw is uitgerust met IoT-sensoren, kunnen we automatisch verwarming en verlichting regelen om kosten te minimaliseren. - - **Enquêtes** die we gebruikers vragen in te vullen na een aankoop of na een bezoek aan een website. - - **Gedragsanalyse** kan ons bijvoorbeeld helpen begrijpen hoe diep een gebruiker een site verkent en wat de typische reden is om de site te verlaten. + - **Internet of Things** (IoT), inclusief data van verschillende sensoren, zoals temperatuur- of druksensoren, biedt veel nuttige data. Bijvoorbeeld, als een kantoorgebouw is uitgerust met IoT-sensoren, kunnen we automatisch verwarming en verlichting regelen om kosten te minimaliseren. + - **Enquêtes** die we gebruikers vragen in te vullen na een aankoop of na het bezoeken van een website. + - **Gedragsanalyse** kan ons bijvoorbeeld helpen te begrijpen hoe diep een gebruiker een site verkent en wat de typische reden is om de site te verlaten. * **Ongestructureerd** - - **Teksten** kunnen een rijke bron van inzichten zijn, zoals een algemene **sentimentscore**, of het extraheren van sleutelwoorden en semantische betekenis. - - **Afbeeldingen** of **Video**. Een video van een bewakingscamera kan worden gebruikt om het verkeer op de weg in te schatten en mensen te informeren over mogelijke verkeersopstoppingen. + - **Teksten** kunnen een rijke bron van inzichten zijn, zoals een algemene **sentimentscore**, of het extraheren van trefwoorden en semantische betekenis. + - **Afbeeldingen** of **Video**. Een video van een bewakingscamera kan worden gebruikt om het verkeer op de weg te schatten en mensen te informeren over mogelijke verkeersopstoppingen. - Webserver **Logs** kunnen worden gebruikt om te begrijpen welke pagina's van onze site het vaakst worden bezocht en hoe lang. * **Semi-gestructureerd** - - **Sociale Netwerk**-grafieken kunnen geweldige bronnen van data zijn over gebruikerspersoonlijkheden en de potentiële effectiviteit in het verspreiden van informatie. - - Wanneer we een verzameling foto's van een feestje hebben, kunnen we proberen **Groepsdynamiek**-data te extraheren door een grafiek te bouwen van mensen die samen op de foto staan. + - **Sociale Netwerk**-grafieken kunnen geweldige bronnen van data zijn over gebruikerspersoonlijkheden en potentiële effectiviteit in het verspreiden van informatie. + - Wanneer we een verzameling foto's van een feestje hebben, kunnen we proberen **Groepsdynamiek**-data te extraheren door een grafiek te bouwen van mensen die foto's met elkaar maken. -Door verschillende mogelijke databronnen te kennen, kun je nadenken over verschillende scenario's waarin data science-technieken kunnen worden toegepast om de situatie beter te begrijpen en bedrijfsprocessen te verbeteren. +Door verschillende mogelijke bronnen van data te kennen, kun je nadenken over verschillende scenario's waarin data science-technieken kunnen worden toegepast om de situatie beter te begrijpen en bedrijfsprocessen te verbeteren. -## Wat je met Data kunt Doen +## Wat je kunt doen met Data In Data Science richten we ons op de volgende stappen in de datareis: -Natuurlijk kunnen, afhankelijk van de specifieke data, sommige stappen ontbreken (bijvoorbeeld wanneer we de data al in de database hebben, of wanneer we geen modeltraining nodig hebben), of kunnen sommige stappen meerdere keren worden herhaald (zoals gegevensverwerking). - ## Digitalisering en Digitale Transformatie -In het afgelopen decennium zijn veel bedrijven het belang van data bij het nemen van zakelijke beslissingen gaan inzien. Om data science-principes toe te passen op het runnen van een bedrijf, moet je eerst wat data verzamelen, oftewel bedrijfsprocessen vertalen naar digitale vorm. Dit staat bekend als **digitalisering**. Het toepassen van data science-technieken op deze data om beslissingen te sturen, kan leiden tot aanzienlijke productiviteitsverhogingen (of zelfs een bedrijfsomslag), wat **digitale transformatie** wordt genoemd. +In het afgelopen decennium zijn veel bedrijven gaan begrijpen hoe belangrijk data is bij het nemen van zakelijke beslissingen. Om data science-principes toe te passen op het runnen van een bedrijf, moet je eerst wat data verzamelen, oftewel bedrijfsprocessen vertalen naar digitale vorm. Dit staat bekend als **digitalisering**. Het toepassen van data science-technieken op deze data om beslissingen te sturen kan leiden tot aanzienlijke productiviteitsverhogingen (of zelfs een bedrijfsomslag), wat **digitale transformatie** wordt genoemd. Laten we een voorbeeld bekijken. Stel dat we een data science-cursus hebben (zoals deze) die we online aan studenten aanbieden, en we willen data science gebruiken om deze te verbeteren. Hoe kunnen we dat doen? -We kunnen beginnen met de vraag: "Wat kan worden gedigitaliseerd?" De eenvoudigste manier zou zijn om de tijd te meten die elke student nodig heeft om elke module te voltooien, en de opgedane kennis te meten door aan het einde van elke module een meerkeuzetoets te geven. Door de gemiddelde voltooiingstijd over alle studenten te berekenen, kunnen we ontdekken welke modules de meeste moeilijkheden veroorzaken voor studenten en eraan werken om deze te vereenvoudigen. -Je zou kunnen beweren dat deze aanpak niet ideaal is, omdat modules van verschillende lengtes kunnen zijn. Het is waarschijnlijk eerlijker om de tijd te delen door de lengte van de module (in aantal tekens) en die waarden met elkaar te vergelijken. +We kunnen beginnen met de vraag: "Wat kan worden gedigitaliseerd?" De eenvoudigste manier zou zijn om de tijd te meten die elke student nodig heeft om elk module af te ronden, en de verworven kennis te meten door een meerkeuzetest aan het einde van elke module te geven. Door de gemiddelde tijd-om-te-voltooien over alle studenten te berekenen, kunnen we ontdekken welke modules de meeste moeilijkheden veroorzaken voor studenten en werken aan het vereenvoudigen ervan. +Je zou kunnen stellen dat deze aanpak niet ideaal is, omdat modules verschillende lengtes kunnen hebben. Het is waarschijnlijk eerlijker om de tijd te verdelen door de lengte van de module (in aantal tekens) en die waarden met elkaar te vergelijken. Wanneer we beginnen met het analyseren van de resultaten van meerkeuzetests, kunnen we proberen te bepalen welke concepten studenten moeilijk vinden om te begrijpen, en die informatie gebruiken om de inhoud te verbeteren. Om dat te doen, moeten we tests zo ontwerpen dat elke vraag gekoppeld is aan een bepaald concept of kennisblok. -Als we het nog ingewikkelder willen maken, kunnen we de tijd die nodig is voor elk module plotten tegen de leeftijdscategorie van de studenten. We kunnen ontdekken dat het voor sommige leeftijdscategorieën onredelijk lang duurt om de module te voltooien, of dat studenten afhaken voordat ze deze hebben afgerond. Dit kan ons helpen leeftijdsaanbevelingen voor de module te geven en de ontevredenheid van mensen door verkeerde verwachtingen te minimaliseren. +Als we het nog ingewikkelder willen maken, kunnen we de tijd die nodig is voor elk module plotten tegen de leeftijdscategorie van de studenten. We kunnen ontdekken dat het voor sommige leeftijdscategorieën onevenredig lang duurt om de module te voltooien, of dat studenten afhaken voordat ze deze hebben afgerond. Dit kan ons helpen leeftijdsaanbevelingen voor de module te geven en de ontevredenheid van mensen door verkeerde verwachtingen te minimaliseren. ## 🚀 Uitdaging In deze uitdaging gaan we proberen concepten te vinden die relevant zijn voor het vakgebied Data Science door naar teksten te kijken. We nemen een Wikipedia-artikel over Data Science, downloaden en verwerken de tekst, en bouwen vervolgens een woordwolk zoals deze: -![Woordwolk voor Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Woordwolk voor Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.nl.png) -Bezoek [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') om de code door te nemen. Je kunt de code ook uitvoeren en zien hoe het alle datatransformaties in real-time uitvoert. +Bezoek [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') om de code door te nemen. Je kunt de code ook uitvoeren en zien hoe het alle datatransformaties in real-time uitvoert. > Als je niet weet hoe je code moet uitvoeren in een Jupyter Notebook, bekijk dan [dit artikel](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). @@ -111,7 +65,7 @@ Bezoek [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining- ## Opdrachten -* **Taak 1**: Pas de bovenstaande code aan om gerelateerde concepten te vinden voor de vakgebieden **Big Data** en **Machine Learning**. +* **Taak 1**: Pas de bovenstaande code aan om gerelateerde concepten te vinden voor de vakgebieden **Big Data** en **Machine Learning** * **Taak 2**: [Denk na over Data Science-scenario's](assignment.md) ## Credits @@ -121,4 +75,4 @@ Deze les is met ♥️ geschreven door [Dmitry Soshnikov](http://soshnikov.com) --- **Disclaimer**: -Dit document is vertaald met behulp van de AI-vertalingsservice [Co-op Translator](https://github.com/Azure/co-op-translator). Hoewel we streven naar nauwkeurigheid, willen we u erop wijzen dat geautomatiseerde vertalingen fouten of onnauwkeurigheden kunnen bevatten. Het originele document in de oorspronkelijke taal moet worden beschouwd als de gezaghebbende bron. Voor kritieke informatie wordt professionele menselijke vertaling aanbevolen. Wij zijn niet aansprakelijk voor misverstanden of verkeerde interpretaties die voortvloeien uit het gebruik van deze vertaling. \ No newline at end of file +Dit document is vertaald met behulp van de AI-vertalingsservice [Co-op Translator](https://github.com/Azure/co-op-translator). Hoewel we ons best doen om nauwkeurigheid te waarborgen, dient u zich ervan bewust te zijn dat geautomatiseerde vertalingen fouten of onnauwkeurigheden kunnen bevatten. Het originele document in de oorspronkelijke taal moet worden beschouwd als de gezaghebbende bron. Voor cruciale informatie wordt professionele menselijke vertaling aanbevolen. Wij zijn niet aansprakelijk voor misverstanden of verkeerde interpretaties die voortvloeien uit het gebruik van deze vertaling. \ No newline at end of file diff --git a/translations/no/1-Introduction/01-defining-data-science/README.md b/translations/no/1-Introduction/01-defining-data-science/README.md index 8d7393a1..81f42b02 100644 --- a/translations/no/1-Introduction/01-defining-data-science/README.md +++ b/translations/no/1-Introduction/01-defining-data-science/README.md @@ -1,117 +1,73 @@ -# Definere Data Science +## Typer av data -| ![ Sketchnote av [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | -| :----------------------------------------------------------------------------------------------------: | -| Definere Data Science - _Sketchnote av [@nitya](https://twitter.com/nitya)_ | - ---- - -[![Definere Data Science Video](../../../../1-Introduction/01-defining-data-science/images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) - -## [Quiz før forelesning](https://ff-quizzes.netlify.app/en/ds/quiz/0) - -## Hva er Data? -I hverdagen er vi konstant omgitt av data. Teksten du leser nå er data. Listen over telefonnumre til vennene dine på smarttelefonen din er data, og det samme er tiden som vises på klokken din. Som mennesker opererer vi naturlig med data, enten det er å telle penger eller skrive brev til venner. - -Men data ble langt viktigere med fremveksten av datamaskiner. Datamaskiners hovedoppgave er å utføre beregninger, men de trenger data for å fungere. Derfor må vi forstå hvordan datamaskiner lagrer og behandler data. - -Med Internettets fremvekst økte datamaskiners rolle som datahåndteringsenheter. Hvis du tenker over det, bruker vi nå datamaskiner mer og mer til databehandling og kommunikasjon, snarere enn til rene beregninger. Når vi skriver en e-post til en venn eller søker etter informasjon på Internett, skaper, lagrer, overfører og manipulerer vi i bunn og grunn data. -> Kan du huske sist gang du brukte en datamaskin til faktisk å beregne noe? - -## Hva er Data Science? - -I [Wikipedia](https://en.wikipedia.org/wiki/Data_science) defineres **Data Science** som *et vitenskapelig felt som bruker vitenskapelige metoder for å hente kunnskap og innsikt fra strukturerte og ustrukturerte data, og anvender kunnskap og handlingsrettede innsikter fra data på tvers av et bredt spekter av bruksområder*. - -Denne definisjonen fremhever følgende viktige aspekter ved data science: - -* Hovedmålet med data science er å **hente kunnskap** fra data, med andre ord - å **forstå** data, finne skjulte sammenhenger og bygge en **modell**. -* Data science bruker **vitenskapelige metoder**, som sannsynlighet og statistikk. Da begrepet *data science* først ble introdusert, mente noen at det bare var et nytt og fancy navn for statistikk. I dag er det tydelig at feltet er langt bredere. -* Den oppnådde kunnskapen bør brukes til å produsere **handlingsrettede innsikter**, altså praktiske innsikter som kan anvendes i reelle forretningssituasjoner. -* Vi må kunne operere på både **strukturerte** og **ustrukturerte** data. Vi kommer tilbake til ulike typer data senere i kurset. -* **Bruksområde** er et viktig konsept, og dataforskere trenger ofte en viss grad av ekspertise innen problemområdet, for eksempel: finans, medisin, markedsføring osv. - -> Et annet viktig aspekt ved Data Science er at det studerer hvordan data kan samles inn, lagres og bearbeides ved hjelp av datamaskiner. Mens statistikk gir oss matematiske grunnlag, bruker data science matematiske konsepter for faktisk å trekke innsikter fra data. - -En måte (tilskrevet [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) å se på data science på, er å betrakte det som et eget vitenskapsparadigme: -* **Empirisk**, hvor vi hovedsakelig baserer oss på observasjoner og eksperimentresultater -* **Teoretisk**, hvor nye konsepter oppstår fra eksisterende vitenskapelig kunnskap -* **Beregningsteknisk**, hvor vi oppdager nye prinsipper basert på beregningseksperimenter -* **Datadrevet**, basert på å oppdage sammenhenger og mønstre i data - -## Andre Relaterte Felt - -Siden data er allestedsnærværende, er data science også et bredt felt som berører mange andre disipliner. - -## Typer av Data - -Som vi allerede har nevnt, er data overalt. Vi må bare fange det på riktig måte! Det er nyttig å skille mellom **strukturerte** og **ustrukturerte** data. Førstnevnte er vanligvis representert i en velstrukturert form, ofte som en tabell eller flere tabeller, mens sistnevnte bare er en samling filer. Noen ganger kan vi også snakke om **semi-strukturerte** data, som har en viss struktur som kan variere mye. +Som vi allerede har nevnt, finnes data overalt. Vi må bare fange det på riktig måte! Det er nyttig å skille mellom **strukturert** og **ustrukturert** data. Strukturert data er vanligvis representert i en velorganisert form, ofte som en tabell eller flere tabeller, mens ustrukturert data bare er en samling av filer. Noen ganger kan vi også snakke om **semi-strukturert** data, som har en viss form for struktur som kan variere betydelig. | Strukturert | Semi-strukturert | Ustrukturert | -| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | -------------------------------------- | -| Liste over personer med telefonnumrene deres | Wikipedia-sider med lenker | Teksten i Encyclopedia Britannica | -| Temperatur i alle rom i en bygning hvert minutt de siste 20 årene | Samling av vitenskapelige artikler i JSON-format med forfattere, publikasjonsdato og sammendrag | Fildeling med bedriftsdokumenter | -| Data om alder og kjønn til alle som går inn i bygningen | Internett-sider | Rå videostrøm fra overvåkningskamera | +| --------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | -------------------------------------- | +| Liste over personer med telefonnumrene deres | Wikipedia-sider med lenker | Teksten fra Encyclopedia Britannica | +| Temperatur i alle rom i en bygning hvert minutt de siste 20 årene | Samling av vitenskapelige artikler i JSON-format med forfattere, publiseringsdato og sammendrag | Filarkiv med bedriftsdokumenter | +| Data om alder og kjønn til alle som går inn i bygningen | Internett-sider | Rå videostrøm fra overvåkningskamera | -## Hvor man kan få Data +## Hvor man kan få tak i data -Det finnes mange mulige kilder til data, og det er umulig å liste opp alle! Men la oss nevne noen typiske steder hvor du kan få data: +Det finnes mange mulige kilder til data, og det vil være umulig å liste opp alle! La oss likevel nevne noen typiske steder hvor du kan få tak i data: * **Strukturert** - - **Internet of Things** (IoT), inkludert data fra ulike sensorer som temperatur- eller trykksensorer, gir mye nyttig data. For eksempel, hvis et kontorbygg er utstyrt med IoT-sensorer, kan vi automatisk kontrollere oppvarming og belysning for å minimere kostnader. - - **Undersøkelser** som vi ber brukere fylle ut etter et kjøp eller etter å ha besøkt et nettsted. - - **Analyse av atferd** kan for eksempel hjelpe oss med å forstå hvor dypt en bruker går inn på et nettsted, og hva som er den typiske årsaken til at de forlater det. + - **Internet of Things** (IoT), inkludert data fra ulike sensorer, som temperatur- eller trykksensorer, gir mye nyttig data. For eksempel, hvis en kontorbygning er utstyrt med IoT-sensorer, kan vi automatisk kontrollere oppvarming og belysning for å minimere kostnader. + - **Undersøkelser** som vi ber brukere om å fylle ut etter et kjøp eller etter å ha besøkt en nettside. + - **Analyse av atferd** kan for eksempel hjelpe oss med å forstå hvor dypt en bruker går inn på en nettside, og hva som er den typiske årsaken til at de forlater siden. * **Ustrukturert** - - **Tekster** kan være en rik kilde til innsikt, som en overordnet **stemningsscore**, eller ved å trekke ut nøkkelord og semantisk mening. - - **Bilder** eller **Video**. En video fra et overvåkningskamera kan brukes til å estimere trafikken på veien og informere folk om potensielle trafikkorker. - - Webserver-**logger** kan brukes til å forstå hvilke sider på nettstedet vårt som oftest besøkes, og hvor lenge. + - **Tekster** kan være en rik kilde til innsikt, som en generell **sentimentscore**, eller ved å trekke ut nøkkelord og semantisk mening. + - **Bilder** eller **videoer**. En video fra et overvåkningskamera kan brukes til å estimere trafikken på veien og informere folk om potensielle trafikkorker. + - **Loggfiler** fra webservere kan brukes til å forstå hvilke sider på nettstedet vårt som blir mest besøkt, og hvor lenge. * **Semi-strukturert** - - **Sosiale nettverk**-grafer kan være gode kilder til data om brukeres personligheter og potensielle effektivitet i å spre informasjon. - - Når vi har en haug med fotografier fra en fest, kan vi prøve å trekke ut **gruppe-dynamikk**-data ved å bygge en graf over folk som tar bilder sammen. + - **Sosiale nettverks** grafer kan være gode kilder til data om brukeres personligheter og potensielle effektivitet i å spre informasjon. + - Når vi har en samling fotografier fra en fest, kan vi prøve å trekke ut data om **gruppedynamikk** ved å bygge en graf over personer som tar bilder sammen. Ved å kjenne til ulike mulige datakilder, kan du prøve å tenke på ulike scenarier der data science-teknikker kan brukes for å forstå situasjonen bedre og forbedre forretningsprosesser. -## Hva du kan gjøre med Data +## Hva du kan gjøre med data -I Data Science fokuserer vi på følgende trinn i datareisen: +I Data Science fokuserer vi på følgende steg i datareisen: -Selvfølgelig, avhengig av de faktiske dataene, kan noen trinn mangle (f.eks. når vi allerede har dataene i databasen, eller når vi ikke trenger modelltrening), eller noen trinn kan gjentas flere ganger (som databehandling). +Selvfølgelig, avhengig av den faktiske dataen, kan noen steg mangle (f.eks. når vi allerede har dataen i databasen, eller når vi ikke trenger modelltrening), eller noen steg kan gjentas flere ganger (som databehandling). -## Digitalisering og Digital Transformasjon +## Digitalisering og digital transformasjon -I løpet av det siste tiåret har mange bedrifter begynt å forstå viktigheten av data når de tar forretningsbeslutninger. For å anvende prinsippene for data science i en bedrift, må man først samle inn data, altså oversette forretningsprosesser til digital form. Dette kalles **digitalisering**. Å bruke data science-teknikker på disse dataene for å veilede beslutninger kan føre til betydelige produktivitetsøkninger (eller til og med en forretningspivot), kjent som **digital transformasjon**. +I løpet av det siste tiåret har mange bedrifter begynt å forstå viktigheten av data når de tar forretningsbeslutninger. For å anvende prinsippene for data science i en bedrift, må man først samle inn data, altså oversette forretningsprosesser til digital form. Dette kalles **digitalisering**. Å bruke data science-teknikker på denne dataen for å veilede beslutninger kan føre til betydelige produktivitetsøkninger (eller til og med en forretningspivot), kalt **digital transformasjon**. La oss se på et eksempel. Anta at vi har et data science-kurs (som dette) som vi leverer online til studenter, og vi ønsker å bruke data science for å forbedre det. Hvordan kan vi gjøre det? -Vi kan starte med å spørre: "Hva kan digitaliseres?" Den enkleste måten ville være å måle tiden det tar for hver student å fullføre hver modul, og å måle den oppnådde kunnskapen ved å gi en flervalgsprøve på slutten av hver modul. Ved å gjennomsnittliggjøre tiden det tar å fullføre på tvers av alle studenter, kan vi finne ut hvilke moduler som skaper mest vanskeligheter for studentene, og jobbe med å forenkle dem. -> Du kan argumentere for at denne tilnærmingen ikke er optimal, fordi moduler kan ha ulik lengde. Det er sannsynligvis mer rettferdig å dele tiden på lengden av modulen (i antall tegn) og sammenligne disse verdiene i stedet. -Når vi begynner å analysere resultatene fra flervalgstester, kan vi prøve å finne ut hvilke konsepter studentene har vanskeligheter med å forstå, og bruke den informasjonen til å forbedre innholdet. For å gjøre dette må vi designe tester slik at hvert spørsmål knyttes til et bestemt konsept eller kunnskapsområde. +Vi kan starte med å spørre "Hva kan digitaliseres?" Den enkleste måten ville være å måle tiden det tar for hver student å fullføre hvert modul, og å måle den oppnådde kunnskapen ved å gi en flervalgsprøve på slutten av hver modul. Ved å beregne gjennomsnittlig tid til fullføring på tvers av alle studenter, kan vi finne ut hvilke moduler som skaper mest utfordringer for studentene, og jobbe med å forenkle dem. +> Du kan argumentere for at denne tilnærmingen ikke er ideell, fordi moduler kan ha ulik lengde. Det er sannsynligvis mer rettferdig å dele tiden på lengden av modulen (i antall tegn) og sammenligne disse verdiene i stedet. +Når vi begynner å analysere resultatene fra flervalgstester, kan vi prøve å finne ut hvilke konsepter studentene har vanskeligheter med å forstå, og bruke den informasjonen til å forbedre innholdet. For å gjøre dette må vi designe tester på en måte der hvert spørsmål knyttes til et bestemt konsept eller kunnskapsområde. -Hvis vi ønsker å gjøre det enda mer komplisert, kan vi plotte tiden brukt på hvert modul mot alderskategorien til studentene. Vi kan oppdage at det for enkelte alderskategorier tar uforholdsmessig lang tid å fullføre modulen, eller at studentene slutter før de fullfører. Dette kan hjelpe oss med å gi aldersanbefalinger for modulen og minimere misnøye fra feil forventninger. +Hvis vi vil gjøre det enda mer komplisert, kan vi plotte tiden brukt på hver modul mot alderskategorien til studentene. Vi kan oppdage at det for enkelte alderskategorier tar uforholdsmessig lang tid å fullføre modulen, eller at studentene slutter før de fullfører. Dette kan hjelpe oss med å gi aldersanbefalinger for modulen og minimere misnøye som følge av feil forventninger. ## 🚀 Utfordring I denne utfordringen skal vi prøve å finne konsepter som er relevante for feltet Data Science ved å se på tekster. Vi skal ta en Wikipedia-artikkel om Data Science, laste ned og prosessere teksten, og deretter lage en ordsky som denne: -![Ordsky for Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Ordsky for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.no.png) -Besøk [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') for å lese gjennom koden. Du kan også kjøre koden og se hvordan den utfører alle datatransformasjoner i sanntid. +Besøk [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') for å lese gjennom koden. Du kan også kjøre koden og se hvordan den utfører alle datatransformasjoner i sanntid. -> Hvis du ikke vet hvordan du kjører kode i en Jupyter Notebook, ta en titt på [denne artikkelen](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). +> Hvis du ikke vet hvordan du kjører kode i en Jupyter Notebook, kan du ta en titt på [denne artikkelen](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). ## [Quiz etter forelesning](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## Oppgaver -* **Oppgave 1**: Endre koden ovenfor for å finne relaterte konsepter for feltene **Big Data** og **Maskinlæring** +* **Oppgave 1**: Modifiser koden ovenfor for å finne relaterte konsepter for feltene **Big Data** og **Maskinlæring** * **Oppgave 2**: [Tenk på Data Science-scenarier](assignment.md) ## Kreditering diff --git a/translations/pa/1-Introduction/01-defining-data-science/README.md b/translations/pa/1-Introduction/01-defining-data-science/README.md index 1116a9b5..e3e0e44f 100644 --- a/translations/pa/1-Introduction/01-defining-data-science/README.md +++ b/translations/pa/1-Introduction/01-defining-data-science/README.md @@ -1,78 +1,78 @@ ## ਡਾਟਾ ਦੇ ਕਿਸਮਾਂ -ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਪਹਿਲਾਂ ਹੀ ਕਿਹਾ ਹੈ, ਡਾਟਾ ਹਰ ਜਗ੍ਹਾ ਹੈ। ਸਾਨੂੰ ਇਸਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਕੈਪਚਰ ਕਰਨ ਦੀ ਲੋੜ ਹੈ! ਇਹ **ਸੰਰਚਿਤ** ਅਤੇ **ਅਸੰਰਚਿਤ** ਡਾਟਾ ਵਿੱਚ ਅੰਤਰ ਕਰਨਾ ਲਾਭਦਾਇਕ ਹੈ। ਸੰਰਚਿਤ ਡਾਟਾ ਆਮ ਤੌਰ 'ਤੇ ਕੁਝ ਚੰਗੀ-ਸੰਰਚਿਤ ਰੂਪ ਵਿੱਚ ਦਰਸਾਇਆ ਜਾਂਦਾ ਹੈ, ਅਕਸਰ ਇੱਕ ਟੇਬਲ ਜਾਂ ਕਈ ਟੇਬਲਾਂ ਦੇ ਰੂਪ ਵਿੱਚ, ਜਦਕਿ ਅਸੰਰਚਿਤ ਡਾਟਾ ਸਿਰਫ਼ ਫਾਈਲਾਂ ਦਾ ਇਕੱਠ ਹੈ। ਕਈ ਵਾਰ ਅਸੀਂ **ਅਰਧ-ਸੰਰਚਿਤ** ਡਾਟਾ ਬਾਰੇ ਵੀ ਗੱਲ ਕਰ ਸਕਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਕੁਝ ਕਿਸਮ ਦੀ ਸੰਰਚਨਾ ਹੁੰਦੀ ਹੈ ਜੋ ਬਹੁਤ ਵੱਖ-ਵੱਖ ਹੋ ਸਕਦੀ ਹੈ। +ਜਿਵੇਂ ਕਿ ਅਸੀਂ ਪਹਿਲਾਂ ਹੀ ਕਿਹਾ ਹੈ, ਡਾਟਾ ਹਰ ਜਗ੍ਹਾ ਹੈ। ਸਾਨੂੰ ਇਸਨੂੰ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਕੈਪਚਰ ਕਰਨ ਦੀ ਲੋੜ ਹੈ! ਇਹ **ਸੰਰਚਿਤ** ਅਤੇ **ਅਸੰਰਚਿਤ** ਡਾਟਾ ਵਿੱਚ ਫਰਕ ਕਰਨਾ ਲਾਭਦਾਇਕ ਹੈ। ਸੰਰਚਿਤ ਡਾਟਾ ਆਮ ਤੌਰ 'ਤੇ ਕਿਸੇ ਚੰਗੀ-ਤਰੀਕੇ ਨਾਲ ਸੰਰਚਿਤ ਰੂਪ ਵਿੱਚ ਦਰਸਾਇਆ ਜਾਂਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਟੇਬਲ ਜਾਂ ਕਈ ਟੇਬਲਾਂ ਦੇ ਰੂਪ ਵਿੱਚ। ਅਸੰਰਚਿਤ ਡਾਟਾ ਸਿਰਫ਼ ਫਾਈਲਾਂ ਦਾ ਇਕੱਠ ਹੁੰਦਾ ਹੈ। ਕਈ ਵਾਰ ਅਸੀਂ **ਅਰਧ-ਸੰਰਚਿਤ** ਡਾਟਾ ਬਾਰੇ ਵੀ ਗੱਲ ਕਰ ਸਕਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਕੁਝ ਤਰ੍ਹਾਂ ਦੀ ਸੰਰਚਨਾ ਹੁੰਦੀ ਹੈ ਜੋ ਕਾਫ਼ੀ ਵੱਖ-ਵੱਖ ਹੋ ਸਕਦੀ ਹੈ। | ਸੰਰਚਿਤ | ਅਰਧ-ਸੰਰਚਿਤ | ਅਸੰਰਚਿਤ | | -------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | ----------------------------------- | | ਲੋਕਾਂ ਦੀ ਸੂਚੀ ਉਨ੍ਹਾਂ ਦੇ ਫੋਨ ਨੰਬਰਾਂ ਦੇ ਨਾਲ | ਵਿਕੀਪੀਡੀਆ ਪੰਨੇ ਲਿੰਕਾਂ ਦੇ ਨਾਲ | ਐਨਸਾਈਕਲੋਪੀਡੀਆ ਬ੍ਰਿਟਾਨਿਕਾ ਦਾ ਟੈਕਸਟ | -| ਪਿਛਲੇ 20 ਸਾਲਾਂ ਵਿੱਚ ਹਰ ਮਿੰਟ ਵਿੱਚ ਇੱਕ ਇਮਾਰਤ ਦੇ ਸਾਰੇ ਕਮਰਿਆਂ ਵਿੱਚ ਤਾਪਮਾਨ | JSON ਫਾਰਮੈਟ ਵਿੱਚ ਵਿਗਿਆਨਕ ਪੇਪਰਾਂ ਦਾ ਇਕੱਠ, ਲੇਖਕਾਂ, ਪ੍ਰਕਾਸ਼ਨ ਦੀ ਮਿਤੀ, ਅਤੇ ਸਾਰ | ਨਿਗਰਾਨੀ ਕੈਮਰੇ ਤੋਂ ਕੱਚਾ ਵੀਡੀਓ ਫੀਡ | -| ਇਮਾਰਤ ਵਿੱਚ ਦਾਖਲ ਹੋਣ ਵਾਲੇ ਸਾਰੇ ਲੋਕਾਂ ਦੀ ਉਮਰ ਅਤੇ ਲਿੰਗ ਦਾ ਡਾਟਾ | ਇੰਟਰਨੈਟ ਪੰਨੇ | ਕਾਰਪੋਰੇਟ ਦਸਤਾਵੇਜ਼ਾਂ ਨਾਲ ਫਾਈਲ ਸ਼ੇਅਰ | +| ਪਿਛਲੇ 20 ਸਾਲਾਂ ਵਿੱਚ ਹਰ ਮਿੰਟ ਵਿੱਚ ਇੱਕ ਇਮਾਰਤ ਦੇ ਸਾਰੇ ਕਮਰਿਆਂ ਦਾ ਤਾਪਮਾਨ | JSON ਫਾਰਮੈਟ ਵਿੱਚ ਵਿਗਿਆਨਕ ਪੇਪਰਾਂ ਦਾ ਇਕੱਠ, ਜਿਸ ਵਿੱਚ ਲੇਖਕ, ਪ੍ਰਕਾਸ਼ਨ ਦੀ ਮਿਤੀ ਅਤੇ ਸਾਰांश ਸ਼ਾਮਲ ਹਨ | ਕਾਰਪੋਰੇਟ ਦਸਤਾਵੇਜ਼ਾਂ ਦੇ ਨਾਲ ਫਾਈਲ ਸ਼ੇਅਰ | +| ਇਮਾਰਤ ਵਿੱਚ ਦਾਖਲ ਹੋਣ ਵਾਲੇ ਸਾਰੇ ਲੋਕਾਂ ਦੀ ਉਮਰ ਅਤੇ ਲਿੰਗ ਦਾ ਡਾਟਾ | ਇੰਟਰਨੈਟ ਪੰਨੇ | ਨਿਗਰਾਨੀ ਕੈਮਰੇ ਤੋਂ ਕੱਚਾ ਵੀਡੀਓ ਫੀਡ | ## ਡਾਟਾ ਕਿੱਥੋਂ ਮਿਲ ਸਕਦਾ ਹੈ ਡਾਟਾ ਦੇ ਕਈ ਸੰਭਾਵਿਤ ਸਰੋਤ ਹਨ, ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਸਾਰਿਆਂ ਨੂੰ ਸੂਚੀਬੱਧ ਕਰਨਾ ਅਸੰਭਵ ਹੋਵੇਗਾ! ਪਰ, ਆਓ ਕੁਝ ਆਮ ਜਗ੍ਹਾਂ ਦਾ ਜ਼ਿਕਰ ਕਰੀਏ ਜਿੱਥੇ ਤੁਸੀਂ ਡਾਟਾ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹੋ: * **ਸੰਰਚਿਤ** - - **Internet of Things** (IoT), ਜਿਸ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਸੈਂਸਰਾਂ ਤੋਂ ਡਾਟਾ ਸ਼ਾਮਲ ਹੈ, ਜਿਵੇਂ ਕਿ ਤਾਪਮਾਨ ਜਾਂ ਦਬਾਅ ਸੈਂਸਰ, ਬਹੁਤ ਸਾਰਾ ਲਾਭਦਾਇਕ ਡਾਟਾ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ। ਉਦਾਹਰਣ ਲਈ, ਜੇਕਰ ਇੱਕ ਦਫ਼ਤਰ ਦੀ ਇਮਾਰਤ IoT ਸੈਂਸਰਾਂ ਨਾਲ ਸਜਾਈ ਗਈ ਹੈ, ਤਾਂ ਅਸੀਂ ਖਰਚੇ ਘਟਾਉਣ ਲਈ ਹੀਟਿੰਗ ਅਤੇ ਲਾਈਟਿੰਗ ਨੂੰ ਸਵੈਚਾਲਿਤ ਤੌਰ 'ਤੇ ਨਿਯੰਤਰਿਤ ਕਰ ਸਕਦੇ ਹਾਂ। - - **ਸਰਵੇਖਣ**, ਜੋ ਅਸੀਂ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਖਰੀਦਦਾਰੀ ਤੋਂ ਬਾਅਦ ਜਾਂ ਵੈਬਸਾਈਟ ਦੇ ਦੌਰੇ ਤੋਂ ਬਾਅਦ ਪੂਰਾ ਕਰਨ ਲਈ ਕਹਿੰਦੇ ਹਾਂ। - - **ਵਿਹਾਰ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ**, ਜੋ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਇੱਕ ਉਪਭੋਗਤਾ ਵੈਬਸਾਈਟ ਵਿੱਚ ਕਿੰਨਾ ਗਹਿਰਾਈ ਵਿੱਚ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਵੈਬਸਾਈਟ ਛੱਡਣ ਦਾ ਆਮ ਕਾਰਨ ਕੀ ਹੈ। + - **Internet of Things** (IoT), ਜਿਸ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਸੈਂਸਰਾਂ ਤੋਂ ਡਾਟਾ ਸ਼ਾਮਲ ਹੈ, ਜਿਵੇਂ ਕਿ ਤਾਪਮਾਨ ਜਾਂ ਦਬਾਅ ਸੈਂਸਰ। ਉਦਾਹਰਣ ਲਈ, ਜੇਕਰ ਇੱਕ ਦਫ਼ਤਰ ਦੀ ਇਮਾਰਤ IoT ਸੈਂਸਰਾਂ ਨਾਲ ਸਜਾਈ ਗਈ ਹੈ, ਤਾਂ ਅਸੀਂ ਖਰਚੇ ਘਟਾਉਣ ਲਈ ਹੀਟਿੰਗ ਅਤੇ ਲਾਈਟਿੰਗ ਨੂੰ ਆਟੋਮੈਟਿਕ ਤਰੀਕੇ ਨਾਲ ਕੰਟਰੋਲ ਕਰ ਸਕਦੇ ਹਾਂ। + - **ਸਰਵੇਖਣਾਂ**, ਜਿਨ੍ਹਾਂ ਨੂੰ ਅਸੀਂ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਖਰੀਦਦਾਰੀ ਤੋਂ ਬਾਅਦ ਜਾਂ ਵੈਬਸਾਈਟ 'ਤੇ ਜਾਓਣ ਤੋਂ ਬਾਅਦ ਪੂਰਾ ਕਰਨ ਲਈ ਕਹਿੰਦੇ ਹਾਂ। + - **ਵਿਹਾਰ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ**, ਜੋ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਇੱਕ ਉਪਭੋਗਤਾ ਵੈਬਸਾਈਟ ਵਿੱਚ ਕਿੰਨਾ ਗਹਿਰਾਈ ਵਿੱਚ ਜਾਂਦਾ ਹੈ ਅਤੇ ਵੈਬਸਾਈਟ ਛੱਡਣ ਦਾ ਆਮ ਕਾਰਨ ਕੀ ਹੈ। * **ਅਸੰਰਚਿਤ** - - **ਟੈਕਸਟ**, ਜਿਵੇਂ ਕਿ ਸਮੁੱਚੇ **ਭਾਵਨਾ ਸਕੋਰ** ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ, ਜਾਂ ਕੁੰਜੀ ਸ਼ਬਦ ਅਤੇ ਅਰਥਮੂਲਕ ਮਤਲਬ ਕੱਢਣ ਲਈ। - - **ਚਿੱਤਰ** ਜਾਂ **ਵੀਡੀਓ**। ਨਿਗਰਾਨੀ ਕੈਮਰੇ ਤੋਂ ਵੀਡੀਓ ਸੜਕ 'ਤੇ ਟ੍ਰੈਫਿਕ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਅਤੇ ਲੋਕਾਂ ਨੂੰ ਸੰਭਾਵਿਤ ਟ੍ਰੈਫਿਕ ਜਾਮ ਬਾਰੇ ਸੂਚਿਤ ਕਰ ਸਕਦੀ ਹੈ। - - ਵੈਬ ਸਰਵਰ **ਲਾਗ**, ਜੋ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ ਕਿ ਸਾਡੀ ਵੈਬਸਾਈਟ ਦੇ ਕਿਹੜੇ ਪੰਨੇ ਸਭ ਤੋਂ ਵੱਧ ਵਾਰ ਵੇਖੇ ਜਾਂਦੇ ਹਨ, ਅਤੇ ਕਿੰਨੇ ਸਮੇਂ ਲਈ। + - **ਟੈਕਸਟ**, ਜਿਵੇਂ ਕਿ **ਸੈਂਟੀਮੈਂਟ ਸਕੋਰ** ਜਾਂ ਕੁੰਜੀ ਸ਼ਬਦ ਅਤੇ ਅਰਥਮੂਲਕ ਮਤਲਬ ਕੱਢਣ ਲਈ। + - **ਚਿੱਤਰ** ਜਾਂ **ਵੀਡੀਓ**। ਨਿਗਰਾਨੀ ਕੈਮਰੇ ਤੋਂ ਵੀਡੀਓ ਸੜਕ 'ਤੇ ਟ੍ਰੈਫਿਕ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਵਰਤੀ ਜਾ ਸਕਦੀ ਹੈ ਅਤੇ ਲੋਕਾਂ ਨੂੰ ਸੰਭਾਵਿਤ ਟ੍ਰੈਫਿਕ ਜਾਮ ਬਾਰੇ ਸੂਚਿਤ ਕਰ ਸਕਦੀ ਹੈ। + - ਵੈਬ ਸਰਵਰ **ਲਾਗ**, ਜੋ ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ ਕਿ ਸਾਡੀ ਵੈਬਸਾਈਟ ਦੇ ਕਿਹੜੇ ਪੰਨੇ ਸਭ ਤੋਂ ਵੱਧ ਵਾਰ ਵੇਖੇ ਜਾਂਦੇ ਹਨ ਅਤੇ ਕਿੰਨੇ ਸਮੇਂ ਲਈ। * **ਅਰਧ-ਸੰਰਚਿਤ** - - **ਸੋਸ਼ਲ ਨੈਟਵਰਕ** ਗ੍ਰਾਫ, ਜੋ ਉਪਭੋਗਤਾ ਦੇ ਵਿਅਕਤੀਗਤ ਗੁਣਾਂ ਅਤੇ ਜਾਣਕਾਰੀ ਫੈਲਾਉਣ ਵਿੱਚ ਸੰਭਾਵਿਤ ਪ੍ਰਭਾਵਸ਼ਾਲੀਤਾ ਬਾਰੇ ਡਾਟਾ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦੇ ਹਨ। - - ਜਦੋਂ ਸਾਡੇ ਕੋਲ ਪਾਰਟੀ ਤੋਂ ਫੋਟੋਆਂ ਦਾ ਇਕੱਠ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਅਸੀਂ **ਗਰੁੱਪ ਡਾਇਨਾਮਿਕਸ** ਡਾਟਾ ਕੱਢਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹਾਂ, ਲੋਕਾਂ ਦੇ ਗ੍ਰਾਫ ਬਣਾਕੇ ਜੋ ਇੱਕ-ਦੂਜੇ ਨਾਲ ਤਸਵੀਰਾਂ ਖਿੱਚ ਰਹੇ ਹਨ। + - **ਸੋਸ਼ਲ ਨੈਟਵਰਕ** ਗ੍ਰਾਫ, ਜੋ ਉਪਭੋਗਤਾ ਦੇ ਵਿਅਕਤੀਗਤ ਗੁਣਾਂ ਅਤੇ ਜਾਣਕਾਰੀ ਫੈਲਾਉਣ ਵਿੱਚ ਸੰਭਾਵਿਤ ਪ੍ਰਭਾਵਸ਼ਾਲੀਤਾ ਬਾਰੇ ਡਾਟਾ ਦੇ ਸ਼ਾਨਦਾਰ ਸਰੋਤ ਹੋ ਸਕਦੇ ਹਨ। + - ਜਦੋਂ ਸਾਡੇ ਕੋਲ ਪਾਰਟੀ ਤੋਂ ਫੋਟੋਆਂ ਦਾ ਇਕੱਠ ਹੁੰਦਾ ਹੈ, ਅਸੀਂ **ਗਰੁੱਪ ਡਾਇਨਾਮਿਕਸ** ਡਾਟਾ ਕੱਢਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹਾਂ, ਜਿਵੇਂ ਕਿ ਉਹਨਾਂ ਲੋਕਾਂ ਦਾ ਗ੍ਰਾਫ ਬਣਾਉਣਾ ਜੋ ਇੱਕ ਦੂਜੇ ਨਾਲ ਤਸਵੀਰਾਂ ਲੈ ਰਹੇ ਹਨ। -ਵੱਖ-ਵੱਖ ਸੰਭਾਵਿਤ ਡਾਟਾ ਸਰੋਤਾਂ ਨੂੰ ਜਾਣ ਕੇ, ਤੁਸੀਂ ਵੱਖ-ਵੱਖ ਸਥਿਤੀਆਂ ਬਾਰੇ ਸੋਚ ਸਕਦੇ ਹੋ ਜਿੱਥੇ ਡਾਟਾ ਸਾਇੰਸ ਤਕਨੀਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਕੇ ਸਥਿਤੀ ਨੂੰ ਬਿਹਤਰ ਸਮਝਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਅਤੇ ਵਪਾਰਕ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਸੁਧਾਰਿਆ ਜਾ ਸਕਦਾ ਹੈ। +ਵੱਖ-ਵੱਖ ਸੰਭਾਵਿਤ ਡਾਟਾ ਸਰੋਤਾਂ ਨੂੰ ਜਾਣ ਕੇ, ਤੁਸੀਂ ਵੱਖ-ਵੱਖ ਸਥਿਤੀਆਂ ਬਾਰੇ ਸੋਚ ਸਕਦੇ ਹੋ ਜਿੱਥੇ ਡਾਟਾ ਸਾਇੰਸ ਤਕਨੀਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਕੇ ਸਥਿਤੀ ਨੂੰ ਬਿਹਤਰ ਸਮਝਿਆ ਜਾ ਸਕਦਾ ਹੈ ਅਤੇ ਵਪਾਰਕ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਸੁਧਾਰਿਆ ਜਾ ਸਕਦਾ ਹੈ। ## ਡਾਟਾ ਨਾਲ ਕੀ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ -ਡਾਟਾ ਸਾਇੰਸ ਵਿੱਚ, ਅਸੀਂ ਡਾਟਾ ਯਾਤਰਾ ਦੇ ਹੇਠ ਲਿਖੇ ਕਦਮਾਂ 'ਤੇ ਧਿਆਨ ਦਿੰਦੇ ਹਾਂ: +ਡਾਟਾ ਸਾਇੰਸ ਵਿੱਚ, ਅਸੀਂ ਡਾਟਾ ਯਾਤਰਾ ਦੇ ਹੇਠਾਂ ਦਿੱਤੇ ਕਦਮਾਂ 'ਤੇ ਧਿਆਨ ਦਿੰਦੇ ਹਾਂ: ## ਡਿਜ਼ੀਟਲਾਈਜ਼ੇਸ਼ਨ ਅਤੇ ਡਿਜ਼ੀਟਲ ਰੂਪਾਂਤਰਨ -ਪਿਛਲੇ ਦਹਾਕੇ ਵਿੱਚ, ਕਈ ਵਪਾਰਾਂ ਨੇ ਵਪਾਰਕ ਫੈਸਲੇ ਲੈਂਦੇ ਸਮੇਂ ਡਾਟਾ ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਸਮਝਣਾ ਸ਼ੁਰੂ ਕੀਤਾ। ਵਪਾਰ ਚਲਾਉਣ ਲਈ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਸਿਧਾਂਤਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਲਈ, ਪਹਿਲਾਂ ਕੁਝ ਡਾਟਾ ਇਕੱਠਾ ਕਰਨਾ ਲਾਜ਼ਮੀ ਹੈ, ਅਰਥਾਤ ਵਪਾਰਕ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਡਿਜ਼ੀਟਲ ਰੂਪ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਨਾ। ਇਸਨੂੰ **ਡਿਜ਼ੀਟਲਾਈਜ਼ੇਸ਼ਨ** ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਇਸ ਡਾਟਾ 'ਤੇ ਡਾਟਾ ਸਾਇੰਸ ਤਕਨੀਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਕੇ ਫੈਸਲੇ ਲੈਣ ਨਾਲ ਉਤਪਾਦਕਤਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਵਾਧਾ (ਜਾਂ ਵਪਾਰਕ ਪਿਵਟ) ਹੋ ਸਕਦਾ ਹੈ, ਜਿਸਨੂੰ **ਡਿਜ਼ੀਟਲ ਰੂਪਾਂਤਰਨ** ਕਿਹਾ ਜਾਂਦਾ ਹੈ। +ਪਿਛਲੇ ਦਹਾਕੇ ਵਿੱਚ, ਕਈ ਵਪਾਰਾਂ ਨੇ ਵਪਾਰਕ ਫੈਸਲੇ ਲੈਂਦੇ ਸਮੇਂ ਡਾਟਾ ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਸਮਝਣਾ ਸ਼ੁਰੂ ਕੀਤਾ। ਵਪਾਰ ਚਲਾਉਣ ਲਈ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਸਿਧਾਂਤਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਲਈ, ਪਹਿਲਾਂ ਕੁਝ ਡਾਟਾ ਇਕੱਠਾ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜ਼ਿਆਦਾ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ, ਵਪਾਰਕ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਡਿਜ਼ੀਟਲ ਰੂਪ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਨਾ। ਇਸਨੂੰ **ਡਿਜ਼ੀਟਲਾਈਜ਼ੇਸ਼ਨ** ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਇਸ ਡਾਟਾ 'ਤੇ ਡਾਟਾ ਸਾਇੰਸ ਤਕਨੀਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਕੇ ਫੈਸਲੇ ਲੈਣ ਨਾਲ ਉਤਪਾਦਕਤਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਵਾਧਾ ਹੋ ਸਕਦਾ ਹੈ (ਜਾਂ ਵਪਾਰਕ ਰੂਪਾਂਤਰਨ), ਜਿਸਨੂੰ **ਡਿਜ਼ੀਟਲ ਰੂਪਾਂਤਰਨ** ਕਿਹਾ ਜਾਂਦਾ ਹੈ। -ਆਓ ਇੱਕ ਉਦਾਹਰਣ ਦੇਖੀਏ। ਮੰਨ ਲਓ ਕਿ ਸਾਡੇ ਕੋਲ ਇੱਕ ਡਾਟਾ ਸਾਇੰਸ ਕੋਰਸ ਹੈ (ਜਿਵੇਂ ਕਿ ਇਹ), ਜੋ ਅਸੀਂ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਆਨਲਾਈਨ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਅਸੀਂ ਇਸਨੂੰ ਸੁਧਾਰਨ ਲਈ ਡਾਟਾ ਸਾਇੰਸ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ। ਅਸੀਂ ਇਸਨੂੰ ਕਿਵੇਂ ਕਰ ਸਕਦੇ ਹਾਂ? +ਆਓ ਇੱਕ ਉਦਾਹਰਣ ਦੇਖੀਏ। ਮੰਨ ਲਓ ਕਿ ਸਾਡੇ ਕੋਲ ਇੱਕ ਡਾਟਾ ਸਾਇੰਸ ਕੋਰਸ ਹੈ (ਜਿਵੇਂ ਕਿ ਇਹ), ਜਿਸਨੂੰ ਅਸੀਂ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਆਨਲਾਈਨ ਮੁਹੱਈਆ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਅਸੀਂ ਇਸਨੂੰ ਸੁਧਾਰਨ ਲਈ ਡਾਟਾ ਸਾਇੰਸ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ। ਅਸੀਂ ਇਸਨੂੰ ਕਿਵੇਂ ਕਰ ਸਕਦੇ ਹਾਂ? -ਅਸੀਂ "ਕੀ ਡਿਜ਼ੀਟਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ?" ਪੁੱਛ ਕੇ ਸ਼ੁਰੂ ਕਰ ਸਕਦੇ ਹਾਂ। ਸਭ ਤੋਂ ਸਧਾਰਨ ਤਰੀਕਾ ਇਹ ਹੋਵੇਗਾ ਕਿ ਹਰ ਵਿਦਿਆਰਥੀ ਨੂੰ ਹਰ ਮੋਡਿਊਲ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਲੱਗਣ ਵਾਲੇ ਸਮੇਂ ਨੂੰ ਮਾਪਿਆ ਜਾਵੇ, ਅਤੇ ਹਰ ਮੋਡਿਊਲ ਦੇ ਅੰਤ ਵਿੱਚ ਇੱਕ ਮਲਟੀਪਲ-ਚੋਇਸ ਟੈਸਟ ਦੇ ਕੇ ਪ੍ਰਾਪਤ ਗਿਆਨ ਨੂੰ ਮਾਪਿਆ ਜਾਵੇ। ਸਾਰੇ ਵਿਦਿਆਰਥੀਆਂ ਵਿੱਚ ਸਮਾਂ-ਪੂਰਾ ਕਰਨ ਦੇ ਔਸਤ ਨੂੰ ਮਾਪ ਕੇ, ਅਸੀਂ ਇਹ ਪਤਾ ਲਗਾ ਸਕਦੇ ਹਾਂ ਕਿ ਕਿਹੜੇ ਮੋਡਿਊਲ ਵਿਦਿਆਰਥੀਆਂ ਲਈ ਸਭ ਤੋਂ ਵੱਧ ਮੁਸ਼ਕਲਾਂ ਪੈਦਾ ਕਰਦੇ ਹਨ, ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਸਧਾਰਨ ਬਣਾਉਣ 'ਤੇ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ। -ਤੁਹਾਨੂੰ ਇਹ ਦਲੀਲ ਦੇ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਪਹੁੰਚ ਆਦਰਸ਼ ਨਹੀਂ ਹੈ, ਕਿਉਂਕਿ ਮੋਡੀਊਲ ਵੱਖ-ਵੱਖ ਲੰਬਾਈ ਦੇ ਹੋ ਸਕਦੇ ਹਨ। ਸ਼ਾਇਦ ਸਮਾਂ ਨੂੰ ਮੋਡੀਊਲ ਦੀ ਲੰਬਾਈ (ਅੱਖਰਾਂ ਦੀ ਗਿਣਤੀ ਵਿੱਚ) ਨਾਲ ਵੰਡਣਾ ਅਤੇ ਉਹਨਾਂ ਮੁੱਲਾਂ ਦੀ ਤੁਲਨਾ ਕਰਨਾ ਜ਼ਿਆਦਾ ਨਿਆਂਯੁਕਤ ਹੋਵੇ। -ਜਦੋਂ ਅਸੀਂ ਬਹੁ-ਚੋਣ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਨਤੀਜਿਆਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰਦੇ ਹਾਂ, ਤਾਂ ਅਸੀਂ ਇਹ ਪਤਾ ਲਗਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹਾਂ ਕਿ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਕਿਹੜੇ ਧਾਰਨਾਵਾਂ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆ ਰਹੀ ਹੈ, ਅਤੇ ਇਸ ਜਾਣਕਾਰੀ ਨੂੰ ਸਮੱਗਰੀ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਵਰਤ ਸਕਦੇ ਹਾਂ। ਇਸ ਨੂੰ ਕਰਨ ਲਈ, ਸਾਨੂੰ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਡਿਜ਼ਾਈਨ ਕਰਨਾ ਪਵੇਗਾ ਕਿ ਹਰ ਪ੍ਰਸ਼ਨ ਕਿਸੇ ਵਿਸ਼ੇਸ਼ ਧਾਰਨਾ ਜਾਂ ਗਿਆਨ ਦੇ ਟੁਕੜੇ ਨਾਲ ਜੁੜਿਆ ਹੋਵੇ। +ਅਸੀਂ "ਕੀ ਡਿਜ਼ੀਟਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ?" ਪੁੱਛ ਕੇ ਸ਼ੁਰੂ ਕਰ ਸਕਦੇ ਹਾਂ। ਸਭ ਤੋਂ ਸਧਾਰਨ ਤਰੀਕਾ ਇਹ ਹੋਵੇਗਾ ਕਿ ਹਰ ਵਿਦਿਆਰਥੀ ਨੂੰ ਹਰ ਮੋਡਿਊਲ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਲੱਗਣ ਵਾਲੇ ਸਮੇਂ ਨੂੰ ਮਾਪਿਆ ਜਾਵੇ ਅਤੇ ਹਰ ਮੋਡਿਊਲ ਦੇ ਅੰਤ ਵਿੱਚ ਇੱਕ ਮਲਟੀਪਲ-ਚੋਇਸ ਟੈਸਟ ਦੇ ਕੇ ਪ੍ਰਾਪਤ ਗਿਆਨ ਨੂੰ ਮਾਪਿਆ ਜਾਵੇ। ਸਾਰੇ ਵਿਦਿਆਰਥੀਆਂ ਵਿੱਚ ਸਮਾਂ-ਪੂਰਾ ਕਰਨ ਦੇ ਔਸਤ ਨੂੰ ਮਾਪ ਕੇ, ਅਸੀਂ ਇਹ ਪਤਾ ਲਗਾ ਸਕਦੇ ਹਾਂ ਕਿ ਕਿਹੜੇ ਮੋਡਿਊਲ ਵਿਦਿਆਰਥੀਆਂ ਲਈ ਸਭ ਤੋਂ ਵੱਧ ਮੁਸ਼ਕਲਾਂ ਪੈਦਾ ਕਰਦੇ ਹਨ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਸਧਾਰਨ ਬਣਾਉਣ 'ਤੇ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ। +ਤੁਸੀਂ ਦਲੀਲ ਕਰ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਤਰੀਕਾ ਆਦਰਸ਼ ਨਹੀਂ ਹੈ, ਕਿਉਂਕਿ ਮੋਡੀਊਲ ਵੱਖ-ਵੱਖ ਲੰਬਾਈ ਦੇ ਹੋ ਸਕਦੇ ਹਨ। ਸ਼ਾਇਦ ਸਮਾਂ ਨੂੰ ਮੋਡੀਊਲ ਦੀ ਲੰਬਾਈ (ਅੱਖਰਾਂ ਦੀ ਗਿਣਤੀ ਵਿੱਚ) ਨਾਲ ਵੰਡਣਾ ਅਤੇ ਉਹਨਾਂ ਮੁੱਲਾਂ ਦੀ ਤੁਲਨਾ ਕਰਨਾ ਜ਼ਿਆਦਾ ਨਿਆਂਯੁਕਤ ਹੋਵੇ। +ਜਦੋਂ ਅਸੀਂ ਬਹੁ-ਚੋਣ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਨਤੀਜਿਆਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰਦੇ ਹਾਂ, ਤਾਂ ਅਸੀਂ ਇਹ ਪਤਾ ਲਗਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹਾਂ ਕਿ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਕਿਹੜੇ ਸੰਕਲਪ ਸਮਝਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆ ਰਹੀ ਹੈ, ਅਤੇ ਇਸ ਜਾਣਕਾਰੀ ਨੂੰ ਸਮੱਗਰੀ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਵਰਤ ਸਕਦੇ ਹਾਂ। ਇਹ ਕਰਨ ਲਈ, ਸਾਨੂੰ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਡਿਜ਼ਾਈਨ ਕਰਨਾ ਪਵੇਗਾ ਕਿ ਹਰ ਪ੍ਰਸ਼ਨ ਕਿਸੇ ਖਾਸ ਸੰਕਲਪ ਜਾਂ ਗਿਆਨ ਦੇ ਹਿੱਸੇ ਨਾਲ ਜੁੜਿਆ ਹੋਵੇ। -ਜੇ ਅਸੀਂ ਹੋਰ ਜਟਿਲ ਹੋਣਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਤਾਂ ਅਸੀਂ ਹਰ ਮੋਡੀਊਲ ਲਈ ਲੱਗਣ ਵਾਲੇ ਸਮੇਂ ਨੂੰ ਵਿਦਿਆਰਥੀਆਂ ਦੀ ਉਮਰ ਸ਼੍ਰੇਣੀ ਦੇ ਮੁਕਾਬਲੇ ਵਿੱਚ ਪਲਾਟ ਕਰ ਸਕਦੇ ਹਾਂ। ਸਾਨੂੰ ਪਤਾ ਲਗ ਸਕਦਾ ਹੈ ਕਿ ਕੁਝ ਉਮਰ ਸ਼੍ਰੇਣੀਆਂ ਲਈ ਮੋਡੀਊਲ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਬੇਹਤਾਸ਼ਾ ਸਮਾਂ ਲੱਗਦਾ ਹੈ, ਜਾਂ ਵਿਦਿਆਰਥੀ ਇਸਨੂੰ ਪੂਰਾ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਛੱਡ ਦਿੰਦੇ ਹਨ। ਇਹ ਸਾਨੂੰ ਮੋਡੀਊਲ ਲਈ ਉਮਰ ਦੀ ਸਿਫਾਰਸ਼ਾਂ ਦੇਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਗਲਤ ਉਮੀਦਾਂ ਤੋਂ ਲੋਕਾਂ ਦੀ ਨਿਰਾਸ਼ਾ ਨੂੰ ਘਟਾ ਸਕਦਾ ਹੈ। +ਜੇ ਅਸੀਂ ਹੋਰ ਜਟਿਲ ਹੋਣਾ ਚਾਹੁੰਦੇ ਹਾਂ, ਤਾਂ ਅਸੀਂ ਹਰ ਮੋਡੀਊਲ ਲਈ ਲੱਗਣ ਵਾਲੇ ਸਮੇਂ ਨੂੰ ਵਿਦਿਆਰਥੀਆਂ ਦੀ ਉਮਰ ਸ਼੍ਰੇਣੀ ਦੇ ਮੁਕਾਬਲੇ ਪਲਾਟ ਕਰ ਸਕਦੇ ਹਾਂ। ਸਾਨੂੰ ਪਤਾ ਲੱਗ ਸਕਦਾ ਹੈ ਕਿ ਕੁਝ ਉਮਰ ਸ਼੍ਰੇਣੀਆਂ ਲਈ ਮੋਡੀਊਲ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਬੇਹਦ ਜ਼ਿਆਦਾ ਸਮਾਂ ਲੱਗਦਾ ਹੈ, ਜਾਂ ਵਿਦਿਆਰਥੀ ਇਸਨੂੰ ਪੂਰਾ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਛੱਡ ਦਿੰਦੇ ਹਨ। ਇਹ ਸਾਨੂੰ ਮੋਡੀਊਲ ਲਈ ਉਮਰ ਦੀ ਸਿਫਾਰਸ਼ਾਂ ਦੇਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਗਲਤ ਉਮੀਦਾਂ ਕਾਰਨ ਹੋਣ ਵਾਲੀ ਨਿਰਾਸ਼ਾ ਨੂੰ ਘਟਾ ਸਕਦਾ ਹੈ। ## 🚀 ਚੁਣੌਤੀ -ਇਸ ਚੁਣੌਤੀ ਵਿੱਚ, ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਖੇਤਰ ਨਾਲ ਸਬੰਧਤ ਧਾਰਨਾਵਾਂ ਨੂੰ ਪਛਾਣਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ, ਟੈਕਸਟ ਨੂੰ ਦੇਖ ਕੇ। ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ 'ਤੇ ਇੱਕ ਵਿਕੀਪੀਡੀਆ ਲੇਖ ਲਵਾਂਗੇ, ਟੈਕਸਟ ਨੂੰ ਡਾਊਨਲੋਡ ਅਤੇ ਪ੍ਰੋਸੈਸ ਕਰਾਂਗੇ, ਅਤੇ ਫਿਰ ਇੱਕ ਵਰਡ ਕਲਾਉਡ ਬਣਾਵਾਂਗੇ, ਜਿਵੇਂ ਕਿ ਇਹ ਹੈ: +ਇਸ ਚੁਣੌਤੀ ਵਿੱਚ, ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ ਦੇ ਖੇਤਰ ਨਾਲ ਸਬੰਧਤ ਸੰਕਲਪਾਂ ਨੂੰ ਪਛਾਣਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ, ਟੈਕਸਟ ਨੂੰ ਦੇਖ ਕੇ। ਅਸੀਂ ਡਾਟਾ ਸਾਇੰਸ 'ਤੇ ਇੱਕ ਵਿਕੀਪੀਡੀਆ ਲੇਖ ਲਵਾਂਗੇ, ਟੈਕਸਟ ਡਾਊਨਲੋਡ ਅਤੇ ਪ੍ਰੋਸੈਸ ਕਰਾਂਗੇ, ਅਤੇ ਫਿਰ ਇੱਕ ਵਰਡ ਕਲਾਉਡ ਬਣਾਵਾਂਗੇ, ਜਿਵੇਂ ਕਿ ਇਹ ਹੈ: -![ਡਾਟਾ ਸਾਇੰਸ ਲਈ ਵਰਡ ਕਲਾਉਡ](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![ਡਾਟਾ ਸਾਇੰਸ ਲਈ ਵਰਡ ਕਲਾਉਡ](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.pa.png) -[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 'ਤੇ ਜਾਓ ਅਤੇ ਕੋਡ ਨੂੰ ਪੜ੍ਹੋ। ਤੁਸੀਂ ਕੋਡ ਚਲਾ ਸਕਦੇ ਹੋ ਅਤੇ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਸਾਰੇ ਡਾਟਾ ਟ੍ਰਾਂਸਫਾਰਮੇਸ਼ਨ ਨੂੰ ਰੀਅਲ ਟਾਈਮ ਵਿੱਚ ਕਿਵੇਂ ਕਰਦਾ ਹੈ। +ਕੋਡ ਨੂੰ ਪੜ੍ਹਨ ਲਈ [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 'ਤੇ ਜਾਓ। ਤੁਸੀਂ ਕੋਡ ਚਲਾ ਵੀ ਸਕਦੇ ਹੋ ਅਤੇ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿ ਇਹ ਸਾਰੇ ਡਾਟਾ ਟ੍ਰਾਂਸਫਾਰਮੇਸ਼ਨ ਰੀਅਲ ਟਾਈਮ ਵਿੱਚ ਕਿਵੇਂ ਕਰਦਾ ਹੈ। -> ਜੇ ਤੁਹਾਨੂੰ ਪਤਾ ਨਹੀਂ ਕਿ Jupyter Notebook ਵਿੱਚ ਕੋਡ ਕਿਵੇਂ ਚਲਾਉਣਾ ਹੈ, ਤਾਂ [ਇਹ ਲੇਖ](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ਦੇਖੋ। +> ਜੇ ਤੁਹਾਨੂੰ ਪਤਾ ਨਹੀਂ ਕਿ ਜੂਪਿਟਰ ਨੋਟਬੁੱਕ ਵਿੱਚ ਕੋਡ ਕਿਵੇਂ ਚਲਾਉਣਾ ਹੈ, ਤਾਂ [ਇਸ ਲੇਖ](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) ਨੂੰ ਦੇਖੋ। ## [ਪੋਸਟ-ਲੈਕਚਰ ਕਵਿਜ਼](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## ਅਸਾਈਨਮੈਂਟਸ -* **ਟਾਸਕ 1**: ਉਪਰੋਕਤ ਕੋਡ ਨੂੰ ਸੋਧੋ ਤਾਂ ਜੋ **Big Data** ਅਤੇ **Machine Learning** ਦੇ ਖੇਤਰਾਂ ਲਈ ਸਬੰਧਤ ਧਾਰਨਾਵਾਂ ਪਤਾ ਲਗਾਈਆਂ ਜਾ ਸਕਣ। -* **ਟਾਸਕ 2**: [ਡਾਟਾ ਸਾਇੰਸ ਸਨਰੀਓਜ਼ ਬਾਰੇ ਸੋਚੋ](assignment.md) +* **ਟਾਸਕ 1**: ਉਪਰੋਕਤ ਕੋਡ ਨੂੰ ਸੋਧੋ ਤਾਂ ਜੋ **ਬਿਗ ਡਾਟਾ** ਅਤੇ **ਮਸ਼ੀਨ ਲਰਨਿੰਗ** ਦੇ ਖੇਤਰਾਂ ਲਈ ਸੰਬੰਧਤ ਸੰਕਲਪਾਂ ਦਾ ਪਤਾ ਲਗਾਇਆ ਜਾ ਸਕੇ। +* **ਟਾਸਕ 2**: [ਡਾਟਾ ਸਾਇੰਸ ਸਨਾਰਿਓਜ਼ ਬਾਰੇ ਸੋਚੋ](assignment.md) ## ਸ਼੍ਰੇਯ -ਇਹ ਪਾਠ [ਦਿਮਿਤਰੀ ਸੋਸ਼ਨਿਕੋਵ](http://soshnikov.com) ਦੁਆਰਾ ♥️ ਨਾਲ ਲਿਖਿਆ ਗਿਆ ਹੈ। +ਇਹ ਪਾਠ [ਦਿਮਿਤਰੀ ਸੋਸ਼ਨਿਕੋਵ](http://soshnikov.com) ਵੱਲੋਂ ♥️ ਨਾਲ ਲਿਖਿਆ ਗਿਆ ਹੈ। --- -**ਅਸਵੀਕਾਰਨਾ**: -ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਹਾਲਾਂਕਿ ਅਸੀਂ ਸਹੀਅਤ ਲਈ ਯਤਨਸ਼ੀਲ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁੱਤੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਤ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਅਸੀਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ। \ No newline at end of file +**ਅਸਵੀਕਰਤੀ**: +ਇਹ ਦਸਤਾਵੇਜ਼ AI ਅਨੁਵਾਦ ਸੇਵਾ [Co-op Translator](https://github.com/Azure/co-op-translator) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀ ਹੋਣ ਦੀ ਪੂਰੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਦਿਓ ਕਿ ਆਟੋਮੈਟਿਕ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚੱਜੇਪਣ ਹੋ ਸਕਦੇ ਹਨ। ਮੂਲ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਇਸਦੀ ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਅਧਿਕਾਰਕ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਅਸੀਂ ਇਸ ਅਨੁਵਾਦ ਦੀ ਵਰਤੋਂ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਗਲਤ ਵਿਆਖਿਆ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ। \ No newline at end of file diff --git a/translations/pl/1-Introduction/01-defining-data-science/README.md b/translations/pl/1-Introduction/01-defining-data-science/README.md index 84359cd5..e927d238 100644 --- a/translations/pl/1-Introduction/01-defining-data-science/README.md +++ b/translations/pl/1-Introduction/01-defining-data-science/README.md @@ -1,65 +1,109 @@ +## Definiowanie Data Science + +| ![ Sketchnote autorstwa [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | +| :----------------------------------------------------------------------------------------------------------: | +| Definiowanie Data Science - _Sketchnote autorstwa [@nitya](https://twitter.com/nitya)_ | + +--- + +[![Definiowanie Data Science - Wideo](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.pl.png)](https://youtu.be/beZ7Mb_oz9I) + +## [Quiz przed wykładem](https://ff-quizzes.netlify.app/en/ds/quiz/0) + +## Czym są dane? +W naszym codziennym życiu jesteśmy nieustannie otoczeni danymi. Tekst, który teraz czytasz, to dane. Lista numerów telefonów Twoich znajomych w smartfonie to dane, podobnie jak aktualny czas wyświetlany na zegarku. Jako ludzie naturalnie operujemy danymi, licząc pieniądze, które posiadamy, czy pisząc listy do znajomych. + +Jednak dane stały się znacznie ważniejsze wraz z powstaniem komputerów. Główną rolą komputerów jest wykonywanie obliczeń, ale potrzebują one danych, aby działać. Dlatego musimy zrozumieć, jak komputery przechowują i przetwarzają dane. + +Z pojawieniem się Internetu rola komputerów jako urządzeń do obsługi danych wzrosła. Jeśli się nad tym zastanowisz, obecnie używamy komputerów coraz częściej do przetwarzania i komunikacji danych, a nie tylko do obliczeń. Pisząc e-mail do znajomego czy szukając informacji w Internecie, w zasadzie tworzymy, przechowujemy, przesyłamy i manipulujemy danymi. +> Czy pamiętasz, kiedy ostatni raz używałeś komputera do faktycznego obliczania czegoś? + +## Czym jest Data Science? + +Na [Wikipedii](https://en.wikipedia.org/wiki/Data_science), **Data Science** jest definiowane jako *dziedzina nauki, która wykorzystuje metody naukowe do wydobywania wiedzy i wniosków z danych strukturalnych i niestrukturalnych oraz stosuje tę wiedzę i praktyczne wnioski w różnych dziedzinach zastosowań*. + +Ta definicja podkreśla następujące kluczowe aspekty data science: + +* Głównym celem data science jest **wydobywanie wiedzy** z danych, czyli **zrozumienie** danych, odkrywanie ukrytych zależności i budowanie **modeli**. +* Data science wykorzystuje **metody naukowe**, takie jak prawdopodobieństwo i statystyka. W rzeczywistości, gdy termin *data science* został po raz pierwszy wprowadzony, niektórzy twierdzili, że to tylko nowa, modna nazwa dla statystyki. Obecnie stało się jasne, że dziedzina ta jest znacznie szersza. +* Uzyskana wiedza powinna być stosowana do generowania **praktycznych wniosków**, czyli takich, które można zastosować w rzeczywistych sytuacjach biznesowych. +* Powinniśmy być w stanie operować zarówno na danych **strukturalnych**, jak i **niestrukturalnych**. Do różnych typów danych wrócimy później w kursie. +* **Dziedzina zastosowania** to ważny koncept, a data scientist często potrzebuje przynajmniej podstawowej wiedzy w danej dziedzinie, np. finansach, medycynie, marketingu itp. + +> Kolejnym istotnym aspektem Data Science jest badanie, jak dane mogą być zbierane, przechowywane i przetwarzane za pomocą komputerów. Podczas gdy statystyka dostarcza nam podstaw matematycznych, data science stosuje te koncepcje matematyczne, aby faktycznie wyciągać wnioski z danych. + +Jednym ze sposobów (przypisywanym [Jimowi Grayowi](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) patrzenia na data science jest traktowanie jej jako odrębnego paradygmatu nauki: +* **Empirycznego**, w którym opieramy się głównie na obserwacjach i wynikach eksperymentów +* **Teoretycznego**, gdzie nowe koncepcje wyłaniają się z istniejącej wiedzy naukowej +* **Obliczeniowego**, gdzie odkrywamy nowe zasady na podstawie eksperymentów obliczeniowych +* **Opartego na danych**, bazującego na odkrywaniu relacji i wzorców w danych + +## Powiązane dziedziny + +Ponieważ dane są wszechobecne, data science również jest szeroką dziedziną, która dotyka wielu innych dyscyplin. + ## Rodzaje danych -Jak już wspomniano, dane są wszędzie. Wystarczy je odpowiednio uchwycić! Warto rozróżnić dane **ustrukturyzowane** i **nieustrukturyzowane**. Dane ustrukturyzowane są zazwyczaj przedstawiane w dobrze zorganizowanej formie, często jako tabela lub zestaw tabel, podczas gdy dane nieustrukturyzowane to po prostu zbiór plików. Czasami możemy również mówić o danych **półustrukturyzowanych**, które mają pewien rodzaj struktury, ale może ona znacznie się różnić. +Jak już wspomnieliśmy, dane są wszędzie. Wystarczy je odpowiednio uchwycić! Warto rozróżnić dane **strukturalne** i **niestrukturalne**. Dane strukturalne są zazwyczaj przedstawiane w dobrze zorganizowanej formie, często jako tabela lub zestaw tabel, podczas gdy dane niestrukturalne to po prostu zbiór plików. Czasami możemy również mówić o danych **półstrukturalnych**, które mają pewną strukturę, ale może się ona znacznie różnić. -| Ustrukturyzowane | Półustrukturyzowane | Nieustrukturyzowane | -| ----------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- | -| Lista osób z ich numerami telefonów | Strony Wikipedii z linkami | Tekst Encyklopedii Britannica | -| Temperatura we wszystkich pomieszczeniach budynku co minutę przez ostatnie 20 lat | Zbiór artykułów naukowych w formacie JSON z autorami, datą publikacji i streszczeniem | Udostępnione pliki z dokumentami firmowymi | -| Dane o wieku i płci wszystkich osób wchodzących do budynku | Strony internetowe | Surowy materiał wideo z kamery monitoringu | +| Strukturalne | Półstrukturalne | Niestrukturalne | +| -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------ | -------------------------------------- | +| Lista osób z ich numerami telefonów | Strony Wikipedii z linkami | Tekst Encyklopedii Britannica | +| Temperatura w każdym pomieszczeniu budynku co minutę przez ostatnie 20 lat | Zbiór artykułów naukowych w formacie JSON z autorami, datą publikacji i abstraktem | Udostępnione pliki z dokumentami firmy | +| Dane o wieku i płci wszystkich osób wchodzących do budynku | Strony internetowe | Surowy zapis wideo z kamery monitoringu| -## Skąd pozyskiwać dane +## Skąd brać dane -Istnieje wiele możliwych źródeł danych, i niemożliwe jest wymienienie wszystkich! Jednak warto wspomnieć o kilku typowych miejscach, z których można pozyskać dane: +Istnieje wiele możliwych źródeł danych i niemożliwe jest wymienienie ich wszystkich! Warto jednak wspomnieć o kilku typowych miejscach, z których można pozyskać dane: -* **Ustrukturyzowane** - - **Internet rzeczy** (IoT), w tym dane z różnych czujników, takich jak czujniki temperatury czy ciśnienia, dostarcza wiele użytecznych informacji. Na przykład, jeśli budynek biurowy jest wyposażony w czujniki IoT, możemy automatycznie kontrolować ogrzewanie i oświetlenie, aby zminimalizować koszty. +* **Strukturalne** + - **Internet rzeczy** (IoT), w tym dane z różnych czujników, takich jak czujniki temperatury czy ciśnienia, dostarcza wiele użytecznych danych. Na przykład, jeśli budynek biurowy jest wyposażony w czujniki IoT, możemy automatycznie kontrolować ogrzewanie i oświetlenie, aby zminimalizować koszty. - **Ankiety**, które prosimy użytkowników o wypełnienie po zakupie lub po odwiedzeniu strony internetowej. - - **Analiza zachowań** może pomóc nam zrozumieć, jak głęboko użytkownik zagłębia się w stronę internetową i jakie są typowe powody opuszczenia strony. -* **Nieustrukturyzowane** - - **Teksty** mogą być bogatym źródłem informacji, takich jak ogólny **wskaźnik nastroju** lub wyodrębnienie słów kluczowych i znaczenia semantycznego. - - **Obrazy** lub **wideo**. Na przykład wideo z kamery monitoringu może być użyte do oszacowania ruchu na drodze i informowania ludzi o potencjalnych korkach. - - **Logi** serwera internetowego mogą być użyte do zrozumienia, które strony naszej witryny są najczęściej odwiedzane i jak długo. -* **Półustrukturyzowane** + - **Analiza zachowań** może pomóc nam zrozumieć, jak głęboko użytkownik zagłębia się w stronę i co jest typowym powodem opuszczenia strony. +* **Niestrukturalne** + - **Teksty** mogą być bogatym źródłem wniosków, takich jak ogólny **wskaźnik nastroju** lub wyodrębnianie słów kluczowych i znaczenia semantycznego. + - **Obrazy** lub **wideo**. Nagranie z kamery monitoringu może być użyte do oszacowania ruchu na drodze i informowania ludzi o potencjalnych korkach. + - **Logi serwerów internetowych** mogą być używane do zrozumienia, które strony naszej witryny są najczęściej odwiedzane i jak długo. +* **Półstrukturalne** - **Grafy sieci społecznościowych** mogą być świetnym źródłem danych o osobowościach użytkowników i potencjalnej skuteczności w rozpowszechnianiu informacji. - - Kiedy mamy zbiór zdjęć z imprezy, możemy spróbować wyodrębnić dane o **dynamice grupy**, budując graf osób robiących sobie zdjęcia nawzajem. + - Gdy mamy zbiór zdjęć z imprezy, możemy spróbować wyodrębnić dane o **dynamice grupy**, budując graf osób robiących sobie wspólne zdjęcia. -Znając różne możliwe źródła danych, możesz spróbować pomyśleć o różnych scenariuszach, w których techniki nauki o danych mogą być zastosowane, aby lepiej zrozumieć sytuację i poprawić procesy biznesowe. +Znając różne możliwe źródła danych, możesz spróbować pomyśleć o różnych scenariuszach, w których techniki data science mogą być zastosowane, aby lepiej poznać sytuację i usprawnić procesy biznesowe. ## Co można zrobić z danymi -W nauce o danych skupiamy się na następujących etapach pracy z danymi: +W Data Science skupiamy się na następujących etapach pracy z danymi: -Oczywiście, w zależności od rodzaju danych, niektóre etapy mogą być pominięte (np. gdy dane są już w bazie danych lub gdy nie potrzebujemy trenowania modelu), a niektóre etapy mogą być powtarzane wielokrotnie (np. przetwarzanie danych). +Oczywiście, w zależności od konkretnych danych, niektóre etapy mogą być pominięte (np. gdy dane są już w bazie danych lub gdy nie potrzebujemy trenowania modelu), a niektóre etapy mogą być powtarzane wielokrotnie (np. przetwarzanie danych). ## Cyfryzacja i transformacja cyfrowa -W ostatniej dekadzie wiele firm zaczęło dostrzegać znaczenie danych w podejmowaniu decyzji biznesowych. Aby zastosować zasady nauki o danych w prowadzeniu biznesu, najpierw trzeba zebrać dane, czyli przekształcić procesy biznesowe w formę cyfrową. To nazywa się **cyfryzacją**. Zastosowanie technik nauki o danych do tych danych w celu podejmowania decyzji może prowadzić do znacznego wzrostu produktywności (lub nawet zmiany kierunku działalności), co nazywa się **transformacją cyfrową**. +W ostatniej dekadzie wiele firm zaczęło dostrzegać znaczenie danych przy podejmowaniu decyzji biznesowych. Aby zastosować zasady data science w prowadzeniu biznesu, najpierw trzeba zebrać dane, czyli przekształcić procesy biznesowe w formę cyfrową. To nazywa się **cyfryzacją**. Zastosowanie technik data science do tych danych w celu podejmowania decyzji może prowadzić do znacznego wzrostu produktywności (lub nawet zmiany kierunku działalności), co nazywamy **transformacją cyfrową**. -Rozważmy przykład. Załóżmy, że mamy kurs nauki o danych (taki jak ten), który prowadzimy online dla studentów, i chcemy go ulepszyć za pomocą nauki o danych. Jak możemy to zrobić? +Rozważmy przykład. Załóżmy, że mamy kurs data science (taki jak ten), który prowadzimy online dla studentów, i chcemy wykorzystać data science, aby go ulepszyć. Jak możemy to zrobić? -Możemy zacząć od pytania "Co można cyfryzować?" Najprostszym sposobem byłoby zmierzenie czasu, jaki każdy student potrzebuje na ukończenie każdego modułu, oraz zmierzenie zdobytej wiedzy poprzez test wielokrotnego wyboru na końcu każdego modułu. Średnia czasu ukończenia dla wszystkich studentów pozwoli nam zidentyfikować moduły, które sprawiają największe trudności, i pracować nad ich uproszczeniem. -Można argumentować, że takie podejście nie jest idealne, ponieważ moduły mogą mieć różne długości. Prawdopodobnie bardziej sprawiedliwe byłoby podzielenie czasu przez długość modułu (w liczbie znaków) i porównanie tych wartości zamiast tego. -Kiedy zaczynamy analizować wyniki testów wielokrotnego wyboru, możemy spróbować określić, które pojęcia sprawiają trudność uczniom, i wykorzystać te informacje do ulepszenia treści. Aby to zrobić, musimy zaprojektować testy w taki sposób, aby każde pytanie odnosiło się do konkretnego pojęcia lub fragmentu wiedzy. +Możemy zacząć od pytania „Co można zdigitalizować?”. Najprostszym sposobem byłoby zmierzenie czasu, jaki zajmuje każdemu studentowi ukończenie każdego modułu, oraz sprawdzenie zdobytej wiedzy poprzez test wielokrotnego wyboru na końcu każdego modułu. Średnia czasu ukończenia wśród wszystkich studentów pozwoliłaby nam zidentyfikować moduły sprawiające największe trudności i popracować nad ich uproszczeniem. +Możesz argumentować, że takie podejście nie jest idealne, ponieważ moduły mogą mieć różną długość. Prawdopodobnie bardziej sprawiedliwe byłoby podzielenie czasu przez długość modułu (w liczbie znaków) i porównanie tych wartości zamiast tego. +Kiedy zaczynamy analizować wyniki testów wielokrotnego wyboru, możemy spróbować określić, które pojęcia sprawiają uczniom trudności w zrozumieniu, i wykorzystać te informacje do ulepszenia treści. Aby to zrobić, musimy zaprojektować testy w taki sposób, aby każde pytanie odnosiło się do konkretnego pojęcia lub fragmentu wiedzy. -Jeśli chcemy podejść do tego jeszcze bardziej szczegółowo, możemy zestawić czas potrzebny na ukończenie każdego modułu z kategorią wiekową uczniów. Możemy odkryć, że dla niektórych grup wiekowych ukończenie modułu zajmuje nieproporcjonalnie dużo czasu lub że uczniowie rezygnują przed jego ukończeniem. To może pomóc nam w określeniu zaleceń wiekowych dla modułu i zminimalizowaniu niezadowolenia wynikającego z niewłaściwych oczekiwań. +Jeśli chcemy podejść do tego bardziej szczegółowo, możemy zestawić czas potrzebny na ukończenie każdego modułu z kategorią wiekową uczniów. Możemy odkryć, że dla niektórych grup wiekowych ukończenie modułu zajmuje nieproporcjonalnie dużo czasu lub że uczniowie rezygnują przed jego ukończeniem. To może pomóc nam w określeniu zaleceń wiekowych dla modułu i zminimalizowaniu niezadowolenia wynikającego z niewłaściwych oczekiwań. ## 🚀 Wyzwanie W tym wyzwaniu spróbujemy znaleźć pojęcia związane z dziedziną Data Science, analizując teksty. Weźmiemy artykuł z Wikipedii na temat Data Science, pobierzemy i przetworzymy tekst, a następnie stworzymy chmurę słów, taką jak ta: -![Chmura słów dla Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Chmura słów dla Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.pl.png) -Odwiedź [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), aby przejrzeć kod. Możesz również uruchomić kod i zobaczyć, jak w czasie rzeczywistym wykonuje wszystkie transformacje danych. +Odwiedź [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), aby przejrzeć kod. Możesz również uruchomić kod i zobaczyć, jak w czasie rzeczywistym wykonuje wszystkie transformacje danych. > Jeśli nie wiesz, jak uruchomić kod w Jupyter Notebook, zapoznaj się z [tym artykułem](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). @@ -77,4 +121,4 @@ Ta lekcja została stworzona z ♥️ przez [Dmitry Soshnikov](http://soshnikov. --- **Zastrzeżenie**: -Ten dokument został przetłumaczony za pomocą usługi tłumaczenia AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż dokładamy wszelkich starań, aby tłumaczenie było precyzyjne, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za wiarygodne źródło. W przypadku informacji o kluczowym znaczeniu zaleca się skorzystanie z profesjonalnego tłumaczenia przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z użycia tego tłumaczenia. \ No newline at end of file +Ten dokument został przetłumaczony za pomocą usługi tłumaczeniowej AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż dokładamy wszelkich starań, aby tłumaczenie było precyzyjne, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego języku źródłowym powinien być uznawany za autorytatywne źródło. W przypadku informacji o kluczowym znaczeniu zaleca się skorzystanie z profesjonalnego tłumaczenia przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z użycia tego tłumaczenia. \ No newline at end of file diff --git a/translations/pt/1-Introduction/01-defining-data-science/README.md b/translations/pt/1-Introduction/01-defining-data-science/README.md index a2b5ed9d..0bd66ff7 100644 --- a/translations/pt/1-Introduction/01-defining-data-science/README.md +++ b/translations/pt/1-Introduction/01-defining-data-science/README.md @@ -1,117 +1,73 @@ -# Definindo Ciência de Dados - -| ![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | -| :----------------------------------------------------------------------------------------------------: | -| Definindo Ciência de Dados - _Sketchnote por [@nitya](https://twitter.com/nitya)_ | - ---- - -[![Vídeo Definindo Ciência de Dados](../../../../1-Introduction/01-defining-data-science/images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) - -## [Questionário pré-aula](https://ff-quizzes.netlify.app/en/ds/quiz/0) - -## O que é Dados? -No nosso dia a dia, estamos constantemente rodeados por dados. O texto que está a ler agora é um dado. A lista de números de telefone dos seus amigos no seu smartphone é um dado, assim como a hora atual exibida no seu relógio. Como seres humanos, operamos naturalmente com dados ao contar o dinheiro que temos ou ao escrever cartas para os nossos amigos. - -No entanto, os dados tornaram-se muito mais importantes com a criação dos computadores. A principal função dos computadores é realizar cálculos, mas eles precisam de dados para operar. Assim, precisamos entender como os computadores armazenam e processam dados. - -Com o surgimento da Internet, o papel dos computadores como dispositivos de manipulação de dados aumentou. Se pensar bem, usamos cada vez mais os computadores para processar e comunicar dados, em vez de realizar cálculos propriamente ditos. Quando escrevemos um e-mail para um amigo ou pesquisamos informações na Internet, estamos essencialmente a criar, armazenar, transmitir e manipular dados. -> Consegue lembrar-se da última vez que usou um computador para realmente calcular algo? - -## O que é Ciência de Dados? - -Na [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **Ciência de Dados** é definida como *um campo científico que utiliza métodos científicos para extrair conhecimento e insights de dados estruturados e não estruturados, e aplicar conhecimento e insights acionáveis em várias áreas de aplicação*. - -Esta definição destaca os seguintes aspetos importantes da ciência de dados: - -* O principal objetivo da ciência de dados é **extrair conhecimento** dos dados, ou seja, **compreender** os dados, encontrar relações ocultas e construir um **modelo**. -* A ciência de dados utiliza **métodos científicos**, como probabilidade e estatística. Na verdade, quando o termo *ciência de dados* foi introduzido pela primeira vez, algumas pessoas argumentaram que era apenas um novo nome elegante para estatística. Hoje em dia, está claro que o campo é muito mais amplo. -* O conhecimento obtido deve ser aplicado para produzir **insights acionáveis**, ou seja, insights práticos que podem ser aplicados a situações reais de negócios. -* Devemos ser capazes de operar tanto com dados **estruturados** quanto **não estruturados**. Voltaremos a discutir os diferentes tipos de dados mais adiante no curso. -* O **domínio de aplicação** é um conceito importante, e os cientistas de dados frequentemente precisam de algum grau de especialização no domínio do problema, como finanças, medicina, marketing, etc. - -> Outro aspeto importante da Ciência de Dados é que ela estuda como os dados podem ser recolhidos, armazenados e manipulados usando computadores. Enquanto a estatística nos fornece as bases matemáticas, a ciência de dados aplica conceitos matemáticos para realmente extrair insights dos dados. - -Uma das formas (atribuída a [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) de olhar para a ciência de dados é considerá-la como um paradigma separado da ciência: -* **Empírico**, no qual confiamos principalmente em observações e resultados de experiências -* **Teórico**, onde novos conceitos emergem do conhecimento científico existente -* **Computacional**, onde descobrimos novos princípios com base em experiências computacionais -* **Baseado em Dados**, focado em descobrir relações e padrões nos dados - -## Outros Campos Relacionados - -Como os dados estão em todo lado, a ciência de dados também é um campo amplo, tocando em muitas outras disciplinas. - ## Tipos de Dados -Como já mencionámos, os dados estão em todo lado. Só precisamos de capturá-los da forma certa! É útil distinguir entre dados **estruturados** e **não estruturados**. Os primeiros são tipicamente representados de forma bem organizada, muitas vezes como uma tabela ou várias tabelas, enquanto os últimos são apenas uma coleção de ficheiros. Às vezes, também podemos falar de dados **semi-estruturados**, que têm algum tipo de estrutura que pode variar bastante. +Como já mencionámos, os dados estão em todo o lado. Só precisamos de capturá-los da forma certa! É útil distinguir entre **dados estruturados** e **dados não estruturados**. Os primeiros são normalmente representados de forma bem organizada, muitas vezes como uma tabela ou várias tabelas, enquanto os últimos são apenas uma coleção de ficheiros. Por vezes, também podemos falar de **dados semi-estruturados**, que têm algum tipo de estrutura que pode variar bastante. | Estruturados | Semi-estruturados | Não estruturados | -| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- | +| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | | Lista de pessoas com os seus números de telefone | Páginas da Wikipédia com links | Texto da Enciclopédia Britânica | -| Temperatura em todas as salas de um edifício a cada minuto nos últimos 20 anos | Coleção de artigos científicos em formato JSON com autores, data de publicação e resumo | Partilha de ficheiros com documentos corporativos | +| Temperatura em todas as salas de um edifício a cada minuto nos últimos 20 anos | Coleção de artigos científicos em formato JSON com autores, data de publicação e resumo | Partilha de ficheiros com documentos corporativos | | Dados sobre idade e género de todas as pessoas que entram no edifício | Páginas da Internet | Vídeo bruto de uma câmara de vigilância | -## Onde Obter Dados +## Onde obter Dados -Existem muitas fontes possíveis de dados, e seria impossível listar todas! No entanto, vamos mencionar alguns dos locais típicos onde pode obter dados: +Existem muitas fontes possíveis de dados, e seria impossível listar todas! No entanto, vamos mencionar alguns dos locais típicos onde se pode obter dados: * **Estruturados** - **Internet das Coisas** (IoT), incluindo dados de diferentes sensores, como sensores de temperatura ou pressão, fornece muitos dados úteis. Por exemplo, se um edifício de escritórios estiver equipado com sensores IoT, podemos controlar automaticamente o aquecimento e a iluminação para minimizar custos. - **Inquéritos** que pedimos aos utilizadores para preencherem após uma compra ou após visitarem um site. - - **Análise de comportamento** pode, por exemplo, ajudar-nos a entender até que ponto um utilizador explora um site e qual é o motivo típico para sair do site. + - **Análise de comportamento** pode, por exemplo, ajudar-nos a entender até que ponto um utilizador explora um site e qual é o motivo típico para abandonar o site. * **Não estruturados** - - **Textos** podem ser uma rica fonte de insights, como um **índice de sentimento** geral ou a extração de palavras-chave e significado semântico. - - **Imagens** ou **Vídeos**. Um vídeo de uma câmara de vigilância pode ser usado para estimar o tráfego na estrada e informar as pessoas sobre potenciais engarrafamentos. - - **Registos de servidores web** podem ser usados para entender quais páginas do nosso site são mais visitadas e por quanto tempo. + - **Textos** podem ser uma fonte rica de informações, como uma **pontuação de sentimento** geral ou a extração de palavras-chave e significado semântico. + - **Imagens** ou **Vídeos**. Um vídeo de uma câmara de vigilância pode ser usado para estimar o tráfego na estrada e informar as pessoas sobre possíveis engarrafamentos. + - **Registos** de servidores web podem ser usados para entender quais páginas do nosso site são mais visitadas e por quanto tempo. * **Semi-estruturados** - - **Gráficos de Redes Sociais** podem ser ótimas fontes de dados sobre personalidades de utilizadores e a potencial eficácia na disseminação de informações. - - Quando temos um conjunto de fotografias de uma festa, podemos tentar extrair dados de **Dinâmica de Grupo** construindo um gráfico de pessoas que tiraram fotos juntas. + - **Grafos de Redes Sociais** podem ser ótimas fontes de dados sobre personalidades dos utilizadores e eficácia potencial na disseminação de informações. + - Quando temos um conjunto de fotografias de uma festa, podemos tentar extrair dados sobre **Dinâmica de Grupo** construindo um grafo de pessoas que tiraram fotos juntas. -Ao conhecer diferentes fontes possíveis de dados, pode tentar pensar em diferentes cenários onde as técnicas de ciência de dados podem ser aplicadas para compreender melhor a situação e melhorar os processos de negócios. +Ao conhecer diferentes fontes possíveis de dados, pode tentar pensar em diferentes cenários onde as técnicas de ciência de dados podem ser aplicadas para compreender melhor a situação e melhorar os processos empresariais. -## O que Pode Fazer com Dados +## O que pode fazer com os Dados Na Ciência de Dados, focamo-nos nos seguintes passos da jornada dos dados: -Claro, dependendo dos dados reais, alguns passos podem estar ausentes (por exemplo, quando já temos os dados na base de dados ou quando não precisamos de treinar um modelo), ou alguns passos podem ser repetidos várias vezes (como o processamento de dados). +Claro que, dependendo dos dados reais, alguns passos podem estar ausentes (por exemplo, quando já temos os dados na base de dados ou quando não precisamos de treinar um modelo), ou alguns passos podem ser repetidos várias vezes (como o processamento de dados). ## Digitalização e Transformação Digital -Na última década, muitas empresas começaram a entender a importância dos dados na tomada de decisões de negócios. Para aplicar os princípios da ciência de dados na gestão de um negócio, é necessário primeiro recolher alguns dados, ou seja, traduzir os processos de negócios para uma forma digital. Isto é conhecido como **digitalização**. Aplicar técnicas de ciência de dados a esses dados para orientar decisões pode levar a aumentos significativos na produtividade (ou até mesmo a uma mudança de direção no negócio), chamado de **transformação digital**. +Na última década, muitas empresas começaram a perceber a importância dos dados na tomada de decisões empresariais. Para aplicar os princípios da ciência de dados à gestão de um negócio, é necessário primeiro recolher alguns dados, ou seja, traduzir os processos empresariais para forma digital. Isto é conhecido como **digitalização**. Aplicar técnicas de ciência de dados a esses dados para orientar decisões pode levar a aumentos significativos de produtividade (ou até mesmo a uma mudança de rumo no negócio), chamado de **transformação digital**. -Vamos considerar um exemplo. Suponha que temos um curso de ciência de dados (como este) que oferecemos online aos alunos, e queremos usar ciência de dados para melhorá-lo. Como podemos fazer isso? +Vamos considerar um exemplo. Suponha que temos um curso de ciência de dados (como este) que oferecemos online aos alunos e queremos usar ciência de dados para melhorá-lo. Como podemos fazê-lo? -Podemos começar por perguntar "O que pode ser digitalizado?" A forma mais simples seria medir o tempo que cada aluno leva para completar cada módulo e avaliar o conhecimento adquirido dando um teste de múltipla escolha no final de cada módulo. Ao calcular a média do tempo de conclusão entre todos os alunos, podemos descobrir quais módulos causam mais dificuldades e trabalhar para os simplificar. -> Pode argumentar que esta abordagem não é ideal, porque os módulos podem ter comprimentos diferentes. Provavelmente seria mais justo dividir o tempo pelo comprimento do módulo (em número de caracteres) e comparar esses valores em vez disso. +Podemos começar por perguntar "O que pode ser digitalizado?" A forma mais simples seria medir o tempo que cada aluno demora a completar cada módulo e avaliar o conhecimento adquirido através de um teste de escolha múltipla no final de cada módulo. Ao calcular a média do tempo de conclusão entre todos os alunos, podemos descobrir quais módulos causam mais dificuldades e trabalhar na sua simplificação. +> Pode-se argumentar que esta abordagem não é ideal, porque os módulos podem ter comprimentos diferentes. Provavelmente seria mais justo dividir o tempo pelo comprimento do módulo (em número de caracteres) e comparar esses valores em vez disso. Quando começamos a analisar os resultados de testes de escolha múltipla, podemos tentar determinar quais conceitos os alunos têm dificuldade em compreender e usar essa informação para melhorar o conteúdo. Para isso, precisamos projetar os testes de forma que cada pergunta esteja associada a um determinado conceito ou bloco de conhecimento. -Se quisermos ir ainda mais longe, podemos traçar o tempo gasto em cada módulo em relação à categoria etária dos alunos. Podemos descobrir que, para algumas faixas etárias, leva um tempo excessivamente longo para concluir o módulo ou que os alunos desistem antes de terminá-lo. Isso pode nos ajudar a fornecer recomendações de idade para o módulo e minimizar a insatisfação das pessoas devido a expectativas erradas. +Se quisermos ir ainda mais longe, podemos traçar o tempo gasto em cada módulo em relação à categoria de idade dos alunos. Podemos descobrir que, para algumas faixas etárias, leva um tempo excessivamente longo para concluir o módulo ou que os alunos desistem antes de terminá-lo. Isso pode nos ajudar a fornecer recomendações de idade para o módulo e minimizar a insatisfação das pessoas devido a expectativas erradas. ## 🚀 Desafio -Neste desafio, tentaremos identificar conceitos relevantes para o campo da Ciência de Dados analisando textos. Vamos pegar um artigo da Wikipédia sobre Ciência de Dados, baixar e processar o texto e, em seguida, criar uma nuvem de palavras como esta: +Neste desafio, tentaremos encontrar conceitos relevantes para o campo da Ciência de Dados analisando textos. Vamos pegar um artigo da Wikipedia sobre Ciência de Dados, baixar e processar o texto, e então construir uma nuvem de palavras como esta: -![Nuvem de Palavras para Ciência de Dados](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Nuvem de Palavras para Ciência de Dados](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.pt.png) -Visite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') para ler o código. Você também pode executar o código e ver como ele realiza todas as transformações de dados em tempo real. +Visite [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') para ler o código. Você também pode executar o código e ver como ele realiza todas as transformações de dados em tempo real. -> Se não souber como executar código em um Jupyter Notebook, consulte [este artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). +> Se não sabe como executar código em um Jupyter Notebook, veja [este artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). ## [Questionário pós-aula](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## Tarefas -* **Tarefa 1**: Modifique o código acima para identificar conceitos relacionados aos campos de **Big Data** e **Machine Learning** +* **Tarefa 1**: Modifique o código acima para descobrir conceitos relacionados aos campos de **Big Data** e **Machine Learning** * **Tarefa 2**: [Pense em Cenários de Ciência de Dados](assignment.md) ## Créditos @@ -121,4 +77,4 @@ Esta lição foi criada com ♥️ por [Dmitry Soshnikov](http://soshnikov.com) --- **Aviso Legal**: -Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original no seu idioma nativo deve ser considerado a fonte oficial. Para informações críticas, recomenda-se uma tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas resultantes do uso desta tradução. \ No newline at end of file +Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, é importante ter em conta que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autoritária. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes da utilização desta tradução. \ No newline at end of file diff --git a/translations/ro/1-Introduction/01-defining-data-science/README.md b/translations/ro/1-Introduction/01-defining-data-science/README.md index c7245fc2..2fff8613 100644 --- a/translations/ro/1-Introduction/01-defining-data-science/README.md +++ b/translations/ro/1-Introduction/01-defining-data-science/README.md @@ -1,20 +1,20 @@ ## Tipuri de Date -Așa cum am menționat deja, datele sunt peste tot. Trebuie doar să le captăm în mod corespunzător! Este util să facem diferența între datele **structurate** și **nestructurate**. Primele sunt de obicei reprezentate într-o formă bine organizată, adesea sub forma unui tabel sau a mai multor tabele, în timp ce cele din urmă sunt doar o colecție de fișiere. Uneori putem vorbi și despre date **semi-structurate**, care au un anumit tip de structură ce poate varia semnificativ. +Așa cum am menționat deja, datele sunt peste tot. Trebuie doar să le capturăm în mod corespunzător! Este util să facem diferența între datele **structurate** și **nestructurate**. Primele sunt de obicei reprezentate într-o formă bine organizată, adesea sub formă de tabel sau mai multe tabele, în timp ce celelalte sunt doar o colecție de fișiere. Uneori putem vorbi și despre date **semi-structurate**, care au un anumit tip de structură ce poate varia semnificativ. | Structurate | Semi-structurate | Nestructurate | | --------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | -------------------------------------- | | Lista persoanelor cu numerele lor de telefon | Pagini Wikipedia cu linkuri | Textul Enciclopediei Britannica | -| Temperatura din toate camerele unei clădiri la fiecare minut din ultimii 20 de ani | Colecție de lucrări științifice în format JSON cu autori, data publicării și rezumat | Partajare de fișiere cu documente corporative | +| Temperatura din toate camerele unei clădiri la fiecare minut în ultimii 20 de ani | Colecție de lucrări științifice în format JSON cu autori, data publicării și rezumat | Fișiere corporative într-un folder | | Date despre vârsta și genul tuturor persoanelor care intră în clădire | Pagini de internet | Flux video brut de la o cameră de supraveghere | ## De unde să obții Date @@ -28,10 +28,10 @@ Există multe surse posibile de date, și ar fi imposibil să le enumerăm pe to * **Nestructurate** - **Texte** pot fi o sursă bogată de informații, cum ar fi un **scor de sentiment** general sau extragerea de cuvinte-cheie și semnificații semantice. - **Imagini** sau **Video**. Un videoclip de la o cameră de supraveghere poate fi utilizat pentru a estima traficul pe drum și pentru a informa oamenii despre posibilele ambuteiaje. - - **Jurnale** de server web pot fi utilizate pentru a înțelege care pagini ale site-ului nostru sunt cele mai vizitate și pentru cât timp. + - **Loguri** de server web pot fi utilizate pentru a înțelege care pagini ale site-ului nostru sunt cele mai vizitate și pentru cât timp. * **Semi-structurate** - **Grafuri de rețele sociale** pot fi surse excelente de date despre personalitatea utilizatorilor și eficiența lor potențială în răspândirea informațiilor. - - Când avem o mulțime de fotografii de la o petrecere, putem încerca să extragem date despre **dinamica grupului** construind un graf al persoanelor care fac poze împreună. + - Când avem o colecție de fotografii de la o petrecere, putem încerca să extragem date despre **dinamica grupului** construind un graf al persoanelor care fac poze împreună. Prin cunoașterea diferitelor surse posibile de date, poți încerca să te gândești la diverse scenarii în care tehnicile de știința datelor pot fi aplicate pentru a înțelege mai bine situația și pentru a îmbunătăți procesele de afaceri. @@ -39,7 +39,7 @@ Prin cunoașterea diferitelor surse posibile de date, poți încerca să te gân În știința datelor, ne concentrăm pe următorii pași ai parcursului datelor: -Desigur, în funcție de datele reale, unii pași pot lipsi (de exemplu, atunci când avem deja datele în baza de date sau când nu este necesar să antrenăm un model), sau unii pași pot fi repetați de mai multe ori (cum ar fi procesarea datelor). +Desigur, în funcție de datele reale, unii pași pot lipsi (de exemplu, când avem deja datele în baza de date sau când nu este necesar să antrenăm un model), sau unii pași pot fi repetați de mai multe ori (cum ar fi procesarea datelor). ## Digitalizare și Transformare Digitală @@ -47,27 +47,27 @@ Desigur, în funcție de datele reale, unii pași pot lipsi (de exemplu, atunci Să luăm un exemplu. Să presupunem că avem un curs de știința datelor (precum acesta) pe care îl livrăm online studenților și dorim să folosim știința datelor pentru a-l îmbunătăți. Cum putem face acest lucru? -Putem începe prin a ne întreba "Ce poate fi digitalizat?" Cea mai simplă metodă ar fi să măsurăm timpul necesar fiecărui student pentru a finaliza fiecare modul și să evaluăm cunoștințele obținute printr-un test cu variante multiple la sfârșitul fiecărui modul. Prin calcularea mediei timpului de finalizare pentru toți studenții, putem identifica modulele care cauzează cele mai mari dificultăți și să lucrăm la simplificarea lor. -> Ai putea argumenta că această abordare nu este ideală, deoarece modulele pot avea lungimi diferite. Probabil ar fi mai corect să împarți timpul la lungimea modulului (în număr de caractere) și să compari acele valori în schimb. -Când începem să analizăm rezultatele testelor cu răspunsuri multiple, putem încerca să determinăm care sunt conceptele pe care elevii le înțeleg cu dificultate și să folosim aceste informații pentru a îmbunătăți conținutul. Pentru a face acest lucru, trebuie să concepem testele astfel încât fiecare întrebare să fie asociată cu un anumit concept sau fragment de cunoștințe. +Putem începe prin a ne întreba „Ce poate fi digitalizat?” Cea mai simplă metodă ar fi să măsurăm timpul necesar fiecărui student pentru a finaliza fiecare modul și să evaluăm cunoștințele obținute printr-un test cu opțiuni multiple la sfârșitul fiecărui modul. Prin calcularea mediei timpului de finalizare pentru toți studenții, putem identifica modulele care cauzează cele mai mari dificultăți și să lucrăm la simplificarea lor. +> Ai putea susține că această abordare nu este ideală, deoarece modulele pot avea lungimi diferite. Probabil ar fi mai corect să împarți timpul la lungimea modulului (în număr de caractere) și să compari acele valori în schimb. +Când începem să analizăm rezultatele testelor cu răspunsuri multiple, putem încerca să determinăm care sunt conceptele pe care studenții le înțeleg cu dificultate și să folosim aceste informații pentru a îmbunătăți conținutul. Pentru a face acest lucru, trebuie să proiectăm testele astfel încât fiecare întrebare să corespundă unui anumit concept sau unei bucăți de cunoștințe. -Dacă dorim să complicăm și mai mult analiza, putem reprezenta grafic timpul necesar pentru fiecare modul în funcție de categoria de vârstă a elevilor. Am putea descoperi că, pentru unele categorii de vârstă, finalizarea modulului durează un timp nejustificat de lung sau că elevii renunță înainte de a-l finaliza. Acest lucru ne poate ajuta să oferim recomandări de vârstă pentru modul și să reducem nemulțumirea oamenilor cauzată de așteptări greșite. +Dacă dorim să mergem și mai departe, putem corela timpul necesar pentru fiecare modul cu categoria de vârstă a studenților. Este posibil să descoperim că, pentru anumite categorii de vârstă, finalizarea modulului durează un timp nejustificat de lung sau că studenții renunță înainte de a-l finaliza. Acest lucru ne poate ajuta să oferim recomandări de vârstă pentru modul și să minimizăm nemulțumirea oamenilor cauzată de așteptări greșite. ## 🚀 Provocare În această provocare, vom încerca să identificăm concepte relevante pentru domeniul Științei Datelor analizând texte. Vom lua un articol de pe Wikipedia despre Știința Datelor, vom descărca și procesa textul, iar apoi vom construi un nor de cuvinte asemănător cu acesta: -![Nor de cuvinte pentru Știința Datelor](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ro.png) -Vizitați [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') pentru a parcurge codul. Puteți, de asemenea, să rulați codul și să vedeți cum efectuează toate transformările de date în timp real. +Accesați [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') pentru a parcurge codul. De asemenea, puteți rula codul și observa cum efectuează toate transformările de date în timp real. > Dacă nu știți cum să rulați codul într-un Jupyter Notebook, consultați [acest articol](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). -## [Quiz post-lectură](https://ff-quizzes.netlify.app/en/ds/quiz/1) +## [Chestionar post-lectură](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## Sarcini -* **Sarcina 1**: Modificați codul de mai sus pentru a identifica concepte relevante pentru domeniile **Big Data** și **Machine Learning**. +* **Sarcina 1**: Modificați codul de mai sus pentru a identifica concepte legate de domeniile **Big Data** și **Machine Learning** * **Sarcina 2**: [Gândiți-vă la scenarii din Știința Datelor](assignment.md) ## Credite @@ -76,5 +76,5 @@ Această lecție a fost creată cu ♥️ de [Dmitry Soshnikov](http://soshnikov --- -**Declinare de responsabilitate**: -Acest document a fost tradus folosind serviciul de traducere AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși ne străduim să asigurăm acuratețea, vă rugăm să fiți conștienți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa natală ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm responsabilitatea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri. \ No newline at end of file +**Declinarea responsabilității**: +Acest document a fost tradus folosind serviciul de traducere AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși depunem eforturi pentru a asigura acuratețea, vă rugăm să rețineți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa nativă ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm răspunderea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri. \ No newline at end of file diff --git a/translations/ru/1-Introduction/01-defining-data-science/README.md b/translations/ru/1-Introduction/01-defining-data-science/README.md index e642964c..fdd320f3 100644 --- a/translations/ru/1-Introduction/01-defining-data-science/README.md +++ b/translations/ru/1-Introduction/01-defining-data-science/README.md @@ -1,8 +1,8 @@ ## Typy dát -Ako sme už spomenuli, dáta sú všade. Stačí ich zachytiť správnym spôsobom! Je užitočné rozlišovať medzi **štruktúrovanými** a **neštruktúrovanými** dátami. Štruktúrované dáta sú zvyčajne reprezentované v dobre organizovanej forme, často ako tabuľka alebo množstvo tabuliek, zatiaľ čo neštruktúrované dáta sú len zbierkou súborov. Niekedy môžeme hovoriť aj o **pološtruktúrovaných** dátach, ktoré majú určitú štruktúru, ktorá sa však môže značne líšiť. +Ako sme už spomenuli, dáta sú všade okolo nás. Stačí ich len správne zachytiť! Je užitočné rozlišovať medzi **štruktúrovanými** a **neštruktúrovanými** dátami. Štruktúrované dáta sú zvyčajne reprezentované v dobre organizovanej forme, často ako tabuľka alebo množstvo tabuliek, zatiaľ čo neštruktúrované dáta sú len zbierkou súborov. Niekedy môžeme hovoriť aj o **pološtruktúrovaných** dátach, ktoré majú určitú štruktúru, ktorá sa však môže značne líšiť. | Štruktúrované | Pološtruktúrované | Neštruktúrované | | -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- | -------------------------------------- | | Zoznam ľudí s ich telefónnymi číslami | Stránky Wikipédie s odkazmi | Text Encyklopédie Britannica | | Teplota vo všetkých miestnostiach budovy každú minútu za posledných 20 rokov | Zbierka vedeckých článkov vo formáte JSON s autormi, dátumom publikácie a abstraktom | Zdieľané súbory s firemnými dokumentmi | -| Dáta o veku a pohlaví všetkých ľudí vstupujúcich do budovy | Internetové stránky | Surový videozáznam z bezpečnostnej kamery | +| Dáta o veku a pohlaví všetkých ľudí vstupujúcich do budovy | Internetové stránky | Surový videozáznam z kamery | ## Kde získať dáta -Existuje mnoho možných zdrojov dát, a bolo by nemožné ich všetky vymenovať! Avšak, spomeňme niektoré typické miesta, kde môžete získať dáta: +Existuje mnoho možných zdrojov dát, a je nemožné ich všetky vymenovať! Avšak, spomeňme niektoré typické miesta, kde môžete dáta získať: * **Štruktúrované** - **Internet vecí** (IoT), vrátane dát z rôznych senzorov, ako sú senzory teploty alebo tlaku, poskytuje množstvo užitočných dát. Napríklad, ak je kancelárska budova vybavená IoT senzormi, môžeme automaticky riadiť kúrenie a osvetlenie, aby sme minimalizovali náklady. @@ -27,7 +27,7 @@ Existuje mnoho možných zdrojov dát, a bolo by nemožné ich všetky vymenova - **Analýza správania** nám môže napríklad pomôcť pochopiť, ako hlboko sa používateľ dostane na stránku a aký je typický dôvod jej opustenia. * **Neštruktúrované** - **Texty** môžu byť bohatým zdrojom poznatkov, ako napríklad celkový **sentiment skóre** alebo extrakcia kľúčových slov a sémantického významu. - - **Obrázky** alebo **video**. Video z bezpečnostnej kamery môže byť použité na odhad premávky na ceste a informovanie ľudí o možných dopravných zápchach. + - **Obrázky** alebo **video**. Video z kamery môže byť použité na odhad dopravnej situácie na ceste a informovanie ľudí o možných dopravných zápchach. - **Logy** webového servera môžu byť použité na pochopenie, ktoré stránky našej webovej stránky sú najčastejšie navštevované a ako dlho. * Pološtruktúrované - **Grafy sociálnych sietí** môžu byť skvelým zdrojom dát o osobnostiach používateľov a potenciálnej efektivite šírenia informácií. @@ -43,23 +43,23 @@ Samozrejme, v závislosti od konkrétnych dát môžu niektoré kroky chýbať ( ## Digitalizácia a digitálna transformácia -V poslednom desaťročí si mnoho firiem začalo uvedomovať dôležitosť dát pri rozhodovaní o podnikaní. Aby bolo možné aplikovať princípy dátovej vedy na riadenie podnikania, je najprv potrebné zhromaždiť nejaké dáta, teda preložiť obchodné procesy do digitálnej formy. Toto sa nazýva **digitalizácia**. Aplikácia techník dátovej vedy na tieto dáta na podporu rozhodovania môže viesť k významnému zvýšeniu produktivity (alebo dokonca k zmene podnikania), čo sa nazýva **digitálna transformácia**. +V poslednom desaťročí si mnoho firiem začalo uvedomovať dôležitosť dát pri rozhodovaní o podnikaní. Aby bolo možné aplikovať princípy dátovej vedy na riadenie firmy, je najprv potrebné zhromaždiť nejaké dáta, teda preložiť obchodné procesy do digitálnej podoby. Toto sa nazýva **digitalizácia**. Aplikácia techník dátovej vedy na tieto dáta na podporu rozhodovania môže viesť k významnému zvýšeniu produktivity (alebo dokonca k zmene podnikania), čo sa nazýva **digitálna transformácia**. -Pozrime sa na príklad. Predpokladajme, že máme kurz dátovej vedy (ako tento), ktorý poskytujeme online študentom, a chceme ho zlepšiť pomocou dátovej vedy. Ako to môžeme urobiť? +Pozrime sa na príklad. Predpokladajme, že máme kurz dátovej vedy (ako tento), ktorý poskytujeme online študentom, a chceme ho pomocou dátovej vedy zlepšiť. Ako to môžeme urobiť? -Môžeme začať otázkou „Čo sa dá digitalizovať?“ Najjednoduchším spôsobom by bolo merať čas, ktorý každý študent potrebuje na dokončenie každého modulu, a merať získané vedomosti pomocou testu s výberom odpovedí na konci každého modulu. Priemerovaním času na dokončenie medzi všetkými študentmi môžeme zistiť, ktoré moduly spôsobujú študentom najväčšie ťažkosti, a pracovať na ich zjednodušení. +Môžeme začať otázkou „Čo sa dá digitalizovať?“ Najjednoduchší spôsob by bol merať čas, ktorý každý študent potrebuje na dokončenie každého modulu, a merať získané vedomosti pomocou testu s výberom odpovedí na konci každého modulu. Priemerovaním času na dokončenie medzi všetkými študentmi môžeme zistiť, ktoré moduly spôsobujú študentom najväčšie ťažkosti, a pracovať na ich zjednodušení. Môžete namietať, že tento prístup nie je ideálny, pretože moduly môžu mať rôznu dĺžku. Pravdepodobne by bolo spravodlivejšie rozdeliť čas podľa dĺžky modulu (v počte znakov) a porovnať tieto hodnoty namiesto toho. -Keď začneme analyzovať výsledky testov s výberom odpovede, môžeme sa pokúsiť určiť, ktoré koncepty robia študentom problémy, a použiť tieto informácie na zlepšenie obsahu. Aby sme to dosiahli, musíme navrhnúť testy tak, aby každá otázka bola spojená s konkrétnym konceptom alebo časťou vedomostí. +Keď začneme analyzovať výsledky testov s výberom odpovede, môžeme sa pokúsiť určiť, ktoré koncepty robia študentom problémy, a využiť tieto informácie na zlepšenie obsahu. Aby sme to dosiahli, musíme navrhnúť testy tak, aby každá otázka zodpovedala určitému konceptu alebo časti vedomostí. -Ak chceme ísť ešte ďalej, môžeme porovnať čas potrebný na dokončenie jednotlivých modulov s vekovou kategóriou študentov. Môžeme zistiť, že pre niektoré vekové kategórie trvá dokončenie modulu neprimerane dlho, alebo že študenti odchádzajú pred jeho dokončením. To nám môže pomôcť odporučiť vhodný vek pre daný modul a minimalizovať nespokojnosť ľudí spôsobenú nesprávnymi očakávaniami. +Ak chceme ísť ešte ďalej, môžeme porovnať čas potrebný na dokončenie jednotlivých modulov s vekovou kategóriou študentov. Môžeme zistiť, že pre niektoré vekové kategórie trvá dokončenie modulu neprimerane dlho, alebo že študenti modul nedokončia. To nám môže pomôcť poskytnúť vekové odporúčania pre modul a minimalizovať nespokojnosť ľudí spôsobenú nesprávnymi očakávaniami. ## 🚀 Výzva -V tejto výzve sa pokúsime nájsť koncepty relevantné pre oblasť dátovej vedy analýzou textov. Vezmeme článok z Wikipédie o dátovej vede, stiahneme a spracujeme text, a potom vytvoríme slovný mrak, ako je tento: +V tejto výzve sa pokúsime nájsť koncepty relevantné pre oblasť dátovej vedy analýzou textov. Vezmeme si článok z Wikipédie o dátovej vede, stiahneme a spracujeme text a potom vytvoríme mračná slov, ako je toto: -![Slovný mrak pre dátovú vedu](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Mračno slov pre dátovú vedu](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.sk.png) -Navštívte [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), aby ste si prešli kód. Môžete tiež spustiť kód a sledovať, ako vykonáva všetky transformácie dát v reálnom čase. +Navštívte [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') a prejdite si kód. Môžete tiež spustiť kód a sledovať, ako vykonáva všetky transformácie dát v reálnom čase. > Ak neviete, ako spustiť kód v Jupyter Notebooku, pozrite si [tento článok](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). @@ -67,14 +67,14 @@ Navštívte [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defi ## Zadania -* **Úloha 1**: Upraviť vyššie uvedený kód na vyhľadanie súvisiacich konceptov pre oblasti **Big Data** a **Machine Learning** +* **Úloha 1**: Upraviť vyššie uvedený kód tak, aby ste našli súvisiace koncepty pre oblasti **Big Data** a **Machine Learning** * **Úloha 2**: [Premýšľajte o scenároch dátovej vedy](assignment.md) -## Kredity +## Poďakovania Táto lekcia bola vytvorená s ♥️ od [Dmitry Soshnikov](http://soshnikov.com) --- **Upozornenie**: -Tento dokument bol preložený pomocou služby AI prekladu [Co-op Translator](https://github.com/Azure/co-op-translator). Aj keď sa snažíme o presnosť, prosím, berte na vedomie, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho pôvodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nie sme zodpovední za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu. \ No newline at end of file +Tento dokument bol preložený pomocou služby na automatický preklad [Co-op Translator](https://github.com/Azure/co-op-translator). Aj keď sa snažíme o presnosť, upozorňujeme, že automatické preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho pôvodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre dôležité informácie sa odporúča profesionálny ľudský preklad. Nezodpovedáme za akékoľvek nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu. \ No newline at end of file diff --git a/translations/sl/1-Introduction/01-defining-data-science/README.md b/translations/sl/1-Introduction/01-defining-data-science/README.md index 3a47ad9b..675ebc6a 100644 --- a/translations/sl/1-Introduction/01-defining-data-science/README.md +++ b/translations/sl/1-Introduction/01-defining-data-science/README.md @@ -1,8 +1,8 @@ +# Дефинисање науке о подацима + +| ![ Скетч од [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | +| :----------------------------------------------------------------------------------------------------: | +| Дефинисање науке о подацима - _Скетч од [@nitya](https://twitter.com/nitya)_ | + +--- + +[![Видео о дефинисању науке о подацима](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.sr.png)](https://youtu.be/beZ7Mb_oz9I) + +## [Квиз пре предавања](https://ff-quizzes.netlify.app/en/ds/quiz/0) + +## Шта су подаци? +У нашем свакодневном животу, стално смо окружени подацима. Текст који сада читате су подаци. Листа телефонских бројева ваших пријатеља у вашем паметном телефону су подаци, као и тренутно време приказано на вашем сату. Као људска бића, природно оперишемо подацима бројећи новац који имамо или пишући писма пријатељима. + +Међутим, подаци су постали много значајнији са стварањем рачунара. Основна улога рачунара је извођење прорачуна, али им је потребно да имају податке над којима ће радити. Због тога је важно разумети како рачунари чувају и обрађују податке. + +Са појавом интернета, улога рачунара као уређаја за руковање подацима се повећала. Ако размислите, сада све више користимо рачунаре за обраду и комуникацију података, а не за стварне прорачуне. Када пишемо е-пошту пријатељу или тражимо неке информације на интернету - у суштини стварамо, чувамо, преносимо и манипулишемо подацима. +> Можете ли се сетити када сте последњи пут користили рачунар за стварно извођење прорачуна? + +## Шта је наука о подацима? + +На [Википедији](https://en.wikipedia.org/wiki/Data_science), **наука о подацима** је дефинисана као *научна област која користи научне методе за извлачење знања и увида из структурираних и неструктурираних података, и примењује знање и применљиве увиде из података у широком спектру области примене*. + +Ова дефиниција истиче следеће важне аспекте науке о подацима: + +* Главни циљ науке о подацима је **извлачење знања** из података, другим речима - **разумевање** података, проналажење скривених односа и изградња **модела**. +* Наука о подацима користи **научне методе**, као што су вероватноћа и статистика. У ствари, када је термин *наука о подацима* први пут уведен, неки су тврдили да је то само нови модеран назив за статистику. Данас је јасно да је ова област много шира. +* Добијено знање треба применити за стварање **применљивих увида**, тј. практичних увида који се могу применити у стварним пословним ситуацијама. +* Требало би да будемо у могућности да радимо са **структурираним** и **неструктурираним** подацима. О различитим типовима података ћемо говорити касније у курсу. +* **Област примене** је важан концепт, и научници о подацима често морају имати барем одређени ниво стручности у области проблема, на пример: финансије, медицина, маркетинг итд. + +> Још један важан аспект науке о подацима је да проучава како се подаци могу прикупљати, чувати и обрађивати помоћу рачунара. Док нам статистика пружа математичке основе, наука о подацима примењује математичке концепте за стварно извлачење увида из података. + +Један од начина (који се приписује [Џиму Греју](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) да се посматра наука о подацима је да се сматра посебном парадигмом науке: +* **Емпиријска**, у којој се углавном ослањамо на посматрања и резултате експеримената +* **Теоријска**, где нови концепти произилазе из постојећег научног знања +* **Рачунарска**, где откривамо нове принципе на основу рачунарских експеримената +* **Заснована на подацима**, која се базира на откривању односа и образаца у подацима + +## Друге сродне области + +Пошто су подаци свеприсутни, наука о подацима је такође широка област која додирује многе друге дисциплине. + ## Типови података -Као што смо већ поменули, подаци су свуда око нас. Само их треба правилно ухватити! Корисно је разликовати **структуриране** и **неструктуриране** податке. Први су обично представљени у добро организованом облику, често као табела или више табела, док су други само збирка датотека. Понекад можемо говорити и о **полуструктурираним** подацима, који имају неку врсту структуре која може значајно варирати. +Као што смо већ поменули, подаци су свуда око нас. Само их треба ухватити на прави начин! Корисно је разликовати **структуриране** и **неструктуриране** податке. Први су обично представљени у неком добро структурисаном облику, често као табела или више табела, док су други само збирка датотека. Понекад можемо говорити и о **полуструктурираним** подацима, који имају неку врсту структуре која може знатно варирати. -| Структурирани | Полуструктурирани | Неструктурирани | -| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | --------------------------------------- | -| Листа људи са њиховим телефонским бројевима | Википедијине странице са линковима | Текст Енциклопедије Британика | -| Температура у свим просторијама зграде сваког минута у последњих 20 година | Збирка научних радова у JSON формату са ауторима, датумом објављивања и апстрактом | Датотеке са корпоративним документима | -| Подаци о старости и полу свих људи који улазе у зграду | Интернет странице | Сирови видео снимак са надзорне камере | +| Структурирани | Полуструктурирани | Неструктурирани | +| ---------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- | --------------------------------------- | +| Листа људи са њиховим телефонским бројевима | Википедијине странице са линковима | Текст Енциклопедије Британика | +| Температура у свим просторијама зграде сваког минута у последњих 20 година | Збирка научних радова у JSON формату са ауторима, датумом објављивања и апстрактом | Датотеке са корпоративним документима | +| Подаци о старости и полу свих људи који улазе у зграду | Интернет странице | Сирови видео снимци са надзорних камера | ## Где пронаћи податке -Постоји много могућих извора података, и немогуће је набројати све! Међутим, хајде да поменемо неке типичне изворе где можете пронаћи податке: +Постоји много могућих извора података, и било би немогуће навести све! Међутим, хајде да поменемо нека типична места где можете пронаћи податке: * **Структурирани** - **Интернет ствари** (IoT), укључујући податке са различитих сензора, као што су сензори температуре или притиска, пружају много корисних података. На пример, ако је пословна зграда опремљена IoT сензорима, можемо аутоматски контролисати грејање и осветљење како бисмо минимизирали трошкове. - **Анкете** које тражимо од корисника да попуне након куповине или након посете веб сајту. - - **Анализа понашања** може, на пример, помоћи да разумемо колико дубоко корисник истражује сајт и који је типичан разлог за напуштање сајта. + - **Анализа понашања** може нам, на пример, помоћи да разумемо колико дубоко корисник улази у сајт и који је типичан разлог за напуштање сајта. * **Неструктурирани** - **Текстови** могу бити богат извор увида, као што је укупна **оценa сентимента**, или извлачење кључних речи и семантичког значења. - **Слике** или **Видео**. Видео са надзорне камере може се користити за процену саобраћаја на путу и информисање људи о потенцијалним гужвама. - **Логови веб сервера** могу се користити за разумевање које странице нашег сајта се најчешће посећују и колико дуго. * **Полуструктурирани** - - **Графови друштвених мрежа** могу бити одличан извор података о личностима корисника и потенцијалној ефикасности у ширењу информација. - - Када имамо збирку фотографија са забаве, можемо покушати да извучемо податке о **групној динамици** тако што ћемо направити граф људи који се фотографишу једни с другима. + - **Графови друштвених мрежа** могу бити одлични извори података о личностима корисника и потенцијалној ефикасности у ширењу информација. + - Када имамо збирку фотографија са забаве, можемо покушати да извучемо податке о **групној динамици** тако што ћемо изградити граф људи који се фотографишу заједно. Познавањем различитих могућих извора података, можете размишљати о различитим сценаријима где се технике науке о подацима могу применити за боље разумевање ситуације и побољшање пословних процеса. @@ -39,27 +83,27 @@ CO_OP_TRANSLATOR_METADATA: У науци о подацима, фокусирамо се на следеће кораке у раду са подацима: -Наравно, у зависности од стварних података, неки кораци могу недостајати (нпр. када већ имамо податке у бази или када нам није потребно тренирање модела), или се неки кораци могу поновити више пута (као што је обрада података). +Наравно, у зависности од стварних података, неки кораци могу недостајати (нпр. када већ имамо податке у бази података или када није потребно обучавање модела), или се неки кораци могу понављати више пута (као што је обрада података). ## Дигитализација и дигитална трансформација -У последњој деценији, многе компаније су почеле да схватају важност података при доношењу пословних одлука. Да би се применили принципи науке о подацима у пословању, прво је потребно прикупити неке податке, односно превести пословне процесе у дигитални облик. Ово је познато као **дигитализација**. Примена техника науке о подацима на ове податке ради доношења одлука може довести до значајног повећања продуктивности (или чак до промене пословног модела), што се назива **дигитална трансформација**. +У последњој деценији, многи послови су почели да разумеју важност података приликом доношења пословних одлука. Да би се применили принципи науке о подацима у вођењу пословања, прво је потребно прикупити неке податке, односно превести пословне процесе у дигитални облик. Ово је познато као **дигитализација**. Примена техника науке о подацима на ове податке ради доношења одлука може довести до значајног повећања продуктивности (или чак до промене пословног модела), што се назива **дигитална трансформација**. -Размотримо пример. Претпоставимо да имамо курс о науци о подацима (као што је овај) који онлајн предајемо студентима и желимо да користимо науку о подацима за његово побољшање. Како то можемо урадити? +Размотримо пример. Претпоставимо да имамо курс о науци о подацима (као што је овај) који држимо онлајн студентима и желимо да користимо науку о подацима како бисмо га побољшали. Како то можемо урадити? -Можемо почети питањем "Шта се може дигитализовати?" Најједноставнији начин би био да измеримо време које је сваком студенту потребно да заврши сваки модул и да измеримо стечено знање давањем теста са вишеструким избором на крају сваког модула. Просечним временом завршетка за све студенте можемо открити који модули изазивају највише потешкоћа и радити на њиховом поједностављењу. +Можемо почети питањем "Шта се може дигитализовати?" Најједноставнији начин био би мерење времена које је сваком студенту потребно да заврши сваки модул, као и мерење стеченог знања давањем теста са вишеструким избором на крају сваког модула. Просечавањем времена завршетка за све студенте, можемо открити који модули изазивају највише потешкоћа и радити на њиховом поједностављењу. Можете тврдити да овај приступ није идеалан, јер модули могу бити различитих дужина. Вероватно је праведније поделити време са дужином модула (у броју карактера) и упоредити те вредности уместо тога. -Када почнемо да анализирамо резултате тестова са вишеструким избором, можемо покушати да утврдимо које концепте ученици тешко разумеју и да искористимо те информације за побољшање садржаја. Да бисмо то урадили, потребно је да осмислимо тестове на такав начин да свако питање одговара одређеном концепту или делу знања. +Када почнемо да анализирамо резултате тестова са вишеструким избором, можемо покушати да утврдимо које концепте ученици тешко разумеју и искористимо те информације за побољшање садржаја. Да бисмо то урадили, потребно је да дизајнирамо тестове на такав начин да свако питање одговара одређеном концепту или делу знања. -Ако желимо да идемо још сложеније, можемо упоредити време потребно за сваки модул са старосном категоријом ученика. Можда ћемо открити да за неке старосне категорије завршетак модула траје непримерено дуго или да ученици одустају пре него што га заврше. Ово нам може помоћи да дамо препоруке за старосну групу за модул и да минимизирамо незадовољство људи због погрешних очекивања. +Ако желимо да идемо још дубље, можемо упоредити време потребно за сваки модул са старосном категоријом ученика. Можда ћемо открити да за неке старосне категорије завршетак модула траје непримерено дуго или да ученици одустану пре него што га заврше. Ово нам може помоћи да дамо препоруке за старосну доб модула и смањимо незадовољство људи због погрешних очекивања. ## 🚀 Изазов -У овом изазову покушаћемо да пронађемо концепте релевантне за област науке о подацима анализирајући текстове. Узет ћемо Википедијски чланак о науци о подацима, преузети и обрадити текст, а затим направити облак речи попут овог: +У овом изазову покушаћемо да пронађемо концепте релевантне за област науке о подацима анализирајући текстове. Преузећемо Википедијски чланак о науци о подацима, обрадити текст и затим направити облак речи попут овог: -![Облак речи за науку о подацима](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Облак речи за науку о подацима](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.sr.png) -Посетите [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') да прочитате код. Такође можете покренути код и видети како у реалном времену врши све трансформације података. +Посетите [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') да бисте прегледали код. Такође можете покренути код и видети како у реалном времену извршава све трансформације података. > Ако не знате како да покренете код у Jupyter Notebook-у, погледајте [овај чланак](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). @@ -68,13 +112,13 @@ CO_OP_TRANSLATOR_METADATA: ## Задаци * **Задатак 1**: Измените горњи код да бисте пронашли повезане концепте за области **Big Data** и **Machine Learning** -* **Задатак 2**: [Размислите о сценаријима из науке о подацима](assignment.md) +* **Задатак 2**: [Размислите о сценаријима у науци о подацима](assignment.md) -## Захвалност +## Захвалнице Ова лекција је написана са ♥️ од стране [Дмитрија Сошњикова](http://soshnikov.com) --- **Одрицање од одговорности**: -Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако настојимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати меродавним извором. За критичне информације препоручује се професионални превод од стране људи. Не преузимамо одговорност за било каква погрешна тумачења или неспоразуме који могу настати услед коришћења овог превода. \ No newline at end of file +Овај документ је преведен коришћењем услуге за превођење помоћу вештачке интелигенције [Co-op Translator](https://github.com/Azure/co-op-translator). Иако настојимо да обезбедимо тачност, молимо вас да имате у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на изворном језику треба сматрати ауторитативним извором. За критичне информације препоручује се професионални превод од стране људи. Не сносимо одговорност за било каква погрешна тумачења или неспоразуме који могу произаћи из коришћења овог превода. \ No newline at end of file diff --git a/translations/sv/1-Introduction/01-defining-data-science/README.md b/translations/sv/1-Introduction/01-defining-data-science/README.md index 6851f476..5b0dc40b 100644 --- a/translations/sv/1-Introduction/01-defining-data-science/README.md +++ b/translations/sv/1-Introduction/01-defining-data-science/README.md @@ -1,21 +1,21 @@ ## Typer av data -Som vi redan nämnt, finns data överallt. Vi behöver bara fånga den på rätt sätt! Det är användbart att skilja mellan **strukturerad** och **ostrukturerad** data. Den förstnämnda representeras ofta i en välstrukturerad form, ofta som en tabell eller flera tabeller, medan den sistnämnda bara är en samling filer. Ibland kan vi också tala om **semistrukturerad** data, som har någon form av struktur som kan variera mycket. +Som vi redan har nämnt, finns data överallt. Vi behöver bara fånga den på rätt sätt! Det är användbart att skilja mellan **strukturerad** och **ostrukturerad** data. Den förstnämnda representeras vanligtvis i en välstrukturerad form, ofta som en tabell eller flera tabeller, medan den sistnämnda bara är en samling filer. Ibland kan vi också tala om **semistrukturerad** data, som har någon form av struktur som kan variera mycket. | Strukturerad | Semistrukturerad | Ostrukturerad | | ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | -| Lista över personer med deras telefonnummer | Wikipediasidor med länkar | Text från Encyclopedia Britannica | +| Lista över personer med deras telefonnummer | Wikipedia-sidor med länkar | Text från Encyclopedia Britannica | | Temperatur i alla rum i en byggnad varje minut under de senaste 20 åren | Samling av vetenskapliga artiklar i JSON-format med författare, publiceringsdatum och abstrakt | Filarkiv med företagsdokument | -| Data om ålder och kön för alla som går in i byggnaden | Internetsidor | Rå videoström från övervakningskamera | +| Data om ålder och kön för alla personer som går in i byggnaden | Internetsidor | Rå videoström från övervakningskamera | ## Var man kan få tag på data @@ -30,7 +30,7 @@ Det finns många möjliga källor till data, och det är omöjligt att lista all - **Bilder** eller **Video**. En video från en övervakningskamera kan användas för att uppskatta trafik på vägen och informera människor om potentiella trafikstockningar. - **Loggar** från webbservrar kan användas för att förstå vilka sidor på vår webbplats som besöks mest och hur länge. * **Semistrukturerad** - - **Sociala nätverks** grafer kan vara utmärkta källor till data om användares personligheter och potentiell effektivitet i att sprida information. + - **Sociala nätverks**-grafer kan vara utmärkta källor till data om användares personligheter och potentiell effektivitet i att sprida information. - När vi har en samling fotografier från en fest kan vi försöka extrahera data om **gruppdynamik** genom att bygga en graf över personer som tar bilder med varandra. Genom att känna till olika möjliga datakällor kan du försöka tänka på olika scenarier där datavetenskapliga tekniker kan tillämpas för att förstå situationen bättre och förbättra affärsprocesser. @@ -41,23 +41,23 @@ Inom datavetenskap fokuserar vi på följande steg i datans resa: ## Digitalisering och digital transformation -Under det senaste decenniet har många företag börjat förstå vikten av data vid affärsbeslut. För att tillämpa datavetenskapliga principer på att driva ett företag måste man först samla in data, det vill säga översätta affärsprocesser till digital form. Detta kallas **digitalisering**. Att använda datavetenskapliga tekniker på denna data för att vägleda beslut kan leda till betydande produktivitetsökningar (eller till och med en affärsomvandling), vilket kallas **digital transformation**. +Under det senaste decenniet har många företag börjat förstå vikten av data vid beslutsfattande. För att tillämpa datavetenskapliga principer på att driva ett företag måste man först samla in data, det vill säga översätta affärsprocesser till digital form. Detta kallas **digitalisering**. Att tillämpa datavetenskapliga tekniker på denna data för att vägleda beslut kan leda till betydande produktivitetsökningar (eller till och med en affärsomvandling), vilket kallas **digital transformation**. -Låt oss ta ett exempel. Anta att vi har en datavetenskapskurs (som denna) som vi levererar online till studenter, och vi vill använda datavetenskap för att förbättra den. Hur kan vi göra det? +Låt oss överväga ett exempel. Anta att vi har en datavetenskapskurs (som denna) som vi levererar online till studenter, och vi vill använda datavetenskap för att förbättra den. Hur kan vi göra det? Vi kan börja med att fråga "Vad kan digitaliseras?" Det enklaste sättet skulle vara att mäta tiden det tar för varje student att slutföra varje modul och att mäta den förvärvade kunskapen genom att ge ett flervalsprov i slutet av varje modul. Genom att beräkna genomsnittlig tid för att slutföra modulerna över alla studenter kan vi ta reda på vilka moduler som orsakar mest svårigheter för studenterna och arbeta på att förenkla dem. > Du kanske hävdar att denna metod inte är optimal, eftersom moduler kan ha olika längder. Det är förmodligen mer rättvist att dela tiden med modulens längd (i antal tecken) och jämföra dessa värden istället. -När vi börjar analysera resultaten från flervalsprov kan vi försöka identifiera vilka koncept som elever har svårt att förstå, och använda den informationen för att förbättra innehållet. För att göra detta behöver vi utforma prov på ett sätt där varje fråga kopplas till ett visst koncept eller kunskapsområde. +När vi börjar analysera resultaten från flervalsfrågor kan vi försöka identifiera vilka koncept som elever har svårt att förstå, och använda den informationen för att förbättra innehållet. För att göra detta behöver vi utforma tester på ett sätt där varje fråga kopplas till ett visst koncept eller kunskapsområde. -Om vi vill göra det ännu mer avancerat kan vi jämföra tiden som krävs för att slutföra varje modul med studenternas ålderskategori. Vi kanske upptäcker att det tar orimligt lång tid för vissa åldersgrupper att slutföra modulen, eller att studenter hoppar av innan de är klara. Detta kan hjälpa oss att ge åldersrekommendationer för modulen och minimera missnöje som uppstår från felaktiga förväntningar. +Om vi vill göra det ännu mer avancerat kan vi plotta den tid som krävs för varje modul mot studenternas ålderskategori. Vi kanske upptäcker att det för vissa ålderskategorier tar orimligt lång tid att slutföra modulen, eller att studenter hoppar av innan de är klara. Detta kan hjälpa oss att ge åldersrekommendationer för modulen och minimera missnöje från felaktiga förväntningar. ## 🚀 Utmaning I denna utmaning ska vi försöka hitta koncept som är relevanta för området Data Science genom att analysera texter. Vi kommer att ta en Wikipedia-artikel om Data Science, ladda ner och bearbeta texten, och sedan skapa ett ordmoln som detta: -![Ordmoln för Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Ordmoln för Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.sv.png) -Besök [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') för att läsa igenom koden. Du kan också köra koden och se hur den utför alla datatransformationer i realtid. +Besök [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') för att läsa igenom koden. Du kan också köra koden och se hur den utför alla datatransformationer i realtid. > Om du inte vet hur man kör kod i en Jupyter Notebook, ta en titt på [denna artikel](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). @@ -66,7 +66,7 @@ Besök [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining- ## Uppgifter * **Uppgift 1**: Modifiera koden ovan för att hitta relaterade koncept för områdena **Big Data** och **Machine Learning** -* **Uppgift 2**: [Fundera över scenarier inom Data Science](assignment.md) +* **Uppgift 2**: [Fundera över Data Science-scenarier](assignment.md) ## Krediter @@ -75,4 +75,4 @@ Denna lektion har skapats med ♥️ av [Dmitry Soshnikov](http://soshnikov.com) --- **Ansvarsfriskrivning**: -Detta dokument har översatts med hjälp av AI-översättningstjänsten [Co-op Translator](https://github.com/Azure/co-op-translator). Även om vi strävar efter noggrannhet, bör det noteras att automatiserade översättningar kan innehålla fel eller brister. Det ursprungliga dokumentet på dess originalspråk bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för eventuella missförstånd eller feltolkningar som kan uppstå vid användning av denna översättning. \ No newline at end of file +Detta dokument har översatts med hjälp av AI-översättningstjänsten [Co-op Translator](https://github.com/Azure/co-op-translator). Även om vi strävar efter noggrannhet, vänligen notera att automatiska översättningar kan innehålla fel eller felaktigheter. Det ursprungliga dokumentet på dess originalspråk bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för eventuella missförstånd eller feltolkningar som uppstår vid användning av denna översättning. \ No newline at end of file diff --git a/translations/sw/1-Introduction/01-defining-data-science/README.md b/translations/sw/1-Introduction/01-defining-data-science/README.md index 36641387..30765827 100644 --- a/translations/sw/1-Introduction/01-defining-data-science/README.md +++ b/translations/sw/1-Introduction/01-defining-data-science/README.md @@ -1,52 +1,54 @@ ## Aina za Data -Kama tulivyotaja tayari, data ipo kila mahali. Tunahitaji tu kuikusanya kwa njia sahihi! Ni muhimu kutofautisha kati ya **data iliyopangiliwa** na **data isiyopangiliwa**. Data iliyopangiliwa mara nyingi huwakilishwa kwa mfumo ulio na muundo mzuri, mara nyingi kama jedwali au idadi ya majedwali, wakati data isiyopangiliwa ni mkusanyiko wa faili tu. Wakati mwingine tunaweza pia kuzungumzia **data ya nusu-pangiliwa**, ambayo ina aina fulani ya muundo unaoweza kutofautiana sana. +Kama tulivyotaja tayari, data ipo kila mahali. Tunachohitaji ni kuikusanya kwa njia sahihi! Ni muhimu kutofautisha kati ya **data iliyopangiliwa** na **data isiyopangiliwa**. Ya kwanza mara nyingi huwakilishwa kwa muundo uliopangiliwa vizuri, mara nyingi kama jedwali au idadi ya majedwali, wakati ya pili ni mkusanyiko wa mafaili tu. Wakati mwingine tunaweza pia kuzungumzia **data nusu iliyopangiliwa**, ambayo ina aina fulani ya muundo unaoweza kutofautiana sana. -| Iliyopangiliwa | Nusu-pangiliwa | Isiyopangiliwa | +| Iliyopangiliwa | Nusu iliyopangiliwa | Isiyopangiliwa | | ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | -| Orodha ya watu na namba zao za simu | Kurasa za Wikipedia zenye viungo | Maandishi ya Encyclopedia Britannica | +| Orodha ya watu na namba zao za simu | Kurasa za Wikipedia zenye viungo | Maandishi ya Encyclopedia Britannica | | Joto katika vyumba vyote vya jengo kila dakika kwa miaka 20 iliyopita | Mkusanyiko wa makala za kisayansi katika muundo wa JSON zenye waandishi, tarehe ya kuchapishwa, na muhtasari | Faili za nyaraka za kampuni | -| Data ya umri na jinsia ya watu wote wanaoingia jengoni | Kurasa za mtandao | Video ghafi kutoka kamera ya ulinzi | +| Data ya umri na jinsia ya watu wote wanaoingia kwenye jengo | Kurasa za mtandao | Video ghafi kutoka kamera ya ulinzi | -## Wapi pa Kupata Data +## Chanzo cha Kupata Data -Kuna vyanzo vingi vya data, na itakuwa vigumu kuorodhesha vyote! Hata hivyo, hebu taja baadhi ya maeneo ya kawaida ambapo unaweza kupata data: +Kuna vyanzo vingi vya data, na itakuwa vigumu kuviorodhesha vyote! Hata hivyo, hebu tutaje baadhi ya maeneo ya kawaida ambapo unaweza kupata data: * **Iliyopangiliwa** - - **Internet of Things** (IoT), ikijumuisha data kutoka kwa sensa mbalimbali, kama sensa za joto au shinikizo, hutoa data nyingi muhimu. Kwa mfano, ikiwa jengo la ofisi lina vifaa vya sensa za IoT, tunaweza kudhibiti kiotomatiki joto na taa ili kupunguza gharama. - - **Utafiti** tunaowaomba watumiaji kujaza baada ya kununua bidhaa au kutembelea tovuti. - - **Uchambuzi wa tabia** unaweza, kwa mfano, kutusaidia kuelewa jinsi mtumiaji anavyotumia tovuti, na sababu za kawaida za kuondoka kwenye tovuti. + - **Internet of Things** (IoT), ikijumuisha data kutoka kwa sensa mbalimbali, kama vile sensa za joto au shinikizo, hutoa data nyingi muhimu. Kwa mfano, ikiwa jengo la ofisi lina vifaa vya sensa za IoT, tunaweza kudhibiti kiotomatiki joto na taa ili kupunguza gharama. + - **Utafiti** tunaowauliza watumiaji kujaza baada ya kununua bidhaa au kutembelea tovuti. + - **Uchambuzi wa tabia** unaweza, kwa mfano, kutusaidia kuelewa jinsi mtumiaji anavyotumia tovuti kwa kina, na sababu ya kawaida ya kuondoka kwenye tovuti. * **Isiyopangiliwa** - - **Maandishi** yanaweza kuwa chanzo tajiri cha maarifa, kama vile alama ya jumla ya **hisia**, au uchimbaji wa maneno muhimu na maana ya kisemantiki. - - **Picha** au **Video**. Video kutoka kamera ya ulinzi inaweza kutumika kutathmini msongamano wa magari barabarani, na kuwajulisha watu kuhusu foleni zinazoweza kutokea. - - **Kumbukumbu za seva ya mtandao** zinaweza kutumika kuelewa ni kurasa zipi za tovuti yetu zinatembelewa mara nyingi zaidi, na kwa muda gani. -* **Nusu-pangiliwa** - - **Grafu za Mitandao ya Kijamii** zinaweza kuwa vyanzo vikubwa vya data kuhusu tabia za watumiaji na ufanisi wao wa kusambaza taarifa. + - **Maandishi** yanaweza kuwa chanzo kikubwa cha maarifa, kama vile alama ya jumla ya **hisia**, au uchimbaji wa maneno muhimu na maana ya kisemantiki. + - **Picha** au **Video**. Video kutoka kamera ya ulinzi inaweza kutumika kukadiria msongamano wa magari barabarani na kuwajulisha watu kuhusu foleni zinazoweza kutokea. + - **Magogo ya seva za wavuti** yanaweza kutumika kuelewa ni kurasa zipi za tovuti yetu zinatembelewa mara nyingi zaidi, na kwa muda gani. +* **Nusu iliyopangiliwa** + - **Mitandao ya Kijamii** inaweza kuwa vyanzo bora vya data kuhusu tabia za watumiaji na ufanisi wao wa kusambaza taarifa. - Tunapokuwa na mkusanyiko wa picha kutoka sherehe, tunaweza kujaribu kuchambua data ya **Dinamiki ya Kundi** kwa kujenga grafu ya watu wanaopiga picha pamoja. -Kwa kujua vyanzo mbalimbali vya data, unaweza kujaribu kufikiria hali tofauti ambapo mbinu za sayansi ya data zinaweza kutumika kuelewa hali vizuri zaidi, na kuboresha michakato ya biashara. +Kwa kujua vyanzo mbalimbali vya data, unaweza kufikiria hali tofauti ambapo mbinu za sayansi ya data zinaweza kutumika kuelewa hali vizuri zaidi na kuboresha michakato ya biashara. ## Unachoweza Kufanya na Data Katika Sayansi ya Data, tunazingatia hatua zifuatazo za safari ya data: -## Kidigitali na Mabadiliko ya Kidigitali +Bila shaka, kulingana na data halisi, baadhi ya hatua zinaweza kukosekana (kwa mfano, tunapokuwa tayari na data kwenye hifadhidata, au tunapokuwa hatuhitaji mafunzo ya modeli), au baadhi ya hatua zinaweza kurudiwa mara kadhaa (kama vile usindikaji wa data). -Katika muongo uliopita, biashara nyingi zimeanza kuelewa umuhimu wa data katika kufanya maamuzi ya kibiashara. Ili kutumia kanuni za sayansi ya data katika kuendesha biashara, kwanza tunahitaji kukusanya data fulani, yaani, kutafsiri michakato ya biashara katika mfumo wa kidigitali. Hii inajulikana kama **kidigitali**. Kutumia mbinu za sayansi ya data kwa data hii ili kuongoza maamuzi kunaweza kusababisha ongezeko kubwa la tija (au hata mabadiliko ya biashara), yanayoitwa **mabadiliko ya kidigitali**. +## Udigitalishaji na Mabadiliko ya Kidijitali -Hebu tuangalie mfano. Tuseme tuna kozi ya sayansi ya data (kama hii) tunayoitoa mtandaoni kwa wanafunzi, na tunataka kutumia sayansi ya data kuiboresha. Tunawezaje kufanya hivyo? +Katika muongo uliopita, biashara nyingi zimeanza kuelewa umuhimu wa data katika kufanya maamuzi ya kibiashara. Ili kutumia kanuni za sayansi ya data katika kuendesha biashara, kwanza unahitaji kukusanya data fulani, yaani, kutafsiri michakato ya biashara katika mfumo wa kidijitali. Hii inajulikana kama **udigitalishaji**. Kutumia mbinu za sayansi ya data kwa data hii ili kuongoza maamuzi kunaweza kusababisha ongezeko kubwa la tija (au hata mabadiliko ya biashara), yanayoitwa **mabadiliko ya kidijitali**. -Tunaweza kuanza kwa kujiuliza "Nini kinaweza kuwa kidigitali?" Njia rahisi zaidi itakuwa kupima muda unaochukua kila mwanafunzi kukamilisha kila moduli, na kupima maarifa yaliyopatikana kwa kutoa mtihani wa maswali mengi mwishoni mwa kila moduli. Kwa kuhesabu wastani wa muda wa kukamilisha kwa wanafunzi wote, tunaweza kugundua ni moduli zipi zinazosababisha changamoto zaidi kwa wanafunzi, na kufanya kazi ya kuzirahisisha. -Unaweza kusema kwamba mbinu hii si bora, kwa sababu moduli zinaweza kuwa na urefu tofauti. Labda ni haki zaidi kugawanya muda kwa urefu wa moduli (kwa idadi ya herufi), na kulinganisha thamani hizo badala yake. +Hebu tuchukue mfano. Tuseme tuna kozi ya sayansi ya data (kama hii) ambayo tunawasilisha mtandaoni kwa wanafunzi, na tunataka kutumia sayansi ya data kuiboresha. Tunawezaje kufanya hivyo? + +Tunaweza kuanza kwa kujiuliza "Ni nini kinaweza kudigitalishwa?" Njia rahisi zaidi itakuwa kupima muda unaochukuliwa na kila mwanafunzi kumaliza kila moduli, na kupima maarifa yaliyopatikana kwa kutoa mtihani wa maswali ya chaguo nyingi mwishoni mwa kila moduli. Kwa kuchukua wastani wa muda wa kukamilisha kwa wanafunzi wote, tunaweza kugundua ni moduli zipi zinazosababisha changamoto zaidi kwa wanafunzi, na kufanya kazi ya kuzirahisisha. +Unaweza kusema kwamba mbinu hii si bora, kwa sababu moduli zinaweza kuwa na urefu tofauti. Inawezekana ni haki zaidi kugawanya muda kwa urefu wa moduli (kwa idadi ya herufi), na kulinganisha thamani hizo badala yake. Tunapoanza kuchambua matokeo ya mitihani ya chaguo nyingi, tunaweza kujaribu kubaini ni dhana zipi ambazo wanafunzi wanapata ugumu wa kuelewa, na kutumia taarifa hiyo kuboresha maudhui. Ili kufanya hivyo, tunahitaji kubuni mitihani kwa njia ambayo kila swali linaendana na dhana fulani au kipande cha maarifa. Ikiwa tunataka kufanya uchambuzi wa kina zaidi, tunaweza kuchora muda unaotumika kwa kila moduli dhidi ya kundi la umri wa wanafunzi. Tunaweza kugundua kwamba kwa baadhi ya makundi ya umri, inachukua muda mrefu kupita kiasi kukamilisha moduli, au kwamba wanafunzi wanajiondoa kabla ya kuikamilisha. Hii inaweza kutusaidia kutoa mapendekezo ya umri kwa moduli, na kupunguza kutoridhika kwa watu kutokana na matarajio yasiyo sahihi. @@ -55,9 +57,9 @@ Ikiwa tunataka kufanya uchambuzi wa kina zaidi, tunaweza kuchora muda unaotumika Katika changamoto hii, tutajaribu kutafuta dhana zinazohusiana na uwanja wa Sayansi ya Takwimu kwa kuangalia maandishi. Tutachukua makala ya Wikipedia kuhusu Sayansi ya Takwimu, kupakua na kuchakata maandishi, kisha kujenga wingu la maneno kama hili: -![Wingu la Maneno kwa Sayansi ya Takwimu](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Wingu la Maneno kwa Sayansi ya Takwimu](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.sw.png) -Tembelea [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') kusoma kupitia msimbo. Unaweza pia kuendesha msimbo, na kuona jinsi unavyofanya mabadiliko ya data kwa wakati halisi. +Tembelea [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') kusoma kupitia msimbo. Unaweza pia kuendesha msimbo, na kuona jinsi unavyofanya mabadiliko ya data kwa wakati halisi. > Ikiwa hujui jinsi ya kuendesha msimbo katika Jupyter Notebook, angalia [makala hii](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). @@ -75,4 +77,4 @@ Somo hili limeandikwa kwa ♥️ na [Dmitry Soshnikov](http://soshnikov.com) --- **Kanusho**: -Hati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kuhakikisha usahihi, tafadhali fahamu kuwa tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwa sahihi. Hati ya asili katika lugha yake ya awali inapaswa kuzingatiwa kama chanzo cha mamlaka. Kwa taarifa muhimu, tafsiri ya kitaalamu ya binadamu inapendekezwa. Hatutawajibika kwa kutoelewana au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii. \ No newline at end of file +Hati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kwa usahihi, tafadhali fahamu kuwa tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwa sahihi. Hati ya asili katika lugha yake ya awali inapaswa kuzingatiwa kama chanzo cha mamlaka. Kwa taarifa muhimu, inashauriwa kutumia huduma ya tafsiri ya binadamu ya kitaalamu. Hatutawajibika kwa maelewano mabaya au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii. \ No newline at end of file diff --git a/translations/th/1-Introduction/01-defining-data-science/README.md b/translations/th/1-Introduction/01-defining-data-science/README.md index 64052fa2..c6724cb4 100644 --- a/translations/th/1-Introduction/01-defining-data-science/README.md +++ b/translations/th/1-Introduction/01-defining-data-science/README.md @@ -1,65 +1,67 @@ -## ประเภทของข้อมูล +## การนิยามวิทยาศาสตร์ข้อมูล -อย่างที่เราได้กล่าวไปแล้ว ข้อมูลมีอยู่ทุกที่ เราแค่ต้องจับมันให้ถูกวิธี! การแยกแยะระหว่าง **ข้อมูลที่มีโครงสร้าง** และ **ข้อมูลที่ไม่มีโครงสร้าง** เป็นสิ่งที่มีประโยชน์ ข้อมูลที่มีโครงสร้างมักจะถูกนำเสนอในรูปแบบที่มีโครงสร้างชัดเจน เช่น ตารางหรือหลายตาราง ในขณะที่ข้อมูลที่ไม่มีโครงสร้างเป็นเพียงการรวบรวมไฟล์ บางครั้งเรายังสามารถพูดถึง **ข้อมูลกึ่งโครงสร้าง** ซึ่งมีโครงสร้างบางอย่างที่อาจแตกต่างกันไปอย่างมาก +| ![ Sketchnote โดย [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | +| :----------------------------------------------------------------------------------------------------: | +| การนิยามวิทยาศาสตร์ข้อมูล - _Sketchnote โดย [@nitya](https://twitter.com/nitya)_ | -| ข้อมูลที่มีโครงสร้าง | ข้อมูลกึ่งโครงสร้าง | ข้อมูลที่ไม่มีโครงสร้าง | -| ---------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------ | --------------------------------------- | -| รายชื่อคนพร้อมหมายเลขโทรศัพท์ของพวกเขา | หน้า Wikipedia พร้อมลิงก์ | ข้อความของสารานุกรม Britannica | -| อุณหภูมิในทุกห้องของอาคารในทุกนาทีตลอด 20 ปีที่ผ่านมา | การรวบรวมเอกสารวิชาการในรูปแบบ JSON พร้อมผู้เขียน วันที่เผยแพร่ และบทคัดย่อ | การแชร์ไฟล์เอกสารขององค์กร | -| ข้อมูลอายุและเพศของทุกคนที่เข้ามาในอาคาร | หน้าเว็บ | วิดีโอสดจากกล้องวงจรปิด | +--- + +[![วิดีโอการนิยามวิทยาศาสตร์ข้อมูล](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.th.png)](https://youtu.be/beZ7Mb_oz9I) + +## [แบบทดสอบก่อนการบรรยาย](https://ff-quizzes.netlify.app/en/ds/quiz/0) -## แหล่งข้อมูล +## ข้อมูลคืออะไร? +ในชีวิตประจำวันของเรา เราถูกล้อมรอบด้วยข้อมูลอยู่ตลอดเวลา ข้อความที่คุณกำลังอ่านอยู่นี้ก็คือข้อมูล รายชื่อเบอร์โทรศัพท์ของเพื่อนในสมาร์ทโฟนของคุณก็เป็นข้อมูล เช่นเดียวกับเวลาปัจจุบันที่แสดงอยู่บนหน้าปัดนาฬิกาของคุณ ในฐานะมนุษย์ เรามีการจัดการกับข้อมูลโดยธรรมชาติ เช่น การนับเงินที่เรามี หรือการเขียนจดหมายถึงเพื่อน -มีแหล่งข้อมูลมากมาย และคงเป็นไปไม่ได้ที่จะระบุทั้งหมด! อย่างไรก็ตาม ลองมาดูสถานที่ทั่วไปที่คุณสามารถหาข้อมูลได้: +อย่างไรก็ตาม ข้อมูลมีความสำคัญมากขึ้นเมื่อมีการสร้างคอมพิวเตอร์ขึ้นมา บทบาทหลักของคอมพิวเตอร์คือการคำนวณ แต่พวกมันต้องการข้อมูลเพื่อทำงาน ดังนั้นเราจึงต้องเข้าใจว่าคอมพิวเตอร์จัดเก็บและประมวลผลข้อมูลอย่างไร -* **ข้อมูลที่มีโครงสร้าง** - - **Internet of Things** (IoT) รวมถึงข้อมูลจากเซ็นเซอร์ต่าง ๆ เช่น เซ็นเซอร์อุณหภูมิหรือความดัน ซึ่งให้ข้อมูลที่มีประโยชน์มากมาย ตัวอย่างเช่น หากอาคารสำนักงานติดตั้งเซ็นเซอร์ IoT เราสามารถควบคุมการทำความร้อนและแสงสว่างโดยอัตโนมัติเพื่อลดค่าใช้จ่าย - - **แบบสำรวจ** ที่เราขอให้ผู้ใช้กรอกหลังการซื้อสินค้าหรือหลังการเยี่ยมชมเว็บไซต์ - - **การวิเคราะห์พฤติกรรม** เช่น การเข้าใจว่าผู้ใช้เข้าไปในเว็บไซต์ลึกแค่ไหน และเหตุผลทั่วไปที่ทำให้ผู้ใช้ออกจากเว็บไซต์ -* **ข้อมูลที่ไม่มีโครงสร้าง** - - **ข้อความ** สามารถเป็นแหล่งข้อมูลที่อุดมไปด้วยข้อมูลเชิงลึก เช่น **คะแนนความรู้สึกโดยรวม** หรือการดึงคำสำคัญและความหมายเชิงความหมาย - - **ภาพ** หรือ **วิดีโอ** เช่น วิดีโอจากกล้องวงจรปิดสามารถใช้ประเมินการจราจรบนถนน และแจ้งเตือนผู้คนเกี่ยวกับการจราจรติดขัด - - **บันทึกเซิร์ฟเวอร์เว็บ** สามารถใช้เพื่อเข้าใจว่าหน้าเว็บใดของเว็บไซต์ที่มีการเยี่ยมชมบ่อยที่สุด และใช้เวลานานแค่ไหน -* **ข้อมูลกึ่งโครงสร้าง** - - **กราฟเครือข่ายสังคม** สามารถเป็นแหล่งข้อมูลที่ดีเกี่ยวกับบุคลิกภาพของผู้ใช้และประสิทธิภาพในการเผยแพร่ข้อมูล - - เมื่อเรามีภาพถ่ายจำนวนมากจากงานปาร์ตี้ เราสามารถลองดึงข้อมูล **พลวัตของกลุ่ม** โดยการสร้างกราฟของคนที่ถ่ายภาพร่วมกัน +เมื่ออินเทอร์เน็ตเกิดขึ้น บทบาทของคอมพิวเตอร์ในฐานะอุปกรณ์จัดการข้อมูลก็เพิ่มขึ้น หากคุณลองคิดดู เราใช้คอมพิวเตอร์มากขึ้นเรื่อย ๆ สำหรับการประมวลผลและการสื่อสารข้อมูล มากกว่าการคำนวณจริง ๆ เมื่อเราเขียนอีเมลถึงเพื่อน หรือค้นหาข้อมูลบางอย่างบนอินเทอร์เน็ต เรากำลังสร้าง จัดเก็บ ส่งต่อ และจัดการข้อมูล +> คุณจำครั้งสุดท้ายที่คุณใช้คอมพิวเตอร์เพื่อคำนวณอะไรบางอย่างได้หรือไม่? -เมื่อรู้แหล่งข้อมูลที่เป็นไปได้ต่าง ๆ คุณสามารถลองคิดถึงสถานการณ์ต่าง ๆ ที่เทคนิควิทยาศาสตร์ข้อมูลสามารถนำไปใช้เพื่อเข้าใจสถานการณ์ได้ดีขึ้น และปรับปรุงกระบวนการทางธุรกิจ +## วิทยาศาสตร์ข้อมูลคืออะไร? -## สิ่งที่คุณสามารถทำได้กับข้อมูล +ใน [Wikipedia](https://en.wikipedia.org/wiki/Data_science) **วิทยาศาสตร์ข้อมูล** ถูกนิยามว่าเป็น *สาขาวิทยาศาสตร์ที่ใช้วิธีการทางวิทยาศาสตร์เพื่อดึงความรู้และข้อมูลเชิงลึกจากข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง และนำความรู้และข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้จากข้อมูลไปใช้ในหลากหลายโดเมนการประยุกต์ใช้* -ในวิทยาศาสตร์ข้อมูล เรามุ่งเน้นไปที่ขั้นตอนต่าง ๆ ของการเดินทางของข้อมูล: +นิยามนี้เน้นถึงแง่มุมสำคัญของวิทยาศาสตร์ข้อมูลดังนี้: -แน่นอนว่า ขึ้นอยู่กับข้อมูลจริง บางขั้นตอนอาจหายไป (เช่น เมื่อเรามีข้อมูลอยู่ในฐานข้อมูลแล้ว หรือเมื่อเราไม่จำเป็นต้องฝึกโมเดล) หรือบางขั้นตอนอาจถูกทำซ้ำหลายครั้ง (เช่น การประมวลผลข้อมูล) +* เป้าหมายหลักของวิทยาศาสตร์ข้อมูลคือการ **ดึงความรู้** จากข้อมูล หรือพูดอีกอย่างคือการ **ทำความเข้าใจ** ข้อมูล ค้นหาความสัมพันธ์ที่ซ่อนอยู่ และสร้าง **โมเดล** +* วิทยาศาสตร์ข้อมูลใช้ **วิธีการทางวิทยาศาสตร์** เช่น ความน่าจะเป็นและสถิติ ในความเป็นจริง เมื่อคำว่า *วิทยาศาสตร์ข้อมูล* ถูกนำเสนอครั้งแรก บางคนโต้แย้งว่าวิทยาศาสตร์ข้อมูลเป็นเพียงชื่อใหม่ที่ดูหรูหราของสถิติ แต่ในปัจจุบันเห็นได้ชัดว่าสาขานี้กว้างกว่านั้นมาก +* ความรู้ที่ได้ควรถูกนำไปใช้เพื่อสร้าง **ข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้** เช่น ข้อมูลเชิงลึกที่สามารถนำไปใช้ในสถานการณ์ทางธุรกิจจริง +* เราควรสามารถจัดการกับข้อมูลทั้งที่มี **โครงสร้าง** และ **ไม่มีโครงสร้าง** เราจะกลับมาพูดถึงประเภทของข้อมูลในภายหลังในหลักสูตรนี้ +* **โดเมนการประยุกต์ใช้** เป็นแนวคิดที่สำคัญ และนักวิทยาศาสตร์ข้อมูลมักต้องการความเชี่ยวชาญในระดับหนึ่งในโดเมนปัญหา เช่น การเงิน การแพทย์ การตลาด เป็นต้น -## การแปลงเป็นดิจิทัลและการเปลี่ยนแปลงทางดิจิทัล +> อีกแง่มุมที่สำคัญของวิทยาศาสตร์ข้อมูลคือการศึกษาว่าข้อมูลสามารถถูกรวบรวม จัดเก็บ และดำเนินการด้วยคอมพิวเตอร์ได้อย่างไร ในขณะที่สถิติให้รากฐานทางคณิตศาสตร์ วิทยาศาสตร์ข้อมูลนำแนวคิดทางคณิตศาสตร์ไปใช้จริงเพื่อดึงข้อมูลเชิงลึกจากข้อมูล -ในทศวรรษที่ผ่านมา ธุรกิจหลายแห่งเริ่มเข้าใจถึงความสำคัญของข้อมูลในการตัดสินใจทางธุรกิจ เพื่อใช้หลักการวิทยาศาสตร์ข้อมูลในการดำเนินธุรกิจ สิ่งแรกที่ต้องทำคือการรวบรวมข้อมูล กล่าวคือ การแปลงกระบวนการทางธุรกิจให้อยู่ในรูปแบบดิจิทัล ซึ่งเรียกว่า **การแปลงเป็นดิจิทัล** การใช้เทคนิควิทยาศาสตร์ข้อมูลกับข้อมูลนี้เพื่อแนะนำการตัดสินใจสามารถนำไปสู่การเพิ่มประสิทธิภาพอย่างมาก (หรือแม้กระทั่งการเปลี่ยนแปลงธุรกิจ) ซึ่งเรียกว่า **การเปลี่ยนแปลงทางดิจิทัล** +หนึ่งในวิธีการ (ที่เชื่อมโยงกับ [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) ในการมองวิทยาศาสตร์ข้อมูลคือการพิจารณาว่าเป็นกระบวนทัศน์แยกต่างหากของวิทยาศาสตร์: +* **เชิงประจักษ์** ซึ่งเราพึ่งพาการสังเกตและผลลัพธ์ของการทดลองเป็นหลัก +* **เชิงทฤษฎี** ที่แนวคิดใหม่ ๆ เกิดขึ้นจากความรู้ทางวิทยาศาสตร์ที่มีอยู่ +* **เชิงคำนวณ** ที่เราค้นพบหลักการใหม่ ๆ จากการทดลองทางคอมพิวเตอร์ +* **ขับเคลื่อนด้วยข้อมูล** โดยอิงจากการค้นพบความสัมพันธ์และรูปแบบในข้อมูล -ลองพิจารณาตัวอย่าง สมมติว่าเรามีหลักสูตรวิทยาศาสตร์ข้อมูล (เช่น หลักสูตรนี้) ที่เราสอนออนไลน์ให้กับนักเรียน และเราต้องการใช้วิทยาศาสตร์ข้อมูลเพื่อปรับปรุงหลักสูตร เราจะทำได้อย่างไร? +## สาขาอื่นที่เกี่ยวข้อง -เราอาจเริ่มต้นด้วยการถามว่า "อะไรที่สามารถแปลงเป็นดิจิทัลได้?" วิธีที่ง่ายที่สุดคือการวัดเวลาที่นักเรียนแต่ละคนใช้ในการทำแต่ละโมดูลให้เสร็จ และวัดความรู้ที่ได้รับโดยการให้แบบทดสอบแบบเลือกตอบหลังจากจบแต่ละโมดูล โดยการเฉลี่ยเวลาที่ใช้ในการทำโมดูลให้เสร็จในหมู่นักเรียนทั้งหมด เราสามารถค้นหาได้ว่าโมดูลใดที่ทำให้นักเรียนมีความยากลำบากมากที่สุด และทำงานเพื่อทำให้โมดูลเหล่านั้นง่ายขึ้น -คุณอาจแย้งได้ว่าวิธีนี้ไม่ใช่วิธีที่เหมาะสมที่สุด เพราะโมดูลอาจมีความยาวต่างกัน อาจจะยุติธรรมกว่าถ้าแบ่งเวลาโดยพิจารณาจากความยาวของโมดูล (ในจำนวนตัวอักษร) แล้วเปรียบเทียบค่าที่ได้แทน -เมื่อเราเริ่มวิเคราะห์ผลการทดสอบแบบปรนัย เราสามารถพยายามระบุแนวคิดที่นักเรียนมีความยากลำบากในการทำความเข้าใจ และใช้ข้อมูลนั้นเพื่อปรับปรุงเนื้อหา เพื่อทำสิ่งนี้ เราจำเป็นต้องออกแบบการทดสอบในลักษณะที่แต่ละคำถามเชื่อมโยงกับแนวคิดหรือส่วนความรู้เฉพาะ +เนื่องจากข้อมูลมีอยู่ทุกที่ วิทยาศาสตร์ข้อมูลจึงเป็นสาขาที่กว้างขวาง ซึ่งเกี่ยวข้องกับหลายสาขาวิชาอื่น ๆ +คุณอาจโต้แย้งได้ว่าวิธีนี้ไม่ใช่วิธีที่เหมาะสมที่สุด เพราะโมดูลอาจมีความยาวที่แตกต่างกัน อาจจะยุติธรรมกว่าถ้าหากแบ่งเวลาโดยพิจารณาจากความยาวของโมดูล (ในจำนวนตัวอักษร) แล้วเปรียบเทียบค่าที่ได้แทน +เมื่อเราเริ่มวิเคราะห์ผลของแบบทดสอบแบบปรนัย เราสามารถพยายามระบุแนวคิดที่นักเรียนมีปัญหาในการทำความเข้าใจ และใช้ข้อมูลนั้นเพื่อปรับปรุงเนื้อหาได้ เพื่อทำเช่นนั้น เราจำเป็นต้องออกแบบแบบทดสอบในลักษณะที่แต่ละคำถามเชื่อมโยงกับแนวคิดหรือส่วนความรู้เฉพาะ -หากเราต้องการทำให้ซับซ้อนยิ่งขึ้น เราสามารถวางแผนเวลาที่ใช้ในแต่ละโมดูลเทียบกับกลุ่มอายุของนักเรียน เราอาจพบว่าในบางกลุ่มอายุใช้เวลานานเกินไปในการทำโมดูลให้เสร็จ หรือว่านักเรียนออกจากโมดูลก่อนที่จะทำเสร็จ สิ่งนี้สามารถช่วยให้เราแนะนำอายุที่เหมาะสมสำหรับโมดูล และลดความไม่พอใจของผู้คนจากความคาดหวังที่ผิดพลาด +หากเราต้องการทำให้ซับซ้อนยิ่งขึ้น เราสามารถวางแผนเปรียบเทียบเวลาที่ใช้ในแต่ละโมดูลกับกลุ่มอายุของนักเรียนได้ เราอาจพบว่าในบางกลุ่มอายุใช้เวลานานเกินไปในการทำโมดูลให้เสร็จ หรือว่านักเรียนเลิกเรียนก่อนที่จะทำเสร็จ สิ่งนี้สามารถช่วยให้เราแนะนำอายุที่เหมาะสมสำหรับโมดูล และลดความไม่พอใจของผู้คนจากความคาดหวังที่ผิดพลาด ## 🚀 ความท้าทาย -ในความท้าทายนี้ เราจะพยายามค้นหาแนวคิดที่เกี่ยวข้องกับสาขาวิทยาศาสตร์ข้อมูลโดยการดูจากข้อความ เราจะนำบทความ Wikipedia เกี่ยวกับวิทยาศาสตร์ข้อมูลมาดาวน์โหลดและประมวลผลข้อความ จากนั้นสร้าง Word Cloud แบบนี้: +ในความท้าทายนี้ เราจะพยายามค้นหาแนวคิดที่เกี่ยวข้องกับสาขาวิทยาศาสตร์ข้อมูล (Data Science) โดยการดูจากข้อความ เราจะนำบทความจาก Wikipedia เกี่ยวกับวิทยาศาสตร์ข้อมูลมาดาวน์โหลดและประมวลผลข้อความ จากนั้นสร้าง Word Cloud ที่มีลักษณะดังนี้: -![Word Cloud for Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.th.png) -เยี่ยมชม [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') เพื่ออ่านโค้ด คุณยังสามารถรันโค้ดและดูว่ามันทำการแปลงข้อมูลทั้งหมดแบบเรียลไทม์ได้อย่างไร +ไปที่ [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') เพื่ออ่านโค้ด คุณยังสามารถรันโค้ดและดูว่ามันทำการแปลงข้อมูลแบบเรียลไทม์ได้อย่างไร > หากคุณไม่ทราบวิธีการรันโค้ดใน Jupyter Notebook ลองดู [บทความนี้](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) @@ -67,7 +69,7 @@ CO_OP_TRANSLATOR_METADATA: ## งานที่ได้รับมอบหมาย -* **งานที่ 1**: ปรับเปลี่ยนโค้ดด้านบนเพื่อค้นหาแนวคิดที่เกี่ยวข้องกับสาขา **Big Data** และ **Machine Learning** +* **งานที่ 1**: แก้ไขโค้ดด้านบนเพื่อค้นหาแนวคิดที่เกี่ยวข้องกับสาขา **Big Data** และ **Machine Learning** * **งานที่ 2**: [คิดเกี่ยวกับสถานการณ์ในวิทยาศาสตร์ข้อมูล](assignment.md) ## เครดิต @@ -77,4 +79,4 @@ CO_OP_TRANSLATOR_METADATA: --- **ข้อจำกัดความรับผิดชอบ**: -เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่แม่นยำ เอกสารต้นฉบับในภาษาต้นทางควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามนุษย์ที่เป็นมืออาชีพ เราจะไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้ \ No newline at end of file +เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่แม่นยำ เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ แนะนำให้ใช้บริการแปลภาษาจากผู้เชี่ยวชาญ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้ \ No newline at end of file diff --git a/translations/tl/1-Introduction/01-defining-data-science/README.md b/translations/tl/1-Introduction/01-defining-data-science/README.md index 3247ac13..a397f045 100644 --- a/translations/tl/1-Introduction/01-defining-data-science/README.md +++ b/translations/tl/1-Introduction/01-defining-data-science/README.md @@ -1,63 +1,65 @@ ## Mga Uri ng Data -Tulad ng nabanggit na, ang data ay nasa lahat ng dako. Kailangan lang natin itong makuha sa tamang paraan! Mahalagang malaman ang pagkakaiba sa pagitan ng **structured** at **unstructured** na data. Ang una ay karaniwang kinakatawan sa isang maayos na istruktura, kadalasan bilang isang talahanayan o bilang maraming talahanayan, habang ang huli ay isang koleksyon lamang ng mga file. Minsan, maaari rin tayong mag-usap tungkol sa **semi-structured** na data, na may ilang uri ng istruktura na maaaring mag-iba nang malaki. +Tulad ng nabanggit na, ang data ay nasa lahat ng dako. Kailangan lang natin itong makuha sa tamang paraan! Mahalagang malaman ang pagkakaiba sa pagitan ng **structured** at **unstructured** na data. Ang una ay karaniwang kinakatawan sa isang maayos na istruktura, kadalasan bilang isang talahanayan o bilang maraming talahanayan, habang ang huli ay isang koleksyon lamang ng mga file. Minsan, maaari rin tayong mag-usap tungkol sa **semi-structured** na data, na may ilang uri ng istruktura na maaaring magkaiba-iba. | Structured | Semi-structured | Unstructured | | ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | | Listahan ng mga tao kasama ang kanilang mga numero ng telepono | Mga pahina ng Wikipedia na may mga link | Teksto ng Encyclopedia Britannica | -| Temperatura sa lahat ng silid ng isang gusali bawat minuto sa nakalipas na 20 taon | Koleksyon ng mga scientific papers sa JSON format na may mga author, petsa ng publikasyon, at abstract | File share na may mga corporate documents | +| Temperatura sa lahat ng silid ng isang gusali bawat minuto sa nakaraang 20 taon | Koleksyon ng mga siyentipikong papel sa JSON format na may mga may-akda, petsa ng publikasyon, at abstrak | File share na may mga dokumento ng kumpanya | | Data para sa edad at kasarian ng lahat ng pumapasok sa gusali | Mga pahina sa Internet | Raw video feed mula sa surveillance camera | ## Saan Kumuha ng Data -Maraming posibleng mapagkukunan ng data, at imposibleng ilista ang lahat ng mga ito! Gayunpaman, banggitin natin ang ilan sa mga karaniwang lugar kung saan maaaring makakuha ng data: +Maraming posibleng pinagmumulan ng data, at imposibleng ilista ang lahat ng ito! Gayunpaman, banggitin natin ang ilan sa mga karaniwang lugar kung saan maaaring makakuha ng data: * **Structured** - - **Internet of Things** (IoT), kabilang ang data mula sa iba't ibang sensors, tulad ng temperatura o pressure sensors, ay nagbibigay ng maraming kapaki-pakinabang na data. Halimbawa, kung ang isang gusali ng opisina ay may IoT sensors, maaari nating awtomatikong kontrolin ang heating at lighting upang mabawasan ang gastos. - - **Surveys** na hinihiling natin sa mga user na sagutan pagkatapos ng pagbili, o pagkatapos bumisita sa isang website. - - **Pagsusuri ng ugali** ay maaaring makatulong, halimbawa, upang maunawaan kung gaano kalalim ang paggalugad ng isang user sa isang site, at ano ang karaniwang dahilan ng pag-alis sa site. + - **Internet of Things** (IoT), kabilang ang data mula sa iba't ibang sensor, tulad ng temperatura o pressure sensors, na nagbibigay ng maraming kapaki-pakinabang na data. Halimbawa, kung ang isang gusali ng opisina ay may IoT sensors, maaari nating awtomatikong kontrolin ang pag-init at pag-iilaw upang mabawasan ang gastos. + - **Mga Survey** na hinihiling natin sa mga user na sagutan pagkatapos ng pagbili, o pagkatapos bumisita sa isang website. + - **Pagsusuri ng pag-uugali** na maaaring makatulong, halimbawa, upang maunawaan kung gaano kalalim ang paggalugad ng isang user sa isang site, at ano ang karaniwang dahilan ng pag-alis sa site. * **Unstructured** - - **Teksto** ay maaaring maging mayamang mapagkukunan ng insights, tulad ng pangkalahatang **sentiment score**, o pagkuha ng mga keyword at semantic na kahulugan. - - **Mga Larawan** o **Video**. Ang video mula sa surveillance camera ay maaaring gamitin upang tantyahin ang trapiko sa kalsada, at magbigay ng impormasyon sa mga tao tungkol sa posibleng traffic jams. + - **Mga Teksto** ay maaaring maging mayamang pinagmumulan ng mga insight, tulad ng pangkalahatang **sentiment score**, o pagkuha ng mga keyword at semantikong kahulugan. + - **Mga Larawan** o **Video**. Ang video mula sa surveillance camera ay maaaring gamitin upang tantyahin ang trapiko sa kalsada, at magbigay ng impormasyon sa mga tao tungkol sa posibleng traffic jam. - **Logs** ng web server ay maaaring gamitin upang maunawaan kung aling mga pahina ng ating site ang madalas bisitahin, at kung gaano katagal. * **Semi-structured** - - **Social Network** graphs ay maaaring maging mahusay na mapagkukunan ng data tungkol sa personalidad ng user at potensyal na pagiging epektibo sa pagpapalaganap ng impormasyon. - - Kapag mayroon tayong koleksyon ng mga litrato mula sa isang party, maaari nating subukang kunin ang data ng **Group Dynamics** sa pamamagitan ng paggawa ng graph ng mga taong nagpipicture kasama ang isa't isa. + - **Mga Graph ng Social Network** ay maaaring maging mahusay na pinagmumulan ng data tungkol sa personalidad ng user at potensyal na pagiging epektibo sa pagpapalaganap ng impormasyon. + - Kapag mayroon tayong koleksyon ng mga litrato mula sa isang party, maaari nating subukang kunin ang data ng **Group Dynamics** sa pamamagitan ng paggawa ng graph ng mga tao na nagpipicture kasama ang isa't isa. -Sa pamamagitan ng pag-alam sa iba't ibang posibleng mapagkukunan ng data, maaari kang mag-isip ng iba't ibang mga senaryo kung saan maaaring gamitin ang mga teknik ng data science upang mas maunawaan ang sitwasyon, at mapabuti ang mga proseso ng negosyo. +Sa pamamagitan ng pag-alam sa iba't ibang posibleng pinagmumulan ng data, maaari kang mag-isip ng iba't ibang senaryo kung saan maaaring gamitin ang mga teknik ng data science upang mas maunawaan ang sitwasyon, at mapabuti ang mga proseso ng negosyo. ## Ano ang Magagawa Mo sa Data -Sa Data Science, nakatuon tayo sa mga sumusunod na hakbang ng data journey: +Sa Data Science, nakatuon tayo sa mga sumusunod na hakbang ng paglalakbay ng data: + +Siyempre, depende sa aktwal na data, maaaring may mga hakbang na nawawala (halimbawa, kapag mayroon na tayong data sa database, o kapag hindi natin kailangan ang model training), o maaaring ulitin ang ilang hakbang nang maraming beses (tulad ng data processing). ## Digitalisasyon at Digital Transformation -Sa nakalipas na dekada, maraming negosyo ang nagsimulang maunawaan ang kahalagahan ng data sa paggawa ng mga desisyon sa negosyo. Upang magamit ang mga prinsipyo ng data science sa pagpapatakbo ng negosyo, kailangang mangolekta muna ng data, ibig sabihin, isalin ang mga proseso ng negosyo sa digital na anyo. Ito ay tinatawag na **digitalisasyon**. Ang paggamit ng mga teknik ng data science sa data na ito upang gabayan ang mga desisyon ay maaaring magdulot ng makabuluhang pagtaas sa produktibidad (o kahit pagbabago ng negosyo), na tinatawag na **digital transformation**. +Sa nakaraang dekada, maraming negosyo ang nagsimulang maunawaan ang kahalagahan ng data sa paggawa ng mga desisyon sa negosyo. Upang magamit ang mga prinsipyo ng data science sa pagpapatakbo ng negosyo, kailangang mangolekta muna ng data, ibig sabihin, isalin ang mga proseso ng negosyo sa digital na anyo. Ito ay kilala bilang **digitalisasyon**. Ang paggamit ng mga teknik ng data science sa data na ito upang gabayan ang mga desisyon ay maaaring magdulot ng makabuluhang pagtaas sa produktibidad (o kahit pagbabago ng negosyo), na tinatawag na **digital transformation**. Isaalang-alang natin ang isang halimbawa. Ipagpalagay na mayroon tayong kurso sa data science (tulad ng kursong ito) na inihahatid online sa mga estudyante, at nais nating gamitin ang data science upang mapabuti ito. Paano natin ito magagawa? -Maaari tayong magsimula sa pagtatanong, "Ano ang maaaring i-digitize?" Ang pinakasimpleng paraan ay sukatin ang oras na ginugugol ng bawat estudyante upang makumpleto ang bawat module, at sukatin ang nakuha nilang kaalaman sa pamamagitan ng pagbibigay ng multiple-choice test sa dulo ng bawat module. Sa pamamagitan ng pag-average ng oras ng pagkumpleto sa lahat ng estudyante, maaari nating malaman kung aling mga module ang nagdudulot ng pinakamaraming kahirapan sa mga estudyante, at magtrabaho upang gawing mas simple ang mga ito. -Maaaring sabihin mo na hindi perpekto ang ganitong paraan, dahil maaaring magkakaiba ang haba ng mga module. Mas makatarungan siguro kung hahatiin ang oras batay sa haba ng module (sa bilang ng mga karakter), at ikumpara ang mga halagang iyon sa halip. +Maaari tayong magsimula sa pagtatanong, "Ano ang maaaring i-digitize?" Ang pinakasimpleng paraan ay sukatin ang oras na ginugugol ng bawat estudyante upang makumpleto ang bawat module, at sukatin ang nakuha nilang kaalaman sa pamamagitan ng pagbibigay ng multiple-choice test sa dulo ng bawat module. Sa pamamagitan ng pag-average ng oras ng pagkumpleto sa lahat ng estudyante, maaari nating malaman kung aling mga module ang nagdudulot ng pinakamaraming kahirapan sa mga estudyante, at magtrabaho sa pagpapasimple ng mga ito. +Maaaring sabihin mo na ang paraang ito ay hindi perpekto, dahil ang mga module ay maaaring magkakaiba ang haba. Mas makatarungan siguro kung hahatiin ang oras batay sa haba ng module (sa bilang ng mga karakter), at ikumpara ang mga halagang iyon sa halip. Kapag sinimulan nating suriin ang mga resulta ng mga multiple-choice na pagsusulit, maaari nating tukuyin kung aling mga konsepto ang mahirap maunawaan ng mga estudyante, at gamitin ang impormasyong iyon upang mapabuti ang nilalaman. Upang magawa ito, kailangan nating idisenyo ang mga pagsusulit sa paraang ang bawat tanong ay tumutukoy sa isang partikular na konsepto o bahagi ng kaalaman. -Kung nais nating gawing mas komplikado, maaari nating i-plot ang oras na ginugol sa bawat module laban sa kategorya ng edad ng mga estudyante. Maaaring matuklasan natin na para sa ilang kategorya ng edad, masyadong matagal ang ginugol upang makumpleto ang module, o na ang mga estudyante ay humihinto bago ito matapos. Makakatulong ito sa atin na magbigay ng mga rekomendasyon sa edad para sa module, at mabawasan ang pagkadismaya ng mga tao mula sa maling inaasahan. +Kung nais nating gawing mas komplikado, maaari nating i-plot ang oras na ginugol sa bawat module laban sa kategorya ng edad ng mga estudyante. Maaaring matuklasan natin na para sa ilang kategorya ng edad, masyadong matagal ang oras na kinakailangan upang makumpleto ang module, o kaya naman ay tumitigil ang mga estudyante bago ito matapos. Makakatulong ito sa atin na magbigay ng mga rekomendasyon sa edad para sa module, at mabawasan ang pagkadismaya ng mga tao mula sa maling inaasahan. ## 🚀 Hamon -Sa hamong ito, susubukan nating tukuyin ang mga konseptong may kaugnayan sa larangan ng Data Science sa pamamagitan ng pagsusuri sa mga teksto. Kukuha tayo ng isang artikulo mula sa Wikipedia tungkol sa Data Science, ida-download at ipoproseso ang teksto, at pagkatapos ay gagawa ng isang word cloud tulad nito: +Sa hamong ito, susubukan nating tukuyin ang mga konseptong may kaugnayan sa larangan ng Data Science sa pamamagitan ng pagsusuri sa mga teksto. Kukuha tayo ng isang artikulo mula sa Wikipedia tungkol sa Data Science, ida-download at ipoproseso ang teksto, at pagkatapos ay gagawa ng isang word cloud na ganito: -![Word Cloud para sa Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Word Cloud para sa Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.tl.png) -Bisitahin ang [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') upang basahin ang code. Maaari mo ring patakbuhin ang code, at makita kung paano nito isinasagawa ang lahat ng data transformations sa real time. +Bisitahin ang [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') upang basahin ang code. Maaari mo ring patakbuhin ang code, at makita kung paano nito isinasagawa ang lahat ng data transformations sa real time. > Kung hindi mo alam kung paano patakbuhin ang code sa isang Jupyter Notebook, tingnan ang [artikulong ito](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). @@ -66,7 +68,7 @@ Bisitahin ang [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-de ## Mga Gawain * **Gawain 1**: Baguhin ang code sa itaas upang tukuyin ang mga kaugnay na konsepto para sa mga larangan ng **Big Data** at **Machine Learning** -* **Gawain 2**: [Pag-isipan ang mga Senaryo ng Data Science](assignment.md) +* **Gawain 2**: [Pag-isipan ang mga Scenario ng Data Science](assignment.md) ## Mga Kredito diff --git a/translations/tr/1-Introduction/01-defining-data-science/README.md b/translations/tr/1-Introduction/01-defining-data-science/README.md index 610b0f7e..c1906159 100644 --- a/translations/tr/1-Introduction/01-defining-data-science/README.md +++ b/translations/tr/1-Introduction/01-defining-data-science/README.md @@ -1,72 +1,72 @@ ## Veri Türleri -Daha önce de belirttiğimiz gibi, veri her yerde. Sadece doğru şekilde yakalamamız gerekiyor! **Yapılandırılmış** ve **yapılandırılmamış** veri arasında ayrım yapmak faydalı olabilir. Yapılandırılmış veri genellikle bir tablo veya bir dizi tablo gibi iyi yapılandırılmış bir biçimde temsil edilirken, yapılandırılmamış veri sadece bir dosya koleksiyonudur. Bazen **yarı yapılandırılmış** veriden de bahsedebiliriz; bu tür veriler bir tür yapıya sahip olabilir ancak bu yapı büyük ölçüde değişkenlik gösterebilir. +Daha önce de belirttiğimiz gibi, veri her yerde. Sadece doğru şekilde yakalamamız gerekiyor! **Yapılandırılmış** ve **yapılandırılmamış** veri arasında ayrım yapmak faydalıdır. Yapılandırılmış veri genellikle bir tablo veya bir dizi tablo gibi iyi yapılandırılmış bir biçimde temsil edilirken, yapılandırılmamış veri sadece bir dosya koleksiyonudur. Bazen **yarı yapılandırılmış** veriden de bahsedebiliriz; bu tür veriler bir tür yapıya sahip olabilir ancak bu yapı büyük ölçüde değişkenlik gösterebilir. -| Yapılandırılmış | Yarı yapılandırılmış | Yapılandırılmamış | -| ---------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- | --------------------------------------- | -| İnsanların telefon numaralarıyla birlikte listesi | Bağlantılar içeren Wikipedia sayfaları | Encyclopedia Britannica'nın metni | -| Son 20 yılda bir binanın tüm odalarındaki her dakika sıcaklık ölçümleri | Yazarlar, yayın tarihi ve özet bilgileriyle JSON formatında bilimsel makaleler koleksiyonu | Kurumsal belgelerle dolu dosya paylaşımı | -| Binaya giren tüm insanların yaş ve cinsiyet bilgileri | İnternet sayfaları | Gözetim kamerasından gelen ham video akışı | +| Yapılandırılmış | Yarı yapılandırılmış | Yapılandırılmamış | +| ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | --------------------------------------- | +| Telefon numaralarıyla birlikte kişilerin listesi | Bağlantılar içeren Wikipedia sayfaları | Encyclopedia Britannica'nın metni | +| Son 20 yılda bir binanın tüm odalarındaki her dakika sıcaklık ölçümleri | Yazarlar, yayın tarihi ve özet bilgileriyle JSON formatında bilimsel makaleler koleksiyonu | Gözetim kamerasından gelen ham video | +| Binaya giren tüm kişilerin yaş ve cinsiyet bilgileri | İnternet sayfaları | Gözetim kamerasından gelen ham video | ## Veri Nereden Alınır? Veri elde edilebilecek birçok kaynak vardır ve hepsini listelemek imkansızdır! Ancak, bazı tipik veri kaynaklarını belirtelim: * **Yapılandırılmış** - - **Nesnelerin İnterneti** (IoT), sıcaklık veya basınç sensörleri gibi farklı sensörlerden gelen veriler dahil olmak üzere birçok faydalı veri sağlar. Örneğin, bir ofis binası IoT sensörleriyle donatılmışsa, maliyetleri en aza indirmek için ısıtma ve aydınlatmayı otomatik olarak kontrol edebiliriz. + - **Nesnelerin İnterneti** (IoT), sıcaklık veya basınç sensörleri gibi çeşitli sensörlerden gelen veriler dahil, birçok faydalı veri sağlar. Örneğin, bir ofis binası IoT sensörleriyle donatılmışsa, maliyetleri en aza indirmek için ısıtma ve aydınlatmayı otomatik olarak kontrol edebiliriz. - **Anketler**, kullanıcıların bir satın alma işleminden sonra veya bir web sitesini ziyaret ettikten sonra doldurmasını istediğimiz anketler. - **Davranış analizi**, örneğin bir kullanıcının bir siteye ne kadar derinlemesine girdiğini ve siteyi terk etme nedenlerini anlamamıza yardımcı olabilir. * **Yapılandırılmamış** - - **Metinler**, genel bir **duygu skoru** veya anahtar kelimeler ve anlamsal anlam çıkarma gibi zengin bir içgörü kaynağı olabilir. - - **Görüntüler** veya **Videolar**. Bir gözetim kamerasından gelen video, yoldaki trafik yoğunluğunu tahmin etmek ve insanları olası trafik sıkışıklıkları hakkında bilgilendirmek için kullanılabilir. - - Web sunucusu **Günlükleri**, sitemizin en sık ziyaret edilen sayfalarını ve bu sayfalarda ne kadar süre kalındığını anlamak için kullanılabilir. + - **Metinler**, genel bir **duygu skoru** veya anahtar kelimeler ve anlamsal anlam çıkarma gibi zengin bir bilgi kaynağı olabilir. + - **Görseller** veya **Videolar**. Bir gözetim kamerasından gelen video, yoldaki trafiği tahmin etmek ve insanları olası trafik sıkışıklıkları hakkında bilgilendirmek için kullanılabilir. + - Web sunucusu **Günlükleri**, sitemizin en sık ziyaret edilen sayfalarını ve ziyaret süresini anlamak için kullanılabilir. * **Yarı yapılandırılmış** - **Sosyal Ağ** grafikleri, kullanıcı kişilikleri ve bilgiyi yayma potansiyel etkinliği hakkında veri sağlamak için harika kaynaklar olabilir. - - Bir partiden bir dizi fotoğrafımız olduğunda, birbirleriyle fotoğraf çeken insanların grafiğini oluşturarak **Grup Dinamikleri** verilerini çıkarmaya çalışabiliriz. + - Bir partiden bir grup fotoğrafımız olduğunda, birbirleriyle fotoğraf çeken kişilerin grafiğini oluşturarak **Grup Dinamikleri** verilerini çıkarmaya çalışabiliriz. Farklı veri kaynaklarını bilerek, veri bilimi tekniklerinin durumu daha iyi anlamak ve iş süreçlerini iyileştirmek için uygulanabileceği farklı senaryoları düşünebilirsiniz. ## Veri ile Neler Yapabilirsiniz? -Veri Bilimi'nde, veri yolculuğunun şu adımlarına odaklanıyoruz: +Veri Bilimi'nde, veri yolculuğunun aşağıdaki adımlarına odaklanıyoruz: ## Dijitalleşme ve Dijital Dönüşüm -Son on yılda, birçok işletme iş kararları alırken verinin önemini anlamaya başladı. Veri bilimi ilkelerini bir işletmeyi yönetmek için uygulamak, önce bazı verileri toplamak, yani iş süreçlerini dijital forma dönüştürmek gerektirir. Bu, **dijitalleşme** olarak bilinir. Bu veriye veri bilimi tekniklerini uygulayarak kararları yönlendirmek, üretkenlikte önemli artışlara (hatta işin yön değiştirmesine) yol açabilir ve bu da **dijital dönüşüm** olarak adlandırılır. +Son on yılda, birçok işletme iş kararları alırken verinin önemini anlamaya başladı. Veri bilimi ilkelerini bir işletmeyi yönetmek için uygulamak için önce bazı veriler toplamak, yani iş süreçlerini dijital forma dönüştürmek gerekir. Bu, **dijitalleşme** olarak bilinir. Bu veriye veri bilimi tekniklerini uygulayarak kararları yönlendirmek, üretkenlikte önemli artışlara (hatta işin yön değiştirmesine) yol açabilir ve bu da **dijital dönüşüm** olarak adlandırılır. Bir örnek düşünelim. Diyelim ki öğrencilere çevrimiçi olarak sunduğumuz bir veri bilimi kursumuz var (tıpkı bu kurs gibi) ve bunu geliştirmek için veri bilimi kullanmak istiyoruz. Bunu nasıl yapabiliriz? -"Ne dijitalleştirilebilir?" sorusuyla başlayabiliriz. En basit yol, her öğrencinin her modülü tamamlaması için geçen süreyi ölçmek ve her modülün sonunda çoktan seçmeli bir test vererek elde edilen bilgiyi ölçmek olabilir. Tüm öğrenciler arasında tamamlanma süresini ortalama alarak, öğrenciler için en zorlayıcı olan modülleri bulabilir ve onları basitleştirmek için çalışabiliriz. +"Ne dijitalleştirilebilir?" sorusuyla başlayabiliriz. En basit yol, her öğrencinin her modülü tamamlaması için geçen süreyi ölçmek ve her modülün sonunda çoktan seçmeli bir test vererek elde edilen bilgiyi ölçmek olabilir. Tüm öğrenciler arasında tamamlanma süresini ortalama alarak, öğrenciler için en zorlayıcı olan modülleri bulabilir ve bunları basitleştirmek için çalışabiliriz. Bu yaklaşımın ideal olmadığını savunabilirsiniz, çünkü modüller farklı uzunluklarda olabilir. Zamanı modülün uzunluğuna (karakter sayısına göre) bölmek ve bu değerleri karşılaştırmak muhtemelen daha adil olacaktır. -Çoktan seçmeli testlerin sonuçlarını analiz etmeye başladığımızda, öğrencilerin anlamakta zorlandığı kavramları belirlemeye çalışabilir ve bu bilgiyi içeriği geliştirmek için kullanabiliriz. Bunu yapmak için, testleri her sorunun belirli bir kavram veya bilgi parçasıyla eşleştiği şekilde tasarlamamız gerekir. +Çoktan seçmeli testlerin sonuçlarını analiz etmeye başladığımızda, öğrencilerin anlamakta zorlandığı kavramları belirlemeye çalışabilir ve bu bilgiyi içeriği geliştirmek için kullanabiliriz. Bunu yapmak için, testleri her bir sorunun belirli bir kavram veya bilgi parçasıyla eşleştiği şekilde tasarlamamız gerekir. -Daha karmaşık bir analiz yapmak istersek, her modül için harcanan zamanı öğrencilerin yaş kategorilerine göre karşılaştırabiliriz. Bazı yaş kategorileri için modülü tamamlamak çok uzun zaman alıyor olabilir veya öğrenciler modülü tamamlamadan bırakıyor olabilir. Bu, modül için yaş önerileri sunmamıza ve yanlış beklentilerden kaynaklanan memnuniyetsizliği en aza indirmemize yardımcı olabilir. +Daha karmaşık bir analiz yapmak istersek, her modül için harcanan zamanı öğrencilerin yaş kategorilerine göre karşılaştırabiliriz. Bazı yaş grupları için modülü tamamlamanın gereğinden fazla uzun sürdüğünü veya öğrencilerin modülü tamamlamadan bıraktığını fark edebiliriz. Bu, modül için yaş önerileri sunmamıza ve yanlış beklentilerden kaynaklanan memnuniyetsizlikleri en aza indirmemize yardımcı olabilir. ## 🚀 Zorluk -Bu zorlukta, metinlere bakarak Veri Bilimi alanıyla ilgili kavramları bulmaya çalışacağız. Veri Bilimi ile ilgili bir Wikipedia makalesi alacağız, metni indirecek ve işleyeceğiz, ardından aşağıdaki gibi bir kelime bulutu oluşturacağız: +Bu zorlukta, metinlere bakarak Veri Bilimi alanıyla ilgili kavramları bulmaya çalışacağız. Veri Bilimi ile ilgili bir Wikipedia makalesi alacak, metni indirip işleyecek ve ardından şu şekilde bir kelime bulutu oluşturacağız: -![Veri Bilimi için Kelime Bulutu](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Veri Bilimi için Kelime Bulutu](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.tr.png) -Kodları incelemek için [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') dosyasını ziyaret edin. Kodları çalıştırabilir ve tüm veri dönüşümlerinin gerçek zamanlı olarak nasıl gerçekleştirildiğini görebilirsiniz. +Kodu incelemek için [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') dosyasını ziyaret edin. Ayrıca kodu çalıştırabilir ve tüm veri dönüşümlerinin gerçek zamanlı olarak nasıl yapıldığını görebilirsiniz. -> Jupyter Notebook'ta kod çalıştırmayı bilmiyorsanız, [bu makaleye](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) göz atabilirsiniz. +> Jupyter Notebook'ta kodun nasıl çalıştırılacağını bilmiyorsanız, [bu makaleye](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) göz atabilirsiniz. ## [Ders sonrası sınav](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## Ödevler * **Görev 1**: Yukarıdaki kodu değiştirerek **Büyük Veri** ve **Makine Öğrenimi** alanlarıyla ilgili kavramları bulun. -* **Görev 2**: [Veri Bilimi Senaryolarını Düşünün](assignment.md) +* **Görev 2**: [Veri Bilimi Senaryoları Üzerine Düşünün](assignment.md) ## Katkılar @@ -75,4 +75,4 @@ Bu ders, [Dmitry Soshnikov](http://soshnikov.com) tarafından ♥️ ile hazırl --- **Feragatname**: -Bu belge, [Co-op Translator](https://github.com/Azure/co-op-translator) adlı yapay zeka çeviri hizmeti kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlıklar içerebileceğini lütfen unutmayın. Belgenin orijinal dili, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlamalar veya yanlış yorumlamalar için sorumluluk kabul etmiyoruz. \ No newline at end of file +Bu belge, AI çeviri hizmeti [Co-op Translator](https://github.com/Azure/co-op-translator) kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlık içerebileceğini lütfen unutmayın. Belgenin orijinal dili, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlamalar veya yanlış yorumlamalardan sorumlu değiliz. \ No newline at end of file diff --git a/translations/tw/1-Introduction/01-defining-data-science/README.md b/translations/tw/1-Introduction/01-defining-data-science/README.md index e995d82f..439fdada 100644 --- a/translations/tw/1-Introduction/01-defining-data-science/README.md +++ b/translations/tw/1-Introduction/01-defining-data-science/README.md @@ -1,78 +1,122 @@ -## 資料的類型 +# 定義數據科學 -如前所述,資料無處不在。我們只需要以正確的方式捕捉它!區分 **結構化資料** 和 **非結構化資料** 是很有幫助的。前者通常以某種良好的結構形式表示,通常是表格或多個表格,而後者則僅僅是一堆檔案。有時我們也會提到 **半結構化資料**,它具有某種結構,但可能差異很大。 +| ![由 [(@sketchthedocs)](https://sketchthedocs.dev) 繪製的手繪筆記](../../sketchnotes/01-Definitions.png) | +| :----------------------------------------------------------------------------------------------------: | +| 定義數據科學 - _由 [@nitya](https://twitter.com/nitya) 繪製的手繪筆記_ | -| 結構化資料 | 半結構化資料 | 非結構化資料 | -| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | -| 人員名單及其電話號碼 | 帶有連結的維基百科頁面 | 《大英百科全書》的文本 | -| 過去 20 年中每分鐘建築物所有房間的溫度 | 以 JSON 格式存儲的科學論文集合,包括作者、出版日期和摘要 | 包含公司文件的檔案共享 | -| 進入建築物的所有人員的年齡和性別資料 | 網頁 | 監控攝像頭的原始視頻流 | +--- + +[![定義數據科學影片](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.tw.png)](https://youtu.be/beZ7Mb_oz9I) + +## [課前測驗](https://ff-quizzes.netlify.app/en/ds/quiz/0) + +## 什麼是數據? +在我們的日常生活中,我們無時無刻不被數據包圍著。你現在正在閱讀的文字就是數據。你手機裡朋友的電話號碼列表是數據,你手錶上顯示的當前時間也是數據。作為人類,我們天生就會處理數據,比如數錢或者給朋友寫信。 + +然而,隨著計算機的誕生,數據變得更加重要。計算機的主要功能是執行計算,但它們需要數據來操作。因此,我們需要了解計算機如何存儲和處理數據。 + +隨著互聯網的出現,計算機作為數據處理設備的角色進一步增強。如果你仔細想想,我們現在使用計算機更多的是進行數據處理和通信,而不是純粹的計算。當我們給朋友寫電子郵件或在互聯網上搜索信息時,本質上就是在創建、存儲、傳輸和操作數據。 +> 你能記得上一次真正用計算機來計算是什麼時候嗎? + +## 什麼是數據科學? + +根據 [維基百科](https://en.wikipedia.org/wiki/Data_science),**數據科學**被定義為*一個使用科學方法從結構化和非結構化數據中提取知識和洞察力,並將這些知識和可行的洞察應用於廣泛應用領域的科學領域*。 + +這一定義突出了數據科學的以下重要方面: + +* 數據科學的主要目的是從數據中**提取知識**,換句話說,就是**理解**數據,發現隱藏的關係並建立**模型**。 +* 數據科學使用**科學方法**,例如概率和統計。事實上,當*數據科學*這個術語首次出現時,有些人認為數據科學只是統計學的一個新潮名稱。然而,現在已經很明顯,這個領域遠不止於此。 +* 獲得的知識應用於產生一些**可行的洞察**,即可以應用於實際商業情境的實用洞察。 +* 我們應該能夠處理**結構化**和**非結構化**數據。我們稍後會在課程中討論不同類型的數據。 +* **應用領域**是一個重要的概念,數據科學家通常需要對問題領域(例如金融、醫學、營銷等)有一定程度的專業知識。 + +> 數據科學的另一個重要方面是研究如何使用計算機收集、存儲和操作數據。雖然統計學為我們提供了數學基礎,數據科學則將數學概念應用於實際從數據中提取洞察。 + +一種看待數據科學的方法(歸因於 [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist)))是將其視為一種獨立的科學範式: +* **經驗科學**,主要依賴觀察和實驗結果 +* **理論科學**,從現有的科學知識中產生新概念 +* **計算科學**,通過計算實驗發現新原則 +* **數據驅動科學**,基於發現數據中的關係和模式 + +## 其他相關領域 + +由於數據無處不在,數據科學本身也是一個廣泛的領域,涉及許多其他學科。 + +## 數據的類型 + +如前所述,數據無處不在。我們只需要以正確的方式捕捉它!區分**結構化**和**非結構化**數據是很有用的。前者通常以某種結構化的形式表示,通常是表格或多個表格,而後者則只是文件的集合。有時我們還可以談到**半結構化**數據,它具有某種結構,但可能差異很大。 + +| 結構化數據 | 半結構化數據 | 非結構化數據 | +| -------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | ------------------------------------- | +| 包含人員及其電話號碼的列表 | 包含鏈接的維基百科頁面 | 《大英百科全書》的文本 | +| 過去 20 年內每分鐘建築物內所有房間的溫度 | 以 JSON 格式存儲的科學論文集合,包含作者、發表日期和摘要 | 包含公司文件的文件共享 | +| 所有進入建築物人員的年齡和性別數據 | 網頁 | 監控攝像頭的原始視頻流 | -## 資料的來源 +## 數據的來源 -資料的來源有很多,幾乎不可能列出所有可能的來源!然而,我們可以提到一些典型的資料來源: +數據的來源有很多,幾乎無法一一列舉!然而,我們可以提到一些典型的數據來源: -* **結構化資料** - - **物聯網** (IoT),包括來自不同感測器(如溫度或壓力感測器)的資料,提供了大量有用的資訊。例如,如果辦公樓配備了物聯網感測器,我們可以自動控制供暖和照明以降低成本。 - - **問卷調查**,例如在購買後或訪問網站後要求用戶完成的調查。 - - **行為分析**,例如幫助我們了解用戶在網站上的瀏覽深度,以及離開網站的典型原因。 -* **非結構化資料** - - **文本**可以提供豐富的洞察,例如整體 **情感分數**,或提取關鍵字和語義。 - - **圖片**或 **視頻**。監控攝像頭的視頻可以用來估算道路上的交通流量,並通知人們可能的交通堵塞。 - - 網頁伺服器的 **日誌** 可以用來了解我們網站上最常被訪問的頁面,以及訪問時長。 -* **半結構化資料** - - **社交網絡**圖表可以提供有關用戶個性及其在信息傳播中的潛在影響力的資料。 - - 當我們擁有一堆派對照片時,我們可以嘗試通過建立人們互相拍照的圖表來提取 **群體動態** 資料。 +* **結構化數據** + - **物聯網**(IoT),包括來自不同傳感器(如溫度或壓力傳感器)的數據,提供了大量有用的數據。例如,如果一棟辦公樓配備了物聯網傳感器,我們可以自動控制供暖和照明以降低成本。 + - **調查問卷**,例如在購物後或訪問網站後請用戶完成的問卷。 + - **行為分析**,例如可以幫助我們了解用戶在網站上的瀏覽深度,以及離開網站的典型原因。 +* **非結構化數據** + - **文本**可以是豐富的洞察來源,例如整體**情感分數**,或提取關鍵詞和語義含義。 + - **圖像**或**視頻**。來自監控攝像頭的視頻可以用於估算道路上的交通情況,並通知人們潛在的交通堵塞。 + - 網絡服務器的**日誌**可以用於了解我們網站上哪些頁面最常被訪問,以及訪問時長。 +* **半結構化數據** + - **社交網絡**圖譜可以是關於用戶個性和信息傳播潛在效果的絕佳數據來源。 + - 當我們擁有一堆派對照片時,我們可以通過構建人們互相拍照的圖譜來嘗試提取**群體動態**數據。 -了解不同的資料來源後,您可以嘗試思考不同的場景,看看資料科學技術如何應用於更好地了解情況並改善業務流程。 +通過了解不同的數據來源,你可以嘗試思考不同的場景,看看數據科學技術如何應用於更好地了解情況並改進業務流程。 -## 資料的用途 +## 數據可以做什麼 -在資料科學中,我們專注於資料旅程的以下步驟: +在數據科學中,我們專注於數據旅程的以下步驟: -當然,根據實際資料的情況,有些步驟可能會缺失(例如,當資料已經存在於資料庫中,或者我們不需要模型訓練時),或者某些步驟可能會重複多次(例如資料處理)。 +當然,根據實際數據的情況,有些步驟可能會缺失(例如,當我們已經擁有數據庫中的數據,或者當我們不需要模型訓練時),或者某些步驟可能會重複多次(例如數據處理)。 -## 數位化與數位轉型 +## 數字化與數字化轉型 -在過去十年中,許多企業開始意識到在做出業務決策時資料的重要性。要將資料科學原則應用於業務運營,首先需要收集一些資料,即將業務流程轉化為數位形式。這被稱為 **數位化**。將資料科學技術應用於這些資料以指導決策,可以顯著提高生產力(甚至可能使業務轉型),這被稱為 **數位轉型**。 +在過去十年中,許多企業開始意識到在做出業務決策時數據的重要性。要將數據科學原則應用於業務運營,首先需要收集一些數據,即將業務流程轉化為數字形式,這被稱為**數字化**。將數據科學技術應用於這些數據以指導決策,可以顯著提高生產力(甚至可能導致業務轉型),這被稱為**數字化轉型**。 -讓我們來看一個例子。假設我們有一門資料科學課程(如本課程),我們在線上向學生提供,並希望利用資料科學來改進它。我們該怎麼做? +讓我們考慮一個例子。假設我們有一門數據科學課程(比如這門課程),我們在線上向學生提供,並希望利用數據科學來改進它。我們該怎麼做? -我們可以從問「什麼可以數位化?」開始。最簡單的方法是測量每位學生完成每個模組所需的時間,並通過在每個模組結束時進行選擇題測試來測量所獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模組對學生來說最具挑戰性,並著手簡化它們。 +我們可以從問「什麼可以數字化?」開始。最簡單的方法是測量每位學生完成每個模塊所需的時間,並通過在每個模塊結束時進行選擇題測試來測量獲得的知識。通過計算所有學生的平均完成時間,我們可以找出哪些模塊對學生來說最困難,並著手簡化它們。 你可能會認為這種方法並不理想,因為模組的長度可能不同。或許更公平的做法是將時間除以模組的長度(以字元數計算),然後比較這些值。 -當我們開始分析多選題測試的結果時,可以嘗試找出學生難以理解的概念,並利用這些資訊改進內容。為了達到這個目的,我們需要設計測試,使每個問題都能對應到某個特定概念或知識塊。 +當我們開始分析多選測試的結果時,可以嘗試找出學生難以理解的概念,並利用這些資訊改進內容。為了達到這個目的,我們需要設計測試,使每個問題都能對應到某個特定概念或知識塊。 -如果我們想進一步深入分析,可以將每個模組所需的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生完成模組所需的時間過長,或者在完成之前就中途退出。這些資訊可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。 +如果我們想進一步深入分析,可以將每個模組所需的時間與學生的年齡類別進行對比。我們可能會發現某些年齡類別的學生完成模組所需的時間過長,或者在完成之前就退出了。這可以幫助我們為模組提供年齡建議,並減少因錯誤期望而導致的不滿。 ## 🚀 挑戰 -在這次挑戰中,我們將透過分析文本來尋找與資料科學領域相關的概念。我們會選取一篇關於資料科學的維基百科文章,下載並處理文本,然後建立一個像這樣的文字雲: +在這個挑戰中,我們將嘗試通過分析文本來找出與數據科學領域相關的概念。我們會選取一篇關於數據科學的維基百科文章,下載並處理文本,然後生成一個像這樣的文字雲: -![資料科學文字雲](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![數據科學文字雲](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.tw.png) -請訪問 [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 閱讀程式碼。您也可以執行程式碼,並即時查看它如何進行所有的資料轉換。 +訪問 [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 來閱讀代碼。你也可以運行代碼,並查看它如何在實時中執行所有數據轉換。 -> 如果您不知道如何在 Jupyter Notebook 中執行程式碼,可以參考 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。 +> 如果你不知道如何在 Jupyter Notebook 中運行代碼,可以查看 [這篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。 ## [課後測驗](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## 作業 -* **任務 1**:修改上述程式碼,找出與 **大數據** 和 **機器學習** 領域相關的概念 -* **任務 2**:[思考資料科學場景](assignment.md) +* **任務 1**:修改上述代碼,找出與 **大數據** 和 **機器學習** 領域相關的概念 +* **任務 2**:[思考數據科學場景](assignment.md) ## 致謝 -這節課由 [Dmitry Soshnikov](http://soshnikov.com) 用 ♥️ 編寫完成 +這節課由 [Dmitry Soshnikov](http://soshnikov.com) 用 ♥️ 編寫。 --- diff --git a/translations/uk/1-Introduction/01-defining-data-science/README.md b/translations/uk/1-Introduction/01-defining-data-science/README.md index 942b65fb..9f72ad53 100644 --- a/translations/uk/1-Introduction/01-defining-data-science/README.md +++ b/translations/uk/1-Introduction/01-defining-data-science/README.md @@ -1,35 +1,35 @@ ## Типи даних -Як ми вже згадували, дані є всюди. Нам лише потрібно правильно їх захопити! Корисно розрізняти **структуровані** та **неструктуровані** дані. Перші зазвичай представлені у добре структурованій формі, часто у вигляді таблиці або кількох таблиць, тоді як другі — це просто набір файлів. Іноді ми також можемо говорити про **напівструктуровані** дані, які мають певну структуру, що може значно варіюватися. +Як ми вже згадували, дані є всюди. Нам лише потрібно правильно їх захопити! Корисно розрізняти **структуровані** та **неструктуровані** дані. Перші зазвичай представлені у добре структурованій формі, часто у вигляді таблиці або кількох таблиць, тоді як другі — це просто набір файлів. Іноді також можна говорити про **напівструктуровані** дані, які мають певну структуру, що може значно варіюватися. -| Структуровані | Напівструктуровані | Неструктуровані | -| -------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------- | ---------------------------------------- | -| Список людей з їхніми номерами телефонів | Сторінки Вікіпедії з посиланнями | Текст Енциклопедії Британіка | -| Температура у всіх кімнатах будівлі кожної хвилини за останні 20 років | Колекція наукових статей у форматі JSON з авторами, датою публікації та анотацією | Файловий архів з корпоративними документами | -| Дані про вік і стать всіх людей, які заходять у будівлю | Інтернет-сторінки | Сировий відеопотік з камери спостереження | +| Структуровані | Напівструктуровані | Неструктуровані | +| -------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------- | ---------------------------------------- | +| Список людей з їхніми номерами телефонів | Сторінки Вікіпедії з посиланнями | Текст Енциклопедії Британіка | +| Температура у всіх кімнатах будівлі кожної хвилини за останні 20 років | Колекція наукових статей у форматі JSON з авторами, датою публікації та анотацією | Файловий архів з корпоративними документами | +| Дані про вік і стать всіх людей, які заходять у будівлю | Інтернет-сторінки | Сировий відеопотік із камери спостереження | ## Де отримати дані Існує багато можливих джерел даних, і неможливо перерахувати всі! Однак, давайте згадаємо деякі типові місця, де можна отримати дані: * **Структуровані** - - **Інтернет речей** (IoT), включаючи дані з різних датчиків, таких як датчики температури або тиску, забезпечує багато корисних даних. Наприклад, якщо офісна будівля обладнана IoT-датчиками, ми можемо автоматично контролювати опалення та освітлення, щоб мінімізувати витрати. + - **Інтернет речей** (IoT), включаючи дані з різних датчиків, таких як датчики температури або тиску, надає багато корисних даних. Наприклад, якщо офісна будівля обладнана IoT-датчиками, ми можемо автоматично контролювати опалення та освітлення, щоб мінімізувати витрати. - **Опитування**, які ми просимо користувачів заповнити після покупки або після відвідування вебсайту. - **Аналіз поведінки** може, наприклад, допомогти нам зрозуміти, наскільки глибоко користувач досліджує сайт і яка типова причина його залишення. * **Неструктуровані** - **Тексти** можуть бути багатим джерелом інсайтів, таких як загальний **індекс настрою** або витяг ключових слів і семантичного значення. - **Зображення** або **відео**. Відео з камери спостереження може бути використане для оцінки трафіку на дорозі та інформування людей про потенційні затори. - **Логи вебсерверів** можуть бути використані для розуміння, які сторінки нашого сайту найчастіше відвідуються і як довго. -* **Напівструктуровані** +* Напівструктуровані - **Графи соціальних мереж** можуть бути чудовими джерелами даних про особистості користувачів і потенційну ефективність поширення інформації. - Коли у нас є купа фотографій з вечірки, ми можемо спробувати витягти дані про **групову динаміку**, створивши граф людей, які фотографуються разом. @@ -39,33 +39,33 @@ CO_OP_TRANSLATOR_METADATA: У науці про дані ми зосереджуємося на наступних етапах роботи з даними: -## Цифровізація та цифрова трансформація +## Оцифрування та цифрова трансформація -За останнє десятиліття багато бізнесів почали розуміти важливість даних при прийнятті бізнес-рішень. Щоб застосувати принципи науки про дані до ведення бізнесу, спочатку потрібно зібрати деякі дані, тобто перевести бізнес-процеси у цифрову форму. Це називається **цифровізацією**. Застосування технік науки про дані до цих даних для прийняття рішень може призвести до значного підвищення продуктивності (або навіть до зміни напрямку бізнесу), що називається **цифровою трансформацією**. +За останнє десятиліття багато бізнесів почали розуміти важливість даних при прийнятті бізнес-рішень. Щоб застосувати принципи науки про дані до управління бізнесом, спочатку потрібно зібрати деякі дані, тобто перевести бізнес-процеси у цифрову форму. Це називається **оцифруванням**. Застосування технік науки про дані до цих даних для прийняття рішень може призвести до значного підвищення продуктивності (або навіть до зміни напрямку бізнесу), що називається **цифровою трансформацією**. Розглянемо приклад. Припустимо, у нас є курс з науки про дані (як цей), який ми проводимо онлайн для студентів, і ми хочемо використати науку про дані для його покращення. Як ми можемо це зробити? -Ми можемо почати з питання "Що можна оцифрувати?" Найпростіший спосіб — виміряти час, який кожен студент витрачає на завершення кожного модуля, і оцінити отримані знання, провівши тест з вибором відповідей наприкінці кожного модуля. Усереднюючи час завершення серед усіх студентів, ми можемо визначити, які модулі викликають найбільші труднощі у студентів, і працювати над їх спрощенням. -Можна стверджувати, що цей підхід не є ідеальним, оскільки модулі можуть мати різну довжину. Можливо, більш справедливим буде розділити час на довжину модуля (у кількості символів) і порівнювати ці значення замість цього. -Коли ми починаємо аналізувати результати тестів з вибором відповіді, ми можемо спробувати визначити, які концепції викликають труднощі у студентів, і використати цю інформацію для покращення контенту. Для цього необхідно створити тести таким чином, щоб кожне питання відповідало певній концепції або частині знань. +Ми можемо почати з питання "Що можна оцифрувати?" Найпростіший спосіб — виміряти час, який кожен студент витрачає на завершення кожного модуля, і оцінити отримані знання, провівши тест з вибором варіантів відповіді наприкінці кожного модуля. Усереднюючи час завершення серед усіх студентів, ми можемо визначити, які модулі викликають найбільші труднощі у студентів, і працювати над їх спрощенням. +Можна стверджувати, що цей підхід не є ідеальним, оскільки модулі можуть мати різну довжину. Ймовірно, більш справедливим було б поділити час на довжину модуля (у кількості символів) і порівнювати саме ці значення. +Коли ми починаємо аналізувати результати тестів з множинним вибором, ми можемо спробувати визначити, які концепції викликають труднощі у студентів, і використати цю інформацію для покращення контенту. Для цього необхідно створити тести таким чином, щоб кожне питання відповідало певній концепції або частині знань. -Якщо ми хочемо зробити аналіз ще складнішим, ми можемо зіставити час, витрачений на кожен модуль, із віковою категорією студентів. Можливо, ми виявимо, що для деяких вікових категорій проходження модуля займає надто багато часу або що студенти припиняють навчання, не завершивши модуль. Це може допомогти нам надати вікові рекомендації для модуля та мінімізувати незадоволення через неправильні очікування. +Якщо ми хочемо зробити аналіз ще складнішим, ми можемо зіставити час, витрачений на кожен модуль, з віковою категорією студентів. Можливо, ми виявимо, що для деяких вікових категорій проходження модуля займає надто багато часу або що студенти припиняють навчання, не завершивши модуль. Це може допомогти нам надати вікові рекомендації для модуля та мінімізувати незадоволення людей через неправильні очікування. ## 🚀 Виклик -У цьому завданні ми спробуємо знайти концепції, пов’язані з галуззю Data Science, аналізуючи тексти. Ми візьмемо статтю з Вікіпедії про Data Science, завантажимо та обробимо текст, а потім створимо хмару слів, схожу на цю: +У цьому виклику ми спробуємо знайти концепції, пов’язані з галуззю Data Science, аналізуючи тексти. Ми візьмемо статтю з Вікіпедії про Data Science, завантажимо та обробимо текст, а потім створимо хмару слів, схожу на цю: -![Хмара слів для Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Хмара слів для Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.uk.png) -Перейдіть до [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), щоб ознайомитися з кодом. Ви також можете запустити код і побачити, як він виконує всі перетворення даних у реальному часі. +Перейдіть до [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), щоб ознайомитися з кодом. Ви також можете запустити код і побачити, як він виконує всі перетворення даних у реальному часі. -> Якщо ви не знаєте, як запускати код у Jupyter Notebook, перегляньте [цю статтю](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). +> Якщо ви не знаєте, як запускати код у Jupyter Notebook, ознайомтеся з [цією статтею](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). ## [Тест після лекції](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## Завдання -* **Завдання 1**: Змініть наведений вище код, щоб знайти пов’язані концепції для галузей **Big Data** та **Machine Learning**. +* **Завдання 1**: Змініть код вище, щоб знайти пов’язані концепції для галузей **Big Data** та **Machine Learning** * **Завдання 2**: [Подумайте про сценарії Data Science](assignment.md) ## Авторство @@ -75,4 +75,4 @@ CO_OP_TRANSLATOR_METADATA: --- **Відмова від відповідальності**: -Цей документ був перекладений за допомогою сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ на його рідній мові слід вважати авторитетним джерелом. Для критичної інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникають внаслідок використання цього перекладу. \ No newline at end of file +Цей документ було перекладено за допомогою сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоча ми прагнемо до точності, зверніть увагу, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ мовою оригіналу слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу. \ No newline at end of file diff --git a/translations/ur/1-Introduction/01-defining-data-science/README.md b/translations/ur/1-Introduction/01-defining-data-science/README.md index 197213fa..3dfb248c 100644 --- a/translations/ur/1-Introduction/01-defining-data-science/README.md +++ b/translations/ur/1-Introduction/01-defining-data-science/README.md @@ -1,65 +1,63 @@ ## ڈیٹا کی اقسام -جیسا کہ ہم پہلے ذکر کر چکے ہیں، ڈیٹا ہر جگہ موجود ہے۔ ہمیں صرف اسے صحیح طریقے سے حاصل کرنے کی ضرورت ہے! یہ مفید ہے کہ ہم **منظم** اور **غیر منظم** ڈیٹا کے درمیان فرق کریں۔ منظم ڈیٹا عام طور پر کسی اچھی طرح سے ترتیب دی گئی شکل میں پیش کیا جاتا ہے، اکثر ایک جدول یا کئی جدولوں کی صورت میں، جبکہ غیر منظم ڈیٹا صرف فائلوں کا ایک مجموعہ ہوتا ہے۔ بعض اوقات ہم **نیم منظم** ڈیٹا کے بارے میں بھی بات کر سکتے ہیں، جس میں کسی حد تک ایک ڈھانچہ ہوتا ہے جو بہت مختلف ہو سکتا ہے۔ +جیسا کہ ہم پہلے ذکر کر چکے ہیں، ڈیٹا ہر جگہ موجود ہے۔ ہمیں صرف اسے صحیح طریقے سے حاصل کرنے کی ضرورت ہے! یہ مفید ہے کہ ہم **منظم** اور **غیر منظم** ڈیٹا کے درمیان فرق کریں۔ منظم ڈیٹا عام طور پر کسی اچھی طرح سے ترتیب دی گئی شکل میں پیش کیا جاتا ہے، اکثر ایک ٹیبل یا کئی ٹیبلز کی صورت میں، جبکہ غیر منظم ڈیٹا صرف فائلوں کا مجموعہ ہوتا ہے۔ کبھی کبھار ہم **نیم منظم** ڈیٹا کے بارے میں بھی بات کر سکتے ہیں، جس میں کچھ حد تک ساخت ہوتی ہے جو بہت مختلف ہو سکتی ہے۔ -| منظم | نیم منظم | غیر منظم | -| ------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- | ------------------------------------- | -| لوگوں کی فہرست ان کے فون نمبروں کے ساتھ | ویکیپیڈیا کے صفحات جن میں لنکس شامل ہیں | انسائیکلوپیڈیا برٹانیکا کا متن | -| ایک عمارت کے تمام کمروں میں پچھلے 20 سال کے ہر منٹ کا درجہ حرارت | سائنسی مقالوں کا مجموعہ JSON فارمیٹ میں، جس میں مصنفین، اشاعت کی تاریخ، اور خلاصہ شامل ہیں | کارپوریٹ دستاویزات کے ساتھ فائل شیئر | -| عمارت میں داخل ہونے والے تمام لوگوں کی عمر اور جنس کا ڈیٹا | انٹرنیٹ کے صفحات | نگرانی کیمرے سے خام ویڈیو فیڈ | +| منظم ڈیٹا | نیم منظم ڈیٹا | غیر منظم ڈیٹا | +| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | +| لوگوں کی فہرست ان کے فون نمبرز کے ساتھ | ویکیپیڈیا کے صفحات لنکس کے ساتھ | انسائیکلوپیڈیا بریٹانیکا کا متن | +| ایک عمارت کے تمام کمروں میں ہر منٹ کے درجہ حرارت کا 20 سال کا ڈیٹا | سائنسی مقالوں کا مجموعہ JSON فارمیٹ میں، مصنفین، اشاعت کی تاریخ، اور خلاصہ کے ساتھ | کارپوریٹ دستاویزات کے ساتھ فائل شیئر | +| عمارت میں داخل ہونے والے تمام لوگوں کی عمر اور جنس کا ڈیٹا | انٹرنیٹ کے صفحات | نگرانی کیمرے سے خام ویڈیو فیڈ | ## ڈیٹا کہاں سے حاصل کریں ڈیٹا کے بہت سے ممکنہ ذرائع ہیں، اور ان سب کو فہرست میں شامل کرنا ناممکن ہوگا! تاہم، آئیے کچھ عام جگہوں کا ذکر کرتے ہیں جہاں سے آپ ڈیٹا حاصل کر سکتے ہیں: -* **منظم** - - **انٹرنیٹ آف تھنگز** (IoT)، جس میں مختلف سینسرز جیسے درجہ حرارت یا دباؤ سینسرز شامل ہیں، بہت سا مفید ڈیٹا فراہم کرتے ہیں۔ مثال کے طور پر، اگر ایک دفتر کی عمارت IoT سینسرز سے لیس ہو، تو ہم خودکار طور پر حرارت اور روشنی کو کنٹرول کر سکتے ہیں تاکہ اخراجات کو کم کیا جا سکے۔ - - **سروے** جو ہم صارفین سے خریداری کے بعد یا ویب سائٹ دیکھنے کے بعد مکمل کرنے کو کہتے ہیں۔ - - **رویے کا تجزیہ**، جو ہمیں یہ سمجھنے میں مدد دے سکتا ہے کہ صارف ویب سائٹ پر کتنی گہرائی میں جاتا ہے، اور عام طور پر ویب سائٹ چھوڑنے کی وجہ کیا ہوتی ہے۔ -* **غیر منظم** - - **متن** ایک بھرپور معلوماتی ذریعہ ہو سکتا ہے، جیسے مجموعی **جذباتی اسکور**، یا کلیدی الفاظ اور معنوی معنی نکالنا۔ +* **منظم ڈیٹا** + - **انٹرنیٹ آف تھنگز** (IoT)، بشمول مختلف سینسرز جیسے درجہ حرارت یا دباؤ سینسرز، بہت سا مفید ڈیٹا فراہم کرتے ہیں۔ مثال کے طور پر، اگر ایک دفتر کی عمارت IoT سینسرز سے لیس ہو، تو ہم خودکار طور پر حرارت اور روشنی کو کنٹرول کر سکتے ہیں تاکہ اخراجات کو کم کیا جا سکے۔ + - **سروے** جو ہم صارفین سے خریداری کے بعد یا ویب سائٹ کے دورے کے بعد مکمل کرنے کو کہتے ہیں۔ + - **رویے کا تجزیہ**، جو ہمیں یہ سمجھنے میں مدد دے سکتا ہے کہ صارف ویب سائٹ پر کتنی گہرائی تک جاتا ہے، اور عام طور پر ویب سائٹ چھوڑنے کی وجہ کیا ہوتی ہے۔ +* **غیر منظم ڈیٹا** + - **متن**، جو بصیرت کا ایک بھرپور ذریعہ ہو سکتا ہے، جیسے مجموعی **جذباتی سکور**، یا کلیدی الفاظ اور معنوی معنی نکالنا۔ - **تصاویر** یا **ویڈیوز**۔ نگرانی کیمرے سے ویڈیو سڑک پر ٹریفک کا اندازہ لگانے کے لیے استعمال کی جا سکتی ہے، اور لوگوں کو ممکنہ ٹریفک جام کے بارے میں مطلع کر سکتی ہے۔ - - ویب سرور کے **لاگز** یہ سمجھنے کے لیے استعمال کیے جا سکتے ہیں کہ ہماری ویب سائٹ کے کون سے صفحات سب سے زیادہ دیکھے جاتے ہیں، اور کتنی دیر تک۔ -* **نیم منظم** - - **سوشل نیٹ ورک** گراف صارفین کی شخصیات اور معلومات پھیلانے میں ان کی ممکنہ تاثیر کے بارے میں ڈیٹا کے بہترین ذرائع ہو سکتے ہیں۔ - - جب ہمارے پاس پارٹی کی تصاویر کا ایک مجموعہ ہو، تو ہم لوگوں کے ایک دوسرے کے ساتھ تصاویر لینے کے گراف بنا کر **گروپ ڈائنامکس** کا ڈیٹا نکالنے کی کوشش کر سکتے ہیں۔ + - ویب سرور **لاگز**، جو ہمیں یہ سمجھنے میں مدد دے سکتے ہیں کہ ہماری ویب سائٹ کے کون سے صفحات سب سے زیادہ دیکھے جاتے ہیں، اور کتنی دیر تک۔ +* نیم منظم ڈیٹا + - **سوشل نیٹ ورک** گراف، جو صارفین کی شخصیات اور معلومات پھیلانے میں ممکنہ تاثیر کے بارے میں ڈیٹا کا ایک بہترین ذریعہ ہو سکتے ہیں۔ + - جب ہمارے پاس پارٹی کی تصاویر کا ایک مجموعہ ہو، تو ہم **گروپ ڈائنامکس** ڈیٹا نکالنے کی کوشش کر سکتے ہیں، لوگوں کے ایک دوسرے کے ساتھ تصاویر لینے کے گراف بنا کر۔ مختلف ممکنہ ڈیٹا ذرائع کو جان کر، آپ مختلف منظرناموں کے بارے میں سوچ سکتے ہیں جہاں ڈیٹا سائنس کی تکنیکوں کو بہتر طور پر صورتحال کو سمجھنے اور کاروباری عمل کو بہتر بنانے کے لیے لاگو کیا جا سکتا ہے۔ -## ڈیٹا کے ساتھ آپ کیا کر سکتے ہیں +## ڈیٹا کے ساتھ کیا کر سکتے ہیں -ڈیٹا سائنس میں، ہم ڈیٹا کے سفر کے درج ذیل مراحل پر توجہ مرکوز کرتے ہیں: - -یقیناً، اصل ڈیٹا پر منحصر ہے، کچھ مراحل غائب ہو سکتے ہیں (مثال کے طور پر، جب ہمارے پاس پہلے سے ہی ڈیٹا ڈیٹا بیس میں موجود ہو، یا جب ہمیں ماڈل کی تربیت کی ضرورت نہ ہو)، یا کچھ مراحل کئی بار دہرائے جا سکتے ہیں (جیسے ڈیٹا پروسیسنگ)۔ +ڈیٹا سائنس میں، ہم ڈیٹا کے سفر کے درج ذیل مراحل پر توجہ دیتے ہیں: ## ڈیجیٹلائزیشن اور ڈیجیٹل ٹرانسفارمیشن -پچھلی دہائی میں، بہت سے کاروباروں نے یہ سمجھنا شروع کیا کہ کاروباری فیصلے کرتے وقت ڈیٹا کی اہمیت کتنی زیادہ ہے۔ کاروبار چلانے کے لیے ڈیٹا سائنس کے اصولوں کو لاگو کرنے کے لیے، سب سے پہلے کچھ ڈیٹا جمع کرنا ضروری ہے، یعنی کاروباری عمل کو ڈیجیٹل شکل میں تبدیل کرنا۔ اسے **ڈیجیٹلائزیشن** کہا جاتا ہے۔ اس ڈیٹا پر ڈیٹا سائنس کی تکنیکوں کو لاگو کرنا تاکہ فیصلوں کی رہنمائی کی جا سکے، پیداواریت میں نمایاں اضافہ (یا یہاں تک کہ کاروباری تبدیلی) کا باعث بن سکتا ہے، جسے **ڈیجیٹل ٹرانسفارمیشن** کہا جاتا ہے۔ +پچھلی دہائی میں، بہت سے کاروباروں نے یہ سمجھنا شروع کیا کہ کاروباری فیصلے کرتے وقت ڈیٹا کی اہمیت کتنی زیادہ ہے۔ ڈیٹا سائنس کے اصولوں کو کاروبار چلانے پر لاگو کرنے کے لیے، سب سے پہلے کچھ ڈیٹا جمع کرنا ضروری ہے، یعنی کاروباری عمل کو ڈیجیٹل شکل میں تبدیل کرنا۔ اسے **ڈیجیٹلائزیشن** کہا جاتا ہے۔ اس ڈیٹا پر ڈیٹا سائنس کی تکنیکوں کو لاگو کرنا، فیصلوں کی رہنمائی کے لیے، پیداواریت میں نمایاں اضافہ (یا یہاں تک کہ کاروباری تبدیلی) کا باعث بن سکتا ہے، جسے **ڈیجیٹل ٹرانسفارمیشن** کہا جاتا ہے۔ -آئیے ایک مثال پر غور کریں۔ فرض کریں کہ ہمارے پاس ایک ڈیٹا سائنس کورس ہے (جیسے یہ کورس) جو ہم طلباء کو آن لائن فراہم کرتے ہیں، اور ہم اسے بہتر بنانے کے لیے ڈیٹا سائنس کا استعمال کرنا چاہتے ہیں۔ ہم یہ کیسے کر سکتے ہیں؟ +آئیے ایک مثال پر غور کریں۔ فرض کریں کہ ہمارے پاس ایک ڈیٹا سائنس کورس ہے (جیسے یہ کورس) جو ہم آن لائن طلباء کو فراہم کرتے ہیں، اور ہم اسے بہتر بنانے کے لیے ڈیٹا سائنس کا استعمال کرنا چاہتے ہیں۔ ہم اسے کیسے کر سکتے ہیں؟ -ہم یہ سوال پوچھ کر شروع کر سکتے ہیں کہ "کیا چیز ڈیجیٹلائز کی جا سکتی ہے؟" سب سے آسان طریقہ یہ ہوگا کہ ہر طالب علم کو ہر ماڈیول مکمل کرنے میں لگنے والے وقت کو ماپیں، اور ہر ماڈیول کے اختتام پر ایک ملٹی پل چوائس ٹیسٹ دے کر حاصل کردہ علم کو ماپیں۔ تمام طلباء کے درمیان وقت مکمل کرنے کا اوسط نکال کر، ہم یہ معلوم کر سکتے ہیں کہ کون سے ماڈیول طلباء کے لیے سب سے زیادہ مشکلات پیدا کرتے ہیں، اور ان کو آسان بنانے پر کام کر سکتے ہیں۔ +ہم یہ سوال پوچھ کر شروع کر سکتے ہیں کہ "کیا ڈیجیٹلائز کیا جا سکتا ہے؟" سب سے آسان طریقہ یہ ہوگا کہ ہر طالب علم کو ہر ماڈیول مکمل کرنے میں لگنے والے وقت کو ماپیں، اور ہر ماڈیول کے آخر میں ایک کثیر انتخابی ٹیسٹ دے کر حاصل کردہ علم کو ماپیں۔ تمام طلباء کے درمیان وقت مکمل کرنے کا اوسط نکال کر، ہم یہ معلوم کر سکتے ہیں کہ کون سے ماڈیول طلباء کے لیے سب سے زیادہ مشکلات پیدا کرتے ہیں، اور ان کو آسان بنانے پر کام کر سکتے ہیں۔ آپ یہ دلیل دے سکتے ہیں کہ یہ طریقہ مثالی نہیں ہے، کیونکہ ماڈیولز مختلف لمبائی کے ہو سکتے ہیں۔ شاید زیادہ مناسب یہ ہوگا کہ وقت کو ماڈیول کی لمبائی (حروف کی تعداد میں) کے حساب سے تقسیم کیا جائے، اور ان اقدار کا موازنہ کیا جائے۔ -جب ہم کثیر انتخابی ٹیسٹ کے نتائج کا تجزیہ شروع کرتے ہیں، تو ہم یہ جاننے کی کوشش کر سکتے ہیں کہ کون سے تصورات طلباء کے لیے سمجھنے میں مشکل ہیں، اور اس معلومات کو مواد کو بہتر بنانے کے لیے استعمال کر سکتے ہیں۔ ایسا کرنے کے لیے، ہمیں ٹیسٹ اس طرح ڈیزائن کرنے کی ضرورت ہے کہ ہر سوال کسی خاص تصور یا علم کے حصے سے منسلک ہو۔ +جب ہم کثیر الانتخابی ٹیسٹوں کے نتائج کا تجزیہ شروع کرتے ہیں، تو ہم یہ جاننے کی کوشش کر سکتے ہیں کہ کون سے تصورات طلباء کے لیے سمجھنا مشکل ہیں، اور اس معلومات کو مواد کو بہتر بنانے کے لیے استعمال کر سکتے ہیں۔ ایسا کرنے کے لیے، ہمیں ٹیسٹ اس طرح ڈیزائن کرنے کی ضرورت ہے کہ ہر سوال کسی خاص تصور یا علم کے حصے سے جڑا ہو۔ -اگر ہم مزید پیچیدگی میں جانا چاہیں، تو ہم ہر ماڈیول کے لیے لی گئی وقت کو طلباء کی عمر کے زمرے کے ساتھ موازنہ کر سکتے ہیں۔ ہمیں معلوم ہو سکتا ہے کہ کچھ عمر کے زمرے کے لیے ماڈیول مکمل کرنے میں غیر مناسب طور پر زیادہ وقت لگتا ہے، یا طلباء اسے مکمل کرنے سے پہلے ہی چھوڑ دیتے ہیں۔ یہ ہمیں ماڈیول کے لیے عمر کی سفارشات فراہم کرنے میں مدد دے سکتا ہے، اور غلط توقعات سے لوگوں کی ناخوشی کو کم کر سکتا ہے۔ +اگر ہم مزید پیچیدگی میں جانا چاہیں، تو ہم ہر ماڈیول کے لیے لگنے والے وقت کو طلباء کی عمر کے زمرے کے ساتھ موازنہ کر سکتے ہیں۔ ہمیں معلوم ہو سکتا ہے کہ کچھ عمر کے زمرے کے لیے ماڈیول مکمل کرنے میں غیر مناسب طور پر زیادہ وقت لگتا ہے، یا طلباء اسے مکمل کرنے سے پہلے ہی چھوڑ دیتے ہیں۔ یہ ہمیں ماڈیول کے لیے عمر کی سفارشات فراہم کرنے میں مدد دے سکتا ہے اور غلط توقعات کی وجہ سے لوگوں کی مایوسی کو کم کر سکتا ہے۔ ## 🚀 چیلنج -اس چیلنج میں، ہم ڈیٹا سائنس کے میدان سے متعلق تصورات کو تلاش کرنے کی کوشش کریں گے، متن کو دیکھ کر۔ ہم ڈیٹا سائنس پر ایک ویکیپیڈیا مضمون لیں گے، متن کو ڈاؤنلوڈ اور پراسیس کریں گے، اور پھر ایک ورڈ کلاؤڈ بنائیں گے جیسا کہ یہ: +اس چیلنج میں، ہم ڈیٹا سائنس کے میدان سے متعلق تصورات تلاش کرنے کی کوشش کریں گے، متن کو دیکھ کر۔ ہم ڈیٹا سائنس پر ایک ویکیپیڈیا مضمون لیں گے، متن کو ڈاؤن لوڈ اور پروسیس کریں گے، اور پھر ایک ورڈ کلاؤڈ بنائیں گے جیسا کہ یہ: -![ورڈ کلاؤڈ برائے ڈیٹا سائنس](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![ڈیٹا سائنس کے لیے ورڈ کلاؤڈ](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ur.png) -[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') پر جائیں تاکہ کوڈ کو پڑھ سکیں۔ آپ کوڈ کو چلا بھی سکتے ہیں، اور دیکھ سکتے ہیں کہ یہ حقیقی وقت میں تمام ڈیٹا تبدیلیاں کیسے انجام دیتا ہے۔ +کوڈ کو پڑھنے کے لیے [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') پر جائیں۔ آپ کوڈ کو چلا بھی سکتے ہیں اور دیکھ سکتے ہیں کہ یہ حقیقی وقت میں تمام ڈیٹا ٹرانسفارمیشنز کیسے انجام دیتا ہے۔ > اگر آپ کو معلوم نہیں کہ جیوپیٹر نوٹ بک میں کوڈ کیسے چلایا جاتا ہے، تو [اس مضمون](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) کو دیکھیں۔ @@ -67,14 +65,14 @@ CO_OP_TRANSLATOR_METADATA: ## اسائنمنٹس -* **ٹاسک 1**: اوپر دیے گئے کوڈ میں ترمیم کریں تاکہ **بگ ڈیٹا** اور **مشین لرننگ** کے میدانوں کے لیے متعلقہ تصورات معلوم کیے جا سکیں۔ -* **ٹاسک 2**: [ڈیٹا سائنس کے منظرناموں کے بارے میں سوچیں](assignment.md) +* **ٹاسک 1**: اوپر دیے گئے کوڈ میں ترمیم کریں تاکہ **بگ ڈیٹا** اور **مشین لرننگ** کے شعبوں کے لیے متعلقہ تصورات معلوم کیے جا سکیں۔ +* **ٹاسک 2**: [ڈیٹا سائنس کے منظرناموں پر غور کریں](assignment.md) ## کریڈٹس -یہ سبق ♥️ کے ساتھ [Dmitry Soshnikov](http://soshnikov.com) کے ذریعے تحریر کیا گیا ہے۔ +یہ سبق ♥️ کے ساتھ [دیمتری سوشنیکوف](http://soshnikov.com) نے تحریر کیا ہے۔ --- **ڈسکلیمر**: -یہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا غیر درستیاں ہو سکتی ہیں۔ اصل دستاویز کو اس کی اصل زبان میں مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ ہم اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے ذمہ دار نہیں ہیں۔ \ No newline at end of file +یہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے پوری کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا خامیاں ہو سکتی ہیں۔ اصل دستاویز کو اس کی اصل زبان میں مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے لیے ہم ذمہ دار نہیں ہیں۔ \ No newline at end of file diff --git a/translations/vi/1-Introduction/01-defining-data-science/README.md b/translations/vi/1-Introduction/01-defining-data-science/README.md index a1670c3b..3e74bbb5 100644 --- a/translations/vi/1-Introduction/01-defining-data-science/README.md +++ b/translations/vi/1-Introduction/01-defining-data-science/README.md @@ -1,21 +1,21 @@ ## Các loại dữ liệu -Như đã đề cập, dữ liệu có mặt ở khắp mọi nơi. Chúng ta chỉ cần thu thập nó đúng cách! Việc phân biệt giữa **dữ liệu có cấu trúc** và **dữ liệu không có cấu trúc** là rất hữu ích. Dữ liệu có cấu trúc thường được biểu diễn dưới dạng có tổ chức, thường là một bảng hoặc nhiều bảng, trong khi dữ liệu không có cấu trúc chỉ là một tập hợp các tệp. Đôi khi, chúng ta cũng có thể nói về **dữ liệu bán cấu trúc**, có một số dạng cấu trúc nhưng có thể thay đổi rất nhiều. +Như đã đề cập, dữ liệu có mặt ở khắp mọi nơi. Chúng ta chỉ cần thu thập nó đúng cách! Việc phân biệt giữa **dữ liệu có cấu trúc** và **dữ liệu không có cấu trúc** là rất hữu ích. Dữ liệu có cấu trúc thường được biểu diễn dưới dạng có tổ chức, thường là một bảng hoặc nhiều bảng, trong khi dữ liệu không có cấu trúc chỉ là một tập hợp các tệp. Đôi khi, chúng ta cũng có thể nói về **dữ liệu bán cấu trúc**, loại dữ liệu có một số dạng cấu trúc nhưng có thể thay đổi rất nhiều. -| Có cấu trúc | Bán cấu trúc | Không có cấu trúc | -| -------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- | -| Danh sách người với số điện thoại của họ | Các trang Wikipedia với liên kết | Văn bản của Bách khoa toàn thư Britannica | -| Nhiệt độ trong tất cả các phòng của một tòa nhà mỗi phút trong 20 năm qua | Bộ sưu tập các bài báo khoa học ở định dạng JSON với tác giả, ngày xuất bản và tóm tắt | Chia sẻ tệp với các tài liệu công ty | -| Dữ liệu về tuổi và giới tính của tất cả những người vào tòa nhà | Các trang Internet | Dữ liệu video thô từ camera giám sát | +| Có cấu trúc | Bán cấu trúc | Không có cấu trúc | +| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | +| Danh sách người với số điện thoại của họ | Các trang Wikipedia với liên kết | Văn bản của Bách khoa toàn thư Britannica | +| Nhiệt độ trong tất cả các phòng của một tòa nhà mỗi phút trong 20 năm qua | Tập hợp các bài báo khoa học ở định dạng JSON với tác giả, ngày xuất bản và tóm tắt | Tệp chia sẻ với các tài liệu công ty | +| Dữ liệu về tuổi và giới tính của tất cả những người vào tòa nhà | Các trang Internet | Dữ liệu video thô từ camera giám sát | ## Nguồn dữ liệu @@ -39,7 +39,7 @@ Bằng cách biết các nguồn dữ liệu khác nhau, bạn có thể thử n Trong Khoa học Dữ liệu, chúng ta tập trung vào các bước sau trong hành trình dữ liệu: -Tùy thuộc vào dữ liệu thực tế, một số bước có thể bị bỏ qua (ví dụ: khi chúng ta đã có dữ liệu trong cơ sở dữ liệu, hoặc khi không cần huấn luyện mô hình), hoặc một số bước có thể được lặp lại nhiều lần (chẳng hạn như xử lý dữ liệu). +Tùy thuộc vào dữ liệu thực tế, một số bước có thể bị bỏ qua (ví dụ: khi chúng ta đã có dữ liệu trong cơ sở dữ liệu hoặc khi không cần huấn luyện mô hình), hoặc một số bước có thể được lặp lại nhiều lần (chẳng hạn như xử lý dữ liệu). ## Số hóa và Chuyển đổi số @@ -47,34 +47,34 @@ Trong thập kỷ qua, nhiều doanh nghiệp đã bắt đầu hiểu tầm qua Hãy xem xét một ví dụ. Giả sử chúng ta có một khóa học khoa học dữ liệu (như khóa học này) mà chúng ta cung cấp trực tuyến cho sinh viên, và chúng ta muốn sử dụng khoa học dữ liệu để cải thiện nó. Làm thế nào chúng ta có thể thực hiện điều này? -Chúng ta có thể bắt đầu bằng cách hỏi "Những gì có thể được số hóa?" Cách đơn giản nhất là đo thời gian mỗi sinh viên hoàn thành mỗi mô-đun, và đo lường kiến thức thu được bằng cách đưa ra bài kiểm tra trắc nghiệm ở cuối mỗi mô-đun. Bằng cách tính trung bình thời gian hoàn thành của tất cả sinh viên, chúng ta có thể tìm ra những mô-đun gây khó khăn nhất cho sinh viên và làm việc để đơn giản hóa chúng. -Bạn có thể tranh luận rằng cách tiếp cận này không lý tưởng, vì các module có thể có độ dài khác nhau. Có lẽ sẽ công bằng hơn nếu chia thời gian theo độ dài của module (tính bằng số ký tự) và so sánh các giá trị đó thay thế. -Khi chúng ta bắt đầu phân tích kết quả của các bài kiểm tra trắc nghiệm, chúng ta có thể cố gắng xác định những khái niệm mà học sinh gặp khó khăn trong việc hiểu, và sử dụng thông tin đó để cải thiện nội dung. Để làm được điều này, chúng ta cần thiết kế các bài kiểm tra sao cho mỗi câu hỏi tương ứng với một khái niệm hoặc một phần kiến thức nhất định. +Chúng ta có thể bắt đầu bằng cách hỏi "Những gì có thể được số hóa?" Cách đơn giản nhất là đo thời gian mỗi sinh viên hoàn thành mỗi mô-đun và đo kiến thức thu được bằng cách đưa ra bài kiểm tra trắc nghiệm ở cuối mỗi mô-đun. Bằng cách tính trung bình thời gian hoàn thành của tất cả sinh viên, chúng ta có thể tìm ra những mô-đun gây khó khăn nhất cho sinh viên và làm việc để đơn giản hóa chúng. +Bạn có thể cho rằng cách tiếp cận này không lý tưởng, vì các module có thể có độ dài khác nhau. Có lẽ sẽ công bằng hơn nếu chia thời gian theo độ dài của module (tính theo số lượng ký tự) và so sánh các giá trị đó thay thế. +Khi chúng ta bắt đầu phân tích kết quả của các bài kiểm tra trắc nghiệm, chúng ta có thể cố gắng xác định những khái niệm mà học sinh gặp khó khăn trong việc hiểu, và sử dụng thông tin đó để cải thiện nội dung. Để làm được điều này, chúng ta cần thiết kế các bài kiểm tra sao cho mỗi câu hỏi liên kết với một khái niệm hoặc một phần kiến thức cụ thể. -Nếu muốn phân tích phức tạp hơn, chúng ta có thể vẽ biểu đồ thời gian hoàn thành từng mô-đun so với nhóm tuổi của học sinh. Chúng ta có thể phát hiện ra rằng đối với một số nhóm tuổi, thời gian hoàn thành mô-đun quá dài hoặc học sinh bỏ dở trước khi hoàn thành. Điều này có thể giúp chúng ta đưa ra khuyến nghị về độ tuổi phù hợp cho mô-đun và giảm thiểu sự không hài lòng của mọi người do kỳ vọng sai lệch. +Nếu muốn phân tích phức tạp hơn, chúng ta có thể vẽ biểu đồ thời gian hoàn thành từng mô-đun so với nhóm tuổi của học sinh. Chúng ta có thể phát hiện rằng đối với một số nhóm tuổi, thời gian hoàn thành mô-đun quá dài hoặc học sinh bỏ dở trước khi hoàn thành. Điều này có thể giúp chúng ta đưa ra khuyến nghị về độ tuổi phù hợp cho mô-đun và giảm thiểu sự không hài lòng của mọi người do kỳ vọng sai lệch. ## 🚀 Thử thách Trong thử thách này, chúng ta sẽ cố gắng tìm các khái niệm liên quan đến lĩnh vực Khoa học Dữ liệu bằng cách phân tích văn bản. Chúng ta sẽ lấy một bài viết trên Wikipedia về Khoa học Dữ liệu, tải xuống và xử lý văn bản, sau đó tạo một đám mây từ như hình dưới đây: -![Word Cloud for Data Science](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![Đám mây từ cho Khoa học Dữ liệu](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.vi.png) -Truy cập [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') để đọc qua mã nguồn. Bạn cũng có thể chạy mã và xem cách nó thực hiện tất cả các chuyển đổi dữ liệu trong thời gian thực. +Truy cập [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') để đọc qua mã. Bạn cũng có thể chạy mã và xem cách nó thực hiện tất cả các chuyển đổi dữ liệu trong thời gian thực. -> Nếu bạn không biết cách chạy mã trong Jupyter Notebook, hãy xem bài viết [này](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). +> Nếu bạn không biết cách chạy mã trong Jupyter Notebook, hãy xem [bài viết này](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). ## [Câu hỏi sau bài giảng](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## Bài tập -* **Nhiệm vụ 1**: Chỉnh sửa mã trên để tìm các khái niệm liên quan đến các lĩnh vực **Dữ liệu Lớn** và **Học Máy** +* **Nhiệm vụ 1**: Sửa đổi mã trên để tìm các khái niệm liên quan đến các lĩnh vực **Dữ liệu lớn** và **Học máy** * **Nhiệm vụ 2**: [Suy nghĩ về các kịch bản Khoa học Dữ liệu](assignment.md) -## Ghi nhận +## Tín dụng Bài học này được viết với ♥️ bởi [Dmitry Soshnikov](http://soshnikov.com) --- **Tuyên bố miễn trừ trách nhiệm**: -Tài liệu này đã được dịch bằng dịch vụ dịch thuật AI [Co-op Translator](https://github.com/Azure/co-op-translator). Mặc dù chúng tôi cố gắng đảm bảo độ chính xác, xin lưu ý rằng các bản dịch tự động có thể chứa lỗi hoặc sự không chính xác. Tài liệu gốc bằng ngôn ngữ bản địa nên được coi là nguồn tham khảo chính thức. Đối với các thông tin quan trọng, nên sử dụng dịch vụ dịch thuật chuyên nghiệp từ con người. Chúng tôi không chịu trách nhiệm cho bất kỳ sự hiểu lầm hoặc diễn giải sai nào phát sinh từ việc sử dụng bản dịch này. \ No newline at end of file +Tài liệu này đã được dịch bằng dịch vụ dịch thuật AI [Co-op Translator](https://github.com/Azure/co-op-translator). Mặc dù chúng tôi cố gắng đảm bảo độ chính xác, xin lưu ý rằng các bản dịch tự động có thể chứa lỗi hoặc không chính xác. Tài liệu gốc bằng ngôn ngữ bản địa nên được coi là nguồn tham khảo chính thức. Đối với các thông tin quan trọng, chúng tôi khuyến nghị sử dụng dịch vụ dịch thuật chuyên nghiệp từ con người. Chúng tôi không chịu trách nhiệm cho bất kỳ sự hiểu lầm hoặc diễn giải sai nào phát sinh từ việc sử dụng bản dịch này. \ No newline at end of file diff --git a/translations/zh/1-Introduction/01-defining-data-science/README.md b/translations/zh/1-Introduction/01-defining-data-science/README.md index a620040d..bc2bdb7f 100644 --- a/translations/zh/1-Introduction/01-defining-data-science/README.md +++ b/translations/zh/1-Introduction/01-defining-data-science/README.md @@ -1,39 +1,39 @@ ## 数据的类型 -正如我们已经提到的,数据无处不在。我们只需要以正确的方式捕捉它!区分**结构化数据**和**非结构化数据**是很有用的。前者通常以某种良好的结构形式表示,通常是表格或多个表格,而后者则只是文件的集合。有时我们还可以谈论**半结构化数据**,它具有某种结构,但可能差异很大。 +正如我们已经提到的,数据无处不在。我们只需要以正确的方式捕捉它!区分**结构化数据**和**非结构化数据**是很有帮助的。前者通常以某种良好的结构形式表示,通常是表格或多个表格,而后者则只是文件的集合。有时我们也会提到**半结构化数据**,它具有某种结构,但可能差异很大。 -| 结构化数据 | 半结构化数据 | 非结构化数据 | -| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | -| 包含人名及其电话号码的列表 | 带有链接的维基百科页面 | 《大英百科全书》的文本 | -| 过去20年中每分钟记录的建筑内所有房间的温度 | 以JSON格式存储的科学论文集合,包括作者、发表日期和摘要 | 包含公司文件的文件共享 | -| 进入建筑的所有人的年龄和性别数据 | 互联网页面 | 监控摄像头的原始视频流 | +| 结构化数据 | 半结构化数据 | 非结构化数据 | +| ---------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | --------------------------------------- | +| 包含人名及其电话号码的列表 | 带有链接的维基百科页面 | 《大英百科全书》的文本 | +| 过去20年中每分钟记录的建筑内所有房间的温度 | 以JSON格式存储的科学论文集合,包括作者、发表日期和摘要 | 包含公司文件的文件共享 | +| 进入建筑的所有人的年龄和性别数据 | 互联网页面 | 监控摄像头的原始视频流 | ## 数据的来源 数据的来源有很多种,几乎无法全部列举!不过,我们可以提到一些典型的数据来源: * **结构化数据** - - **物联网**(IoT),包括来自不同传感器的数据,例如温度或压力传感器,提供了大量有用的数据。例如,如果办公楼配备了物联网传感器,我们可以自动控制供暖和照明,以降低成本。 + - **物联网**(IoT),包括来自不同传感器的数据,例如温度或压力传感器,提供了许多有用的数据。例如,如果办公楼配备了物联网传感器,我们可以自动控制供暖和照明,以降低成本。 - **调查问卷**,例如用户在购买后或访问网站后填写的问卷。 - **行为分析**,例如帮助我们了解用户在网站上的深入程度,以及用户离开网站的典型原因。 * **非结构化数据** - **文本**可以是丰富的洞察来源,例如整体**情感评分**,或提取关键词和语义含义。 - **图像**或**视频**。监控摄像头的视频可以用来估算道路上的交通流量,并向人们提供潜在交通拥堵的提示。 - - 网络服务器的**日志**可以用来了解我们网站上最常访问的页面,以及访问时长。 + - 网络服务器的**日志**可以用来了解我们网站上最常被访问的页面,以及访问时长。 * **半结构化数据** - **社交网络**图可以是关于用户个性以及信息传播潜在效果的绝佳数据来源。 - - 当我们有一堆聚会照片时,我们可以尝试通过构建人与人之间拍照的关系图来提取**群体动态**数据。 + - 当我们有一堆聚会照片时,可以尝试通过构建人与人之间拍照的关系图来提取**群体动态**数据。 -通过了解不同的数据来源,你可以尝试思考不同的场景,数据科学技术可以应用于这些场景以更好地了解情况并改善业务流程。 +通过了解不同的数据来源,你可以尝试思考不同的场景,数据科学技术可以应用于这些场景以更好地了解情况并改进业务流程。 ## 数据的用途 @@ -43,31 +43,31 @@ CO_OP_TRANSLATOR_METADATA: ## 数字化与数字化转型 -在过去十年中,许多企业开始意识到数据在商业决策中的重要性。要将数据科学原则应用于企业运营,首先需要收集一些数据,即将业务流程转化为数字形式。这被称为**数字化**。将数据科学技术应用于这些数据以指导决策,可以显著提高生产力(甚至实现业务转型),这被称为**数字化转型**。 +在过去十年中,许多企业开始认识到在做出业务决策时数据的重要性。要将数据科学原则应用于企业运营,首先需要收集一些数据,即将业务流程转化为数字形式。这被称为**数字化**。将数据科学技术应用于这些数据以指导决策,可以显著提高生产力(甚至实现业务转型),这被称为**数字化转型**。 让我们来看一个例子。假设我们有一个数据科学课程(比如这个课程),我们在线向学生提供,并希望利用数据科学来改进它。我们该怎么做? -我们可以从问“什么可以数字化?”开始。最简单的方法是测量每位学生完成每个模块所需的时间,并通过在每个模块结束时进行选择题测试来测量获得的知识。通过计算所有学生的平均完成时间,我们可以找出哪些模块对学生来说最困难,并着手简化这些模块。 -你可能会认为这种方法并不理想,因为模块的长度可能不同。或许更公平的做法是将时间除以模块的长度(以字符数计算),然后比较这些值。 +我们可以从问“什么可以数字化?”开始。最简单的方法是测量每个学生完成每个模块所需的时间,并通过在每个模块结束时进行选择题测试来测量获得的知识。通过计算所有学生的平均完成时间,我们可以找出哪些模块对学生来说最困难,并着手简化这些模块。 +你可能会认为这种方法并不理想,因为模块的长度可能不同。或许更公平的做法是根据模块的长度(以字符数计算)来划分时间,然后比较这些值。 当我们开始分析多项选择测试的结果时,可以尝试确定学生在哪些概念上存在理解困难,并利用这些信息改进内容。为此,我们需要设计测试,使每个问题都对应某个特定的概念或知识点。 -如果我们想更复杂一些,可以将每个模块所花费的时间与学生的年龄类别进行对比。我们可能会发现,对于某些年龄段,完成模块所需的时间过长,或者学生在完成之前就中途退出了。这可以帮助我们为模块提供年龄建议,并减少因错误预期而导致的不满情绪。 +如果我们想更深入一些,还可以将每个模块所花费的时间与学生的年龄类别进行对比。我们可能会发现,对于某些年龄段,完成模块所需的时间过长,或者学生在完成之前就中途退出了。这可以帮助我们为模块提供年龄建议,并减少因预期错误而导致的不满情绪。 ## 🚀 挑战 -在这个挑战中,我们将通过分析文本来尝试找到与数据科学领域相关的概念。我们将选取一篇关于数据科学的维基百科文章,下载并处理文本,然后构建一个像这样的词云: +在这个挑战中,我们将通过分析文本来尝试找到与数据科学领域相关的概念。我们将选取一篇关于数据科学的维基百科文章,下载并处理文本,然后生成一个像这样的词云: -![数据科学词云](../../../../1-Introduction/01-defining-data-science/images/ds_wordcloud.png) +![数据科学词云](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.zh.png) -访问 [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 阅读代码。你还可以运行代码,实时查看它如何执行所有数据转换。 +访问 [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 查看代码。你还可以运行代码,实时观察它如何执行所有数据转换。 -> 如果你不知道如何在 Jupyter Notebook 中运行代码,可以查看[这篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。 +> 如果你不知道如何在 Jupyter Notebook 中运行代码,可以查看 [这篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。 ## [课后测验](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## 作业 -* **任务 1**:修改上述代码,找出与**大数据**和**机器学习**领域相关的概念。 +* **任务 1**:修改上述代码,找出与 **大数据** 和 **机器学习** 领域相关的概念。 * **任务 2**:[思考数据科学场景](assignment.md) ## 致谢 @@ -77,4 +77,4 @@ CO_OP_TRANSLATOR_METADATA: --- **免责声明**: -本文档使用AI翻译服务[Co-op Translator](https://github.com/Azure/co-op-translator)进行翻译。尽管我们努力确保准确性,但请注意,自动翻译可能包含错误或不准确之处。应以原始语言的文档作为权威来源。对于关键信息,建议使用专业人工翻译。因使用本翻译而导致的任何误解或误读,我们概不负责。 \ No newline at end of file +本文档使用AI翻译服务[Co-op Translator](https://github.com/Azure/co-op-translator)进行翻译。尽管我们努力确保准确性,但请注意,自动翻译可能包含错误或不准确之处。应以原始语言的文档作为权威来源。对于关键信息,建议使用专业人工翻译。对于因使用本翻译而引起的任何误解或误读,我们概不负责。 \ No newline at end of file