|
|
9 months ago | |
|---|---|---|
| .. | ||
| solution | 9 months ago | |
| README.md | 9 months ago | |
| assignment.md | 9 months ago | |
| notebook.ipynb | 9 months ago | |
README.md
انواع داده
همانطور که قبلاً اشاره کردیم، دادهها همهجا هستند. فقط باید آنها را به روش درست جمعآوری کنیم! مفید است که بین دادههای ساختیافته و غیرساختیافته تمایز قائل شویم. دادههای ساختیافته معمولاً به صورت منظم و در قالب جدول یا چندین جدول نمایش داده میشوند، در حالی که دادههای غیرساختیافته فقط مجموعهای از فایلها هستند. گاهی اوقات میتوانیم درباره دادههای نیمهساختیافته صحبت کنیم که دارای نوعی ساختار هستند که ممکن است بسیار متفاوت باشد.
| ساختیافته | نیمهساختیافته | غیرساختیافته |
|---|---|---|
| لیست افراد با شماره تلفنهایشان | صفحات ویکیپدیا با لینکها | متن دایرةالمعارف بریتانیکا |
| دمای تمام اتاقهای یک ساختمان در هر دقیقه طی ۲۰ سال گذشته | مجموعهای از مقالات علمی در قالب JSON با نویسندگان، تاریخ انتشار و چکیده | اشتراک فایل با اسناد شرکتی |
| دادههای سن و جنسیت تمام افرادی که وارد ساختمان میشوند | صفحات اینترنت | ویدئوی خام از دوربین نظارتی |
از کجا داده تهیه کنیم
منابع زیادی برای داده وجود دارد و فهرست کردن همه آنها غیرممکن است! با این حال، بیایید برخی از مکانهای معمولی که میتوانید دادهها را از آنها تهیه کنید، ذکر کنیم:
- ساختیافته
- اینترنت اشیا (IoT)، شامل دادههای حسگرهای مختلف مانند حسگرهای دما یا فشار، دادههای مفیدی ارائه میدهد. به عنوان مثال، اگر یک ساختمان اداری به حسگرهای IoT مجهز باشد، میتوانیم بهطور خودکار گرمایش و روشنایی را کنترل کنیم تا هزینهها را به حداقل برسانیم.
- نظرسنجیها که از کاربران میخواهیم پس از خرید یا بازدید از یک وبسایت تکمیل کنند.
- تحلیل رفتار میتواند به ما کمک کند تا بفهمیم کاربران چقدر در یک سایت پیش میروند و دلیل معمول ترک سایت چیست.
- غیرساختیافته
- متون میتوانند منبع غنی از بینشها باشند، مانند امتیاز کلی احساسات یا استخراج کلمات کلیدی و معنای مفهومی.
- تصاویر یا ویدئو. یک ویدئو از دوربین نظارتی میتواند برای تخمین ترافیک جاده استفاده شود و مردم را از احتمال ترافیک سنگین مطلع کند.
- لاگهای سرور وب میتوانند برای فهمیدن اینکه کدام صفحات سایت ما بیشتر بازدید میشوند و برای چه مدت، استفاده شوند.
- نیمهساختیافته
- گرافهای شبکههای اجتماعی میتوانند منابع عالی داده درباره شخصیت کاربران و اثربخشی بالقوه در انتشار اطلاعات باشند.
- وقتی مجموعهای از عکسهای یک مهمانی داریم، میتوانیم سعی کنیم دادههای دینامیک گروهی را با ساختن گرافی از افرادی که با یکدیگر عکس میگیرند، استخراج کنیم.
با دانستن منابع مختلف داده، میتوانید درباره سناریوهای مختلفی فکر کنید که تکنیکهای علم داده میتوانند برای درک بهتر وضعیت و بهبود فرآیندهای کسبوکار به کار گرفته شوند.
چه کارهایی میتوان با داده انجام داد
در علم داده، ما بر مراحل زیر در مسیر داده تمرکز میکنیم:
البته، بسته به دادههای واقعی، ممکن است برخی مراحل حذف شوند (مثلاً وقتی دادهها از قبل در پایگاه داده موجود هستند یا وقتی نیازی به آموزش مدل نداریم)، یا برخی مراحل ممکن است چندین بار تکرار شوند (مانند پردازش دادهها).
دیجیتالیسازی و تحول دیجیتال
در دهه گذشته، بسیاری از کسبوکارها اهمیت دادهها را در تصمیمگیریهای تجاری درک کردهاند. برای اعمال اصول علم داده در مدیریت یک کسبوکار، ابتدا باید دادههایی جمعآوری کنیم، یعنی فرآیندهای کسبوکار را به شکل دیجیتال ترجمه کنیم. این فرآیند به عنوان دیجیتالیسازی شناخته میشود. استفاده از تکنیکهای علم داده بر روی این دادهها برای هدایت تصمیمات میتواند منجر به افزایش قابل توجه بهرهوری (یا حتی تغییر مسیر کسبوکار) شود که به آن تحول دیجیتال میگویند.
بیایید یک مثال را بررسی کنیم. فرض کنید ما یک دوره علم داده (مانند این دوره) داریم که به صورت آنلاین به دانشجویان ارائه میدهیم و میخواهیم از علم داده برای بهبود آن استفاده کنیم. چگونه میتوانیم این کار را انجام دهیم؟
میتوانیم با پرسیدن "چه چیزی میتواند دیجیتالی شود؟" شروع کنیم. سادهترین راه این است که زمان لازم برای تکمیل هر ماژول توسط هر دانشجو را اندازهگیری کنیم و دانش کسبشده را با ارائه یک آزمون چندگزینهای در پایان هر ماژول ارزیابی کنیم. با میانگینگیری زمان تکمیل در میان همه دانشجویان، میتوانیم بفهمیم کدام ماژولها بیشترین دشواری را برای دانشجویان ایجاد میکنند و روی سادهتر کردن آنها کار کنیم. ممکن است بحث کنید که این روش ایدهآل نیست، زیرا طول ماژولها میتواند متفاوت باشد. احتمالاً تقسیم زمان بر اساس طول ماژول (بر حسب تعداد کاراکترها) و مقایسه آن مقادیر، منصفانهتر باشد. هنگامی که شروع به تحلیل نتایج آزمونهای چندگزینهای میکنیم، میتوانیم تلاش کنیم تا مفاهیمی را که دانشآموزان در درک آنها مشکل دارند شناسایی کنیم و از این اطلاعات برای بهبود محتوا استفاده کنیم. برای انجام این کار، باید آزمونها را به گونهای طراحی کنیم که هر سؤال به یک مفهوم یا بخش خاصی از دانش مرتبط باشد.
اگر بخواهیم پیچیدگی بیشتری اضافه کنیم، میتوانیم زمان صرفشده برای هر ماژول را در مقابل دستهبندی سنی دانشآموزان رسم کنیم. ممکن است متوجه شویم که برای برخی دستههای سنی، تکمیل ماژول زمان بسیار زیادی میبرد یا دانشآموزان قبل از تکمیل آن انصراف میدهند. این موضوع میتواند به ما کمک کند تا توصیههای سنی برای ماژول ارائه دهیم و نارضایتی افراد از انتظارات اشتباه را به حداقل برسانیم.
🚀 چالش
در این چالش، تلاش خواهیم کرد تا مفاهیم مرتبط با حوزه علم داده را با بررسی متون پیدا کنیم. ما یک مقاله ویکیپدیا درباره علم داده را دانلود و پردازش میکنیم و سپس یک ابر واژه مانند این تصویر ایجاد میکنیم:
به notebook.ipynb مراجعه کنید تا کد را مرور کنید. همچنین میتوانید کد را اجرا کنید و ببینید که چگونه تمام تبدیلهای داده را به صورت لحظهای انجام میدهد.
اگر نمیدانید چگونه کد را در یک Jupyter Notebook اجرا کنید، به این مقاله نگاهی بیندازید.
آزمون پس از درس
تکالیف
- وظیفه ۱: کد بالا را تغییر دهید تا مفاهیم مرتبط با حوزههای کلان داده و یادگیری ماشین را پیدا کنید.
- وظیفه ۲: درباره سناریوهای علم داده فکر کنید
اعتبارها
این درس با ♥️ توسط دمیتری سوشنیکوف نوشته شده است.
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه میشود از ترجمه انسانی حرفهای استفاده کنید. ما مسئولیتی در قبال سوء تفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.
