|
4 weeks ago | |
---|---|---|
.. | ||
solution | 4 weeks ago | |
README.md | 4 weeks ago | |
assignment.md | 4 weeks ago |
README.md
انواع دادهها
همانطور که قبلاً اشاره کردیم، دادهها همهجا هستند. فقط باید آنها را به روش درست جمعآوری کنیم! مفید است که بین دادههای ساختاریافته و غیرساختاریافته تمایز قائل شویم. دادههای ساختاریافته معمولاً بهصورت منظم و در قالب جدول یا چندین جدول ارائه میشوند، در حالی که دادههای غیرساختاریافته فقط مجموعهای از فایلها هستند. گاهی اوقات میتوانیم درباره دادههای نیمهساختاریافته صحبت کنیم که دارای نوعی ساختار هستند که ممکن است بسیار متفاوت باشد.
ساختاریافته | نیمهساختاریافته | غیرساختاریافته |
---|---|---|
لیستی از افراد با شماره تلفنهایشان | صفحات ویکیپدیا با لینکها | متن دایرةالمعارف بریتانیکا |
دمای تمام اتاقهای یک ساختمان در هر دقیقه طی ۲۰ سال گذشته | مجموعهای از مقالات علمی در قالب JSON با نویسندگان، تاریخ انتشار و چکیده | اشتراک فایل با اسناد شرکتی |
دادههای مربوط به سن و جنسیت تمام افرادی که وارد ساختمان میشوند | صفحات اینترنت | ویدئوی خام از دوربین نظارتی |
از کجا دادهها را تهیه کنیم
منابع زیادی برای دادهها وجود دارد و فهرست کردن همه آنها غیرممکن است! با این حال، بیایید برخی از مکانهای معمولی که میتوانید دادهها را از آنها تهیه کنید، ذکر کنیم:
- ساختاریافته
- اینترنت اشیا (IoT)، شامل دادههای حسگرهای مختلف مانند حسگرهای دما یا فشار، دادههای مفیدی ارائه میدهد. بهعنوان مثال، اگر یک ساختمان اداری مجهز به حسگرهای IoT باشد، میتوانیم بهطور خودکار گرمایش و روشنایی را کنترل کنیم تا هزینهها را به حداقل برسانیم.
- نظرسنجیها که از کاربران میخواهیم پس از خرید یا بازدید از یک وبسایت تکمیل کنند.
- تحلیل رفتار میتواند به ما کمک کند تا بفهمیم کاربران چقدر در یک سایت عمیق میشوند و دلیل معمول ترک سایت چیست.
- غیرساختاریافته
- متون میتوانند منبع غنی از بینشها باشند، مانند امتیاز کلی احساسات یا استخراج کلمات کلیدی و معنای مفهومی.
- تصاویر یا ویدئو. یک ویدئو از دوربین نظارتی میتواند برای تخمین ترافیک جاده استفاده شود و مردم را از احتمال ترافیک سنگین مطلع کند.
- لاگهای سرور وب میتوانند برای درک اینکه کدام صفحات سایت ما بیشتر بازدید میشوند و برای چه مدت، استفاده شوند.
- نیمهساختاریافته
- گرافهای شبکههای اجتماعی میتوانند منابع عالی داده درباره شخصیت کاربران و اثربخشی بالقوه در انتشار اطلاعات باشند.
- وقتی مجموعهای از عکسهای یک مهمانی داریم، میتوانیم سعی کنیم دادههای پویایی گروهی را با ساختن گرافی از افرادی که با یکدیگر عکس میگیرند، استخراج کنیم.
با دانستن منابع مختلف داده، میتوانید درباره سناریوهای مختلفی فکر کنید که تکنیکهای علم داده میتوانند برای درک بهتر وضعیت و بهبود فرآیندهای کسبوکار به کار گرفته شوند.
چه کاری میتوانید با دادهها انجام دهید
در علم داده، ما بر مراحل زیر در مسیر داده تمرکز میکنیم:
البته، بسته به دادههای واقعی، برخی مراحل ممکن است حذف شوند (مثلاً وقتی دادهها از قبل در پایگاه داده موجود هستند یا وقتی نیازی به آموزش مدل نداریم)، یا برخی مراحل ممکن است چندین بار تکرار شوند (مانند پردازش دادهها).
دیجیتالیسازی و تحول دیجیتال
در دهه گذشته، بسیاری از کسبوکارها اهمیت دادهها را در تصمیمگیریهای تجاری درک کردهاند. برای اعمال اصول علم داده در مدیریت کسبوکار، ابتدا باید دادههایی جمعآوری شود، یعنی فرآیندهای کسبوکار به شکل دیجیتال ترجمه شوند. این فرآیند بهعنوان دیجیتالیسازی شناخته میشود. استفاده از تکنیکهای علم داده بر روی این دادهها برای هدایت تصمیمگیریها میتواند منجر به افزایش قابلتوجه بهرهوری (یا حتی تغییر مسیر کسبوکار) شود که به آن تحول دیجیتال میگویند.
بیایید یک مثال را بررسی کنیم. فرض کنید یک دوره علم داده (مانند همین دوره) داریم که بهصورت آنلاین به دانشجویان ارائه میشود و میخواهیم از علم داده برای بهبود آن استفاده کنیم. چگونه میتوانیم این کار را انجام دهیم؟
میتوانیم با پرسیدن این سؤال شروع کنیم: "چه چیزی میتواند دیجیتالی شود؟" سادهترین راه این است که زمان لازم برای هر دانشجو برای تکمیل هر ماژول را اندازهگیری کنیم و دانش کسبشده را با ارائه یک آزمون چندگزینهای در پایان هر ماژول ارزیابی کنیم. با میانگینگیری زمان تکمیل در میان همه دانشجویان، میتوانیم بفهمیم کدام ماژولها بیشترین دشواری را برای دانشجویان ایجاد میکنند و روی سادهتر کردن آنها کار کنیم. ممکن است بحث کنید که این رویکرد ایدهآل نیست، زیرا ماژولها میتوانند طولهای متفاوتی داشته باشند. احتمالاً منصفانهتر این است که زمان را بر اساس طول ماژول (بر حسب تعداد کاراکترها) تقسیم کرده و سپس آن مقادیر را با یکدیگر مقایسه کنید. هنگامی که شروع به تحلیل نتایج آزمونهای چند گزینهای میکنیم، میتوانیم تلاش کنیم تا مفاهیمی را که دانشآموزان در درک آنها مشکل دارند شناسایی کنیم و از این اطلاعات برای بهبود محتوا استفاده کنیم. برای انجام این کار، باید آزمونها را به گونهای طراحی کنیم که هر سؤال به یک مفهوم یا بخش خاصی از دانش مرتبط باشد.
اگر بخواهیم پیچیدهتر عمل کنیم، میتوانیم زمان صرف شده برای هر ماژول را در مقابل دستهبندی سنی دانشآموزان رسم کنیم. ممکن است متوجه شویم که برای برخی دستههای سنی، تکمیل ماژول زمان بسیار زیادی میبرد یا دانشآموزان قبل از تکمیل آن انصراف میدهند. این موضوع میتواند به ما کمک کند تا توصیههای سنی برای ماژول ارائه دهیم و نارضایتی افراد از انتظارات اشتباه را به حداقل برسانیم.
🚀 چالش
در این چالش، تلاش خواهیم کرد تا مفاهیم مرتبط با حوزه علم داده را با بررسی متون پیدا کنیم. ما یک مقاله ویکیپدیا درباره علم داده را دانلود و پردازش میکنیم و سپس یک ابر واژه مانند این تصویر ایجاد میکنیم:
به notebook.ipynb
مراجعه کنید تا کد را مرور کنید. همچنین میتوانید کد را اجرا کنید و ببینید که چگونه تمام تبدیلهای داده را به صورت لحظهای انجام میدهد.
اگر نمیدانید چگونه کد را در یک Jupyter Notebook اجرا کنید، به این مقاله نگاهی بیندازید.
آزمون پس از درس
تکالیف
- وظیفه ۱: کد بالا را تغییر دهید تا مفاهیم مرتبط با حوزههای کلان داده و یادگیری ماشین را پیدا کنید.
- وظیفه ۲: درباره سناریوهای علم داده فکر کنید
اعتبارها
این درس با ♥️ توسط دمیتری سوشنیکوف نوشته شده است.
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه میشود از ترجمه حرفهای انسانی استفاده کنید. ما مسئولیتی در قبال سوء تفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.