12 KiB
انواع داده
همانطور که قبلاً اشاره کردیم، دادهها همهجا هستند. فقط باید آنها را به روش درست جمعآوری کنیم! مفید است که بین دادههای ساختاریافته و غیرساختاریافته تمایز قائل شویم. دادههای ساختاریافته معمولاً به صورت منظم و در قالب جدول یا چندین جدول ارائه میشوند، در حالی که دادههای غیرساختاریافته فقط مجموعهای از فایلها هستند. گاهی اوقات میتوانیم درباره دادههای نیمهساختاریافته صحبت کنیم که دارای نوعی ساختار هستند اما این ساختار ممکن است بسیار متغیر باشد.
ساختاریافته | نیمهساختاریافته | غیرساختاریافته |
---|---|---|
لیست افراد همراه با شماره تلفنهایشان | صفحات ویکیپدیا با لینکها | متن دایرةالمعارف بریتانیکا |
دمای تمام اتاقهای یک ساختمان در هر دقیقه طی ۲۰ سال گذشته | مجموعه مقالات علمی در قالب JSON همراه با نویسندگان، تاریخ انتشار و چکیده | اشتراک فایل با اسناد شرکتی |
دادههای مربوط به سن و جنسیت تمام افرادی که وارد ساختمان میشوند | صفحات اینترنت | ویدئوی خام از دوربین نظارتی |
از کجا داده تهیه کنیم
منابع زیادی برای تهیه داده وجود دارد و فهرست کردن همه آنها غیرممکن است! با این حال، بیایید برخی از مکانهای معمول برای تهیه داده را ذکر کنیم:
- ساختاریافته
- اینترنت اشیا (IoT)، شامل دادههای حسگرهای مختلف مانند حسگرهای دما یا فشار، دادههای مفیدی ارائه میدهد. به عنوان مثال، اگر یک ساختمان اداری به حسگرهای IoT مجهز باشد، میتوانیم بهطور خودکار گرمایش و روشنایی را کنترل کنیم تا هزینهها را به حداقل برسانیم.
- نظرسنجیها که از کاربران میخواهیم پس از خرید یا بازدید از یک وبسایت تکمیل کنند.
- تحلیل رفتار میتواند به ما کمک کند بفهمیم کاربران تا چه حد در یک سایت پیش میروند و دلیل معمول ترک سایت چیست.
- غیرساختاریافته
- متون میتوانند منبع غنی از بینشها باشند، مانند امتیاز کلی احساسات یا استخراج کلمات کلیدی و معنای مفهومی.
- تصاویر یا ویدئو. یک ویدئو از دوربین نظارتی میتواند برای تخمین ترافیک جاده استفاده شود و به مردم درباره احتمال ترافیک سنگین اطلاع دهد.
- لاگهای سرور وب میتوانند برای فهمیدن اینکه کدام صفحات سایت ما بیشتر بازدید میشوند و برای چه مدت، استفاده شوند.
- نیمهساختاریافته
- گرافهای شبکههای اجتماعی میتوانند منابع عالی داده درباره شخصیت کاربران و اثربخشی بالقوه آنها در انتشار اطلاعات باشند.
- وقتی مجموعهای از عکسهای یک مهمانی داریم، میتوانیم سعی کنیم دادههای پویایی گروهی را با ساختن گرافی از افرادی که با یکدیگر عکس میگیرند، استخراج کنیم.
با دانستن منابع مختلف داده، میتوانید درباره سناریوهای مختلفی فکر کنید که در آنها تکنیکهای علم داده میتوانند برای درک بهتر وضعیت و بهبود فرآیندهای کسبوکار به کار گرفته شوند.
چه کارهایی میتوان با داده انجام داد
در علم داده، ما بر مراحل زیر در مسیر داده تمرکز میکنیم:
البته، بسته به دادههای واقعی، ممکن است برخی مراحل حذف شوند (مثلاً وقتی دادهها از قبل در پایگاه داده موجود هستند یا وقتی نیازی به آموزش مدل نداریم)، یا برخی مراحل ممکن است چندین بار تکرار شوند (مانند پردازش دادهها).
دیجیتالیسازی و تحول دیجیتال
در دهه گذشته، بسیاری از کسبوکارها اهمیت دادهها را در تصمیمگیریهای تجاری درک کردهاند. برای اعمال اصول علم داده در مدیریت یک کسبوکار، ابتدا باید دادههایی جمعآوری شود، یعنی فرآیندهای کسبوکار به شکل دیجیتال ترجمه شوند. این فرآیند به عنوان دیجیتالیسازی شناخته میشود. استفاده از تکنیکهای علم داده بر روی این دادهها برای هدایت تصمیمگیریها میتواند منجر به افزایش قابل توجه بهرهوری (یا حتی تغییر مسیر کسبوکار) شود که به آن تحول دیجیتال میگویند.
بیایید یک مثال را بررسی کنیم. فرض کنید ما یک دوره علم داده (مانند همین دوره) داریم که به صورت آنلاین به دانشجویان ارائه میشود و میخواهیم از علم داده برای بهبود آن استفاده کنیم. چگونه میتوانیم این کار را انجام دهیم؟
میتوانیم با پرسیدن این سؤال شروع کنیم: "چه چیزی میتواند دیجیتالی شود؟" سادهترین راه این است که زمان لازم برای تکمیل هر ماژول توسط هر دانشجو را اندازهگیری کنیم و دانش کسبشده را با ارائه یک آزمون چندگزینهای در پایان هر ماژول ارزیابی کنیم. با میانگینگیری زمان تکمیل در میان همه دانشجویان، میتوانیم بفهمیم کدام ماژولها برای دانشجویان بیشترین دشواری را ایجاد میکنند و روی سادهتر کردن آنها کار کنیم. ممکن است استدلال کنید که این روش ایدهآل نیست، زیرا ماژولها میتوانند طولهای متفاوتی داشته باشند. احتمالاً منصفانهتر است که زمان را بر اساس طول ماژول (بر حسب تعداد کاراکترها) تقسیم کرده و سپس آن مقادیر را با یکدیگر مقایسه کنیم. هنگامی که شروع به تحلیل نتایج آزمونهای چندگزینهای میکنیم، میتوانیم تلاش کنیم تا مفاهیمی را که دانشآموزان در درک آنها مشکل دارند شناسایی کنیم و از این اطلاعات برای بهبود محتوا استفاده کنیم. برای انجام این کار، باید آزمونها را به گونهای طراحی کنیم که هر سؤال به یک مفهوم یا بخش خاصی از دانش مرتبط باشد.
اگر بخواهیم موضوع را پیچیدهتر کنیم، میتوانیم زمان صرفشده برای هر ماژول را در مقابل دستهبندی سنی دانشآموزان رسم کنیم. ممکن است متوجه شویم که برای برخی دستههای سنی، تکمیل ماژول زمان بسیار زیادی میبرد یا دانشآموزان قبل از تکمیل آن انصراف میدهند. این موضوع میتواند به ما کمک کند تا توصیههای سنی برای ماژول ارائه دهیم و نارضایتی افراد از انتظارات اشتباه را به حداقل برسانیم.
🚀 چالش
در این چالش، تلاش خواهیم کرد تا مفاهیم مرتبط با حوزه علم داده را با بررسی متون پیدا کنیم. ما یک مقاله ویکیپدیا درباره علم داده را دانلود و پردازش میکنیم و سپس یک ابر کلمات مانند این تصویر ایجاد میکنیم:
به notebook.ipynb
مراجعه کنید تا کد را مرور کنید. همچنین میتوانید کد را اجرا کنید و ببینید که چگونه تمام تبدیلهای داده را به صورت زنده انجام میدهد.
اگر نمیدانید چگونه کد را در یک Jupyter Notebook اجرا کنید، به این مقاله نگاهی بیندازید.
آزمون پس از درس
تکالیف
- وظیفه ۱: کد بالا را تغییر دهید تا مفاهیم مرتبط با حوزههای کلان داده و یادگیری ماشین را پیدا کنید.
- وظیفه ۲: درباره سناریوهای علم داده فکر کنید
اعتبارها
این درس با ♥️ توسط دمیتری سوشنیکوف نوشته شده است.
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه میشود از ترجمه حرفهای انسانی استفاده کنید. ما مسئولیتی در قبال سوءتفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.