You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

12 KiB

انواع داده

همان‌طور که قبلاً اشاره کردیم، داده‌ها همه‌جا هستند. فقط باید آن‌ها را به روش درست جمع‌آوری کنیم! مفید است که بین داده‌های ساختاریافته و غیرساختاریافته تمایز قائل شویم. داده‌های ساختاریافته معمولاً به صورت منظم و در قالب جدول یا چندین جدول ارائه می‌شوند، در حالی که داده‌های غیرساختاریافته فقط مجموعه‌ای از فایل‌ها هستند. گاهی اوقات می‌توانیم درباره داده‌های نیمه‌ساختاریافته صحبت کنیم که دارای نوعی ساختار هستند اما این ساختار ممکن است بسیار متغیر باشد.

ساختاریافته نیمه‌ساختاریافته غیرساختاریافته
لیست افراد همراه با شماره تلفن‌هایشان صفحات ویکی‌پدیا با لینک‌ها متن دایرة‌المعارف بریتانیکا
دمای تمام اتاق‌های یک ساختمان در هر دقیقه طی ۲۰ سال گذشته مجموعه مقالات علمی در قالب JSON همراه با نویسندگان، تاریخ انتشار و چکیده اشتراک فایل با اسناد شرکتی
داده‌های مربوط به سن و جنسیت تمام افرادی که وارد ساختمان می‌شوند صفحات اینترنت ویدئوی خام از دوربین نظارتی

از کجا داده تهیه کنیم

منابع زیادی برای تهیه داده وجود دارد و فهرست کردن همه آن‌ها غیرممکن است! با این حال، بیایید برخی از مکان‌های معمول برای تهیه داده را ذکر کنیم:

  • ساختاریافته
    • اینترنت اشیا (IoT)، شامل داده‌های حسگرهای مختلف مانند حسگرهای دما یا فشار، داده‌های مفیدی ارائه می‌دهد. به عنوان مثال، اگر یک ساختمان اداری به حسگرهای IoT مجهز باشد، می‌توانیم به‌طور خودکار گرمایش و روشنایی را کنترل کنیم تا هزینه‌ها را به حداقل برسانیم.
    • نظرسنجی‌ها که از کاربران می‌خواهیم پس از خرید یا بازدید از یک وب‌سایت تکمیل کنند.
    • تحلیل رفتار می‌تواند به ما کمک کند بفهمیم کاربران تا چه حد در یک سایت پیش می‌روند و دلیل معمول ترک سایت چیست.
  • غیرساختاریافته
    • متون می‌توانند منبع غنی از بینش‌ها باشند، مانند امتیاز کلی احساسات یا استخراج کلمات کلیدی و معنای مفهومی.
    • تصاویر یا ویدئو. یک ویدئو از دوربین نظارتی می‌تواند برای تخمین ترافیک جاده استفاده شود و به مردم درباره احتمال ترافیک سنگین اطلاع دهد.
    • لاگ‌های سرور وب می‌توانند برای فهمیدن اینکه کدام صفحات سایت ما بیشتر بازدید می‌شوند و برای چه مدت، استفاده شوند.
  • نیمه‌ساختاریافته
    • گراف‌های شبکه‌های اجتماعی می‌توانند منابع عالی داده درباره شخصیت کاربران و اثربخشی بالقوه آن‌ها در انتشار اطلاعات باشند.
    • وقتی مجموعه‌ای از عکس‌های یک مهمانی داریم، می‌توانیم سعی کنیم داده‌های پویایی گروهی را با ساختن گرافی از افرادی که با یکدیگر عکس می‌گیرند، استخراج کنیم.

با دانستن منابع مختلف داده، می‌توانید درباره سناریوهای مختلفی فکر کنید که در آن‌ها تکنیک‌های علم داده می‌توانند برای درک بهتر وضعیت و بهبود فرآیندهای کسب‌وکار به کار گرفته شوند.

چه کارهایی می‌توان با داده انجام داد

در علم داده، ما بر مراحل زیر در مسیر داده تمرکز می‌کنیم:

البته، بسته به داده‌های واقعی، ممکن است برخی مراحل حذف شوند (مثلاً وقتی داده‌ها از قبل در پایگاه داده موجود هستند یا وقتی نیازی به آموزش مدل نداریم)، یا برخی مراحل ممکن است چندین بار تکرار شوند (مانند پردازش داده‌ها).

دیجیتالی‌سازی و تحول دیجیتال

در دهه گذشته، بسیاری از کسب‌وکارها اهمیت داده‌ها را در تصمیم‌گیری‌های تجاری درک کرده‌اند. برای اعمال اصول علم داده در مدیریت یک کسب‌وکار، ابتدا باید داده‌هایی جمع‌آوری شود، یعنی فرآیندهای کسب‌وکار به شکل دیجیتال ترجمه شوند. این فرآیند به عنوان دیجیتالی‌سازی شناخته می‌شود. استفاده از تکنیک‌های علم داده بر روی این داده‌ها برای هدایت تصمیم‌گیری‌ها می‌تواند منجر به افزایش قابل توجه بهره‌وری (یا حتی تغییر مسیر کسب‌وکار) شود که به آن تحول دیجیتال می‌گویند.

بیایید یک مثال را بررسی کنیم. فرض کنید ما یک دوره علم داده (مانند همین دوره) داریم که به صورت آنلاین به دانشجویان ارائه می‌شود و می‌خواهیم از علم داده برای بهبود آن استفاده کنیم. چگونه می‌توانیم این کار را انجام دهیم؟

می‌توانیم با پرسیدن این سؤال شروع کنیم: "چه چیزی می‌تواند دیجیتالی شود؟" ساده‌ترین راه این است که زمان لازم برای تکمیل هر ماژول توسط هر دانشجو را اندازه‌گیری کنیم و دانش کسب‌شده را با ارائه یک آزمون چندگزینه‌ای در پایان هر ماژول ارزیابی کنیم. با میانگین‌گیری زمان تکمیل در میان همه دانشجویان، می‌توانیم بفهمیم کدام ماژول‌ها برای دانشجویان بیشترین دشواری را ایجاد می‌کنند و روی ساده‌تر کردن آن‌ها کار کنیم. ممکن است استدلال کنید که این روش ایده‌آل نیست، زیرا ماژول‌ها می‌توانند طول‌های متفاوتی داشته باشند. احتمالاً منصفانه‌تر است که زمان را بر اساس طول ماژول (بر حسب تعداد کاراکترها) تقسیم کرده و سپس آن مقادیر را با یکدیگر مقایسه کنیم. هنگامی که شروع به تحلیل نتایج آزمون‌های چندگزینه‌ای می‌کنیم، می‌توانیم تلاش کنیم تا مفاهیمی را که دانش‌آموزان در درک آن‌ها مشکل دارند شناسایی کنیم و از این اطلاعات برای بهبود محتوا استفاده کنیم. برای انجام این کار، باید آزمون‌ها را به گونه‌ای طراحی کنیم که هر سؤال به یک مفهوم یا بخش خاصی از دانش مرتبط باشد.

اگر بخواهیم موضوع را پیچیده‌تر کنیم، می‌توانیم زمان صرف‌شده برای هر ماژول را در مقابل دسته‌بندی سنی دانش‌آموزان رسم کنیم. ممکن است متوجه شویم که برای برخی دسته‌های سنی، تکمیل ماژول زمان بسیار زیادی می‌برد یا دانش‌آموزان قبل از تکمیل آن انصراف می‌دهند. این موضوع می‌تواند به ما کمک کند تا توصیه‌های سنی برای ماژول ارائه دهیم و نارضایتی افراد از انتظارات اشتباه را به حداقل برسانیم.

🚀 چالش

در این چالش، تلاش خواهیم کرد تا مفاهیم مرتبط با حوزه علم داده را با بررسی متون پیدا کنیم. ما یک مقاله ویکی‌پدیا درباره علم داده را دانلود و پردازش می‌کنیم و سپس یک ابر کلمات مانند این تصویر ایجاد می‌کنیم:

ابر کلمات برای علم داده

به notebook.ipynb مراجعه کنید تا کد را مرور کنید. همچنین می‌توانید کد را اجرا کنید و ببینید که چگونه تمام تبدیل‌های داده را به صورت زنده انجام می‌دهد.

اگر نمی‌دانید چگونه کد را در یک Jupyter Notebook اجرا کنید، به این مقاله نگاهی بیندازید.

آزمون پس از درس

تکالیف

اعتبارها

این درس با ♥️ توسط دمیتری سوشنیکوف نوشته شده است.


سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه می‌شود از ترجمه حرفه‌ای انسانی استفاده کنید. ما مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.