You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/fa/1-Introduction/01-defining-data-science
leestott 29fa7e1c12
🌐 Update translations via Co-op Translator
9 months ago
..
solution 🌐 Update translations via Co-op Translator 9 months ago
README.md 🌐 Update translations via Co-op Translator 9 months ago
assignment.md 🌐 Update translations via Co-op Translator 9 months ago
notebook.ipynb 🌐 Update translations via Co-op Translator 9 months ago

README.md

انواع داده

همان‌طور که قبلاً اشاره کردیم، داده‌ها همه‌جا هستند. فقط باید آن‌ها را به روش درست جمع‌آوری کنیم! مفید است که بین داده‌های ساخت‌یافته و غیرساخت‌یافته تمایز قائل شویم. داده‌های ساخت‌یافته معمولاً به صورت منظم و در قالب جدول یا چندین جدول نمایش داده می‌شوند، در حالی که داده‌های غیرساخت‌یافته فقط مجموعه‌ای از فایل‌ها هستند. گاهی اوقات می‌توانیم درباره داده‌های نیمه‌ساخت‌یافته صحبت کنیم که دارای نوعی ساختار هستند که ممکن است بسیار متفاوت باشد.

ساخت‌یافته نیمه‌ساخت‌یافته غیرساخت‌یافته
لیست افراد با شماره تلفن‌هایشان صفحات ویکی‌پدیا با لینک‌ها متن دایرة‌المعارف بریتانیکا
دمای تمام اتاق‌های یک ساختمان در هر دقیقه طی ۲۰ سال گذشته مجموعه‌ای از مقالات علمی در قالب JSON با نویسندگان، تاریخ انتشار و چکیده اشتراک فایل با اسناد شرکتی
داده‌های سن و جنسیت تمام افرادی که وارد ساختمان می‌شوند صفحات اینترنت ویدئوی خام از دوربین نظارتی

از کجا داده تهیه کنیم

منابع زیادی برای داده وجود دارد و فهرست کردن همه آن‌ها غیرممکن است! با این حال، بیایید برخی از مکان‌های معمولی که می‌توانید داده‌ها را از آن‌ها تهیه کنید، ذکر کنیم:

  • ساخت‌یافته
    • اینترنت اشیا (IoT)، شامل داده‌های حسگرهای مختلف مانند حسگرهای دما یا فشار، داده‌های مفیدی ارائه می‌دهد. به عنوان مثال، اگر یک ساختمان اداری به حسگرهای IoT مجهز باشد، می‌توانیم به‌طور خودکار گرمایش و روشنایی را کنترل کنیم تا هزینه‌ها را به حداقل برسانیم.
    • نظرسنجی‌ها که از کاربران می‌خواهیم پس از خرید یا بازدید از یک وب‌سایت تکمیل کنند.
    • تحلیل رفتار می‌تواند به ما کمک کند تا بفهمیم کاربران چقدر در یک سایت پیش می‌روند و دلیل معمول ترک سایت چیست.
  • غیرساخت‌یافته
    • متون می‌توانند منبع غنی از بینش‌ها باشند، مانند امتیاز کلی احساسات یا استخراج کلمات کلیدی و معنای مفهومی.
    • تصاویر یا ویدئو. یک ویدئو از دوربین نظارتی می‌تواند برای تخمین ترافیک جاده استفاده شود و مردم را از احتمال ترافیک سنگین مطلع کند.
    • لاگ‌های سرور وب می‌توانند برای فهمیدن اینکه کدام صفحات سایت ما بیشتر بازدید می‌شوند و برای چه مدت، استفاده شوند.
  • نیمه‌ساخت‌یافته
    • گراف‌های شبکه‌های اجتماعی می‌توانند منابع عالی داده درباره شخصیت کاربران و اثربخشی بالقوه در انتشار اطلاعات باشند.
    • وقتی مجموعه‌ای از عکس‌های یک مهمانی داریم، می‌توانیم سعی کنیم داده‌های دینامیک گروهی را با ساختن گرافی از افرادی که با یکدیگر عکس می‌گیرند، استخراج کنیم.

با دانستن منابع مختلف داده، می‌توانید درباره سناریوهای مختلفی فکر کنید که تکنیک‌های علم داده می‌توانند برای درک بهتر وضعیت و بهبود فرآیندهای کسب‌وکار به کار گرفته شوند.

چه کارهایی می‌توان با داده انجام داد

در علم داده، ما بر مراحل زیر در مسیر داده تمرکز می‌کنیم:

البته، بسته به داده‌های واقعی، ممکن است برخی مراحل حذف شوند (مثلاً وقتی داده‌ها از قبل در پایگاه داده موجود هستند یا وقتی نیازی به آموزش مدل نداریم)، یا برخی مراحل ممکن است چندین بار تکرار شوند (مانند پردازش داده‌ها).

دیجیتالی‌سازی و تحول دیجیتال

در دهه گذشته، بسیاری از کسب‌وکارها اهمیت داده‌ها را در تصمیم‌گیری‌های تجاری درک کرده‌اند. برای اعمال اصول علم داده در مدیریت یک کسب‌وکار، ابتدا باید داده‌هایی جمع‌آوری کنیم، یعنی فرآیندهای کسب‌وکار را به شکل دیجیتال ترجمه کنیم. این فرآیند به عنوان دیجیتالی‌سازی شناخته می‌شود. استفاده از تکنیک‌های علم داده بر روی این داده‌ها برای هدایت تصمیمات می‌تواند منجر به افزایش قابل توجه بهره‌وری (یا حتی تغییر مسیر کسب‌وکار) شود که به آن تحول دیجیتال می‌گویند.

بیایید یک مثال را بررسی کنیم. فرض کنید ما یک دوره علم داده (مانند این دوره) داریم که به صورت آنلاین به دانشجویان ارائه می‌دهیم و می‌خواهیم از علم داده برای بهبود آن استفاده کنیم. چگونه می‌توانیم این کار را انجام دهیم؟

می‌توانیم با پرسیدن "چه چیزی می‌تواند دیجیتالی شود؟" شروع کنیم. ساده‌ترین راه این است که زمان لازم برای تکمیل هر ماژول توسط هر دانشجو را اندازه‌گیری کنیم و دانش کسب‌شده را با ارائه یک آزمون چندگزینه‌ای در پایان هر ماژول ارزیابی کنیم. با میانگین‌گیری زمان تکمیل در میان همه دانشجویان، می‌توانیم بفهمیم کدام ماژول‌ها بیشترین دشواری را برای دانشجویان ایجاد می‌کنند و روی ساده‌تر کردن آن‌ها کار کنیم. ممکن است بحث کنید که این روش ایده‌آل نیست، زیرا طول ماژول‌ها می‌تواند متفاوت باشد. احتمالاً تقسیم زمان بر اساس طول ماژول (بر حسب تعداد کاراکترها) و مقایسه آن مقادیر، منصفانه‌تر باشد. هنگامی که شروع به تحلیل نتایج آزمون‌های چندگزینه‌ای می‌کنیم، می‌توانیم تلاش کنیم تا مفاهیمی را که دانش‌آموزان در درک آن‌ها مشکل دارند شناسایی کنیم و از این اطلاعات برای بهبود محتوا استفاده کنیم. برای انجام این کار، باید آزمون‌ها را به گونه‌ای طراحی کنیم که هر سؤال به یک مفهوم یا بخش خاصی از دانش مرتبط باشد.

اگر بخواهیم پیچیدگی بیشتری اضافه کنیم، می‌توانیم زمان صرف‌شده برای هر ماژول را در مقابل دسته‌بندی سنی دانش‌آموزان رسم کنیم. ممکن است متوجه شویم که برای برخی دسته‌های سنی، تکمیل ماژول زمان بسیار زیادی می‌برد یا دانش‌آموزان قبل از تکمیل آن انصراف می‌دهند. این موضوع می‌تواند به ما کمک کند تا توصیه‌های سنی برای ماژول ارائه دهیم و نارضایتی افراد از انتظارات اشتباه را به حداقل برسانیم.

🚀 چالش

در این چالش، تلاش خواهیم کرد تا مفاهیم مرتبط با حوزه علم داده را با بررسی متون پیدا کنیم. ما یک مقاله ویکی‌پدیا درباره علم داده را دانلود و پردازش می‌کنیم و سپس یک ابر واژه مانند این تصویر ایجاد می‌کنیم:

ابر واژه برای علم داده

به notebook.ipynb مراجعه کنید تا کد را مرور کنید. همچنین می‌توانید کد را اجرا کنید و ببینید که چگونه تمام تبدیل‌های داده را به صورت لحظه‌ای انجام می‌دهد.

اگر نمی‌دانید چگونه کد را در یک Jupyter Notebook اجرا کنید، به این مقاله نگاهی بیندازید.

آزمون پس از درس

تکالیف

اعتبارها

این درس با ♥️ توسط دمیتری سوشنیکوف نوشته شده است.


سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه می‌شود از ترجمه انسانی حرفه‌ای استفاده کنید. ما مسئولیتی در قبال سوء تفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.