You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/fa/1-Introduction/01-defining-data-science/README.md

78 lines
12 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "2583a9894af7123b2fcae3376b14c035",
"translation_date": "2025-08-24T21:28:34+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "fa"
}
-->
## انواع داده‌ها
همان‌طور که قبلاً اشاره کردیم، داده‌ها همه‌جا هستند. فقط باید آن‌ها را به روش درست جمع‌آوری کنیم! مفید است که بین داده‌های **ساختاریافته** و **غیرساختاریافته** تمایز قائل شویم. داده‌های ساختاریافته معمولاً به‌صورت منظم و در قالب جدول یا چندین جدول ارائه می‌شوند، در حالی که داده‌های غیرساختاریافته فقط مجموعه‌ای از فایل‌ها هستند. گاهی اوقات می‌توانیم درباره داده‌های **نیمه‌ساختاریافته** صحبت کنیم که دارای نوعی ساختار هستند که ممکن است بسیار متفاوت باشد.
| ساختاریافته | نیمه‌ساختاریافته | غیرساختاریافته |
| -------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------- | --------------------------------------- |
| لیستی از افراد با شماره تلفن‌هایشان | صفحات ویکی‌پدیا با لینک‌ها | متن دایرة‌المعارف بریتانیکا |
| دمای تمام اتاق‌های یک ساختمان در هر دقیقه طی ۲۰ سال گذشته | مجموعه‌ای از مقالات علمی در قالب JSON با نویسندگان، تاریخ انتشار و چکیده | اشتراک فایل با اسناد شرکتی |
| داده‌های مربوط به سن و جنسیت تمام افرادی که وارد ساختمان می‌شوند | صفحات اینترنت | ویدئوی خام از دوربین نظارتی |
## از کجا داده‌ها را تهیه کنیم
منابع زیادی برای داده‌ها وجود دارد و فهرست کردن همه آن‌ها غیرممکن است! با این حال، بیایید برخی از مکان‌های معمولی که می‌توانید داده‌ها را از آن‌ها تهیه کنید، ذکر کنیم:
* **ساختاریافته**
- **اینترنت اشیا** (IoT)، شامل داده‌های حسگرهای مختلف مانند حسگرهای دما یا فشار، داده‌های مفیدی ارائه می‌دهد. به‌عنوان مثال، اگر یک ساختمان اداری مجهز به حسگرهای IoT باشد، می‌توانیم به‌طور خودکار گرمایش و روشنایی را کنترل کنیم تا هزینه‌ها را به حداقل برسانیم.
- **نظرسنجی‌ها** که از کاربران می‌خواهیم پس از خرید یا بازدید از یک وب‌سایت تکمیل کنند.
- **تحلیل رفتار** می‌تواند به ما کمک کند تا بفهمیم کاربران چقدر در یک سایت عمیق می‌شوند و دلیل معمول ترک سایت چیست.
* **غیرساختاریافته**
- **متون** می‌توانند منبع غنی از بینش‌ها باشند، مانند امتیاز کلی **احساسات** یا استخراج کلمات کلیدی و معنای مفهومی.
- **تصاویر** یا **ویدئو**. یک ویدئو از دوربین نظارتی می‌تواند برای تخمین ترافیک جاده استفاده شود و مردم را از احتمال ترافیک سنگین مطلع کند.
- **لاگ‌های سرور وب** می‌توانند برای درک اینکه کدام صفحات سایت ما بیشتر بازدید می‌شوند و برای چه مدت، استفاده شوند.
* **نیمه‌ساختاریافته**
- **گراف‌های شبکه‌های اجتماعی** می‌توانند منابع عالی داده درباره شخصیت کاربران و اثربخشی بالقوه در انتشار اطلاعات باشند.
- وقتی مجموعه‌ای از عکس‌های یک مهمانی داریم، می‌توانیم سعی کنیم داده‌های **پویایی گروهی** را با ساختن گرافی از افرادی که با یکدیگر عکس می‌گیرند، استخراج کنیم.
با دانستن منابع مختلف داده، می‌توانید درباره سناریوهای مختلفی فکر کنید که تکنیک‌های علم داده می‌توانند برای درک بهتر وضعیت و بهبود فرآیندهای کسب‌وکار به کار گرفته شوند.
## چه کاری می‌توانید با داده‌ها انجام دهید
در علم داده، ما بر مراحل زیر در مسیر داده تمرکز می‌کنیم:
البته، بسته به داده‌های واقعی، برخی مراحل ممکن است حذف شوند (مثلاً وقتی داده‌ها از قبل در پایگاه داده موجود هستند یا وقتی نیازی به آموزش مدل نداریم)، یا برخی مراحل ممکن است چندین بار تکرار شوند (مانند پردازش داده‌ها).
## دیجیتالی‌سازی و تحول دیجیتال
در دهه گذشته، بسیاری از کسب‌وکارها اهمیت داده‌ها را در تصمیم‌گیری‌های تجاری درک کرده‌اند. برای اعمال اصول علم داده در مدیریت کسب‌وکار، ابتدا باید داده‌هایی جمع‌آوری شود، یعنی فرآیندهای کسب‌وکار به شکل دیجیتال ترجمه شوند. این فرآیند به‌عنوان **دیجیتالی‌سازی** شناخته می‌شود. استفاده از تکنیک‌های علم داده بر روی این داده‌ها برای هدایت تصمیم‌گیری‌ها می‌تواند منجر به افزایش قابل‌توجه بهره‌وری (یا حتی تغییر مسیر کسب‌وکار) شود که به آن **تحول دیجیتال** می‌گویند.
بیایید یک مثال را بررسی کنیم. فرض کنید یک دوره علم داده (مانند همین دوره) داریم که به‌صورت آنلاین به دانشجویان ارائه می‌شود و می‌خواهیم از علم داده برای بهبود آن استفاده کنیم. چگونه می‌توانیم این کار را انجام دهیم؟
می‌توانیم با پرسیدن این سؤال شروع کنیم: "چه چیزی می‌تواند دیجیتالی شود؟" ساده‌ترین راه این است که زمان لازم برای هر دانشجو برای تکمیل هر ماژول را اندازه‌گیری کنیم و دانش کسب‌شده را با ارائه یک آزمون چندگزینه‌ای در پایان هر ماژول ارزیابی کنیم. با میانگین‌گیری زمان تکمیل در میان همه دانشجویان، می‌توانیم بفهمیم کدام ماژول‌ها بیشترین دشواری را برای دانشجویان ایجاد می‌کنند و روی ساده‌تر کردن آن‌ها کار کنیم.
ممکن است بحث کنید که این رویکرد ایده‌آل نیست، زیرا ماژول‌ها می‌توانند طول‌های متفاوتی داشته باشند. احتمالاً منصفانه‌تر این است که زمان را بر اساس طول ماژول (بر حسب تعداد کاراکترها) تقسیم کرده و سپس آن مقادیر را با یکدیگر مقایسه کنید.
هنگامی که شروع به تحلیل نتایج آزمون‌های چند گزینه‌ای می‌کنیم، می‌توانیم تلاش کنیم تا مفاهیمی را که دانش‌آموزان در درک آن‌ها مشکل دارند شناسایی کنیم و از این اطلاعات برای بهبود محتوا استفاده کنیم. برای انجام این کار، باید آزمون‌ها را به گونه‌ای طراحی کنیم که هر سؤال به یک مفهوم یا بخش خاصی از دانش مرتبط باشد.
اگر بخواهیم پیچیده‌تر عمل کنیم، می‌توانیم زمان صرف شده برای هر ماژول را در مقابل دسته‌بندی سنی دانش‌آموزان رسم کنیم. ممکن است متوجه شویم که برای برخی دسته‌های سنی، تکمیل ماژول زمان بسیار زیادی می‌برد یا دانش‌آموزان قبل از تکمیل آن انصراف می‌دهند. این موضوع می‌تواند به ما کمک کند تا توصیه‌های سنی برای ماژول ارائه دهیم و نارضایتی افراد از انتظارات اشتباه را به حداقل برسانیم.
## 🚀 چالش
در این چالش، تلاش خواهیم کرد تا مفاهیم مرتبط با حوزه علم داده را با بررسی متون پیدا کنیم. ما یک مقاله ویکی‌پدیا درباره علم داده را دانلود و پردازش می‌کنیم و سپس یک ابر واژه مانند این تصویر ایجاد می‌کنیم:
![ابر واژه برای علم داده](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.fa.png)
به [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') مراجعه کنید تا کد را مرور کنید. همچنین می‌توانید کد را اجرا کنید و ببینید که چگونه تمام تبدیل‌های داده را به صورت لحظه‌ای انجام می‌دهد.
> اگر نمی‌دانید چگونه کد را در یک Jupyter Notebook اجرا کنید، به [این مقاله](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) نگاهی بیندازید.
## [آزمون پس از درس](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
## تکالیف
* **وظیفه ۱**: کد بالا را تغییر دهید تا مفاهیم مرتبط با حوزه‌های **کلان داده** و **یادگیری ماشین** را پیدا کنید.
* **وظیفه ۲**: [درباره سناریوهای علم داده فکر کنید](assignment.md)
## اعتبارها
این درس با ♥️ توسط [دمیتری سوشنیکوف](http://soshnikov.com) نوشته شده است.
**سلب مسئولیت**:
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه می‌شود از ترجمه حرفه‌ای انسانی استفاده کنید. ما مسئولیتی در قبال سوء تفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.