You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/fa/1-Introduction/03-defining-data/README.md

15 KiB

تعریف داده‌ها

طرح‌نگاری توسط (@sketchthedocs)
تعریف داده‌ها - طرح‌نگاری توسط @nitya

داده‌ها شامل حقایق، اطلاعات، مشاهدات و اندازه‌گیری‌هایی هستند که برای کشف و تصمیم‌گیری‌های آگاهانه استفاده می‌شوند. یک نقطه داده یک واحد منفرد از داده‌ها در یک مجموعه داده است که شامل مجموعه‌ای از نقاط داده می‌باشد. مجموعه‌های داده ممکن است در قالب‌ها و ساختارهای مختلفی ارائه شوند و معمولاً بر اساس منبع آن‌ها یا جایی که داده‌ها از آن آمده‌اند، شکل می‌گیرند. به عنوان مثال، درآمد ماهانه یک شرکت ممکن است در یک صفحه گسترده باشد، اما داده‌های ضربان قلب ساعتی از یک ساعت هوشمند ممکن است در قالب JSON باشد. معمولاً دانشمندان داده با انواع مختلف داده‌ها در یک مجموعه داده کار می‌کنند.

این درس بر شناسایی و طبقه‌بندی داده‌ها بر اساس ویژگی‌ها و منابع آن‌ها تمرکز دارد.

آزمون پیش از درس

چگونه داده‌ها توصیف می‌شوند

داده خام

داده خام داده‌ای است که از منبع خود در حالت اولیه آمده و هنوز تحلیل یا سازماندهی نشده است. برای درک آنچه در یک مجموعه داده اتفاق می‌افتد، باید به شکلی سازماندهی شود که توسط انسان‌ها و همچنین فناوری‌هایی که ممکن است برای تحلیل بیشتر استفاده کنند، قابل فهم باشد. ساختار یک مجموعه داده نحوه سازماندهی آن را توصیف می‌کند و می‌تواند به صورت ساختاریافته، غیرساختاریافته و نیمه‌ساختاریافته طبقه‌بندی شود. این نوع ساختارها بسته به منبع متفاوت خواهند بود، اما در نهایت در این سه دسته قرار می‌گیرند.

داده‌های کمی

داده‌های کمی مشاهدات عددی در یک مجموعه داده هستند و معمولاً می‌توان آن‌ها را تحلیل، اندازه‌گیری و به صورت ریاضی استفاده کرد. برخی از نمونه‌های داده‌های کمی عبارتند از: جمعیت یک کشور، قد یک فرد یا درآمد سه‌ماهه یک شرکت. با تحلیل بیشتر، داده‌های کمی می‌توانند برای کشف روندهای فصلی شاخص کیفیت هوا (AQI) یا تخمین احتمال ترافیک در ساعات شلوغی یک روز کاری معمولی استفاده شوند.

داده‌های کیفی

داده‌های کیفی، که به عنوان داده‌های دسته‌بندی‌شده نیز شناخته می‌شوند، داده‌هایی هستند که نمی‌توانند به صورت عینی مانند مشاهدات داده‌های کمی اندازه‌گیری شوند. این داده‌ها معمولاً در قالب‌های مختلفی از داده‌های ذهنی هستند که کیفیت چیزی مانند یک محصول یا فرآیند را ثبت می‌کنند. گاهی اوقات داده‌های کیفی عددی هستند اما معمولاً به صورت ریاضی استفاده نمی‌شوند، مانند شماره تلفن‌ها یا زمان‌سنج‌ها. برخی از نمونه‌های داده‌های کیفی عبارتند از: نظرات ویدئویی، مدل و برند یک خودرو یا رنگ مورد علاقه نزدیک‌ترین دوستان شما. داده‌های کیفی می‌توانند برای درک اینکه کدام محصولات بیشتر مورد علاقه مصرف‌کنندگان هستند یا شناسایی کلمات کلیدی محبوب در رزومه‌های شغلی استفاده شوند.

داده‌های ساختاریافته

داده‌های ساختاریافته داده‌هایی هستند که به صورت ردیف‌ها و ستون‌ها سازماندهی شده‌اند، به طوری که هر ردیف مجموعه‌ای از ستون‌های یکسان دارد. ستون‌ها نمایانگر یک مقدار از نوع خاصی هستند و با نامی که نشان‌دهنده آنچه مقدار نشان می‌دهد، شناسایی می‌شوند، در حالی که ردیف‌ها مقادیر واقعی را شامل می‌شوند. ستون‌ها اغلب مجموعه‌ای از قوانین یا محدودیت‌ها در مورد مقادیر دارند تا اطمینان حاصل شود که مقادیر به درستی نمایانگر ستون هستند. به عنوان مثال، تصور کنید یک صفحه گسترده مشتریان که هر ردیف باید یک شماره تلفن داشته باشد و شماره تلفن‌ها هرگز شامل کاراکترهای الفبایی نمی‌شوند. ممکن است قوانینی بر روی ستون شماره تلفن اعمال شود تا مطمئن شود که هرگز خالی نیست و فقط شامل اعداد است.

یکی از مزایای داده‌های ساختاریافته این است که می‌توان آن‌ها را به گونه‌ای سازماندهی کرد که با داده‌های ساختاریافته دیگر مرتبط شوند. با این حال، به دلیل اینکه داده‌ها به گونه‌ای طراحی شده‌اند که به صورت خاصی سازماندهی شوند، ایجاد تغییرات در ساختار کلی آن‌ها ممکن است تلاش زیادی را بطلبد. به عنوان مثال، اضافه کردن یک ستون ایمیل به صفحه گسترده مشتریان که نمی‌تواند خالی باشد، به این معناست که باید مشخص کنید چگونه این مقادیر را به ردیف‌های موجود مشتریان در مجموعه داده اضافه کنید.

نمونه‌هایی از داده‌های ساختاریافته: صفحات گسترده، پایگاه‌های داده رابطه‌ای، شماره تلفن‌ها، صورت‌حساب‌های بانکی

داده‌های غیرساختاریافته

داده‌های غیرساختاریافته معمولاً نمی‌توانند به صورت ردیف‌ها یا ستون‌ها دسته‌بندی شوند و قالب یا مجموعه‌ای از قوانین برای پیروی ندارند. به دلیل اینکه داده‌های غیرساختاریافته محدودیت‌های کمتری در ساختار خود دارند، اضافه کردن اطلاعات جدید در مقایسه با یک مجموعه داده ساختاریافته آسان‌تر است. اگر یک حسگر که داده‌های فشار بارومتری را هر ۲ دقیقه ثبت می‌کند، به‌روزرسانی دریافت کند که اکنون اجازه می‌دهد دما را اندازه‌گیری و ثبت کند، نیازی به تغییر داده‌های موجود ندارد اگر غیرساختاریافته باشد. با این حال، این ممکن است تحلیل یا بررسی این نوع داده‌ها را طولانی‌تر کند. به عنوان مثال، یک دانشمند که می‌خواهد میانگین دمای ماه گذشته را از داده‌های حسگر پیدا کند، اما متوجه می‌شود که حسگر در برخی از داده‌های ثبت‌شده خود به جای یک عدد معمولی، یک "e" ثبت کرده است تا نشان دهد خراب بوده است، که به این معناست که داده‌ها ناقص هستند.

نمونه‌هایی از داده‌های غیرساختاریافته: فایل‌های متنی، پیام‌های متنی، فایل‌های ویدئویی

داده‌های نیمه‌ساختاریافته

داده‌های نیمه‌ساختاریافته ویژگی‌هایی دارند که آن‌ها را ترکیبی از داده‌های ساختاریافته و غیرساختاریافته می‌سازد. این داده‌ها معمولاً به قالب ردیف‌ها و ستون‌ها پایبند نیستند اما به گونه‌ای سازماندهی شده‌اند که ساختاریافته محسوب می‌شوند و ممکن است از یک قالب ثابت یا مجموعه‌ای از قوانین پیروی کنند. ساختار بسته به منابع متفاوت خواهد بود، مانند یک سلسله‌مراتب تعریف‌شده تا چیزی انعطاف‌پذیرتر که اجازه ادغام آسان اطلاعات جدید را می‌دهد. فراداده‌ها شاخص‌هایی هستند که به تصمیم‌گیری در مورد نحوه سازماندهی و ذخیره داده‌ها کمک می‌کنند و نام‌های مختلفی بر اساس نوع داده خواهند داشت. برخی از نام‌های رایج برای فراداده‌ها عبارتند از: برچسب‌ها، عناصر، موجودیت‌ها و ویژگی‌ها. به عنوان مثال، یک پیام ایمیل معمولی شامل موضوع، متن و مجموعه‌ای از گیرندگان خواهد بود و می‌توان آن را بر اساس اینکه توسط چه کسی یا چه زمانی ارسال شده است، سازماندهی کرد.

نمونه‌هایی از داده‌های نیمه‌ساختاریافته: HTML، فایل‌های CSV، JavaScript Object Notation (JSON)

منابع داده

یک منبع داده مکان اولیه‌ای است که داده‌ها در آن تولید شده‌اند یا "زندگی می‌کنند" و بسته به نحوه و زمان جمع‌آوری متفاوت خواهد بود. داده‌هایی که توسط کاربران آن تولید شده‌اند به عنوان داده‌های اولیه شناخته می‌شوند، در حالی که داده‌های ثانویه از منبعی می‌آیند که داده‌ها را برای استفاده عمومی جمع‌آوری کرده است. به عنوان مثال، گروهی از دانشمندان که مشاهداتی را در یک جنگل بارانی جمع‌آوری می‌کنند، به عنوان داده‌های اولیه در نظر گرفته می‌شوند و اگر تصمیم بگیرند آن را با دانشمندان دیگر به اشتراک بگذارند، برای کسانی که از آن استفاده می‌کنند به عنوان داده‌های ثانویه محسوب می‌شود.

پایگاه‌های داده یک منبع رایج هستند و به یک سیستم مدیریت پایگاه داده متکی هستند تا داده‌ها را میزبانی و نگهداری کنند، جایی که کاربران از دستورات به نام پرس‌وجوها برای بررسی داده‌ها استفاده می‌کنند. فایل‌ها به عنوان منابع داده می‌توانند فایل‌های صوتی، تصویری و ویدئویی باشند و همچنین صفحات گسترده مانند Excel. منابع اینترنتی مکان رایجی برای میزبانی داده‌ها هستند، جایی که پایگاه‌های داده و همچنین فایل‌ها می‌توانند یافت شوند. رابط‌های برنامه‌نویسی کاربردی، که به عنوان API شناخته می‌شوند، به برنامه‌نویسان اجازه می‌دهند راه‌هایی برای اشتراک‌گذاری داده‌ها با کاربران خارجی از طریق اینترنت ایجاد کنند، در حالی که فرآیند استخراج داده از صفحات وب داده‌ها را از یک صفحه وب استخراج می‌کند. درس‌های موجود در کار با داده‌ها بر نحوه استفاده از منابع مختلف داده تمرکز دارند.

نتیجه‌گیری

در این درس یاد گرفتیم:

  • داده چیست
  • چگونه داده‌ها توصیف می‌شوند
  • چگونه داده‌ها طبقه‌بندی و دسته‌بندی می‌شوند
  • داده‌ها کجا یافت می‌شوند

🚀 چالش

Kaggle منبعی عالی برای مجموعه داده‌های باز است. از ابزار جستجوی مجموعه داده‌ها استفاده کنید تا چند مجموعه داده جالب پیدا کنید و ۳-۵ مجموعه داده را با این معیارها طبقه‌بندی کنید:

  • آیا داده‌ها کمی هستند یا کیفی؟
  • آیا داده‌ها ساختاریافته، غیرساختاریافته یا نیمه‌ساختاریافته هستند؟

آزمون پس از درس

مرور و مطالعه شخصی

  • این واحد Microsoft Learn با عنوان طبقه‌بندی داده‌های خود توضیح مفصلی درباره داده‌های ساختاریافته، نیمه‌ساختاریافته و غیرساختاریافته دارد.

تکلیف

طبقه‌بندی مجموعه‌های داده


سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادقتی‌هایی باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفه‌ای انسانی توصیه می‌شود. ما هیچ مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.