You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/fa/1-Introduction/03-defining-data/README.md

15 KiB

تعریف داده‌ها

طرح مفهومی توسط (@sketchthedocs)
تعریف داده‌ها - طرح مفهومی توسط @nitya

داده‌ها شامل حقایق، اطلاعات، مشاهدات و اندازه‌گیری‌هایی هستند که برای کشف و پشتیبانی از تصمیم‌گیری‌های آگاهانه استفاده می‌شوند. یک نقطه داده، یک واحد منفرد از داده‌ها در یک مجموعه داده است که شامل مجموعه‌ای از نقاط داده می‌باشد. مجموعه‌های داده ممکن است در قالب‌ها و ساختارهای مختلفی ارائه شوند و معمولاً بر اساس منبع آن‌ها یا جایی که داده‌ها از آن آمده‌اند، تعریف می‌شوند. به عنوان مثال، درآمد ماهانه یک شرکت ممکن است در یک صفحه گسترده باشد، اما داده‌های ضربان قلب ساعتی از یک ساعت هوشمند ممکن است در قالب JSON باشد. معمولاً دانشمندان داده با انواع مختلف داده‌ها در یک مجموعه داده کار می‌کنند.

این درس بر شناسایی و طبقه‌بندی داده‌ها بر اساس ویژگی‌ها و منابع آن‌ها تمرکز دارد.

پیش‌ آزمون

چگونه داده‌ها توصیف می‌شوند

داده خام

داده خام، داده‌ای است که از منبع خود در حالت اولیه‌اش آمده و هنوز تحلیل یا سازماندهی نشده است. برای درک آنچه در یک مجموعه داده اتفاق می‌افتد، باید به شکلی سازماندهی شود که برای انسان‌ها و همچنین فناوری‌هایی که ممکن است برای تحلیل بیشتر آن استفاده کنند، قابل فهم باشد. ساختار یک مجموعه داده نحوه سازماندهی آن را توصیف می‌کند و می‌تواند به صورت ساختاریافته، غیرساختاریافته و نیمه‌ساختاریافته طبقه‌بندی شود. این انواع ساختار بسته به منبع متفاوت خواهند بود، اما در نهایت در این سه دسته قرار می‌گیرند.

داده‌های کمی

داده‌های کمی، مشاهدات عددی در یک مجموعه داده هستند و معمولاً می‌توان آن‌ها را تحلیل، اندازه‌گیری و به صورت ریاضی استفاده کرد. برخی از نمونه‌های داده‌های کمی عبارتند از: جمعیت یک کشور، قد یک فرد یا درآمد فصلی یک شرکت. با تحلیل بیشتر، داده‌های کمی می‌توانند برای کشف روندهای فصلی شاخص کیفیت هوا (AQI) یا تخمین احتمال ترافیک در ساعات شلوغی یک روز کاری معمولی استفاده شوند.

داده‌های کیفی

داده‌های کیفی که به عنوان داده‌های دسته‌بندی‌شده نیز شناخته می‌شوند، داده‌هایی هستند که نمی‌توان آن‌ها را به صورت عینی مانند داده‌های کمی اندازه‌گیری کرد. این داده‌ها معمولاً در قالب‌های مختلفی از داده‌های ذهنی هستند که کیفیت چیزی مانند یک محصول یا فرآیند را ثبت می‌کنند. گاهی اوقات، داده‌های کیفی عددی هستند اما معمولاً به صورت ریاضی استفاده نمی‌شوند، مانند شماره تلفن‌ها یا زمان‌سنج‌ها. برخی از نمونه‌های داده‌های کیفی عبارتند از: نظرات ویدئویی، مدل و برند یک خودرو یا رنگ مورد علاقه نزدیک‌ترین دوستان شما. داده‌های کیفی می‌توانند برای درک اینکه کدام محصولات بیشتر مورد علاقه مصرف‌کنندگان هستند یا شناسایی کلمات کلیدی محبوب در رزومه‌های شغلی استفاده شوند.

داده‌های ساختاریافته

داده‌های ساختاریافته، داده‌هایی هستند که در قالب ردیف‌ها و ستون‌ها سازماندهی شده‌اند، به طوری که هر ردیف مجموعه‌ای از ستون‌های یکسان را دارد. ستون‌ها نمایانگر یک مقدار از نوع خاصی هستند و با نامی که نشان‌دهنده آن مقدار است شناسایی می‌شوند، در حالی که ردیف‌ها مقادیر واقعی را شامل می‌شوند. ستون‌ها اغلب مجموعه‌ای از قوانین یا محدودیت‌ها را برای مقادیر دارند تا اطمینان حاصل شود که مقادیر به درستی نمایانگر ستون هستند. به عنوان مثال، تصور کنید یک صفحه گسترده از مشتریان دارید که هر ردیف باید یک شماره تلفن داشته باشد و شماره تلفن‌ها هرگز شامل حروف الفبا نمی‌شوند. ممکن است قوانینی برای ستون شماره تلفن اعمال شود تا مطمئن شوید که هرگز خالی نیست و فقط شامل اعداد است.

یکی از مزایای داده‌های ساختاریافته این است که می‌توان آن‌ها را به گونه‌ای سازماندهی کرد که با داده‌های ساختاریافته دیگر مرتبط شوند. با این حال، از آنجا که داده‌ها به گونه‌ای طراحی شده‌اند که به صورت خاصی سازماندهی شوند، ایجاد تغییرات در ساختار کلی آن‌ها ممکن است تلاش زیادی را بطلبد. به عنوان مثال، اضافه کردن یک ستون ایمیل به صفحه گسترده مشتریان که نمی‌تواند خالی باشد، به این معناست که باید مشخص کنید چگونه این مقادیر را به ردیف‌های موجود مشتریان در مجموعه داده اضافه خواهید کرد.

نمونه‌هایی از داده‌های ساختاریافته: صفحات گسترده، پایگاه‌های داده رابطه‌ای، شماره تلفن‌ها، صورت‌حساب‌های بانکی

داده‌های غیرساختاریافته

داده‌های غیرساختاریافته معمولاً نمی‌توانند به ردیف‌ها یا ستون‌ها دسته‌بندی شوند و قالب یا مجموعه‌ای از قوانین برای پیروی ندارند. از آنجا که داده‌های غیرساختاریافته محدودیت‌های کمتری در ساختار خود دارند، اضافه کردن اطلاعات جدید به آن‌ها در مقایسه با یک مجموعه داده ساختاریافته آسان‌تر است. اگر یک حسگر که داده‌های فشار بارومتریک را هر ۲ دقیقه ثبت می‌کند، به‌روزرسانی شود و اکنون بتواند دما را نیز اندازه‌گیری و ثبت کند، نیازی به تغییر داده‌های موجود نیست اگر داده‌ها غیرساختاریافته باشند. با این حال، این ممکن است تحلیل یا بررسی این نوع داده‌ها را طولانی‌تر کند. به عنوان مثال، یک دانشمند که می‌خواهد میانگین دمای ماه گذشته را از داده‌های حسگر پیدا کند، اما متوجه می‌شود که حسگر در برخی از داده‌های ثبت‌شده خود به جای عدد معمولی، یک "e" ثبت کرده است تا نشان دهد خراب بوده است، که به معنای ناقص بودن داده‌ها است.

نمونه‌هایی از داده‌های غیرساختاریافته: فایل‌های متنی، پیام‌های متنی، فایل‌های ویدئویی

داده‌های نیمه‌ساختاریافته

داده‌های نیمه‌ساختاریافته ویژگی‌هایی دارند که آن‌ها را ترکیبی از داده‌های ساختاریافته و غیرساختاریافته می‌سازد. این داده‌ها معمولاً به قالب ردیف‌ها و ستون‌ها پایبند نیستند، اما به گونه‌ای سازماندهی شده‌اند که ساختاریافته در نظر گرفته می‌شوند و ممکن است از یک قالب ثابت یا مجموعه‌ای از قوانین پیروی کنند. ساختار آن‌ها بسته به منابع متفاوت خواهد بود، مانند یک سلسله‌مراتب تعریف‌شده یا چیزی انعطاف‌پذیرتر که امکان ادغام آسان اطلاعات جدید را فراهم می‌کند. متاداده‌ها شاخص‌هایی هستند که به تصمیم‌گیری درباره نحوه سازماندهی و ذخیره داده‌ها کمک می‌کنند و بسته به نوع داده، نام‌های مختلفی دارند. برخی از نام‌های رایج برای متاداده‌ها عبارتند از: برچسب‌ها، عناصر، موجودیت‌ها و ویژگی‌ها. به عنوان مثال، یک پیام ایمیل معمولی شامل موضوع، متن اصلی و مجموعه‌ای از گیرندگان است و می‌تواند بر اساس اینکه چه کسی یا چه زمانی ارسال شده است، سازماندهی شود.

نمونه‌هایی از داده‌های نیمه‌ساختاریافته: HTML، فایل‌های CSV، JavaScript Object Notation (JSON)

منابع داده

یک منبع داده، مکان اولیه‌ای است که داده‌ها در آن تولید شده‌اند یا "زندگی می‌کنند" و بسته به نحوه و زمان جمع‌آوری آن‌ها متفاوت خواهد بود. داده‌هایی که توسط کاربران آن تولید می‌شوند، به عنوان داده‌های اولیه شناخته می‌شوند، در حالی که داده‌های ثانویه از منبعی می‌آیند که داده‌ها را برای استفاده عمومی جمع‌آوری کرده است. به عنوان مثال، گروهی از دانشمندان که مشاهداتی را در یک جنگل بارانی جمع‌آوری می‌کنند، به عنوان داده‌های اولیه در نظر گرفته می‌شوند و اگر تصمیم بگیرند آن را با دانشمندان دیگر به اشتراک بگذارند، برای کسانی که از آن استفاده می‌کنند، به عنوان داده‌های ثانویه محسوب می‌شود.

پایگاه‌های داده یک منبع رایج هستند و به یک سیستم مدیریت پایگاه داده متکی هستند تا داده‌ها را میزبانی و نگهداری کنند، جایی که کاربران از دستورات به نام کوئری‌ها برای کاوش داده‌ها استفاده می‌کنند. فایل‌ها به عنوان منابع داده می‌توانند شامل فایل‌های صوتی، تصویری و ویدئویی و همچنین صفحات گسترده مانند اکسل باشند. منابع اینترنتی یک مکان رایج برای میزبانی داده‌ها هستند، جایی که پایگاه‌های داده و همچنین فایل‌ها می‌توانند یافت شوند. رابط‌های برنامه‌نویسی کاربردی، که به عنوان API نیز شناخته می‌شوند، به برنامه‌نویسان اجازه می‌دهند راه‌هایی برای به اشتراک‌گذاری داده‌ها با کاربران خارجی از طریق اینترنت ایجاد کنند، در حالی که فرآیند وب‌اسکرپینگ داده‌ها را از یک صفحه وب استخراج می‌کند. درس‌های کار با داده‌ها بر نحوه استفاده از منابع مختلف داده تمرکز دارند.

نتیجه‌گیری

در این درس یاد گرفتیم:

  • داده چیست
  • چگونه داده توصیف می‌شود
  • چگونه داده طبقه‌بندی و دسته‌بندی می‌شود
  • داده‌ها کجا یافت می‌شوند

🚀 چالش

Kaggle منبعی عالی برای مجموعه داده‌های باز است. از ابزار جستجوی مجموعه داده استفاده کنید تا چند مجموعه داده جالب پیدا کنید و ۳ تا ۵ مجموعه داده را با این معیارها طبقه‌بندی کنید:

  • آیا داده‌ها کمی هستند یا کیفی؟
  • آیا داده‌ها ساختاریافته، غیرساختاریافته یا نیمه‌ساختاریافته هستند؟

پس‌آزمون

مرور و مطالعه شخصی

  • این واحد از Microsoft Learn با عنوان طبقه‌بندی داده‌های خود توضیح مفصلی از داده‌های ساختاریافته، نیمه‌ساختاریافته و غیرساختاریافته ارائه می‌دهد.

تکلیف

طبقه‌بندی مجموعه‌های داده

سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه می‌شود از ترجمه حرفه‌ای انسانی استفاده کنید. ما مسئولیتی در قبال سوء تفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.