15 KiB
تعریف دادهها
![]() |
---|
تعریف دادهها - طرح مفهومی توسط @nitya |
دادهها شامل حقایق، اطلاعات، مشاهدات و اندازهگیریهایی هستند که برای کشف و پشتیبانی از تصمیمگیریهای آگاهانه استفاده میشوند. یک نقطه داده، یک واحد منفرد از دادهها در یک مجموعه داده است که شامل مجموعهای از نقاط داده میباشد. مجموعههای داده ممکن است در قالبها و ساختارهای مختلفی ارائه شوند و معمولاً بر اساس منبع آنها یا جایی که دادهها از آن آمدهاند، تعریف میشوند. به عنوان مثال، درآمد ماهانه یک شرکت ممکن است در یک صفحه گسترده باشد، اما دادههای ضربان قلب ساعتی از یک ساعت هوشمند ممکن است در قالب JSON باشد. معمولاً دانشمندان داده با انواع مختلف دادهها در یک مجموعه داده کار میکنند.
این درس بر شناسایی و طبقهبندی دادهها بر اساس ویژگیها و منابع آنها تمرکز دارد.
پیش آزمون
چگونه دادهها توصیف میشوند
داده خام
داده خام، دادهای است که از منبع خود در حالت اولیهاش آمده و هنوز تحلیل یا سازماندهی نشده است. برای درک آنچه در یک مجموعه داده اتفاق میافتد، باید به شکلی سازماندهی شود که برای انسانها و همچنین فناوریهایی که ممکن است برای تحلیل بیشتر آن استفاده کنند، قابل فهم باشد. ساختار یک مجموعه داده نحوه سازماندهی آن را توصیف میکند و میتواند به صورت ساختاریافته، غیرساختاریافته و نیمهساختاریافته طبقهبندی شود. این انواع ساختار بسته به منبع متفاوت خواهند بود، اما در نهایت در این سه دسته قرار میگیرند.
دادههای کمی
دادههای کمی، مشاهدات عددی در یک مجموعه داده هستند و معمولاً میتوان آنها را تحلیل، اندازهگیری و به صورت ریاضی استفاده کرد. برخی از نمونههای دادههای کمی عبارتند از: جمعیت یک کشور، قد یک فرد یا درآمد فصلی یک شرکت. با تحلیل بیشتر، دادههای کمی میتوانند برای کشف روندهای فصلی شاخص کیفیت هوا (AQI) یا تخمین احتمال ترافیک در ساعات شلوغی یک روز کاری معمولی استفاده شوند.
دادههای کیفی
دادههای کیفی که به عنوان دادههای دستهبندیشده نیز شناخته میشوند، دادههایی هستند که نمیتوان آنها را به صورت عینی مانند دادههای کمی اندازهگیری کرد. این دادهها معمولاً در قالبهای مختلفی از دادههای ذهنی هستند که کیفیت چیزی مانند یک محصول یا فرآیند را ثبت میکنند. گاهی اوقات، دادههای کیفی عددی هستند اما معمولاً به صورت ریاضی استفاده نمیشوند، مانند شماره تلفنها یا زمانسنجها. برخی از نمونههای دادههای کیفی عبارتند از: نظرات ویدئویی، مدل و برند یک خودرو یا رنگ مورد علاقه نزدیکترین دوستان شما. دادههای کیفی میتوانند برای درک اینکه کدام محصولات بیشتر مورد علاقه مصرفکنندگان هستند یا شناسایی کلمات کلیدی محبوب در رزومههای شغلی استفاده شوند.
دادههای ساختاریافته
دادههای ساختاریافته، دادههایی هستند که در قالب ردیفها و ستونها سازماندهی شدهاند، به طوری که هر ردیف مجموعهای از ستونهای یکسان را دارد. ستونها نمایانگر یک مقدار از نوع خاصی هستند و با نامی که نشاندهنده آن مقدار است شناسایی میشوند، در حالی که ردیفها مقادیر واقعی را شامل میشوند. ستونها اغلب مجموعهای از قوانین یا محدودیتها را برای مقادیر دارند تا اطمینان حاصل شود که مقادیر به درستی نمایانگر ستون هستند. به عنوان مثال، تصور کنید یک صفحه گسترده از مشتریان دارید که هر ردیف باید یک شماره تلفن داشته باشد و شماره تلفنها هرگز شامل حروف الفبا نمیشوند. ممکن است قوانینی برای ستون شماره تلفن اعمال شود تا مطمئن شوید که هرگز خالی نیست و فقط شامل اعداد است.
یکی از مزایای دادههای ساختاریافته این است که میتوان آنها را به گونهای سازماندهی کرد که با دادههای ساختاریافته دیگر مرتبط شوند. با این حال، از آنجا که دادهها به گونهای طراحی شدهاند که به صورت خاصی سازماندهی شوند، ایجاد تغییرات در ساختار کلی آنها ممکن است تلاش زیادی را بطلبد. به عنوان مثال، اضافه کردن یک ستون ایمیل به صفحه گسترده مشتریان که نمیتواند خالی باشد، به این معناست که باید مشخص کنید چگونه این مقادیر را به ردیفهای موجود مشتریان در مجموعه داده اضافه خواهید کرد.
نمونههایی از دادههای ساختاریافته: صفحات گسترده، پایگاههای داده رابطهای، شماره تلفنها، صورتحسابهای بانکی
دادههای غیرساختاریافته
دادههای غیرساختاریافته معمولاً نمیتوانند به ردیفها یا ستونها دستهبندی شوند و قالب یا مجموعهای از قوانین برای پیروی ندارند. از آنجا که دادههای غیرساختاریافته محدودیتهای کمتری در ساختار خود دارند، اضافه کردن اطلاعات جدید به آنها در مقایسه با یک مجموعه داده ساختاریافته آسانتر است. اگر یک حسگر که دادههای فشار بارومتریک را هر ۲ دقیقه ثبت میکند، بهروزرسانی شود و اکنون بتواند دما را نیز اندازهگیری و ثبت کند، نیازی به تغییر دادههای موجود نیست اگر دادهها غیرساختاریافته باشند. با این حال، این ممکن است تحلیل یا بررسی این نوع دادهها را طولانیتر کند. به عنوان مثال، یک دانشمند که میخواهد میانگین دمای ماه گذشته را از دادههای حسگر پیدا کند، اما متوجه میشود که حسگر در برخی از دادههای ثبتشده خود به جای عدد معمولی، یک "e" ثبت کرده است تا نشان دهد خراب بوده است، که به معنای ناقص بودن دادهها است.
نمونههایی از دادههای غیرساختاریافته: فایلهای متنی، پیامهای متنی، فایلهای ویدئویی
دادههای نیمهساختاریافته
دادههای نیمهساختاریافته ویژگیهایی دارند که آنها را ترکیبی از دادههای ساختاریافته و غیرساختاریافته میسازد. این دادهها معمولاً به قالب ردیفها و ستونها پایبند نیستند، اما به گونهای سازماندهی شدهاند که ساختاریافته در نظر گرفته میشوند و ممکن است از یک قالب ثابت یا مجموعهای از قوانین پیروی کنند. ساختار آنها بسته به منابع متفاوت خواهد بود، مانند یک سلسلهمراتب تعریفشده یا چیزی انعطافپذیرتر که امکان ادغام آسان اطلاعات جدید را فراهم میکند. متادادهها شاخصهایی هستند که به تصمیمگیری درباره نحوه سازماندهی و ذخیره دادهها کمک میکنند و بسته به نوع داده، نامهای مختلفی دارند. برخی از نامهای رایج برای متادادهها عبارتند از: برچسبها، عناصر، موجودیتها و ویژگیها. به عنوان مثال، یک پیام ایمیل معمولی شامل موضوع، متن اصلی و مجموعهای از گیرندگان است و میتواند بر اساس اینکه چه کسی یا چه زمانی ارسال شده است، سازماندهی شود.
نمونههایی از دادههای نیمهساختاریافته: HTML، فایلهای CSV، JavaScript Object Notation (JSON)
منابع داده
یک منبع داده، مکان اولیهای است که دادهها در آن تولید شدهاند یا "زندگی میکنند" و بسته به نحوه و زمان جمعآوری آنها متفاوت خواهد بود. دادههایی که توسط کاربران آن تولید میشوند، به عنوان دادههای اولیه شناخته میشوند، در حالی که دادههای ثانویه از منبعی میآیند که دادهها را برای استفاده عمومی جمعآوری کرده است. به عنوان مثال، گروهی از دانشمندان که مشاهداتی را در یک جنگل بارانی جمعآوری میکنند، به عنوان دادههای اولیه در نظر گرفته میشوند و اگر تصمیم بگیرند آن را با دانشمندان دیگر به اشتراک بگذارند، برای کسانی که از آن استفاده میکنند، به عنوان دادههای ثانویه محسوب میشود.
پایگاههای داده یک منبع رایج هستند و به یک سیستم مدیریت پایگاه داده متکی هستند تا دادهها را میزبانی و نگهداری کنند، جایی که کاربران از دستورات به نام کوئریها برای کاوش دادهها استفاده میکنند. فایلها به عنوان منابع داده میتوانند شامل فایلهای صوتی، تصویری و ویدئویی و همچنین صفحات گسترده مانند اکسل باشند. منابع اینترنتی یک مکان رایج برای میزبانی دادهها هستند، جایی که پایگاههای داده و همچنین فایلها میتوانند یافت شوند. رابطهای برنامهنویسی کاربردی، که به عنوان API نیز شناخته میشوند، به برنامهنویسان اجازه میدهند راههایی برای به اشتراکگذاری دادهها با کاربران خارجی از طریق اینترنت ایجاد کنند، در حالی که فرآیند وباسکرپینگ دادهها را از یک صفحه وب استخراج میکند. درسهای کار با دادهها بر نحوه استفاده از منابع مختلف داده تمرکز دارند.
نتیجهگیری
در این درس یاد گرفتیم:
- داده چیست
- چگونه داده توصیف میشود
- چگونه داده طبقهبندی و دستهبندی میشود
- دادهها کجا یافت میشوند
🚀 چالش
Kaggle منبعی عالی برای مجموعه دادههای باز است. از ابزار جستجوی مجموعه داده استفاده کنید تا چند مجموعه داده جالب پیدا کنید و ۳ تا ۵ مجموعه داده را با این معیارها طبقهبندی کنید:
- آیا دادهها کمی هستند یا کیفی؟
- آیا دادهها ساختاریافته، غیرساختاریافته یا نیمهساختاریافته هستند؟
پسآزمون
مرور و مطالعه شخصی
- این واحد از Microsoft Learn با عنوان طبقهبندی دادههای خود توضیح مفصلی از دادههای ساختاریافته، نیمهساختاریافته و غیرساختاریافته ارائه میدهد.
تکلیف
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه میشود از ترجمه حرفهای انسانی استفاده کنید. ما مسئولیتی در قبال سوء تفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.