|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 4 weeks ago |
README.md
تعریف دادهها
![]() |
---|
تعریف دادهها - طرحنگاری توسط @nitya |
دادهها شامل حقایق، اطلاعات، مشاهدات و اندازهگیریهایی هستند که برای کشف و تصمیمگیریهای آگاهانه استفاده میشوند. یک نقطه داده یک واحد منفرد از دادهها در یک مجموعه داده است که شامل مجموعهای از نقاط داده میباشد. مجموعههای داده ممکن است در قالبها و ساختارهای مختلفی ارائه شوند و معمولاً بر اساس منبع آنها یا جایی که دادهها از آن آمدهاند، شکل میگیرند. به عنوان مثال، درآمد ماهانه یک شرکت ممکن است در یک صفحه گسترده باشد، اما دادههای ضربان قلب ساعتی از یک ساعت هوشمند ممکن است در قالب JSON باشد. معمولاً دانشمندان داده با انواع مختلف دادهها در یک مجموعه داده کار میکنند.
این درس بر شناسایی و طبقهبندی دادهها بر اساس ویژگیها و منابع آنها تمرکز دارد.
آزمون پیش از درس
چگونه دادهها توصیف میشوند
داده خام
داده خام دادهای است که از منبع خود در حالت اولیه آمده و هنوز تحلیل یا سازماندهی نشده است. برای درک آنچه در یک مجموعه داده اتفاق میافتد، باید به شکلی سازماندهی شود که توسط انسانها و همچنین فناوریهایی که ممکن است برای تحلیل بیشتر استفاده کنند، قابل فهم باشد. ساختار یک مجموعه داده نحوه سازماندهی آن را توصیف میکند و میتواند به صورت ساختاریافته، غیرساختاریافته و نیمهساختاریافته طبقهبندی شود. این نوع ساختارها بسته به منبع متفاوت خواهند بود، اما در نهایت در این سه دسته قرار میگیرند.
دادههای کمی
دادههای کمی مشاهدات عددی در یک مجموعه داده هستند و معمولاً میتوان آنها را تحلیل، اندازهگیری و به صورت ریاضی استفاده کرد. برخی از نمونههای دادههای کمی عبارتند از: جمعیت یک کشور، قد یک فرد یا درآمد سهماهه یک شرکت. با تحلیل بیشتر، دادههای کمی میتوانند برای کشف روندهای فصلی شاخص کیفیت هوا (AQI) یا تخمین احتمال ترافیک در ساعات شلوغی یک روز کاری معمولی استفاده شوند.
دادههای کیفی
دادههای کیفی، که به عنوان دادههای دستهبندیشده نیز شناخته میشوند، دادههایی هستند که نمیتوانند به صورت عینی مانند مشاهدات دادههای کمی اندازهگیری شوند. این دادهها معمولاً در قالبهای مختلفی از دادههای ذهنی هستند که کیفیت چیزی مانند یک محصول یا فرآیند را ثبت میکنند. گاهی اوقات دادههای کیفی عددی هستند اما معمولاً به صورت ریاضی استفاده نمیشوند، مانند شماره تلفنها یا زمانسنجها. برخی از نمونههای دادههای کیفی عبارتند از: نظرات ویدئویی، مدل و برند یک خودرو یا رنگ مورد علاقه نزدیکترین دوستان شما. دادههای کیفی میتوانند برای درک اینکه کدام محصولات بیشتر مورد علاقه مصرفکنندگان هستند یا شناسایی کلمات کلیدی محبوب در رزومههای شغلی استفاده شوند.
دادههای ساختاریافته
دادههای ساختاریافته دادههایی هستند که به صورت ردیفها و ستونها سازماندهی شدهاند، به طوری که هر ردیف مجموعهای از ستونهای یکسان دارد. ستونها نمایانگر یک مقدار از نوع خاصی هستند و با نامی که نشاندهنده آنچه مقدار نشان میدهد، شناسایی میشوند، در حالی که ردیفها مقادیر واقعی را شامل میشوند. ستونها اغلب مجموعهای از قوانین یا محدودیتها در مورد مقادیر دارند تا اطمینان حاصل شود که مقادیر به درستی نمایانگر ستون هستند. به عنوان مثال، تصور کنید یک صفحه گسترده مشتریان که هر ردیف باید یک شماره تلفن داشته باشد و شماره تلفنها هرگز شامل کاراکترهای الفبایی نمیشوند. ممکن است قوانینی بر روی ستون شماره تلفن اعمال شود تا مطمئن شود که هرگز خالی نیست و فقط شامل اعداد است.
یکی از مزایای دادههای ساختاریافته این است که میتوان آنها را به گونهای سازماندهی کرد که با دادههای ساختاریافته دیگر مرتبط شوند. با این حال، به دلیل اینکه دادهها به گونهای طراحی شدهاند که به صورت خاصی سازماندهی شوند، ایجاد تغییرات در ساختار کلی آنها ممکن است تلاش زیادی را بطلبد. به عنوان مثال، اضافه کردن یک ستون ایمیل به صفحه گسترده مشتریان که نمیتواند خالی باشد، به این معناست که باید مشخص کنید چگونه این مقادیر را به ردیفهای موجود مشتریان در مجموعه داده اضافه کنید.
نمونههایی از دادههای ساختاریافته: صفحات گسترده، پایگاههای داده رابطهای، شماره تلفنها، صورتحسابهای بانکی
دادههای غیرساختاریافته
دادههای غیرساختاریافته معمولاً نمیتوانند به صورت ردیفها یا ستونها دستهبندی شوند و قالب یا مجموعهای از قوانین برای پیروی ندارند. به دلیل اینکه دادههای غیرساختاریافته محدودیتهای کمتری در ساختار خود دارند، اضافه کردن اطلاعات جدید در مقایسه با یک مجموعه داده ساختاریافته آسانتر است. اگر یک حسگر که دادههای فشار بارومتری را هر ۲ دقیقه ثبت میکند، بهروزرسانی دریافت کند که اکنون اجازه میدهد دما را اندازهگیری و ثبت کند، نیازی به تغییر دادههای موجود ندارد اگر غیرساختاریافته باشد. با این حال، این ممکن است تحلیل یا بررسی این نوع دادهها را طولانیتر کند. به عنوان مثال، یک دانشمند که میخواهد میانگین دمای ماه گذشته را از دادههای حسگر پیدا کند، اما متوجه میشود که حسگر در برخی از دادههای ثبتشده خود به جای یک عدد معمولی، یک "e" ثبت کرده است تا نشان دهد خراب بوده است، که به این معناست که دادهها ناقص هستند.
نمونههایی از دادههای غیرساختاریافته: فایلهای متنی، پیامهای متنی، فایلهای ویدئویی
دادههای نیمهساختاریافته
دادههای نیمهساختاریافته ویژگیهایی دارند که آنها را ترکیبی از دادههای ساختاریافته و غیرساختاریافته میسازد. این دادهها معمولاً به قالب ردیفها و ستونها پایبند نیستند اما به گونهای سازماندهی شدهاند که ساختاریافته محسوب میشوند و ممکن است از یک قالب ثابت یا مجموعهای از قوانین پیروی کنند. ساختار بسته به منابع متفاوت خواهد بود، مانند یک سلسلهمراتب تعریفشده تا چیزی انعطافپذیرتر که اجازه ادغام آسان اطلاعات جدید را میدهد. فرادادهها شاخصهایی هستند که به تصمیمگیری در مورد نحوه سازماندهی و ذخیره دادهها کمک میکنند و نامهای مختلفی بر اساس نوع داده خواهند داشت. برخی از نامهای رایج برای فرادادهها عبارتند از: برچسبها، عناصر، موجودیتها و ویژگیها. به عنوان مثال، یک پیام ایمیل معمولی شامل موضوع، متن و مجموعهای از گیرندگان خواهد بود و میتوان آن را بر اساس اینکه توسط چه کسی یا چه زمانی ارسال شده است، سازماندهی کرد.
نمونههایی از دادههای نیمهساختاریافته: HTML، فایلهای CSV، JavaScript Object Notation (JSON)
منابع داده
یک منبع داده مکان اولیهای است که دادهها در آن تولید شدهاند یا "زندگی میکنند" و بسته به نحوه و زمان جمعآوری متفاوت خواهد بود. دادههایی که توسط کاربران آن تولید شدهاند به عنوان دادههای اولیه شناخته میشوند، در حالی که دادههای ثانویه از منبعی میآیند که دادهها را برای استفاده عمومی جمعآوری کرده است. به عنوان مثال، گروهی از دانشمندان که مشاهداتی را در یک جنگل بارانی جمعآوری میکنند، به عنوان دادههای اولیه در نظر گرفته میشوند و اگر تصمیم بگیرند آن را با دانشمندان دیگر به اشتراک بگذارند، برای کسانی که از آن استفاده میکنند به عنوان دادههای ثانویه محسوب میشود.
پایگاههای داده یک منبع رایج هستند و به یک سیستم مدیریت پایگاه داده متکی هستند تا دادهها را میزبانی و نگهداری کنند، جایی که کاربران از دستورات به نام پرسوجوها برای بررسی دادهها استفاده میکنند. فایلها به عنوان منابع داده میتوانند فایلهای صوتی، تصویری و ویدئویی باشند و همچنین صفحات گسترده مانند Excel. منابع اینترنتی مکان رایجی برای میزبانی دادهها هستند، جایی که پایگاههای داده و همچنین فایلها میتوانند یافت شوند. رابطهای برنامهنویسی کاربردی، که به عنوان API شناخته میشوند، به برنامهنویسان اجازه میدهند راههایی برای اشتراکگذاری دادهها با کاربران خارجی از طریق اینترنت ایجاد کنند، در حالی که فرآیند استخراج داده از صفحات وب دادهها را از یک صفحه وب استخراج میکند. درسهای موجود در کار با دادهها بر نحوه استفاده از منابع مختلف داده تمرکز دارند.
نتیجهگیری
در این درس یاد گرفتیم:
- داده چیست
- چگونه دادهها توصیف میشوند
- چگونه دادهها طبقهبندی و دستهبندی میشوند
- دادهها کجا یافت میشوند
🚀 چالش
Kaggle منبعی عالی برای مجموعه دادههای باز است. از ابزار جستجوی مجموعه دادهها استفاده کنید تا چند مجموعه داده جالب پیدا کنید و ۳-۵ مجموعه داده را با این معیارها طبقهبندی کنید:
- آیا دادهها کمی هستند یا کیفی؟
- آیا دادهها ساختاریافته، غیرساختاریافته یا نیمهساختاریافته هستند؟
آزمون پس از درس
مرور و مطالعه شخصی
- این واحد Microsoft Learn با عنوان طبقهبندی دادههای خود توضیح مفصلی درباره دادههای ساختاریافته، نیمهساختاریافته و غیرساختاریافته دارد.
تکلیف
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادقتیهایی باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفهای انسانی توصیه میشود. ما هیچ مسئولیتی در قبال سوءتفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.