|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 3 weeks ago |
README.md
ডেটা সংজ্ঞায়িত করা
![]() |
---|
ডেটা সংজ্ঞায়িত করা - স্কেচনোট @nitya দ্বারা |
ডেটা হলো তথ্য, পর্যবেক্ষণ এবং পরিমাপ যা আবিষ্কার করতে এবং সঠিক সিদ্ধান্ত গ্রহণে সহায়তা করতে ব্যবহৃত হয়। একটি ডেটা পয়েন্ট হলো একটি ডেটাসেটে থাকা একক ডেটার ইউনিট, যেখানে ডেটাসেট হলো একাধিক ডেটা পয়েন্টের সমষ্টি। ডেটাসেট বিভিন্ন ফরম্যাট এবং কাঠামোতে আসতে পারে এবং সাধারণত এটি তার উৎস বা ডেটা কোথা থেকে এসেছে তার উপর ভিত্তি করে তৈরি হয়। উদাহরণস্বরূপ, একটি কোম্পানির মাসিক আয়ের তথ্য স্প্রেডশিটে থাকতে পারে, কিন্তু একটি স্মার্টওয়াচ থেকে প্রতি ঘণ্টার হার্ট রেটের ডেটা JSON ফরম্যাটে থাকতে পারে। ডেটা বিজ্ঞানীরা প্রায়শই একটি ডেটাসেটের মধ্যে বিভিন্ন ধরনের ডেটা নিয়ে কাজ করেন।
এই পাঠটি ডেটার বৈশিষ্ট্য এবং উৎস অনুযায়ী ডেটা চিহ্নিত করা এবং শ্রেণীবদ্ধ করার উপর আলোকপাত করে।
পূর্ব-লেকচার কুইজ
ডেটা কীভাবে বর্ণনা করা হয়
কাঁচা ডেটা
কাঁচা ডেটা হলো সেই ডেটা যা তার উৎস থেকে প্রাথমিক অবস্থায় এসেছে এবং যা এখনও বিশ্লেষণ বা সংগঠিত করা হয়নি। একটি ডেটাসেটের সাথে কী ঘটছে তা বোঝার জন্য এটি এমন একটি ফরম্যাটে সংগঠিত করতে হবে যা মানুষ এবং তারা যে প্রযুক্তি ব্যবহার করে তা উভয়ের জন্যই বোধগম্য। একটি ডেটাসেটের কাঠামো বর্ণনা করে এটি কীভাবে সংগঠিত হয়েছে এবং এটি কাঠামোগত, অ-কাঠামোগত এবং আধা-কাঠামোগত হিসাবে শ্রেণীবদ্ধ করা যেতে পারে। এই কাঠামোগুলি উৎসের উপর নির্ভর করে পরিবর্তিত হবে, তবে শেষ পর্যন্ত এই তিনটি শ্রেণীর মধ্যে পড়বে।
পরিমাণগত ডেটা
পরিমাণগত ডেটা হলো একটি ডেটাসেটে থাকা সংখ্যাসূচক পর্যবেক্ষণ যা সাধারণত বিশ্লেষণ, পরিমাপ এবং গাণিতিকভাবে ব্যবহার করা যায়। পরিমাণগত ডেটার কিছু উদাহরণ হলো: একটি দেশের জনসংখ্যা, একজন ব্যক্তির উচ্চতা বা একটি কোম্পানির ত্রৈমাসিক আয়। কিছু অতিরিক্ত বিশ্লেষণের মাধ্যমে, পরিমাণগত ডেটা ব্যবহার করে বায়ুর গুণমান সূচকের (AQI) ঋতুভিত্তিক প্রবণতা আবিষ্কার করা বা একটি সাধারণ কর্মদিবসে রাশ আওয়ারের ট্রাফিকের সম্ভাবনা অনুমান করা যেতে পারে।
গুণগত ডেটা
গুণগত ডেটা, যা শ্রেণীবদ্ধ ডেটা নামেও পরিচিত, এমন ডেটা যা পরিমাণগত ডেটার মতো উদ্দেশ্যমূলকভাবে পরিমাপ করা যায় না। এটি সাধারণত বিভিন্ন ফরম্যাটের বিষয়ভিত্তিক ডেটা যা কোনো পণ্য বা প্রক্রিয়ার গুণমান ধারণ করে। কখনও কখনও, গুণগত ডেটা সংখ্যাসূচক হয় এবং সাধারণত গাণিতিকভাবে ব্যবহার করা হয় না, যেমন ফোন নম্বর বা টাইমস্ট্যাম্প। গুণগত ডেটার কিছু উদাহরণ হলো: ভিডিওর মন্তব্য, একটি গাড়ির মডেল এবং ব্র্যান্ড বা আপনার সবচেয়ে কাছের বন্ধুর প্রিয় রং। গুণগত ডেটা ব্যবহার করে বোঝা যেতে পারে কোন পণ্যগুলি ভোক্তারা সবচেয়ে বেশি পছন্দ করে বা চাকরির আবেদনপত্রের রেজুমেতে জনপ্রিয় কীওয়ার্ড চিহ্নিত করা যেতে পারে।
কাঠামোগত ডেটা
কাঠামোগত ডেটা হলো এমন ডেটা যা সারি এবং কলামে সংগঠিত থাকে, যেখানে প্রতিটি সারির একই সেটের কলাম থাকে। কলামগুলো একটি নির্দিষ্ট ধরনের মানকে উপস্থাপন করে এবং এটি কী উপস্থাপন করে তা বর্ণনা করার জন্য একটি নাম দ্বারা চিহ্নিত হয়, আর সারিগুলোতে প্রকৃত মান থাকে। কলামগুলো প্রায়শই একটি নির্দিষ্ট নিয়ম বা সীমাবদ্ধতার অধীনে থাকে, যাতে মানগুলো সঠিকভাবে কলামটি উপস্থাপন করে। উদাহরণস্বরূপ, কাস্টমারদের একটি স্প্রেডশিট কল্পনা করুন যেখানে প্রতিটি সারিতে একটি ফোন নম্বর থাকতে হবে এবং ফোন নম্বরগুলোতে কখনও বর্ণমালা থাকবে না। ফোন নম্বর কলামে এমন নিয়ম প্রয়োগ করা হতে পারে যাতে এটি কখনও খালি না থাকে এবং শুধুমাত্র সংখ্যা থাকে।
কাঠামোগত ডেটার একটি সুবিধা হলো এটি এমনভাবে সংগঠিত করা যায় যাতে এটি অন্যান্য কাঠামোগত ডেটার সাথে সম্পর্কিত হতে পারে। তবে, যেহেতু ডেটা একটি নির্দিষ্ট উপায়ে সংগঠিত হওয়ার জন্য ডিজাইন করা হয়েছে, এর সামগ্রিক কাঠামো পরিবর্তন করতে অনেক প্রচেষ্টা প্রয়োজন হতে পারে। উদাহরণস্বরূপ, কাস্টমার স্প্রেডশিটে একটি ইমেইল কলাম যোগ করা যা খালি থাকতে পারবে না, এর মানে হলো আপনাকে বিদ্যমান কাস্টমারদের সারিতে এই মানগুলো কীভাবে যোগ করবেন তা বের করতে হবে।
কাঠামোগত ডেটার উদাহরণ: স্প্রেডশিট, রিলেশনাল ডেটাবেস, ফোন নম্বর, ব্যাংক স্টেটমেন্ট
অ-কাঠামোগত ডেটা
অ-কাঠামোগত ডেটা সাধারণত সারি বা কলামে শ্রেণীবদ্ধ করা যায় না এবং এটি কোনো ফরম্যাট বা নিয়মের সেট অনুসরণ করে না। অ-কাঠামোগত ডেটার কাঠামোতে কম সীমাবদ্ধতা থাকার কারণে এটি একটি কাঠামোগত ডেটাসেটের তুলনায় নতুন তথ্য যোগ করা সহজ। উদাহরণস্বরূপ, একটি সেন্সর যা প্রতি ২ মিনিটে বায়ুমণ্ডলীয় চাপের ডেটা সংগ্রহ করে, যদি এটি আপডেট পায় যা এখন তাপমাত্রা পরিমাপ এবং রেকর্ড করতে সক্ষম হয়, তবে এটি যদি অ-কাঠামোগত হয় তবে বিদ্যমান ডেটা পরিবর্তন করার প্রয়োজন হয় না। তবে, এই ধরনের ডেটা বিশ্লেষণ বা তদন্ত করতে বেশি সময় লাগতে পারে। উদাহরণস্বরূপ, একজন বিজ্ঞানী যিনি সেন্সরের ডেটা থেকে আগের মাসের গড় তাপমাত্রা খুঁজে বের করতে চান, কিন্তু আবিষ্কার করেন যে সেন্সরটি কিছু ডেটায় "e" রেকর্ড করেছে এটি ভাঙা ছিল তা নির্দেশ করতে, যার মানে ডেটা অসম্পূর্ণ।
অ-কাঠামোগত ডেটার উদাহরণ: টেক্সট ফাইল, টেক্সট মেসেজ, ভিডিও ফাইল
আধা-কাঠামোগত ডেটা
আধা-কাঠামোগত ডেটার এমন বৈশিষ্ট্য রয়েছে যা এটিকে কাঠামোগত এবং অ-কাঠামোগত ডেটার সংমিশ্রণ করে তোলে। এটি সাধারণত সারি এবং কলামের ফরম্যাট অনুসরণ করে না তবে এমনভাবে সংগঠিত থাকে যা কাঠামোগত বলে বিবেচিত হয় এবং একটি নির্দিষ্ট ফরম্যাট বা নিয়মের সেট অনুসরণ করতে পারে। কাঠামো উৎসের উপর নির্ভর করে পরিবর্তিত হয়, যেমন একটি সুসংজ্ঞায়িত শ্রেণীবিন্যাস থেকে আরও নমনীয় কিছু যা নতুন তথ্য সহজে সংহত করার অনুমতি দেয়। মেটাডেটা হলো সূচক যা নির্ধারণ করতে সাহায্য করে ডেটা কীভাবে সংগঠিত এবং সংরক্ষণ করা হবে এবং এটি ডেটার ধরন অনুযায়ী বিভিন্ন নাম পায়। মেটাডেটার কিছু সাধারণ নাম হলো ট্যাগ, উপাদান, সত্তা এবং বৈশিষ্ট্য। উদাহরণস্বরূপ, একটি সাধারণ ইমেইল বার্তা একটি বিষয়, মূল অংশ এবং প্রাপকদের একটি সেট থাকবে এবং এটি কে বা কখন পাঠানো হয়েছে তার দ্বারা সংগঠিত করা যেতে পারে।
আধা-কাঠামোগত ডেটার উদাহরণ: HTML, CSV ফাইল, জাভাস্ক্রিপ্ট অবজেক্ট নোটেশন (JSON)
ডেটার উৎস
ডেটার উৎস হলো সেই প্রাথমিক স্থান যেখানে ডেটা তৈরি হয়েছে বা যেখানে এটি "বসবাস করে" এবং এটি কীভাবে এবং কখন সংগ্রহ করা হয়েছে তার উপর ভিত্তি করে পরিবর্তিত হয়। ব্যবহারকারী দ্বারা তৈরি ডেটা প্রাথমিক ডেটা নামে পরিচিত, আর মাধ্যমিক ডেটা হলো এমন একটি উৎস থেকে আসে যা সাধারণ ব্যবহারের জন্য ডেটা সংগ্রহ করেছে। উদাহরণস্বরূপ, একটি বিজ্ঞানীদের দল যদি একটি রেইনফরেস্টে পর্যবেক্ষণ সংগ্রহ করে তবে এটি প্রাথমিক ডেটা হিসাবে বিবেচিত হবে এবং যদি তারা এটি অন্য বিজ্ঞানীদের সাথে শেয়ার করে তবে এটি তাদের জন্য মাধ্যমিক ডেটা হিসাবে বিবেচিত হবে।
ডেটাবেস হলো একটি সাধারণ উৎস এবং এটি একটি ডেটাবেস ম্যানেজমেন্ট সিস্টেমের উপর নির্ভর করে ডেটা হোস্ট এবং রক্ষণাবেক্ষণ করতে, যেখানে ব্যবহারকারীরা ডেটা অনুসন্ধানের জন্য কোয়েরি নামক কমান্ড ব্যবহার করে। ফাইলগুলো ডেটার উৎস হতে পারে, যেমন অডিও, ইমেজ এবং ভিডিও ফাইল, পাশাপাশি এক্সেলের মতো স্প্রেডশিট। ইন্টারনেট উৎস হলো ডেটা হোস্ট করার একটি সাধারণ স্থান, যেখানে ডেটাবেস এবং ফাইল উভয়ই পাওয়া যেতে পারে। অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস, যা API নামে পরিচিত, প্রোগ্রামারদের ইন্টারনেটের মাধ্যমে বহিরাগত ব্যবহারকারীদের সাথে ডেটা শেয়ার করার উপায় তৈরি করতে দেয়, যেখানে ওয়েব স্ক্র্যাপিং একটি ওয়েব পেজ থেকে ডেটা বের করে। ডেটার সাথে কাজ করার পাঠ বিভিন্ন ডেটার উৎস কীভাবে ব্যবহার করতে হয় তার উপর আলোকপাত করে।
উপসংহার
এই পাঠে আমরা শিখেছি:
- ডেটা কী
- ডেটা কীভাবে বর্ণনা করা হয়
- ডেটা কীভাবে শ্রেণীবদ্ধ এবং শ্রেণীকরণ করা হয়
- ডেটা কোথায় পাওয়া যায়
🚀 চ্যালেঞ্জ
Kaggle হলো উন্মুক্ত ডেটাসেটের একটি চমৎকার উৎস। ডেটাসেট অনুসন্ধান টুল ব্যবহার করে কিছু আকর্ষণীয় ডেটাসেট খুঁজুন এবং এই মানদণ্ড অনুযায়ী ৩-৫টি ডেটাসেট শ্রেণীবদ্ধ করুন:
- ডেটা কি পরিমাণগত নাকি গুণগত?
- ডেটা কি কাঠামোগত, অ-কাঠামোগত, নাকি আধা-কাঠামোগত?
পোস্ট-লেকচার কুইজ
পুনরালোচনা ও স্ব-অধ্যয়ন
- Microsoft Learn-এর এই ইউনিট, আপনার ডেটা শ্রেণীবদ্ধ করুন শিরোনামে, কাঠামোগত, আধা-কাঠামোগত এবং অ-কাঠামোগত ডেটার একটি বিস্তারিত বিশ্লেষণ প্রদান করে।
অ্যাসাইনমেন্ট
অস্বীকৃতি:
এই নথিটি AI অনুবাদ পরিষেবা Co-op Translator ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদ প্রদানের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়বদ্ধ থাকব না।