|
4 weeks ago | |
---|---|---|
.. | ||
README.md | 4 weeks ago | |
assignment.md | 4 weeks ago |
README.md
ডেটা সংজ্ঞায়িত করা
![]() |
---|
ডেটা সংজ্ঞায়িত করা - @nitya এর স্কেচনোট |
ডেটা হলো তথ্য, পর্যবেক্ষণ এবং পরিমাপ যা আবিষ্কার করতে এবং সঠিক সিদ্ধান্ত গ্রহণে সহায়তা করতে ব্যবহৃত হয়। একটি ডেটা পয়েন্ট হলো একটি ডেটাসেটে থাকা একক ডেটার ইউনিট, যেখানে ডেটাসেট হলো একাধিক ডেটা পয়েন্টের সমষ্টি। ডেটাসেট বিভিন্ন ফরম্যাট এবং কাঠামোতে আসতে পারে এবং সাধারণত এটি তার উৎস বা ডেটা কোথা থেকে এসেছে তার উপর ভিত্তি করে তৈরি হয়। উদাহরণস্বরূপ, একটি কোম্পানির মাসিক আয়ের তথ্য একটি স্প্রেডশিটে থাকতে পারে, কিন্তু একটি স্মার্টওয়াচ থেকে প্রতি ঘণ্টার হার্ট রেট ডেটা JSON ফরম্যাটে থাকতে পারে। ডেটা বিজ্ঞানীরা প্রায়শই একটি ডেটাসেটের মধ্যে বিভিন্ন ধরনের ডেটা নিয়ে কাজ করেন।
এই পাঠে ডেটার বৈশিষ্ট্য এবং উৎস অনুযায়ী ডেটা চিহ্নিত করা এবং শ্রেণীবদ্ধ করার উপর গুরুত্ব দেওয়া হয়েছে।
পূর্ব-পাঠ কুইজ
ডেটা কীভাবে বর্ণনা করা হয়
কাঁচা ডেটা
কাঁচা ডেটা হলো সেই ডেটা যা তার উৎস থেকে প্রাথমিক অবস্থায় এসেছে এবং যা এখনও বিশ্লেষণ বা সংগঠিত করা হয়নি। একটি ডেটাসেটের সাথে কী ঘটছে তা বোঝার জন্য এটি এমন একটি ফরম্যাটে সংগঠিত করতে হবে যা মানুষ এবং তারা যে প্রযুক্তি ব্যবহার করে তা সহজে বিশ্লেষণ করতে পারে। একটি ডেটাসেটের কাঠামো বর্ণনা করে এটি কীভাবে সংগঠিত হয়েছে এবং এটি কাঠামোগত, অ-কাঠামোগত এবং আধা-কাঠামোগত হিসাবে শ্রেণীবদ্ধ করা যেতে পারে। এই কাঠামোগুলি উৎসের উপর নির্ভর করে পরিবর্তিত হবে, তবে শেষ পর্যন্ত এই তিনটি শ্রেণীতে পড়বে।
পরিমাণগত ডেটা
পরিমাণগত ডেটা হলো একটি ডেটাসেটে থাকা সংখ্যাসূচক পর্যবেক্ষণ, যা সাধারণত বিশ্লেষণ, পরিমাপ এবং গাণিতিকভাবে ব্যবহার করা যায়। পরিমাণগত ডেটার কিছু উদাহরণ হলো: একটি দেশের জনসংখ্যা, একজন ব্যক্তির উচ্চতা বা একটি কোম্পানির ত্রৈমাসিক আয়। কিছু অতিরিক্ত বিশ্লেষণের মাধ্যমে, পরিমাণগত ডেটা ব্যবহার করে বায়ুর গুণমান সূচকের (AQI) ঋতুভিত্তিক প্রবণতা আবিষ্কার করা বা একটি সাধারণ কর্মদিবসে রাশ আওয়ার ট্রাফিকের সম্ভাবনা অনুমান করা যেতে পারে।
গুণগত ডেটা
গুণগত ডেটা, যা শ্রেণীবদ্ধ ডেটা নামেও পরিচিত, এমন ডেটা যা পরিমাণগত ডেটার মতো উদ্দেশ্যমূলকভাবে পরিমাপ করা যায় না। এটি সাধারণত বিভিন্ন ধরনের বিষয়ভিত্তিক ডেটা যা কোনো পণ্য বা প্রক্রিয়ার গুণমান ধারণ করে। কখনও কখনও, গুণগত ডেটা সংখ্যাসূচক হতে পারে, তবে এটি সাধারণত গাণিতিকভাবে ব্যবহার করা হয় না, যেমন ফোন নম্বর বা টাইমস্ট্যাম্প। গুণগত ডেটার কিছু উদাহরণ হলো: ভিডিওর মন্তব্য, একটি গাড়ির মডেল এবং ব্র্যান্ড, বা আপনার সবচেয়ে কাছের বন্ধুর প্রিয় রং। গুণগত ডেটা ব্যবহার করে বোঝা যেতে পারে কোন পণ্যগুলি ভোক্তারা সবচেয়ে বেশি পছন্দ করে বা চাকরির আবেদনপত্রের রেজুমেতে জনপ্রিয় কীওয়ার্ড চিহ্নিত করা যেতে পারে।
কাঠামোগত ডেটা
কাঠামোগত ডেটা হলো এমন ডেটা যা সারি এবং কলামে সংগঠিত থাকে, যেখানে প্রতিটি সারির একই সেটের কলাম থাকে। কলামগুলো একটি নির্দিষ্ট ধরনের মানকে উপস্থাপন করে এবং একটি নাম দ্বারা চিহ্নিত হয় যা মানটি কী উপস্থাপন করে তা বর্ণনা করে, আর সারিগুলোতে থাকে প্রকৃত মান। কলামগুলোতে প্রায়শই একটি নির্দিষ্ট নিয়ম বা সীমাবদ্ধতা থাকে যাতে মানগুলো সঠিকভাবে কলামটি উপস্থাপন করে। উদাহরণস্বরূপ, কাস্টমারদের একটি স্প্রেডশিট কল্পনা করুন যেখানে প্রতিটি সারিতে একটি ফোন নম্বর থাকতে হবে এবং ফোন নম্বরগুলোতে কখনও বর্ণমালা থাকবে না। ফোন নম্বর কলামে এমন নিয়ম প্রয়োগ করা হতে পারে যাতে এটি কখনও খালি না থাকে এবং শুধুমাত্র সংখ্যা থাকে।
কাঠামোগত ডেটার একটি সুবিধা হলো এটি এমনভাবে সংগঠিত করা যায় যাতে এটি অন্যান্য কাঠামোগত ডেটার সাথে সম্পর্কিত হতে পারে। তবে, যেহেতু ডেটা একটি নির্দিষ্ট উপায়ে সংগঠিত হওয়ার জন্য ডিজাইন করা হয়েছে, এর সামগ্রিক কাঠামো পরিবর্তন করতে অনেক প্রচেষ্টা প্রয়োজন হতে পারে। উদাহরণস্বরূপ, কাস্টমার স্প্রেডশিটে একটি ইমেইল কলাম যোগ করা যা খালি থাকতে পারবে না, এর মানে হলো আপনাকে বিদ্যমান কাস্টমারদের সারিতে এই মানগুলো কীভাবে যোগ করবেন তা বের করতে হবে।
কাঠামোগত ডেটার উদাহরণ: স্প্রেডশিট, রিলেশনাল ডেটাবেস, ফোন নম্বর, ব্যাংক স্টেটমেন্ট
অ-কাঠামোগত ডেটা
অ-কাঠামোগত ডেটা সাধারণত সারি বা কলামে শ্রেণীবদ্ধ করা যায় না এবং এটি কোনো নির্দিষ্ট ফরম্যাট বা নিয়ম অনুসরণ করে না। অ-কাঠামোগত ডেটার কাঠামোতে কম সীমাবদ্ধতা থাকার কারণে এটি একটি কাঠামোগত ডেটাসেটের তুলনায় নতুন তথ্য যোগ করা সহজ। উদাহরণস্বরূপ, একটি সেন্সর যা প্রতি ২ মিনিটে বায়ুমণ্ডলীয় চাপের ডেটা সংগ্রহ করে, যদি এটি আপডেট হয়ে তাপমাত্রা পরিমাপ এবং রেকর্ড করতে সক্ষম হয়, তবে এটি যদি অ-কাঠামোগত হয় তবে বিদ্যমান ডেটা পরিবর্তন করার প্রয়োজন হবে না। তবে, এই ধরনের ডেটা বিশ্লেষণ বা তদন্ত করতে বেশি সময় লাগতে পারে। উদাহরণস্বরূপ, একজন বিজ্ঞানী যদি সেন্সরের ডেটা থেকে আগের মাসের গড় তাপমাত্রা খুঁজে বের করতে চান, কিন্তু দেখেন যে সেন্সরটি কিছু ডেটায় "e" রেকর্ড করেছে এটি ভাঙা বোঝাতে, তবে ডেটা অসম্পূর্ণ হয়ে যায়।
অ-কাঠামোগত ডেটার উদাহরণ: টেক্সট ফাইল, টেক্সট মেসেজ, ভিডিও ফাইল
আধা-কাঠামোগত ডেটা
আধা-কাঠামোগত ডেটার এমন বৈশিষ্ট্য রয়েছে যা এটিকে কাঠামোগত এবং অ-কাঠামোগত ডেটার সংমিশ্রণ করে তোলে। এটি সাধারণত সারি এবং কলামের ফরম্যাট অনুসরণ করে না, তবে এটি এমনভাবে সংগঠিত থাকে যা কাঠামোগত বলে বিবেচিত হয় এবং একটি নির্দিষ্ট ফরম্যাট বা নিয়ম অনুসরণ করতে পারে। কাঠামো উৎসের উপর নির্ভর করে পরিবর্তিত হয়, যেমন একটি সুসংহত শ্রেণীবিন্যাস থেকে আরও নমনীয় কিছু যা নতুন তথ্য সহজে সংহত করতে দেয়। মেটাডেটা হলো সূচক যা ডেটা কীভাবে সংগঠিত এবং সংরক্ষণ করা হয় তা নির্ধারণ করতে সহায়তা করে এবং এটি ডেটার ধরন অনুযায়ী বিভিন্ন নাম ধারণ করে। মেটাডেটার কিছু সাধারণ নাম হলো ট্যাগ, উপাদান, সত্তা এবং বৈশিষ্ট্য। উদাহরণস্বরূপ, একটি সাধারণ ইমেইল বার্তায় একটি বিষয়, মূল অংশ এবং প্রাপকদের একটি সেট থাকবে এবং এটি কার কাছে বা কখন পাঠানো হয়েছে তার দ্বারা সংগঠিত করা যেতে পারে।
আধা-কাঠামোগত ডেটার উদাহরণ: HTML, CSV ফাইল, জাভাস্ক্রিপ্ট অবজেক্ট নোটেশন (JSON)
ডেটার উৎস
ডেটার উৎস হলো সেই প্রাথমিক স্থান যেখানে ডেটা তৈরি হয়েছে বা যেখানে এটি "বসবাস" করে এবং এটি কীভাবে এবং কখন সংগ্রহ করা হয়েছে তার উপর ভিত্তি করে পরিবর্তিত হয়। ব্যবহারকারী দ্বারা তৈরি ডেটা প্রাথমিক ডেটা নামে পরিচিত, যেখানে মাধ্যমিক ডেটা এমন একটি উৎস থেকে আসে যা সাধারণ ব্যবহারের জন্য ডেটা সংগ্রহ করেছে। উদাহরণস্বরূপ, একটি রেইনফরেস্টে পর্যবেক্ষণ সংগ্রহকারী বিজ্ঞানীদের একটি দলকে প্রাথমিক ডেটা হিসেবে বিবেচনা করা হবে এবং যদি তারা এটি অন্যান্য বিজ্ঞানীদের সাথে ভাগ করে নেয় তবে এটি তাদের জন্য মাধ্যমিক ডেটা হিসেবে বিবেচিত হবে।
ডেটাবেস হলো একটি সাধারণ উৎস এবং এটি একটি ডেটাবেস ম্যানেজমেন্ট সিস্টেমের উপর নির্ভর করে ডেটা হোস্ট এবং রক্ষণাবেক্ষণ করতে, যেখানে ব্যবহারকারীরা ডেটা অনুসন্ধানের জন্য কোয়েরি নামে পরিচিত কমান্ড ব্যবহার করে। ফাইলগুলো ডেটার উৎস হতে পারে, যেমন অডিও, ইমেজ এবং ভিডিও ফাইল, পাশাপাশি এক্সেলের মতো স্প্রেডশিট। ইন্টারনেট উৎস হলো ডেটা হোস্ট করার একটি সাধারণ স্থান, যেখানে ডেটাবেস এবং ফাইল উভয়ই পাওয়া যেতে পারে। অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস, যা API নামে পরিচিত, প্রোগ্রামারদের ইন্টারনেটের মাধ্যমে বাহ্যিক ব্যবহারকারীদের সাথে ডেটা ভাগ করার উপায় তৈরি করতে দেয়, যেখানে ওয়েব স্ক্র্যাপিং একটি ওয়েব পেজ থেকে ডেটা বের করে। ডেটার সাথে কাজ করার পাঠ বিভিন্ন ডেটার উৎস কীভাবে ব্যবহার করতে হয় তার উপর ফোকাস করে।
উপসংহার
এই পাঠে আমরা শিখেছি:
- ডেটা কী
- ডেটা কীভাবে বর্ণনা করা হয়
- ডেটা কীভাবে শ্রেণীবদ্ধ এবং শ্রেণীকরণ করা হয়
- ডেটা কোথায় পাওয়া যায়
🚀 চ্যালেঞ্জ
Kaggle হলো উন্মুক্ত ডেটাসেটের একটি চমৎকার উৎস। ডেটাসেট অনুসন্ধান টুল ব্যবহার করে কিছু আকর্ষণীয় ডেটাসেট খুঁজুন এবং এই মানদণ্ড অনুযায়ী ৩-৫টি ডেটাসেট শ্রেণীবদ্ধ করুন:
- ডেটা কি পরিমাণগত নাকি গুণগত?
- ডেটা কি কাঠামোগত, অ-কাঠামোগত, নাকি আধা-কাঠামোগত?
পাঠ-পরবর্তী কুইজ
পর্যালোচনা ও স্ব-অধ্যয়ন
- Microsoft Learn-এর এই ইউনিট, আপনার ডেটা শ্রেণীবদ্ধ করুন শিরোনামে, কাঠামোগত, আধা-কাঠামোগত এবং অ-কাঠামোগত ডেটার একটি বিস্তারিত বিশ্লেষণ প্রদান করে।
অ্যাসাইনমেন্ট
অস্বীকৃতি:
এই নথিটি AI অনুবাদ পরিষেবা Co-op Translator ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। নথিটির মূল ভাষায় লেখা সংস্করণটিকেই প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ ব্যবহার করার পরামর্শ দেওয়া হচ্ছে। এই অনুবাদ ব্যবহারের ফলে সৃষ্ট কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই।