You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/bn/1-Introduction/03-defining-data
leestott 8029ff828a
🌐 Update translations via Co-op Translator
2 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

ডেটা সংজ্ঞায়িত করা

 Sketchnote by (@sketchthedocs)
ডেটা সংজ্ঞায়িত করা - স্কেচনোট @nitya দ্বারা

ডেটা হলো তথ্য, পর্যবেক্ষণ এবং পরিমাপ যা আবিষ্কার করতে এবং সঠিক সিদ্ধান্ত গ্রহণে সহায়তা করতে ব্যবহৃত হয়। একটি ডেটা পয়েন্ট হলো একটি ডেটাসেটে থাকা একক ডেটার ইউনিট, যেখানে ডেটাসেট হলো একাধিক ডেটা পয়েন্টের সমষ্টি। ডেটাসেট বিভিন্ন ফরম্যাট এবং কাঠামোতে আসতে পারে এবং সাধারণত এটি তার উৎস বা ডেটা কোথা থেকে এসেছে তার উপর ভিত্তি করে তৈরি হয়। উদাহরণস্বরূপ, একটি কোম্পানির মাসিক আয়ের তথ্য স্প্রেডশিটে থাকতে পারে, কিন্তু একটি স্মার্টওয়াচ থেকে প্রতি ঘণ্টার হার্ট রেটের ডেটা JSON ফরম্যাটে থাকতে পারে। ডেটা বিজ্ঞানীরা প্রায়শই একটি ডেটাসেটের মধ্যে বিভিন্ন ধরনের ডেটা নিয়ে কাজ করেন।

এই পাঠটি ডেটার বৈশিষ্ট্য এবং উৎস অনুযায়ী ডেটা চিহ্নিত করা এবং শ্রেণীবদ্ধ করার উপর আলোকপাত করে।

পূর্ব-লেকচার কুইজ

ডেটা কীভাবে বর্ণনা করা হয়

কাঁচা ডেটা

কাঁচা ডেটা হলো সেই ডেটা যা তার উৎস থেকে প্রাথমিক অবস্থায় এসেছে এবং যা এখনও বিশ্লেষণ বা সংগঠিত করা হয়নি। একটি ডেটাসেটের সাথে কী ঘটছে তা বোঝার জন্য এটি এমন একটি ফরম্যাটে সংগঠিত করতে হবে যা মানুষ এবং তারা যে প্রযুক্তি ব্যবহার করে তা উভয়ের জন্যই বোধগম্য। একটি ডেটাসেটের কাঠামো বর্ণনা করে এটি কীভাবে সংগঠিত হয়েছে এবং এটি কাঠামোগত, অ-কাঠামোগত এবং আধা-কাঠামোগত হিসাবে শ্রেণীবদ্ধ করা যেতে পারে। এই কাঠামোগুলি উৎসের উপর নির্ভর করে পরিবর্তিত হবে, তবে শেষ পর্যন্ত এই তিনটি শ্রেণীর মধ্যে পড়বে।

পরিমাণগত ডেটা

পরিমাণগত ডেটা হলো একটি ডেটাসেটে থাকা সংখ্যাসূচক পর্যবেক্ষণ যা সাধারণত বিশ্লেষণ, পরিমাপ এবং গাণিতিকভাবে ব্যবহার করা যায়। পরিমাণগত ডেটার কিছু উদাহরণ হলো: একটি দেশের জনসংখ্যা, একজন ব্যক্তির উচ্চতা বা একটি কোম্পানির ত্রৈমাসিক আয়। কিছু অতিরিক্ত বিশ্লেষণের মাধ্যমে, পরিমাণগত ডেটা ব্যবহার করে বায়ুর গুণমান সূচকের (AQI) ঋতুভিত্তিক প্রবণতা আবিষ্কার করা বা একটি সাধারণ কর্মদিবসে রাশ আওয়ারের ট্রাফিকের সম্ভাবনা অনুমান করা যেতে পারে।

গুণগত ডেটা

গুণগত ডেটা, যা শ্রেণীবদ্ধ ডেটা নামেও পরিচিত, এমন ডেটা যা পরিমাণগত ডেটার মতো উদ্দেশ্যমূলকভাবে পরিমাপ করা যায় না। এটি সাধারণত বিভিন্ন ফরম্যাটের বিষয়ভিত্তিক ডেটা যা কোনো পণ্য বা প্রক্রিয়ার গুণমান ধারণ করে। কখনও কখনও, গুণগত ডেটা সংখ্যাসূচক হয় এবং সাধারণত গাণিতিকভাবে ব্যবহার করা হয় না, যেমন ফোন নম্বর বা টাইমস্ট্যাম্প। গুণগত ডেটার কিছু উদাহরণ হলো: ভিডিওর মন্তব্য, একটি গাড়ির মডেল এবং ব্র্যান্ড বা আপনার সবচেয়ে কাছের বন্ধুর প্রিয় রং। গুণগত ডেটা ব্যবহার করে বোঝা যেতে পারে কোন পণ্যগুলি ভোক্তারা সবচেয়ে বেশি পছন্দ করে বা চাকরির আবেদনপত্রের রেজুমেতে জনপ্রিয় কীওয়ার্ড চিহ্নিত করা যেতে পারে।

কাঠামোগত ডেটা

কাঠামোগত ডেটা হলো এমন ডেটা যা সারি এবং কলামে সংগঠিত থাকে, যেখানে প্রতিটি সারির একই সেটের কলাম থাকে। কলামগুলো একটি নির্দিষ্ট ধরনের মানকে উপস্থাপন করে এবং এটি কী উপস্থাপন করে তা বর্ণনা করার জন্য একটি নাম দ্বারা চিহ্নিত হয়, আর সারিগুলোতে প্রকৃত মান থাকে। কলামগুলো প্রায়শই একটি নির্দিষ্ট নিয়ম বা সীমাবদ্ধতার অধীনে থাকে, যাতে মানগুলো সঠিকভাবে কলামটি উপস্থাপন করে। উদাহরণস্বরূপ, কাস্টমারদের একটি স্প্রেডশিট কল্পনা করুন যেখানে প্রতিটি সারিতে একটি ফোন নম্বর থাকতে হবে এবং ফোন নম্বরগুলোতে কখনও বর্ণমালা থাকবে না। ফোন নম্বর কলামে এমন নিয়ম প্রয়োগ করা হতে পারে যাতে এটি কখনও খালি না থাকে এবং শুধুমাত্র সংখ্যা থাকে।

কাঠামোগত ডেটার একটি সুবিধা হলো এটি এমনভাবে সংগঠিত করা যায় যাতে এটি অন্যান্য কাঠামোগত ডেটার সাথে সম্পর্কিত হতে পারে। তবে, যেহেতু ডেটা একটি নির্দিষ্ট উপায়ে সংগঠিত হওয়ার জন্য ডিজাইন করা হয়েছে, এর সামগ্রিক কাঠামো পরিবর্তন করতে অনেক প্রচেষ্টা প্রয়োজন হতে পারে। উদাহরণস্বরূপ, কাস্টমার স্প্রেডশিটে একটি ইমেইল কলাম যোগ করা যা খালি থাকতে পারবে না, এর মানে হলো আপনাকে বিদ্যমান কাস্টমারদের সারিতে এই মানগুলো কীভাবে যোগ করবেন তা বের করতে হবে।

কাঠামোগত ডেটার উদাহরণ: স্প্রেডশিট, রিলেশনাল ডেটাবেস, ফোন নম্বর, ব্যাংক স্টেটমেন্ট

অ-কাঠামোগত ডেটা

অ-কাঠামোগত ডেটা সাধারণত সারি বা কলামে শ্রেণীবদ্ধ করা যায় না এবং এটি কোনো ফরম্যাট বা নিয়মের সেট অনুসরণ করে না। অ-কাঠামোগত ডেটার কাঠামোতে কম সীমাবদ্ধতা থাকার কারণে এটি একটি কাঠামোগত ডেটাসেটের তুলনায় নতুন তথ্য যোগ করা সহজ। উদাহরণস্বরূপ, একটি সেন্সর যা প্রতি ২ মিনিটে বায়ুমণ্ডলীয় চাপের ডেটা সংগ্রহ করে, যদি এটি আপডেট পায় যা এখন তাপমাত্রা পরিমাপ এবং রেকর্ড করতে সক্ষম হয়, তবে এটি যদি অ-কাঠামোগত হয় তবে বিদ্যমান ডেটা পরিবর্তন করার প্রয়োজন হয় না। তবে, এই ধরনের ডেটা বিশ্লেষণ বা তদন্ত করতে বেশি সময় লাগতে পারে। উদাহরণস্বরূপ, একজন বিজ্ঞানী যিনি সেন্সরের ডেটা থেকে আগের মাসের গড় তাপমাত্রা খুঁজে বের করতে চান, কিন্তু আবিষ্কার করেন যে সেন্সরটি কিছু ডেটায় "e" রেকর্ড করেছে এটি ভাঙা ছিল তা নির্দেশ করতে, যার মানে ডেটা অসম্পূর্ণ।

অ-কাঠামোগত ডেটার উদাহরণ: টেক্সট ফাইল, টেক্সট মেসেজ, ভিডিও ফাইল

আধা-কাঠামোগত ডেটা

আধা-কাঠামোগত ডেটার এমন বৈশিষ্ট্য রয়েছে যা এটিকে কাঠামোগত এবং অ-কাঠামোগত ডেটার সংমিশ্রণ করে তোলে। এটি সাধারণত সারি এবং কলামের ফরম্যাট অনুসরণ করে না তবে এমনভাবে সংগঠিত থাকে যা কাঠামোগত বলে বিবেচিত হয় এবং একটি নির্দিষ্ট ফরম্যাট বা নিয়মের সেট অনুসরণ করতে পারে। কাঠামো উৎসের উপর নির্ভর করে পরিবর্তিত হয়, যেমন একটি সুসংজ্ঞায়িত শ্রেণীবিন্যাস থেকে আরও নমনীয় কিছু যা নতুন তথ্য সহজে সংহত করার অনুমতি দেয়। মেটাডেটা হলো সূচক যা নির্ধারণ করতে সাহায্য করে ডেটা কীভাবে সংগঠিত এবং সংরক্ষণ করা হবে এবং এটি ডেটার ধরন অনুযায়ী বিভিন্ন নাম পায়। মেটাডেটার কিছু সাধারণ নাম হলো ট্যাগ, উপাদান, সত্তা এবং বৈশিষ্ট্য। উদাহরণস্বরূপ, একটি সাধারণ ইমেইল বার্তা একটি বিষয়, মূল অংশ এবং প্রাপকদের একটি সেট থাকবে এবং এটি কে বা কখন পাঠানো হয়েছে তার দ্বারা সংগঠিত করা যেতে পারে।

আধা-কাঠামোগত ডেটার উদাহরণ: HTML, CSV ফাইল, জাভাস্ক্রিপ্ট অবজেক্ট নোটেশন (JSON)

ডেটার উৎস

ডেটার উৎস হলো সেই প্রাথমিক স্থান যেখানে ডেটা তৈরি হয়েছে বা যেখানে এটি "বসবাস করে" এবং এটি কীভাবে এবং কখন সংগ্রহ করা হয়েছে তার উপর ভিত্তি করে পরিবর্তিত হয়। ব্যবহারকারী দ্বারা তৈরি ডেটা প্রাথমিক ডেটা নামে পরিচিত, আর মাধ্যমিক ডেটা হলো এমন একটি উৎস থেকে আসে যা সাধারণ ব্যবহারের জন্য ডেটা সংগ্রহ করেছে। উদাহরণস্বরূপ, একটি বিজ্ঞানীদের দল যদি একটি রেইনফরেস্টে পর্যবেক্ষণ সংগ্রহ করে তবে এটি প্রাথমিক ডেটা হিসাবে বিবেচিত হবে এবং যদি তারা এটি অন্য বিজ্ঞানীদের সাথে শেয়ার করে তবে এটি তাদের জন্য মাধ্যমিক ডেটা হিসাবে বিবেচিত হবে।

ডেটাবেস হলো একটি সাধারণ উৎস এবং এটি একটি ডেটাবেস ম্যানেজমেন্ট সিস্টেমের উপর নির্ভর করে ডেটা হোস্ট এবং রক্ষণাবেক্ষণ করতে, যেখানে ব্যবহারকারীরা ডেটা অনুসন্ধানের জন্য কোয়েরি নামক কমান্ড ব্যবহার করে। ফাইলগুলো ডেটার উৎস হতে পারে, যেমন অডিও, ইমেজ এবং ভিডিও ফাইল, পাশাপাশি এক্সেলের মতো স্প্রেডশিট। ইন্টারনেট উৎস হলো ডেটা হোস্ট করার একটি সাধারণ স্থান, যেখানে ডেটাবেস এবং ফাইল উভয়ই পাওয়া যেতে পারে। অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস, যা API নামে পরিচিত, প্রোগ্রামারদের ইন্টারনেটের মাধ্যমে বহিরাগত ব্যবহারকারীদের সাথে ডেটা শেয়ার করার উপায় তৈরি করতে দেয়, যেখানে ওয়েব স্ক্র্যাপিং একটি ওয়েব পেজ থেকে ডেটা বের করে। ডেটার সাথে কাজ করার পাঠ বিভিন্ন ডেটার উৎস কীভাবে ব্যবহার করতে হয় তার উপর আলোকপাত করে।

উপসংহার

এই পাঠে আমরা শিখেছি:

  • ডেটা কী
  • ডেটা কীভাবে বর্ণনা করা হয়
  • ডেটা কীভাবে শ্রেণীবদ্ধ এবং শ্রেণীকরণ করা হয়
  • ডেটা কোথায় পাওয়া যায়

🚀 চ্যালেঞ্জ

Kaggle হলো উন্মুক্ত ডেটাসেটের একটি চমৎকার উৎস। ডেটাসেট অনুসন্ধান টুল ব্যবহার করে কিছু আকর্ষণীয় ডেটাসেট খুঁজুন এবং এই মানদণ্ড অনুযায়ী ৩-৫টি ডেটাসেট শ্রেণীবদ্ধ করুন:

  • ডেটা কি পরিমাণগত নাকি গুণগত?
  • ডেটা কি কাঠামোগত, অ-কাঠামোগত, নাকি আধা-কাঠামোগত?

পোস্ট-লেকচার কুইজ

পুনরালোচনা ও স্ব-অধ্যয়ন

  • Microsoft Learn-এর এই ইউনিট, আপনার ডেটা শ্রেণীবদ্ধ করুন শিরোনামে, কাঠামোগত, আধা-কাঠামোগত এবং অ-কাঠামোগত ডেটার একটি বিস্তারিত বিশ্লেষণ প্রদান করে।

অ্যাসাইনমেন্ট

ডেটাসেট শ্রেণীবদ্ধকরণ


অস্বীকৃতি:
এই নথিটি AI অনুবাদ পরিষেবা Co-op Translator ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদ প্রদানের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা দায়বদ্ধ থাকব না।