You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/bn/7-TimeSeries/1-Introduction
leestott e4050807fb
🌐 Update translations via Co-op Translator
2 weeks ago
..
solution 🌐 Update translations via Co-op Translator 3 weeks ago
working 🌐 Update translations via Co-op Translator 3 weeks ago
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

টাইম সিরিজ পূর্বাভাসের পরিচিতি

টাইম সিরিজের সারাংশ একটি স্কেচনোটে

স্কেচনোট: Tomomi Imura

এই পাঠ এবং পরবর্তী পাঠে, আপনি টাইম সিরিজ পূর্বাভাস সম্পর্কে কিছু শিখবেন, যা একটি মেশিন লার্নিং বিজ্ঞানীর দক্ষতার একটি আকর্ষণীয় এবং মূল্যবান অংশ। এটি অন্যান্য বিষয়গুলোর তুলনায় কিছুটা কম পরিচিত। টাইম সিরিজ পূর্বাভাস এক ধরনের 'ক্রিস্টাল বল': যেমন দামের মতো একটি ভেরিয়েবলের অতীত পারফরম্যান্সের উপর ভিত্তি করে, আপনি এর ভবিষ্যৎ সম্ভাব্য মান অনুমান করতে পারেন।

টাইম সিরিজ পূর্বাভাসের পরিচিতি

🎥 টাইম সিরিজ পূর্বাভাস সম্পর্কে একটি ভিডিও দেখতে উপরের ছবিতে ক্লিক করুন

পাঠ-পূর্ব কুইজ

এটি একটি উপকারী এবং আকর্ষণীয় ক্ষেত্র যা ব্যবসার জন্য বাস্তব মূল্য প্রদান করে, কারণ এটি মূল্য নির্ধারণ, ইনভেন্টরি এবং সাপ্লাই চেইন সমস্যার সরাসরি প্রয়োগে সহায়ক। যদিও ভবিষ্যৎ পারফরম্যান্স আরও ভালোভাবে পূর্বাভাস দেওয়ার জন্য ডিপ লার্নিং কৌশলগুলি ব্যবহার করা শুরু হয়েছে, টাইম সিরিজ পূর্বাভাস এখনও ক্লাসিক মেশিন লার্নিং কৌশল দ্বারা ব্যাপকভাবে প্রভাবিত একটি ক্ষেত্র।

পেন স্টেটের উপকারী টাইম সিরিজ কারিকুলাম এখানে পাওয়া যাবে।

পরিচিতি

ধরা যাক আপনি একটি স্মার্ট পার্কিং মিটারের অ্যারে পরিচালনা করেন যা সময়ের সাথে সাথে কতবার এবং কতক্ষণ ব্যবহৃত হয় তার ডেটা সরবরাহ করে।

যদি আপনি মিটারের অতীত পারফরম্যান্সের উপর ভিত্তি করে সরবরাহ এবং চাহিদার নিয়ম অনুযায়ী এর ভবিষ্যৎ মান পূর্বাভাস দিতে পারেন?

সঠিকভাবে কখন পদক্ষেপ নিতে হবে তা পূর্বাভাস দেওয়া একটি চ্যালেঞ্জ যা টাইম সিরিজ পূর্বাভাসের মাধ্যমে মোকাবিলা করা যেতে পারে। ব্যস্ত সময়ে পার্কিং স্পট খুঁজতে থাকা লোকদের বেশি চার্জ করা তাদের খুশি করবে না, তবে এটি রাস্তা পরিষ্কার করার জন্য রাজস্ব উৎপাদনের একটি নিশ্চিত উপায় হবে!

আসুন টাইম সিরিজ অ্যালগরিদমের কিছু প্রকার অন্বেষণ করি এবং কিছু ডেটা পরিষ্কার ও প্রস্তুত করার জন্য একটি নোটবুক শুরু করি। আপনি যে ডেটা বিশ্লেষণ করবেন তা GEFCom2014 পূর্বাভাস প্রতিযোগিতা থেকে নেওয়া হয়েছে। এটি ২০১২ থেকে ২০১৪ সালের মধ্যে ৩ বছরের ঘণ্টাভিত্তিক বিদ্যুৎ লোড এবং তাপমাত্রার মান নিয়ে গঠিত। বিদ্যুৎ লোড এবং তাপমাত্রার ঐতিহাসিক প্যাটার্নের ভিত্তিতে, আপনি ভবিষ্যতের বিদ্যুৎ লোডের মান পূর্বাভাস দিতে পারেন।

এই উদাহরণে, আপনি শুধুমাত্র ঐতিহাসিক লোড ডেটা ব্যবহার করে এক ধাপ এগিয়ে পূর্বাভাস দেওয়া শিখবেন। তবে শুরু করার আগে, পর্দার আড়ালে কী ঘটছে তা বোঝা দরকার।

কিছু সংজ্ঞা

'টাইম সিরিজ' শব্দটি যখন আপনি শুনবেন, তখন আপনাকে এটি বিভিন্ন প্রসঙ্গে ব্যবহারের অর্থ বুঝতে হবে।

🎓 টাইম সিরিজ

গণিতে, "টাইম সিরিজ হল ডেটা পয়েন্টের একটি সিরিজ যা সময়ের ক্রম অনুসারে সূচিবদ্ধ (বা তালিকাভুক্ত বা গ্রাফিক্যালি উপস্থাপিত)। সাধারণত, একটি টাইম সিরিজ হল সমান ব্যবধানে নেওয়া ধারাবাহিক পয়েন্টের একটি ক্রম।" একটি টাইম সিরিজের উদাহরণ হল ডাও জোন্স ইন্ডাস্ট্রিয়াল অ্যাভারেজ-এর দৈনিক ক্লোজিং মান। টাইম সিরিজ প্লট এবং পরিসংখ্যানগত মডেলিং প্রায়ই সিগন্যাল প্রসেসিং, আবহাওয়া পূর্বাভাস, ভূমিকম্প পূর্বাভাস এবং অন্যান্য ক্ষেত্রে ব্যবহৃত হয় যেখানে ঘটনাগুলি ঘটে এবং ডেটা পয়েন্টগুলি সময়ের সাথে প্লট করা যায়।

🎓 টাইম সিরিজ বিশ্লেষণ

টাইম সিরিজ বিশ্লেষণ হল উপরে উল্লিখিত টাইম সিরিজ ডেটার বিশ্লেষণ। টাইম সিরিজ ডেটা বিভিন্ন রূপ নিতে পারে, যার মধ্যে 'ইন্টারাপ্টেড টাইম সিরিজ' অন্তর্ভুক্ত, যা একটি টাইম সিরিজের বিবর্তনে একটি বাধা ঘটনার আগে এবং পরে প্যাটার্ন সনাক্ত করে। টাইম সিরিজের জন্য প্রয়োজনীয় বিশ্লেষণ ডেটার প্রকৃতির উপর নির্ভর করে। টাইম সিরিজ ডেটা নিজেই সংখ্যার বা অক্ষরের সিরিজের আকারে হতে পারে।

এই বিশ্লেষণটি বিভিন্ন পদ্ধতি ব্যবহার করে সম্পাদিত হয়, যার মধ্যে ফ্রিকোয়েন্সি-ডোমেইন এবং টাইম-ডোমেইন, লিনিয়ার এবং ননলিনিয়ার পদ্ধতি অন্তর্ভুক্ত। আরও জানুন এই ধরনের ডেটা বিশ্লেষণের বিভিন্ন উপায় সম্পর্কে।

🎓 টাইম সিরিজ পূর্বাভাস

টাইম সিরিজ পূর্বাভাস হল একটি মডেল ব্যবহার করে অতীতে সংগৃহীত ডেটার প্যাটার্নের উপর ভিত্তি করে ভবিষ্যতের মান পূর্বাভাস দেওয়া। যদিও টাইম সিরিজ ডেটা অন্বেষণ করতে রিগ্রেশন মডেল ব্যবহার করা সম্ভব, যেখানে টাইম ইনডেক্সগুলি একটি প্লটে x ভেরিয়েবল হিসাবে ব্যবহৃত হয়, এই ধরনের ডেটা বিশেষ ধরনের মডেল ব্যবহার করে বিশ্লেষণ করা সবচেয়ে ভালো।

টাইম সিরিজ ডেটা হল একটি ক্রমানুসারে সাজানো পর্যবেক্ষণের তালিকা, যা লিনিয়ার রিগ্রেশন দ্বারা বিশ্লেষণযোগ্য ডেটার মতো নয়। সবচেয়ে সাধারণ মডেল হল ARIMA, যার পূর্ণরূপ "Autoregressive Integrated Moving Average"।

ARIMA মডেল "বর্তমান মানকে অতীতের মান এবং পূর্বাভাসের ত্রুটির সাথে সম্পর্কিত করে।" এগুলি টাইম-ডোমেইন ডেটা বিশ্লেষণের জন্য সবচেয়ে উপযুক্ত, যেখানে ডেটা সময়ের সাথে সাজানো থাকে।

ARIMA মডেলের বিভিন্ন প্রকার রয়েছে, যা আপনি এখানে শিখতে পারেন এবং যা আপনি পরবর্তী পাঠে স্পর্শ করবেন।

পরবর্তী পাঠে, আপনি Univariate Time Series ব্যবহার করে একটি ARIMA মডেল তৈরি করবেন, যা একটি ভেরিয়েবলের উপর ফোকাস করে যা সময়ের সাথে তার মান পরিবর্তন করে। এই ধরনের ডেটার একটি উদাহরণ হল এই ডেটাসেট, যা Mauna Loa Observatory-তে মাসিক CO2 ঘনত্ব রেকর্ড করে:

CO2 YearMonth Year Month
330.62 1975.04 1975 1
331.40 1975.13 1975 2
331.87 1975.21 1975 3
333.18 1975.29 1975 4
333.92 1975.38 1975 5
333.43 1975.46 1975 6
331.85 1975.54 1975 7
330.01 1975.63 1975 8
328.51 1975.71 1975 9
328.41 1975.79 1975 10
329.25 1975.88 1975 11
330.97 1975.96 1975 12

এই ডেটাসেটে কোন ভেরিয়েবলটি সময়ের সাথে পরিবর্তিত হচ্ছে তা চিহ্নিত করুন।

টাইম সিরিজ ডেটার বৈশিষ্ট্য যা বিবেচনা করা প্রয়োজন

টাইম সিরিজ ডেটা পর্যবেক্ষণ করার সময়, আপনি লক্ষ্য করতে পারেন যে এতে কিছু বৈশিষ্ট্য রয়েছে যা আপনাকে এর প্যাটার্নগুলি আরও ভালোভাবে বুঝতে এবং প্রশমিত করতে হবে। আপনি যদি টাইম সিরিজ ডেটাকে একটি 'সিগন্যাল' হিসাবে বিবেচনা করেন যা আপনি বিশ্লেষণ করতে চান, তবে এই বৈশিষ্ট্যগুলি 'নয়েজ' হিসাবে বিবেচিত হতে পারে। এই 'নয়েজ' কমানোর জন্য আপনাকে প্রায়ই কিছু পরিসংখ্যানগত কৌশল ব্যবহার করতে হবে।

টাইম সিরিজ নিয়ে কাজ করার জন্য আপনাকে কিছু ধারণা জানতে হবে:

🎓 ট্রেন্ড

ট্রেন্ড হল সময়ের সাথে পরিমাপযোগ্য বৃদ্ধি এবং হ্রাস। আরও পড়ুন। টাইম সিরিজের ক্ষেত্রে, এটি কীভাবে ট্রেন্ড ব্যবহার করতে হয় এবং প্রয়োজনে কীভাবে এটি সরাতে হয় তা নিয়ে।

🎓 সিজনালিটি

সিজনালিটি হল পর্যায়ক্রমিক ওঠানামা, যেমন ছুটির সময় বিক্রয়ে প্রভাব ফেলে এমন প্রবণতা। দেখুন কীভাবে বিভিন্ন ধরনের প্লট ডেটায় সিজনালিটি প্রদর্শন করে।

🎓 আউটলায়ার

আউটলায়ার হল ডেটার সাধারণ ভ্যারিয়েন্স থেকে অনেক দূরে অবস্থিত মান।

🎓 দীর্ঘমেয়াদী চক্র

সিজনালিটির বাইরে, ডেটা একটি দীর্ঘমেয়াদী চক্র প্রদর্শন করতে পারে, যেমন এক বছরের বেশি সময় ধরে চলা অর্থনৈতিক মন্দা।

🎓 স্থির ভ্যারিয়েন্স

কিছু ডেটা সময়ের সাথে সাথে ধ্রুবক ওঠানামা প্রদর্শন করে, যেমন দিনে এবং রাতে শক্তি ব্যবহারের পরিমাণ।

🎓 হঠাৎ পরিবর্তন

ডেটা হঠাৎ পরিবর্তন প্রদর্শন করতে পারে যা আরও বিশ্লেষণের প্রয়োজন হতে পারে। উদাহরণস্বরূপ, COVID-এর কারণে ব্যবসাগুলি হঠাৎ বন্ধ হয়ে যাওয়া ডেটায় পরিবর্তন ঘটিয়েছে।

এখানে একটি উদাহরণ টাইম সিরিজ প্লট রয়েছে যা কয়েক বছরের মধ্যে দৈনিক ইন-গেম মুদ্রা ব্যয়ের তথ্য দেখায়। আপনি কি এই ডেটায় উপরের তালিকাভুক্ত বৈশিষ্ট্যগুলির কোনটি সনাক্ত করতে পারেন?

ইন-গেম মুদ্রা ব্যয়

অনুশীলন - বিদ্যুৎ ব্যবহারের ডেটা দিয়ে শুরু করা

আসুন একটি টাইম সিরিজ মডেল তৈরি করা শুরু করি যা অতীত ব্যবহারের ভিত্তিতে ভবিষ্যতের বিদ্যুৎ ব্যবহারের পূর্বাভাস দেবে।

এই উদাহরণে ব্যবহৃত ডেটা GEFCom2014 পূর্বাভাস প্রতিযোগিতা থেকে নেওয়া হয়েছে। এটি ২০১২ থেকে ২০১৪ সালের মধ্যে ৩ বছরের ঘণ্টাভিত্তিক বিদ্যুৎ লোড এবং তাপমাত্রার মান নিয়ে গঠিত।

Tao Hong, Pierre Pinson, Shu Fan, Hamidreza Zareipour, Alberto Troccoli এবং Rob J. Hyndman, "Probabilistic energy forecasting: Global Energy Forecasting Competition 2014 and beyond", International Journal of Forecasting, vol.32, no.3, pp 896-913, July-September, 2016।

  1. এই পাঠের working ফোল্ডারে, notebook.ipynb ফাইলটি খুলুন। ডেটা লোড এবং ভিজুয়ালাইজ করতে সহায়ক লাইব্রেরি যোগ করে শুরু করুন:

    import os
    import matplotlib.pyplot as plt
    from common.utils import load_data
    %matplotlib inline
    

    লক্ষ্য করুন, আপনি অন্তর্ভুক্ত common ফোল্ডারের ফাইলগুলি ব্যবহার করছেন যা আপনার পরিবেশ সেটআপ করে এবং ডেটা ডাউনলোড পরিচালনা করে।

  2. এরপর, load_data() এবং head() কল করে ডেটাকে একটি ডেটাফ্রেম হিসেবে পরীক্ষা করুন:

    data_dir = './data'
    energy = load_data(data_dir)[['load']]
    energy.head()
    

    আপনি দেখতে পাবেন যে এখানে দুটি কলাম রয়েছে যা তারিখ এবং লোড উপস্থাপন করে:

    load
    2012-01-01 00:00:00 2698.0
    2012-01-01 01:00:00 2558.0
    2012-01-01 02:00:00 2444.0
    2012-01-01 03:00:00 2402.0
    2012-01-01 04:00:00 2403.0
  3. এখন, plot() কল করে ডেটা প্লট করুন:

    energy.plot(y='load', subplots=True, figsize=(15, 8), fontsize=12)
    plt.xlabel('timestamp', fontsize=12)
    plt.ylabel('load', fontsize=12)
    plt.show()
    

    এনার্জি প্লট

  4. এবার, ২০১৪ সালের জুলাই মাসের প্রথম সপ্তাহের ডেটা [from date]: [to date] প্যাটার্নে ইনপুট হিসেবে দিয়ে প্লট করুন:

    energy['2014-07-01':'2014-07-07'].plot(y='load', subplots=True, figsize=(15, 8), fontsize=12)
    plt.xlabel('timestamp', fontsize=12)
    plt.ylabel('load', fontsize=12)
    plt.show()
    

    জুলাই

    একটি সুন্দর প্লট! এই প্লটগুলি দেখুন এবং উপরের তালিকাভুক্ত বৈশিষ্ট্যগুলির কোনটি আপনি সনাক্ত করতে পারেন তা দেখুন। ডেটা ভিজুয়ালাইজ করে আমরা কী অনুমান করতে পারি?

পরবর্তী পাঠে, আপনি একটি ARIMA মডেল তৈরি করে কিছু পূর্বাভাস তৈরি করবেন।


🚀চ্যালেঞ্জ

আপনার মনে হওয়া সমস্ত শিল্প এবং গবেষণার ক্ষেত্রের একটি তালিকা তৈরি করুন যা টাইম সিরিজ পূর্বাভাস থেকে উপকৃত হতে পারে। আপনি কি এই কৌশলগুলির কোনও প্রয়োগ শিল্পকলায়, অর্থনীতিতে, পরিবেশবিদ্যায়, খুচরা ব্যবসায়, শিল্পে বা আর্থিক ক্ষেত্রে কল্পনা করতে পারেন? আর কোথায়?

পাঠ-পরবর্তী কুইজ

পর্যালোচনা ও স্ব-অধ্যয়ন

যদিও আমরা এখানে সেগুলি কভার করব না, নিউরাল নেটওয়ার্কগুলি কখনও কখনও টাইম সিরিজ পূর্বাভাসের ক্লাসিক পদ্ধতিগুলিকে উন্নত করতে ব্যবহৃত হয়। এই নিবন্ধে তাদের সম্পর্কে আরও পড়ুন।

অ্যাসাইনমেন্ট

আরও টাইম সিরিজ ভিজুয়ালাইজ করুন


অস্বীকৃতি:
এই নথিটি AI অনুবাদ পরিষেবা Co-op Translator ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিকতা নিশ্চিত করার চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা তার জন্য দায়ী থাকব না।