You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
199 lines
23 KiB
199 lines
23 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "662b509c39eee205687726636d0a8455",
|
|
"translation_date": "2025-09-06T06:08:30+00:00",
|
|
"source_file": "7-TimeSeries/1-Introduction/README.md",
|
|
"language_code": "mr"
|
|
}
|
|
-->
|
|
# टाइम सिरीज अंदाजाविषयी परिचय
|
|
|
|

|
|
|
|
> स्केच नोट: [Tomomi Imura](https://www.twitter.com/girlie_mac)
|
|
|
|
या धड्यात आणि पुढील धड्यात, तुम्ही टाइम सिरीज अंदाजाविषयी थोडं शिकाल, जे मशीन लर्निंग शास्त्रज्ञांच्या कौशल्यांमधील एक महत्त्वाचा आणि उपयुक्त भाग आहे, पण इतर विषयांइतकं प्रसिद्ध नाही. टाइम सिरीज अंदाज म्हणजे एक प्रकारचं 'भविष्यवाणी करणं': जसं की एखाद्या चलाच्या (जसे की किंमत) भूतकाळातील कामगिरीच्या आधारे, त्याची भविष्यातील संभाव्य किंमत अंदाजित करता येते.
|
|
|
|
[](https://youtu.be/cBojo1hsHiI "टाइम सिरीज अंदाजाविषयी परिचय")
|
|
|
|
> 🎥 टाइम सिरीज अंदाजाविषयी व्हिडिओ पाहण्यासाठी वरील प्रतिमेवर क्लिक करा
|
|
|
|
## [पूर्व-व्याख्यान प्रश्नमंजुषा](https://ff-quizzes.netlify.app/en/ml/)
|
|
|
|
किंमती, साठा व्यवस्थापन, आणि पुरवठा साखळी समस्यांवर थेट उपयोग असल्यामुळे, हा एक उपयुक्त आणि महत्त्वाचा क्षेत्र आहे ज्याचा व्यवसायाला खूप फायदा होतो. जरी डीप लर्निंग तंत्रांचा वापर भविष्यातील कामगिरीचा अधिक चांगला अंदाज घेण्यासाठी सुरू झाला असला तरी, टाइम सिरीज अंदाज अजूनही पारंपरिक मशीन लर्निंग तंत्रांवर आधारित आहे.
|
|
|
|
> पेन स्टेटचा उपयुक्त टाइम सिरीज अभ्यासक्रम [येथे](https://online.stat.psu.edu/stat510/lesson/1) पाहता येईल
|
|
|
|
## परिचय
|
|
|
|
समजा, तुम्ही स्मार्ट पार्किंग मीटरचा संच व्यवस्थापित करता, जे वेळोवेळी किती वेळा आणि किती काळ वापरले गेले याचा डेटा पुरवतात.
|
|
|
|
> जर तुम्ही मीटरच्या भूतकाळातील कामगिरीच्या आधारे, पुरवठा आणि मागणीच्या नियमांनुसार त्याची भविष्यातील किंमत अंदाजित करू शकला, तर?
|
|
|
|
योग्य वेळी कृती करण्याचा अचूक अंदाज लावणे ही एक आव्हानात्मक गोष्ट आहे, जी टाइम सिरीज अंदाजाने सोडवता येते. गर्दीच्या वेळी पार्किंग स्पॉट शोधणाऱ्या लोकांना जास्त शुल्क आकारणं कदाचित त्यांना आनंदी करणार नाही, पण रस्ते स्वच्छ करण्यासाठी महसूल निर्माण करण्याचा हा एक खात्रीशीर मार्ग असेल!
|
|
|
|
चला, टाइम सिरीज अल्गोरिदमच्या काही प्रकारांचा अभ्यास करूया आणि डेटा स्वच्छ व तयार करण्यासाठी एक नोटबुक सुरू करूया. तुम्ही विश्लेषण करणार असलेला डेटा GEFCom2014 अंदाज स्पर्धेतून घेतला आहे. यात 2012 ते 2014 दरम्यान 3 वर्षांच्या तासागणिक वीज लोड आणि तापमानाच्या मूल्यांचा समावेश आहे. वीज लोड आणि तापमानाच्या ऐतिहासिक पद्धतींवरून, तुम्ही वीज लोडच्या भविष्यातील मूल्यांचा अंदाज लावू शकता.
|
|
|
|
या उदाहरणात, तुम्ही केवळ ऐतिहासिक लोड डेटाचा वापर करून, एका वेळेच्या टप्प्याचा अंदाज कसा लावायचा ते शिकाल. मात्र, सुरू करण्यापूर्वी, पडद्यामागे काय चाललं आहे ते समजून घेणं उपयुक्त ठरेल.
|
|
|
|
## काही परिभाषा
|
|
|
|
'टाइम सिरीज' हा शब्द ऐकताना, त्याचा वेगवेगळ्या संदर्भांमध्ये कसा उपयोग होतो हे समजून घेणं महत्त्वाचं आहे.
|
|
|
|
🎓 **टाइम सिरीज**
|
|
|
|
गणितात, "टाइम सिरीज म्हणजे वेळेच्या क्रमाने अनुक्रमित (किंवा सूचीबद्ध किंवा ग्राफ केलेले) डेटा पॉइंट्सची मालिका असते. सर्वसामान्यपणे, टाइम सिरीज म्हणजे वेळेच्या समान अंतरावर घेतलेल्या क्रमिक बिंदूंचा अनुक्रम असतो." टाइम सिरीजचं एक उदाहरण म्हणजे [डाऊ जोन्स इंडस्ट्रियल अॅव्हरेज](https://wikipedia.org/wiki/Time_series) चा दररोजचा बंद होण्याचा मूल्य. टाइम सिरीज प्लॉट्स आणि सांख्यिकी मॉडेलिंगचा वापर सिग्नल प्रोसेसिंग, हवामान अंदाज, भूकंपाचा अंदाज, आणि इतर क्षेत्रांमध्ये केला जातो, जिथे घटना घडतात आणि डेटा पॉइंट्स वेळोवेळी प्लॉट करता येतात.
|
|
|
|
🎓 **टाइम सिरीज विश्लेषण**
|
|
|
|
टाइम सिरीज विश्लेषण म्हणजे वरील उल्लेखित टाइम सिरीज डेटाचं विश्लेषण करणं. टाइम सिरीज डेटा वेगवेगळ्या स्वरूपात असतो, जसे की 'खंडित टाइम सिरीज', जे एखाद्या घटनेच्या आधी आणि नंतरच्या टाइम सिरीजच्या उत्क्रांतीतील पद्धती शोधतं. टाइम सिरीजसाठी आवश्यक विश्लेषण डेटाच्या स्वरूपावर अवलंबून असतं. टाइम सिरीज डेटा स्वतः संख्यांच्या किंवा अक्षरांच्या मालिकेच्या स्वरूपात असतो.
|
|
|
|
विश्लेषणासाठी विविध पद्धतींचा वापर केला जातो, जसे की फ्रिक्वेन्सी-डोमेन आणि टाइम-डोमेन, रेषीय आणि अरेषीय, इत्यादी. [अधिक जाणून घ्या](https://www.itl.nist.gov/div898/handbook/pmc/section4/pmc4.htm) या प्रकारच्या डेटाचं विश्लेषण कसं करायचं.
|
|
|
|
🎓 **टाइम सिरीज अंदाज**
|
|
|
|
टाइम सिरीज अंदाज म्हणजे भूतकाळात गोळा केलेल्या डेटाच्या पद्धतींवर आधारित भविष्यातील मूल्यांचा अंदाज लावण्यासाठी मॉडेलचा वापर करणं. जरी टाइम सिरीज डेटाचा अभ्यास करण्यासाठी रिग्रेशन मॉडेल्सचा वापर करता येतो, तरी अशा डेटाचं विश्लेषण विशेष प्रकारच्या मॉडेल्सने करणं अधिक योग्य ठरतं.
|
|
|
|
टाइम सिरीज डेटा म्हणजे क्रमाने मांडलेली निरीक्षणं असतात, जी रेषीय रिग्रेशनने विश्लेषित करता येत नाहीत. यासाठी सर्वात सामान्य मॉडेल म्हणजे ARIMA, ज्याचा अर्थ "Autoregressive Integrated Moving Average" असा होतो.
|
|
|
|
[ARIMA मॉडेल्स](https://online.stat.psu.edu/stat510/lesson/1/1.1) "सध्याच्या मालिकेच्या मूल्याला भूतकाळातील मूल्यांशी आणि भूतकाळातील अंदाजातील चुका यांच्याशी जोडतात." हे टाइम-डोमेन डेटाचं विश्लेषण करण्यासाठी सर्वात योग्य असतात, जिथे डेटा वेळेनुसार क्रमबद्ध असतो.
|
|
|
|
> ARIMA मॉडेल्सचे अनेक प्रकार आहेत, ज्याविषयी तुम्ही [येथे](https://people.duke.edu/~rnau/411arim.htm) अधिक जाणून घेऊ शकता आणि पुढील धड्यात तुम्ही यावर अधिक चर्चा कराल.
|
|
|
|
पुढील धड्यात, तुम्ही [Univariate Time Series](https://itl.nist.gov/div898/handbook/pmc/section4/pmc44.htm) वापरून ARIMA मॉडेल तयार कराल, ज्यामध्ये एका चलाचा अभ्यास केला जातो, जो वेळेनुसार बदलतो. अशा प्रकारच्या डेटाचं एक उदाहरण म्हणजे [हा डेटासेट](https://itl.nist.gov/div898/handbook/pmc/section4/pmc4411.htm), जो Mauna Loa वेधशाळेतील मासिक CO2 एकाग्रतेची नोंद करतो:
|
|
|
|
| CO2 | YearMonth | Year | Month |
|
|
| :----: | :-------: | :---: | :---: |
|
|
| 330.62 | 1975.04 | 1975 | 1 |
|
|
| 331.40 | 1975.13 | 1975 | 2 |
|
|
| 331.87 | 1975.21 | 1975 | 3 |
|
|
| 333.18 | 1975.29 | 1975 | 4 |
|
|
| 333.92 | 1975.38 | 1975 | 5 |
|
|
| 333.43 | 1975.46 | 1975 | 6 |
|
|
| 331.85 | 1975.54 | 1975 | 7 |
|
|
| 330.01 | 1975.63 | 1975 | 8 |
|
|
| 328.51 | 1975.71 | 1975 | 9 |
|
|
| 328.41 | 1975.79 | 1975 | 10 |
|
|
| 329.25 | 1975.88 | 1975 | 11 |
|
|
| 330.97 | 1975.96 | 1975 | 12 |
|
|
|
|
✅ या डेटासेटमध्ये वेळेनुसार बदलणारा चल ओळखा
|
|
|
|
## टाइम सिरीज डेटाची वैशिष्ट्यं
|
|
|
|
टाइम सिरीज डेटा पाहताना, तुम्हाला त्यात [काही वैशिष्ट्यं](https://online.stat.psu.edu/stat510/lesson/1/1.1) दिसू शकतात, ज्यांचा विचार करणे आणि त्यावर उपाय करणे आवश्यक असते, जेणेकरून त्यातील पद्धती अधिक चांगल्या प्रकारे समजता येतील. जर तुम्ही टाइम सिरीज डेटाला 'सिग्नल' मानलं, ज्याचा तुम्हाला अभ्यास करायचा आहे, तर ही वैशिष्ट्यं 'गोंधळ' मानली जाऊ शकतात. काही सांख्यिकी तंत्रांचा वापर करून तुम्हाला हा 'गोंधळ' कमी करावा लागतो.
|
|
|
|
टाइम सिरीजसाठी खालील संकल्पना समजून घेणं महत्त्वाचं आहे:
|
|
|
|
🎓 **ट्रेंड्स**
|
|
|
|
ट्रेंड्स म्हणजे वेळेनुसार मोजता येणारी वाढ किंवा घट. [अधिक वाचा](https://machinelearningmastery.com/time-series-trends-in-python). टाइम सिरीजच्या संदर्भात, ट्रेंड्सचा उपयोग कसा करायचा आणि गरज असल्यास ते कसे काढायचे याबद्दल माहिती मिळवा.
|
|
|
|
🎓 **[सीझनॅलिटी](https://machinelearningmastery.com/time-series-seasonality-with-python/)**
|
|
|
|
सीझनॅलिटी म्हणजे कालांतराने होणारे चढ-उतार, जसे की सुट्ट्यांदरम्यान विक्रीवर होणारा परिणाम. [येथे पाहा](https://itl.nist.gov/div898/handbook/pmc/section4/pmc443.htm) की वेगवेगळ्या प्रकारचे प्लॉट्स डेटामध्ये सीझनॅलिटी कशी दर्शवतात.
|
|
|
|
🎓 **आउटलायर्स**
|
|
|
|
आउटलायर्स म्हणजे डेटाच्या सामान्य फरकापासून खूप दूर असलेले बिंदू.
|
|
|
|
🎓 **दीर्घकालीन चक्र**
|
|
|
|
सीझनॅलिटीपासून स्वतंत्र, डेटामध्ये दीर्घकालीन चक्र असू शकतो, जसे की वर्षभर टिकणारी आर्थिक मंदी.
|
|
|
|
🎓 **सततचा फरक**
|
|
|
|
काही डेटामध्ये वेळेनुसार सतत चढ-उतार दिसतात, जसे की दिवस आणि रात्रीच्या वेळी ऊर्जा वापर.
|
|
|
|
🎓 **अचानक बदल**
|
|
|
|
डेटामध्ये अचानक बदल दिसू शकतो, ज्याचा अधिक अभ्यास करावा लागतो. उदाहरणार्थ, COVID मुळे व्यवसाय अचानक बंद झाल्यामुळे डेटामध्ये बदल झाले.
|
|
|
|
✅ [हा टाइम सिरीज प्लॉट](https://www.kaggle.com/kashnitsky/topic-9-part-1-time-series-analysis-in-python) पाहा, जो काही वर्षांतील दररोजच्या इन-गेम चलन खर्चाचं चित्रण करतो. वरील वैशिष्ट्यांपैकी कोणती वैशिष्ट्यं तुम्हाला या डेटामध्ये दिसतात?
|
|
|
|

|
|
|
|
## व्यायाम - वीज वापर डेटा वापरून सुरुवात करा
|
|
|
|
चला, भूतकाळातील वीज वापराच्या आधारे भविष्यातील वीज वापराचा अंदाज लावण्यासाठी टाइम सिरीज मॉडेल तयार करूया.
|
|
|
|
> या उदाहरणातील डेटा GEFCom2014 अंदाज स्पर्धेतून घेतला आहे. यात 2012 ते 2014 दरम्यान 3 वर्षांच्या तासागणिक वीज लोड आणि तापमानाच्या मूल्यांचा समावेश आहे.
|
|
>
|
|
> Tao Hong, Pierre Pinson, Shu Fan, Hamidreza Zareipour, Alberto Troccoli आणि Rob J. Hyndman, "Probabilistic energy forecasting: Global Energy Forecasting Competition 2014 and beyond", International Journal of Forecasting, vol.32, no.3, pp 896-913, July-September, 2016.
|
|
|
|
1. या धड्याच्या `working` फोल्डरमध्ये, _notebook.ipynb_ फाइल उघडा. डेटा लोड आणि व्हिज्युअलाइझ करण्यात मदत करणाऱ्या लायब्ररी जोडा:
|
|
|
|
```python
|
|
import os
|
|
import matplotlib.pyplot as plt
|
|
from common.utils import load_data
|
|
%matplotlib inline
|
|
```
|
|
|
|
लक्षात घ्या, तुम्ही `common` फोल्डरमधील फाइल्स वापरत आहात, ज्या तुमचं वातावरण सेट करतात आणि डेटा डाउनलोड हाताळतात.
|
|
|
|
2. नंतर, `load_data()` आणि `head()` कॉल करून डेटा डेटा फ्रेम म्हणून तपासा:
|
|
|
|
```python
|
|
data_dir = './data'
|
|
energy = load_data(data_dir)[['load']]
|
|
energy.head()
|
|
```
|
|
|
|
तुम्हाला दिसेल की दोन स्तंभ आहेत, जे तारीख आणि लोड दर्शवतात:
|
|
|
|
| | load |
|
|
| :-----------------: | :----: |
|
|
| 2012-01-01 00:00:00 | 2698.0 |
|
|
| 2012-01-01 01:00:00 | 2558.0 |
|
|
| 2012-01-01 02:00:00 | 2444.0 |
|
|
| 2012-01-01 03:00:00 | 2402.0 |
|
|
| 2012-01-01 04:00:00 | 2403.0 |
|
|
|
|
3. आता, `plot()` कॉल करून डेटा प्लॉट करा:
|
|
|
|
```python
|
|
energy.plot(y='load', subplots=True, figsize=(15, 8), fontsize=12)
|
|
plt.xlabel('timestamp', fontsize=12)
|
|
plt.ylabel('load', fontsize=12)
|
|
plt.show()
|
|
```
|
|
|
|

|
|
|
|
4. आता, 2014 च्या जुलै महिन्याच्या पहिल्या आठवड्याचा प्लॉट करा, `energy` मध्ये `[from date]: [to date]` पॅटर्नचा वापर करून:
|
|
|
|
```python
|
|
energy['2014-07-01':'2014-07-07'].plot(y='load', subplots=True, figsize=(15, 8), fontsize=12)
|
|
plt.xlabel('timestamp', fontsize=12)
|
|
plt.ylabel('load', fontsize=12)
|
|
plt.show()
|
|
```
|
|
|
|

|
|
|
|
एक सुंदर प्लॉट! या प्लॉट्सकडे पाहा आणि वरील वैशिष्ट्यांपैकी कोणती वैशिष्ट्यं तुम्हाला दिसतात ते तपासा. डेटा व्हिज्युअलाइझ करून आपण काय समजू शकतो?
|
|
|
|
पुढील धड्यात, तुम्ही ARIMA मॉडेल तयार करून काही अंदाज तयार कराल.
|
|
|
|
---
|
|
|
|
## 🚀आव्हान
|
|
|
|
तुमच्या मते, कोणत्या उद्योगांना आणि अभ्यासाच्या क्षेत्रांना टाइम सिरीज अंदाजाचा फायदा होईल याची यादी तयार करा. तुम्हाला या तंत्रांचा उपयोग कला, अर्थशास्त्र, पर्यावरणशास्त्र, किरकोळ विक्री, उद्योग, वित्तीय क्षेत्र किंवा इतर कुठे होईल असं वाटतं का?
|
|
|
|
## [व्याख्यानानंतरची प्रश्नमंजुषा](https://ff-quizzes.netlify.app/en/ml/)
|
|
|
|
## पुनरावलोकन आणि स्व-अभ्यास
|
|
|
|
जरी आपण येथे त्यांचा अभ्यास करणार नाही, तरी टाइम सिरीज अंदाजाच्या पारंपरिक पद्धतींना सुधारण्यासाठी कधी कधी न्यूरल नेटवर्क्सचा वापर केला जातो. याविषयी अधिक वाचा [या लेखात](https://medium.com/microsoftazure/neural-networks-for-forecasting-financial-and-economic-time-series-6aca370ff412)
|
|
|
|
## असाइनमेंट
|
|
|
|
[अजून काही टाइम सिरीज व्हिज्युअलाइझ करा](assignment.md)
|
|
|
|
---
|
|
|
|
**अस्वीकरण**:
|
|
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात ठेवा की स्वयंचलित भाषांतरे त्रुटी किंवा अचूकतेच्या अभावाने युक्त असू शकतात. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी, व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून उद्भवलेल्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही. |