You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
199 lines
25 KiB
199 lines
25 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "662b509c39eee205687726636d0a8455",
|
|
"translation_date": "2025-09-05T10:18:02+00:00",
|
|
"source_file": "7-TimeSeries/1-Introduction/README.md",
|
|
"language_code": "hi"
|
|
}
|
|
-->
|
|
# समय श्रृंखला पूर्वानुमान का परिचय
|
|
|
|

|
|
|
|
> स्केच नोट: [Tomomi Imura](https://www.twitter.com/girlie_mac) द्वारा
|
|
|
|
इस पाठ और अगले पाठ में, आप समय श्रृंखला पूर्वानुमान के बारे में जानेंगे, जो मशीन लर्निंग वैज्ञानिकों के कौशल का एक दिलचस्प और मूल्यवान हिस्सा है, लेकिन अन्य विषयों की तुलना में थोड़ा कम जाना जाता है। समय श्रृंखला पूर्वानुमान एक प्रकार का 'क्रिस्टल बॉल' है: किसी चर (जैसे कीमत) के पिछले प्रदर्शन के आधार पर, आप इसके भविष्य के संभावित मूल्य की भविष्यवाणी कर सकते हैं।
|
|
|
|
[](https://youtu.be/cBojo1hsHiI "समय श्रृंखला पूर्वानुमान का परिचय")
|
|
|
|
> 🎥 ऊपर दी गई छवि पर क्लिक करें समय श्रृंखला पूर्वानुमान पर वीडियो देखने के लिए
|
|
|
|
## [पाठ-पूर्व प्रश्नोत्तरी](https://ff-quizzes.netlify.app/en/ml/)
|
|
|
|
यह एक उपयोगी और दिलचस्प क्षेत्र है, जिसका व्यवसाय में वास्तविक मूल्य है, क्योंकि इसका सीधा उपयोग मूल्य निर्धारण, इन्वेंट्री और आपूर्ति श्रृंखला समस्याओं को हल करने में होता है। जबकि गहन शिक्षण (डीप लर्निंग) तकनीकों का उपयोग भविष्य के प्रदर्शन की बेहतर भविष्यवाणी करने के लिए किया जाने लगा है, समय श्रृंखला पूर्वानुमान अभी भी क्लासिक मशीन लर्निंग तकनीकों से काफी प्रभावित है।
|
|
|
|
> पेन स्टेट का उपयोगी समय श्रृंखला पाठ्यक्रम [यहां](https://online.stat.psu.edu/stat510/lesson/1) पाया जा सकता है
|
|
|
|
## परिचय
|
|
|
|
मान लीजिए कि आप स्मार्ट पार्किंग मीटरों की एक श्रृंखला का प्रबंधन करते हैं, जो समय के साथ उनके उपयोग और अवधि के बारे में डेटा प्रदान करते हैं।
|
|
|
|
> क्या होगा यदि आप मीटर के पिछले प्रदर्शन के आधार पर, आपूर्ति और मांग के नियमों के अनुसार, इसके भविष्य के मूल्य की भविष्यवाणी कर सकते हैं?
|
|
|
|
सटीक भविष्यवाणी करना कि कब कार्रवाई करनी है ताकि अपने लक्ष्य को प्राप्त किया जा सके, एक चुनौती है जिसे समय श्रृंखला पूर्वानुमान द्वारा हल किया जा सकता है। व्यस्त समय में पार्किंग स्थान खोजने वाले लोगों से अधिक शुल्क लेना उन्हें खुश नहीं करेगा, लेकिन यह सड़कों की सफाई के लिए राजस्व उत्पन्न करने का एक निश्चित तरीका होगा!
|
|
|
|
आइए समय श्रृंखला एल्गोरिदम के कुछ प्रकारों का अन्वेषण करें और डेटा को साफ़ और तैयार करने के लिए एक नोटबुक शुरू करें। जिस डेटा का आप विश्लेषण करेंगे, वह GEFCom2014 पूर्वानुमान प्रतियोगिता से लिया गया है। इसमें 2012 से 2014 के बीच 3 वर्षों के घंटेवार बिजली लोड और तापमान मान शामिल हैं। बिजली लोड और तापमान के ऐतिहासिक पैटर्न को देखते हुए, आप बिजली लोड के भविष्य के मानों की भविष्यवाणी कर सकते हैं।
|
|
|
|
इस उदाहरण में, आप केवल ऐतिहासिक लोड डेटा का उपयोग करके एक समय कदम आगे की भविष्यवाणी करना सीखेंगे। हालांकि, शुरू करने से पहले, यह समझना उपयोगी है कि पर्दे के पीछे क्या हो रहा है।
|
|
|
|
## कुछ परिभाषाएँ
|
|
|
|
जब आप 'समय श्रृंखला' शब्द सुनते हैं, तो आपको इसे विभिन्न संदर्भों में समझने की आवश्यकता होती है।
|
|
|
|
🎓 **समय श्रृंखला**
|
|
|
|
गणित में, "समय श्रृंखला डेटा बिंदुओं की एक श्रृंखला है जो समय क्रम में अनुक्रमित (या सूचीबद्ध या ग्राफ़) होती है। सबसे सामान्यतः, समय श्रृंखला एक अनुक्रम है जिसे समय में समान रूप से अंतराल वाले बिंदुओं पर लिया जाता है।" समय श्रृंखला का एक उदाहरण [डॉव जोन्स इंडस्ट्रियल एवरेज](https://wikipedia.org/wiki/Time_series) का दैनिक समापन मूल्य है। समय श्रृंखला प्लॉट और सांख्यिकीय मॉडलिंग का उपयोग अक्सर सिग्नल प्रोसेसिंग, मौसम पूर्वानुमान, भूकंप की भविष्यवाणी और अन्य क्षेत्रों में किया जाता है, जहां घटनाएं होती हैं और डेटा बिंदुओं को समय के साथ प्लॉट किया जा सकता है।
|
|
|
|
🎓 **समय श्रृंखला विश्लेषण**
|
|
|
|
समय श्रृंखला विश्लेषण, उपरोक्त उल्लिखित समय श्रृंखला डेटा का विश्लेषण है। समय श्रृंखला डेटा विभिन्न रूपों में हो सकता है, जिसमें 'विच्छेदित समय श्रृंखला' शामिल है, जो किसी घटना के पहले और बाद में समय श्रृंखला के विकास में पैटर्न का पता लगाती है। समय श्रृंखला के लिए आवश्यक विश्लेषण डेटा की प्रकृति पर निर्भर करता है। समय श्रृंखला डेटा स्वयं संख्याओं या वर्णों की श्रृंखला के रूप में हो सकता है।
|
|
|
|
इस प्रकार के डेटा का विश्लेषण करने के लिए विभिन्न विधियों का उपयोग किया जाता है, जिनमें आवृत्ति-डोमेन और समय-डोमेन, रैखिक और गैर-रैखिक, और अन्य शामिल हैं। [यहां और जानें](https://www.itl.nist.gov/div898/handbook/pmc/section4/pmc4.htm) कि इस प्रकार के डेटा का विश्लेषण करने के कितने तरीके हैं।
|
|
|
|
🎓 **समय श्रृंखला पूर्वानुमान**
|
|
|
|
समय श्रृंखला पूर्वानुमान एक मॉडल का उपयोग करके भविष्य के मानों की भविष्यवाणी करना है, जो पहले एकत्र किए गए डेटा द्वारा प्रदर्शित पैटर्न पर आधारित होता है। जबकि समय श्रृंखला डेटा का पता लगाने के लिए प्रतिगमन मॉडल का उपयोग करना संभव है, समय सूचकांक को प्लॉट पर x चर के रूप में रखते हुए, ऐसे डेटा का विश्लेषण विशेष प्रकार के मॉडलों का उपयोग करके सबसे अच्छा किया जाता है।
|
|
|
|
समय श्रृंखला डेटा एक क्रमबद्ध अवलोकनों की सूची है, जो रैखिक प्रतिगमन द्वारा विश्लेषण किए जा सकने वाले डेटा से अलग है। सबसे सामान्य मॉडल ARIMA है, जो "ऑटोरेग्रेसिव इंटीग्रेटेड मूविंग एवरेज" का संक्षिप्त रूप है।
|
|
|
|
[ARIMA मॉडल](https://online.stat.psu.edu/stat510/lesson/1/1.1) "श्रृंखला के वर्तमान मूल्य को पिछले मानों और पिछले पूर्वानुमान त्रुटियों से संबंधित करते हैं।" ये समय-डोमेन डेटा का विश्लेषण करने के लिए सबसे उपयुक्त हैं, जहां डेटा समय के साथ क्रमबद्ध होता है।
|
|
|
|
> ARIMA मॉडलों के कई प्रकार हैं, जिनके बारे में आप [यहां](https://people.duke.edu/~rnau/411arim.htm) जान सकते हैं और जिन पर आप अगले पाठ में चर्चा करेंगे।
|
|
|
|
अगले पाठ में, आप [एकवचनीय समय श्रृंखला](https://itl.nist.gov/div898/handbook/pmc/section4/pmc44.htm) का उपयोग करके एक ARIMA मॉडल बनाएंगे, जो एक चर पर केंद्रित है जो समय के साथ अपना मान बदलता है। इस प्रकार के डेटा का एक उदाहरण [यह डेटासेट](https://itl.nist.gov/div898/handbook/pmc/section4/pmc4411.htm) है, जो मौना लोआ वेधशाला में मासिक CO2 सांद्रता को रिकॉर्ड करता है:
|
|
|
|
| CO2 | YearMonth | Year | Month |
|
|
| :----: | :-------: | :---: | :---: |
|
|
| 330.62 | 1975.04 | 1975 | 1 |
|
|
| 331.40 | 1975.13 | 1975 | 2 |
|
|
| 331.87 | 1975.21 | 1975 | 3 |
|
|
| 333.18 | 1975.29 | 1975 | 4 |
|
|
| 333.92 | 1975.38 | 1975 | 5 |
|
|
| 333.43 | 1975.46 | 1975 | 6 |
|
|
| 331.85 | 1975.54 | 1975 | 7 |
|
|
| 330.01 | 1975.63 | 1975 | 8 |
|
|
| 328.51 | 1975.71 | 1975 | 9 |
|
|
| 328.41 | 1975.79 | 1975 | 10 |
|
|
| 329.25 | 1975.88 | 1975 | 11 |
|
|
| 330.97 | 1975.96 | 1975 | 12 |
|
|
|
|
✅ इस डेटासेट में उस चर की पहचान करें जो समय के साथ बदलता है।
|
|
|
|
## समय श्रृंखला डेटा की विशेषताओं पर विचार करना
|
|
|
|
जब आप समय श्रृंखला डेटा को देखते हैं, तो आप देख सकते हैं कि इसमें [कुछ विशेषताएं](https://online.stat.psu.edu/stat510/lesson/1/1.1) होती हैं, जिन्हें आपको बेहतर समझने के लिए ध्यान में रखना और कम करना होगा। यदि आप समय श्रृंखला डेटा को संभावित रूप से एक 'सिग्नल' के रूप में देखते हैं जिसे आप विश्लेषण करना चाहते हैं, तो इन विशेषताओं को 'शोर' के रूप में सोचा जा सकता है। आपको अक्सर इन 'शोर' को कम करने के लिए कुछ सांख्यिकीय तकनीकों का उपयोग करना होगा।
|
|
|
|
यहां कुछ अवधारणाएं दी गई हैं जिन्हें आपको समय श्रृंखला के साथ काम करने के लिए जानना चाहिए:
|
|
|
|
🎓 **रुझान (Trends)**
|
|
|
|
रुझान समय के साथ मापने योग्य वृद्धि और कमी को परिभाषित करते हैं। [अधिक पढ़ें](https://machinelearningmastery.com/time-series-trends-in-python)। समय श्रृंखला के संदर्भ में, यह इस बारे में है कि रुझानों का उपयोग कैसे करें और, यदि आवश्यक हो, तो उन्हें समय श्रृंखला से कैसे हटाएं।
|
|
|
|
🎓 **[मौसमी प्रभाव (Seasonality)](https://machinelearningmastery.com/time-series-seasonality-with-python/)**
|
|
|
|
मौसमी प्रभाव को आवधिक उतार-चढ़ाव के रूप में परिभाषित किया जाता है, जैसे कि छुट्टियों के दौरान बिक्री पर प्रभाव। [देखें](https://itl.nist.gov/div898/handbook/pmc/section4/pmc443.htm) कि विभिन्न प्रकार के प्लॉट डेटा में मौसमी प्रभाव को कैसे प्रदर्शित करते हैं।
|
|
|
|
🎓 **आउटलायर्स (Outliers)**
|
|
|
|
आउटलायर्स वे डेटा बिंदु हैं जो मानक डेटा भिन्नता से बहुत दूर होते हैं।
|
|
|
|
🎓 **दीर्घकालिक चक्र (Long-run cycle)**
|
|
|
|
मौसमी प्रभाव से स्वतंत्र, डेटा एक दीर्घकालिक चक्र प्रदर्शित कर सकता है, जैसे कि एक आर्थिक मंदी जो एक वर्ष से अधिक समय तक चलती है।
|
|
|
|
🎓 **स्थिर विचलन (Constant variance)**
|
|
|
|
समय के साथ, कुछ डेटा स्थिर उतार-चढ़ाव प्रदर्शित करते हैं, जैसे दिन और रात के दौरान ऊर्जा उपयोग।
|
|
|
|
🎓 **अचानक परिवर्तन (Abrupt changes)**
|
|
|
|
डेटा अचानक परिवर्तन प्रदर्शित कर सकता है, जिसे आगे विश्लेषण की आवश्यकता हो सकती है। उदाहरण के लिए, COVID के कारण व्यवसायों का अचानक बंद होना डेटा में परिवर्तन का कारण बना।
|
|
|
|
✅ यहां एक [उदाहरण समय श्रृंखला प्लॉट](https://www.kaggle.com/kashnitsky/topic-9-part-1-time-series-analysis-in-python) है, जो कुछ वर्षों में दैनिक इन-गेम मुद्रा खर्च दिखाता है। क्या आप इस डेटा में ऊपर सूचीबद्ध किसी भी विशेषता की पहचान कर सकते हैं?
|
|
|
|

|
|
|
|
## अभ्यास - बिजली उपयोग डेटा के साथ शुरुआत करना
|
|
|
|
आइए एक समय श्रृंखला मॉडल बनाना शुरू करें, जो पिछले उपयोग को देखते हुए भविष्य के बिजली उपयोग की भविष्यवाणी कर सके।
|
|
|
|
> इस उदाहरण में उपयोग किया गया डेटा GEFCom2014 पूर्वानुमान प्रतियोगिता से लिया गया है। इसमें 2012 से 2014 के बीच 3 वर्षों के घंटेवार बिजली लोड और तापमान मान शामिल हैं।
|
|
>
|
|
> Tao Hong, Pierre Pinson, Shu Fan, Hamidreza Zareipour, Alberto Troccoli और Rob J. Hyndman, "Probabilistic energy forecasting: Global Energy Forecasting Competition 2014 and beyond", International Journal of Forecasting, vol.32, no.3, pp 896-913, July-September, 2016।
|
|
|
|
1. इस पाठ के `working` फ़ोल्डर में, _notebook.ipynb_ फ़ाइल खोलें। उन लाइब्रेरीज़ को जोड़कर शुरू करें जो आपको डेटा लोड और विज़ुअलाइज़ करने में मदद करेंगी:
|
|
|
|
```python
|
|
import os
|
|
import matplotlib.pyplot as plt
|
|
from common.utils import load_data
|
|
%matplotlib inline
|
|
```
|
|
|
|
ध्यान दें, आप शामिल `common` फ़ोल्डर से फाइलों का उपयोग कर रहे हैं, जो आपके वातावरण को सेट करता है और डेटा डाउनलोड को संभालता है।
|
|
|
|
2. अगला, डेटा को एक डेटाफ्रेम के रूप में `load_data()` और `head()` कॉल करके जांचें:
|
|
|
|
```python
|
|
data_dir = './data'
|
|
energy = load_data(data_dir)[['load']]
|
|
energy.head()
|
|
```
|
|
|
|
आप देख सकते हैं कि दो कॉलम हैं जो तिथि और लोड का प्रतिनिधित्व करते हैं:
|
|
|
|
| | load |
|
|
| :-----------------: | :----: |
|
|
| 2012-01-01 00:00:00 | 2698.0 |
|
|
| 2012-01-01 01:00:00 | 2558.0 |
|
|
| 2012-01-01 02:00:00 | 2444.0 |
|
|
| 2012-01-01 03:00:00 | 2402.0 |
|
|
| 2012-01-01 04:00:00 | 2403.0 |
|
|
|
|
3. अब, `plot()` कॉल करके डेटा प्लॉट करें:
|
|
|
|
```python
|
|
energy.plot(y='load', subplots=True, figsize=(15, 8), fontsize=12)
|
|
plt.xlabel('timestamp', fontsize=12)
|
|
plt.ylabel('load', fontsize=12)
|
|
plt.show()
|
|
```
|
|
|
|

|
|
|
|
4. अब, जुलाई 2014 के पहले सप्ताह को `[from date]: [to date]` पैटर्न में `energy` के रूप में इनपुट देकर प्लॉट करें:
|
|
|
|
```python
|
|
energy['2014-07-01':'2014-07-07'].plot(y='load', subplots=True, figsize=(15, 8), fontsize=12)
|
|
plt.xlabel('timestamp', fontsize=12)
|
|
plt.ylabel('load', fontsize=12)
|
|
plt.show()
|
|
```
|
|
|
|

|
|
|
|
एक सुंदर प्लॉट! इन प्लॉट्स को देखें और देखें कि क्या आप ऊपर सूचीबद्ध किसी भी विशेषता की पहचान कर सकते हैं। डेटा को विज़ुअलाइज़ करके हम क्या निष्कर्ष निकाल सकते हैं?
|
|
|
|
अगले पाठ में, आप एक ARIMA मॉडल बनाएंगे ताकि कुछ पूर्वानुमान तैयार किए जा सकें।
|
|
|
|
---
|
|
|
|
## 🚀चुनौती
|
|
|
|
उन सभी उद्योगों और क्षेत्रों की एक सूची बनाएं, जो समय श्रृंखला पूर्वानुमान से लाभान्वित हो सकते हैं। क्या आप इन तकनीकों के किसी अनुप्रयोग के बारे में सोच सकते हैं, जैसे कला, अर्थमिति, पारिस्थितिकी, खुदरा, उद्योग, वित्त? और कहां?
|
|
|
|
## [पाठ-पश्चात प्रश्नोत्तरी](https://ff-quizzes.netlify.app/en/ml/)
|
|
|
|
## समीक्षा और स्व-अध्ययन
|
|
|
|
हालांकि हम यहां उन्हें कवर नहीं करेंगे, लेकिन कभी-कभी समय श्रृंखला पूर्वानुमान की क्लासिक विधियों को बढ़ाने के लिए न्यूरल नेटवर्क का उपयोग किया जाता है। उनके बारे में [इस लेख](https://medium.com/microsoftazure/neural-networks-for-forecasting-financial-and-economic-time-series-6aca370ff412) में और पढ़ें।
|
|
|
|
## असाइनमेंट
|
|
|
|
[कुछ और समय श्रृंखला को विज़ुअलाइज़ करें](assignment.md)
|
|
|
|
---
|
|
|
|
**अस्वीकरण**:
|
|
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं। |