You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
122 lines
25 KiB
122 lines
25 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "a76ab694b1534fa57981311975660bfe",
|
|
"translation_date": "2025-09-06T12:12:36+00:00",
|
|
"source_file": "1-Introduction/01-defining-data-science/README.md",
|
|
"language_code": "ne"
|
|
}
|
|
-->
|
|
# डाटा विज्ञान परिभाषा
|
|
|
|
|  द्वारा स्केच नोट ](../../sketchnotes/01-Definitions.png) |
|
|
| :----------------------------------------------------------------------------------------------------: |
|
|
| डाटा विज्ञान परिभाषा - _[@nitya](https://twitter.com/nitya) द्वारा स्केच नोट_ |
|
|
|
|
---
|
|
|
|
[](https://youtu.be/beZ7Mb_oz9I)
|
|
|
|
## [पूर्व-व्याख्यान क्विज](https://ff-quizzes.netlify.app/en/ds/quiz/0)
|
|
|
|
## डाटा के हो?
|
|
हाम्रो दैनिक जीवनमा, हामी निरन्तर डाटाले घेरिएका छौं। तपाईं अहिले पढ्दै गरेको पाठ डाटा हो। तपाईंको स्मार्टफोनमा तपाईंका साथीहरूको फोन नम्बरहरूको सूची डाटा हो, र तपाईंको घडीमा देखाइएको वर्तमान समय पनि डाटा हो। मानिसको रूपमा, हामी स्वाभाविक रूपमा डाटासँग काम गर्छौं, जस्तै हामीसँग भएको पैसा गन्नु वा साथीहरूलाई पत्र लेख्नु।
|
|
|
|
तर, कम्प्युटरको आविष्कारसँगै डाटाको महत्त्व धेरै बढ्यो। कम्प्युटरको मुख्य भूमिका गणना गर्नु हो, तर तिनीहरूलाई काम गर्न डाटाको आवश्यकता पर्छ। त्यसैले, हामीले बुझ्नुपर्छ कि कम्प्युटरले डाटालाई कसरी भण्डारण र प्रशोधन गर्छ।
|
|
|
|
इन्टरनेटको आगमनसँगै, डाटालाई व्यवस्थापन गर्ने उपकरणको रूपमा कम्प्युटरको भूमिका बढ्यो। यदि तपाईं सोच्नुहुन्छ भने, हामी अहिले गणनाभन्दा बढी डाटा प्रशोधन र सञ्चारका लागि कम्प्युटर प्रयोग गर्छौं। जब हामी साथीलाई इमेल लेख्छौं वा इन्टरनेटमा केही जानकारी खोज्छौं - हामी वास्तवमा डाटा सिर्जना, भण्डारण, प्रसारण, र हेरफेर गरिरहेका हुन्छौं।
|
|
> के तपाईंलाई सम्झना छ, अन्तिम पटक तपाईंले कम्प्युटरलाई वास्तवमै केही गणना गर्न प्रयोग गर्नुभएको थियो?
|
|
|
|
## डाटा विज्ञान के हो?
|
|
|
|
[विकिपीडिया](https://en.wikipedia.org/wiki/Data_science) अनुसार, **डाटा विज्ञान** लाई *वैज्ञानिक क्षेत्रको रूपमा परिभाषित गरिएको छ, जसले संरचित र असंरचित डाटाबाट ज्ञान र अन्तर्दृष्टि निकाल्न वैज्ञानिक विधिहरू प्रयोग गर्दछ, र विभिन्न अनुप्रयोग क्षेत्रहरूमा डाटाबाट प्राप्त ज्ञान र व्यावहारिक अन्तर्दृष्टि लागू गर्दछ।*
|
|
|
|
यस परिभाषाले डाटा विज्ञानका निम्न महत्त्वपूर्ण पक्षहरूलाई उजागर गर्दछ:
|
|
|
|
* डाटा विज्ञानको मुख्य लक्ष्य भनेको डाटाबाट **ज्ञान निकाल्नु** हो, अर्थात् - डाटालाई **बुझ्नु**, केही लुकेका सम्बन्धहरू पत्ता लगाउनु, र **मोडेल** निर्माण गर्नु।
|
|
* डाटा विज्ञानले **वैज्ञानिक विधिहरू** प्रयोग गर्दछ, जस्तै सम्भाव्यता र तथ्याङ्क। वास्तवमा, जब *डाटा विज्ञान* शब्द पहिलो पटक प्रस्तुत गरियो, केही मानिसहरूले डाटा विज्ञानलाई तथ्याङ्कको नयाँ आकर्षक नाम मात्र भने। तर अहिले यो स्पष्ट भएको छ कि यो क्षेत्र धेरै व्यापक छ।
|
|
* प्राप्त ज्ञानलाई केही **व्यावहारिक अन्तर्दृष्टि** उत्पादन गर्न प्रयोग गर्नुपर्छ, अर्थात् वास्तविक व्यापारिक परिस्थितिमा लागू गर्न सकिने व्यावहारिक अन्तर्दृष्टि।
|
|
* हामीले **संरचित** र **असंरचित** दुबै डाटामा काम गर्न सक्षम हुनुपर्छ। हामी यस कोर्समा पछि विभिन्न प्रकारका डाटाबारे छलफल गर्नेछौं।
|
|
* **अनुप्रयोग क्षेत्र** महत्त्वपूर्ण अवधारणा हो, र डाटा वैज्ञानिकहरूले प्रायः समस्या क्षेत्र, जस्तै: वित्त, चिकित्सा, मार्केटिङ, आदि, मा कम्तिमा केही हदसम्म विशेषज्ञता आवश्यक पर्छ।
|
|
|
|
> डाटा विज्ञानको अर्को महत्त्वपूर्ण पक्ष भनेको यसले डाटालाई कसरी सङ्कलन, भण्डारण, र कम्प्युटर प्रयोग गरेर सञ्चालन गर्न सकिन्छ भन्ने अध्ययन गर्दछ। तथ्याङ्कले हामीलाई गणितीय आधार प्रदान गर्छ, जबकि डाटा विज्ञानले गणितीय अवधारणाहरूलाई डाटाबाट अन्तर्दृष्टि निकाल्न प्रयोग गर्दछ।
|
|
|
|
डाटा विज्ञानलाई हेर्ने एउटा तरिका (जसलाई [जिम ग्रे](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist)) सँग जोडिएको छ) भनेको यसलाई विज्ञानको छुट्टै प्रतिमान मान्नु हो:
|
|
* **अनुभवजन्य**, जसमा हामी प्रायः अवलोकन र प्रयोगको परिणाममा भर पर्छौं
|
|
* **सैद्धान्तिक**, जहाँ नयाँ अवधारणाहरू विद्यमान वैज्ञानिक ज्ञानबाट उत्पन्न हुन्छन्
|
|
* **गणनात्मक**, जहाँ हामी केही कम्प्युटेशनल प्रयोगहरूमा आधारित नयाँ सिद्धान्तहरू पत्ता लगाउँछौं
|
|
* **डाटा-आधारित**, जसमा डाटामा सम्बन्ध र ढाँचाहरू पत्ता लगाइन्छ
|
|
|
|
## अन्य सम्बन्धित क्षेत्रहरू
|
|
|
|
किनभने डाटा सर्वव्यापी छ, डाटा विज्ञान आफैं पनि एक व्यापक क्षेत्र हो, जसले धेरै अन्य अनुशासनहरूलाई छोएको छ।
|
|
|
|
## डाटाका प्रकारहरू
|
|
|
|
जसरी हामीले पहिले नै उल्लेख गरिसकेका छौं, डाटा हरेक ठाउँमा छ। हामीले यसलाई सही तरिकाले सङ्कलन गर्न मात्र आवश्यक छ! **संरचित** र **असंरचित** डाटाबीच भिन्नता गर्न उपयोगी हुन्छ। संरचित डाटा प्रायः राम्रोसँग संरचित रूपमा प्रस्तुत गरिन्छ, प्रायः तालिका वा तालिकाहरूको रूपमा, जबकि असंरचित डाटा फाइलहरूको सङ्कलन मात्र हो। कहिलेकाहीँ हामी **अर्ध-संरचित** डाटाको पनि कुरा गर्न सक्छौं, जसमा केही प्रकारको संरचना हुन्छ, जुन धेरै फरक हुन सक्छ।
|
|
|
|
| संरचित | अर्ध-संरचित | असंरचित |
|
|
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
|
|
| व्यक्तिहरूको सूची र तिनीहरूको फोन नम्बर | विकिपीडिया पृष्ठहरू जसमा लिङ्कहरू छन् | इनसाइक्लोपेडिया ब्रिटानिकाको पाठ |
|
|
| पछिल्ला २० वर्षका प्रत्येक मिनेटमा भवनका सबै कोठाहरूको तापक्रम | JSON ढाँचामा वैज्ञानिक कागजातहरूको सङ्कलन, जसमा लेखकहरू, प्रकाशन मिति, र सारांश छन् | कर्पोरेट कागजातहरूको फाइल शेयर |
|
|
| भवनमा प्रवेश गर्ने सबै व्यक्तिहरूको उमेर र लिङ्गको डाटा | इन्टरनेट पृष्ठहरू | निगरानी क्यामेराबाट कच्चा भिडियो फिड |
|
|
|
|
## डाटा कहाँबाट प्राप्त गर्ने
|
|
|
|
डाटाका धेरै सम्भावित स्रोतहरू छन्, र तिनीहरू सबै सूचीबद्ध गर्न असम्भव हुनेछ! तर, केही सामान्य स्थानहरूको चर्चा गरौं, जहाँबाट तपाईं डाटा प्राप्त गर्न सक्नुहुन्छ:
|
|
|
|
* **संरचित**
|
|
- **इन्टरनेट अफ थिङ्स** (IoT), जसमा विभिन्न सेन्सरहरू, जस्तै तापक्रम वा दबाब सेन्सरहरू, धेरै उपयोगी डाटा प्रदान गर्छ। उदाहरणका लागि, यदि कुनै कार्यालय भवन IoT सेन्सरहरूले सुसज्जित छ भने, हामी स्वचालित रूपमा तापक्रम र प्रकाश नियन्त्रण गर्न सक्छौं, लागत घटाउनका लागि।
|
|
- **सर्वेक्षणहरू**, जुन हामी प्रयोगकर्ताहरूलाई खरिद पछि वा वेबसाइट भ्रमण पछि पूरा गर्न अनुरोध गर्छौं।
|
|
- **व्यवहारको विश्लेषण**ले, उदाहरणका लागि, हामीलाई प्रयोगकर्ताले साइटमा कति गहिरो जान्छन् र साइट छोड्ने सामान्य कारण के हो भन्ने बुझ्न मद्दत गर्न सक्छ।
|
|
* **असंरचित**
|
|
- **पाठहरू** अन्तर्दृष्टिको धनी स्रोत हुन सक्छन्, जस्तै समग्र **भावना स्कोर**, वा कुञ्जी शब्दहरू र अर्थपूर्ण अर्थ निकाल्ने।
|
|
- **तस्बिरहरू** वा **भिडियो**। निगरानी क्यामेराबाट प्राप्त भिडियोले सडकमा ट्राफिकको अनुमान गर्न र सम्भावित ट्राफिक जामबारे जानकारी दिन प्रयोग गर्न सकिन्छ।
|
|
- वेब सर्भर **लगहरू**ले हाम्रो साइटका कुन पृष्ठहरू सबैभन्दा बढी भ्रमण गरिन्छन् र कति समयसम्मका लागि भन्ने बुझ्न मद्दत गर्न सक्छ।
|
|
* अर्ध-संरचित
|
|
- **सामाजिक सञ्जाल** ग्राफहरूले प्रयोगकर्ताको व्यक्तित्व र जानकारी फैलाउनको सम्भावित प्रभावकारिताबारे डाटाको उत्कृष्ट स्रोत हुन सक्छ।
|
|
- जब हामीसँग पार्टीका तस्बिरहरूको सङ्कलन हुन्छ, हामी **समूह गतिको** डाटा निकाल्न प्रयास गर्न सक्छौं, मानिसहरूले एकअर्कासँग तस्बिर खिचेको ग्राफ निर्माण गरेर।
|
|
|
|
डाटाका विभिन्न सम्भावित स्रोतहरू जान्दा, तपाईं विभिन्न परिदृश्यहरूको बारेमा सोच्न सक्नुहुन्छ, जहाँ डाटा विज्ञान प्रविधिहरू प्रयोग गरेर स्थिति राम्रोसँग बुझ्न र व्यापार प्रक्रियाहरू सुधार गर्न सकिन्छ।
|
|
|
|
## डाटासँग के गर्न सकिन्छ
|
|
|
|
डाटा विज्ञानमा, हामी डाटाको यात्राका निम्न चरणहरूमा ध्यान केन्द्रित गर्छौं:
|
|
|
|
## डिजिटलाइजेसन र डिजिटल रूपान्तरण
|
|
|
|
पछिल्लो दशकमा, धेरै व्यवसायहरूले व्यापारिक निर्णयहरू गर्दा डाटाको महत्त्व बुझ्न थालेका छन्। व्यापार सञ्चालनमा डाटा विज्ञानका सिद्धान्तहरू लागू गर्न, पहिले केही डाटा सङ्कलन गर्नुपर्छ, अर्थात् व्यापार प्रक्रियाहरूलाई डिजिटल रूपान्तरण गर्नुपर्छ। यसलाई **डिजिटलाइजेसन** भनिन्छ। यस डाटामा डाटा विज्ञान प्रविधिहरू लागू गर्दा उत्पादकत्वमा उल्लेखनीय वृद्धि (वा व्यवसायको नयाँ दिशा) हुन सक्छ, जसलाई **डिजिटल रूपान्तरण** भनिन्छ।
|
|
|
|
उदाहरणका लागि विचार गरौं। मानौं, हामीसँग एउटा डाटा विज्ञान कोर्स छ (जस्तै यो कोर्स), जुन हामी अनलाइन विद्यार्थीहरूलाई प्रदान गर्छौं, र हामी यसलाई सुधार गर्न डाटा विज्ञान प्रयोग गर्न चाहन्छौं। हामी यसलाई कसरी गर्न सक्छौं?
|
|
|
|
हामी "के डिजिटलाइज गर्न सकिन्छ?" भनेर सोध्न सुरु गर्न सक्छौं। सबैभन्दा सरल तरिका भनेको प्रत्येक विद्यार्थीलाई प्रत्येक मोड्युल पूरा गर्न लाग्ने समय मापन गर्नु र प्रत्येक मोड्युलको अन्त्यमा बहुविकल्पीय परीक्षण दिएर प्राप्त ज्ञान मापन गर्नु हो। सबै विद्यार्थीहरूको औसत समय-देखि-समाप्ति मापन गरेर, हामी पत्ता लगाउन सक्छौं कि कुन मोड्युलहरूले विद्यार्थीहरूलाई सबैभन्दा बढी कठिनाइ दिन्छ, र तिनीहरूलाई सरल बनाउन काम गर्न सक्छौं।
|
|
तपाईंले तर्क गर्न सक्नुहुन्छ कि यो विधि आदर्श होइन, किनकि मोड्युलहरू विभिन्न लम्बाइका हुन सक्छन्। सम्भवतः मोड्युलको लम्बाइ (अक्षरहरूको संख्या) अनुसार समय विभाजन गर्नु र ती मानहरू तुलना गर्नु अधिक न्यायसंगत हुनेछ।
|
|
जब हामी बहुविकल्पीय परीक्षाको नतिजा विश्लेषण गर्न सुरु गर्छौं, हामी विद्यार्थीहरूले कुन अवधारणाहरू बुझ्न कठिनाइ महसुस गरिरहेका छन् भनेर पत्ता लगाउन सक्छौं, र त्यस जानकारीलाई सामग्री सुधार गर्न प्रयोग गर्न सक्छौं। त्यसका लागि, हामीले परीक्षालाई यसरी डिजाइन गर्नुपर्छ कि प्रत्येक प्रश्नले निश्चित अवधारणा वा ज्ञानको टुक्रासँग सम्बन्धित होस्।
|
|
|
|
यदि हामी अझ जटिल हुन चाहन्छौं भने, हामी प्रत्येक मोड्युल पूरा गर्न लागेको समयलाई विद्यार्थीहरूको उमेर समूहसँग तुलना गर्न सक्छौं। हामीले पत्ता लगाउन सक्छौं कि केही उमेर समूहका लागि मोड्युल पूरा गर्न अत्यधिक समय लाग्छ, वा विद्यार्थीहरूले मोड्युल पूरा गर्नु अघि नै छोड्छन्। यसले हामीलाई मोड्युलका लागि उमेर सिफारिसहरू प्रदान गर्न मद्दत गर्न सक्छ, र गलत अपेक्षाबाट हुने असन्तुष्टि कम गर्न सक्छ।
|
|
|
|
## 🚀 चुनौती
|
|
|
|
यस चुनौतीमा, हामी डेटा साइन्सको क्षेत्रमा सम्बन्धित अवधारणाहरू पत्ता लगाउने प्रयास गर्नेछौं। हामी डेटा साइन्सको विषयमा रहेको विकिपिडिया लेख लिनेछौं, पाठ डाउनलोड गरेर प्रक्रिया गर्नेछौं, र त्यसपछि यस्तो शब्द बादल (word cloud) बनाउनेछौं:
|
|
|
|

|
|
|
|
[`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') मा गएर कोड पढ्न सक्नुहुन्छ। तपाईं कोड चलाउन पनि सक्नुहुन्छ, र यसले वास्तविक समयमा सबै डेटा रूपान्तरण कसरी गर्छ भनेर हेर्न सक्नुहुन्छ।
|
|
|
|
> यदि तपाईंलाई Jupyter Notebook मा कोड कसरी चलाउने थाहा छैन भने, [यो लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) हेर्नुहोस्।
|
|
|
|
## [पाठपछिको क्विज](https://ff-quizzes.netlify.app/en/ds/quiz/1)
|
|
|
|
## असाइनमेन्टहरू
|
|
|
|
* **कार्य १**: माथिको कोडलाई परिमार्जन गरेर **Big Data** र **Machine Learning** क्षेत्रका सम्बन्धित अवधारणाहरू पत्ता लगाउनुहोस्।
|
|
* **कार्य २**: [डेटा साइन्स परिदृश्यहरूबारे सोच्नुहोस्](assignment.md)
|
|
|
|
## श्रेय
|
|
|
|
यो पाठ [Dmitry Soshnikov](http://soshnikov.com) द्वारा ♥️ सहित लेखिएको हो।
|
|
|
|
---
|
|
|
|
**अस्वीकरण**:
|
|
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छन्। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं। |