# डाटा विज्ञान परिभाषा | ![ [(@sketchthedocs)](https://sketchthedocs.dev) द्वारा स्केच नोट ](../../sketchnotes/01-Definitions.png) | | :----------------------------------------------------------------------------------------------------: | | डाटा विज्ञान परिभाषा - _[@nitya](https://twitter.com/nitya) द्वारा स्केच नोट_ | --- [![डाटा विज्ञान परिभाषा भिडियो](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.ne.png)](https://youtu.be/beZ7Mb_oz9I) ## [पूर्व-व्याख्यान क्विज](https://ff-quizzes.netlify.app/en/ds/quiz/0) ## डाटा के हो? हाम्रो दैनिक जीवनमा, हामी निरन्तर डाटाले घेरिएका छौं। तपाईं अहिले पढ्दै गरेको पाठ डाटा हो। तपाईंको स्मार्टफोनमा तपाईंका साथीहरूको फोन नम्बरहरूको सूची डाटा हो, र तपाईंको घडीमा देखाइएको वर्तमान समय पनि डाटा हो। मानिसको रूपमा, हामी स्वाभाविक रूपमा डाटासँग काम गर्छौं, जस्तै हामीसँग भएको पैसा गन्नु वा साथीहरूलाई पत्र लेख्नु। तर, कम्प्युटरको आविष्कारसँगै डाटाको महत्त्व धेरै बढ्यो। कम्प्युटरको मुख्य भूमिका गणना गर्नु हो, तर तिनीहरूलाई काम गर्न डाटाको आवश्यकता पर्छ। त्यसैले, हामीले बुझ्नुपर्छ कि कम्प्युटरले डाटालाई कसरी भण्डारण र प्रशोधन गर्छ। इन्टरनेटको आगमनसँगै, डाटालाई व्यवस्थापन गर्ने उपकरणको रूपमा कम्प्युटरको भूमिका बढ्यो। यदि तपाईं सोच्नुहुन्छ भने, हामी अहिले गणनाभन्दा बढी डाटा प्रशोधन र सञ्चारका लागि कम्प्युटर प्रयोग गर्छौं। जब हामी साथीलाई इमेल लेख्छौं वा इन्टरनेटमा केही जानकारी खोज्छौं - हामी वास्तवमा डाटा सिर्जना, भण्डारण, प्रसारण, र हेरफेर गरिरहेका हुन्छौं। > के तपाईंलाई सम्झना छ, अन्तिम पटक तपाईंले कम्प्युटरलाई वास्तवमै केही गणना गर्न प्रयोग गर्नुभएको थियो? ## डाटा विज्ञान के हो? [विकिपीडिया](https://en.wikipedia.org/wiki/Data_science) अनुसार, **डाटा विज्ञान** लाई *वैज्ञानिक क्षेत्रको रूपमा परिभाषित गरिएको छ, जसले संरचित र असंरचित डाटाबाट ज्ञान र अन्तर्दृष्टि निकाल्न वैज्ञानिक विधिहरू प्रयोग गर्दछ, र विभिन्न अनुप्रयोग क्षेत्रहरूमा डाटाबाट प्राप्त ज्ञान र व्यावहारिक अन्तर्दृष्टि लागू गर्दछ।* यस परिभाषाले डाटा विज्ञानका निम्न महत्त्वपूर्ण पक्षहरूलाई उजागर गर्दछ: * डाटा विज्ञानको मुख्य लक्ष्य भनेको डाटाबाट **ज्ञान निकाल्नु** हो, अर्थात् - डाटालाई **बुझ्नु**, केही लुकेका सम्बन्धहरू पत्ता लगाउनु, र **मोडेल** निर्माण गर्नु। * डाटा विज्ञानले **वैज्ञानिक विधिहरू** प्रयोग गर्दछ, जस्तै सम्भाव्यता र तथ्याङ्क। वास्तवमा, जब *डाटा विज्ञान* शब्द पहिलो पटक प्रस्तुत गरियो, केही मानिसहरूले डाटा विज्ञानलाई तथ्याङ्कको नयाँ आकर्षक नाम मात्र भने। तर अहिले यो स्पष्ट भएको छ कि यो क्षेत्र धेरै व्यापक छ। * प्राप्त ज्ञानलाई केही **व्यावहारिक अन्तर्दृष्टि** उत्पादन गर्न प्रयोग गर्नुपर्छ, अर्थात् वास्तविक व्यापारिक परिस्थितिमा लागू गर्न सकिने व्यावहारिक अन्तर्दृष्टि। * हामीले **संरचित** र **असंरचित** दुबै डाटामा काम गर्न सक्षम हुनुपर्छ। हामी यस कोर्समा पछि विभिन्न प्रकारका डाटाबारे छलफल गर्नेछौं। * **अनुप्रयोग क्षेत्र** महत्त्वपूर्ण अवधारणा हो, र डाटा वैज्ञानिकहरूले प्रायः समस्या क्षेत्र, जस्तै: वित्त, चिकित्सा, मार्केटिङ, आदि, मा कम्तिमा केही हदसम्म विशेषज्ञता आवश्यक पर्छ। > डाटा विज्ञानको अर्को महत्त्वपूर्ण पक्ष भनेको यसले डाटालाई कसरी सङ्कलन, भण्डारण, र कम्प्युटर प्रयोग गरेर सञ्चालन गर्न सकिन्छ भन्ने अध्ययन गर्दछ। तथ्याङ्कले हामीलाई गणितीय आधार प्रदान गर्छ, जबकि डाटा विज्ञानले गणितीय अवधारणाहरूलाई डाटाबाट अन्तर्दृष्टि निकाल्न प्रयोग गर्दछ। डाटा विज्ञानलाई हेर्ने एउटा तरिका (जसलाई [जिम ग्रे](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist)) सँग जोडिएको छ) भनेको यसलाई विज्ञानको छुट्टै प्रतिमान मान्नु हो: * **अनुभवजन्य**, जसमा हामी प्रायः अवलोकन र प्रयोगको परिणाममा भर पर्छौं * **सैद्धान्तिक**, जहाँ नयाँ अवधारणाहरू विद्यमान वैज्ञानिक ज्ञानबाट उत्पन्न हुन्छन् * **गणनात्मक**, जहाँ हामी केही कम्प्युटेशनल प्रयोगहरूमा आधारित नयाँ सिद्धान्तहरू पत्ता लगाउँछौं * **डाटा-आधारित**, जसमा डाटामा सम्बन्ध र ढाँचाहरू पत्ता लगाइन्छ ## अन्य सम्बन्धित क्षेत्रहरू किनभने डाटा सर्वव्यापी छ, डाटा विज्ञान आफैं पनि एक व्यापक क्षेत्र हो, जसले धेरै अन्य अनुशासनहरूलाई छोएको छ। ## डाटाका प्रकारहरू जसरी हामीले पहिले नै उल्लेख गरिसकेका छौं, डाटा हरेक ठाउँमा छ। हामीले यसलाई सही तरिकाले सङ्कलन गर्न मात्र आवश्यक छ! **संरचित** र **असंरचित** डाटाबीच भिन्नता गर्न उपयोगी हुन्छ। संरचित डाटा प्रायः राम्रोसँग संरचित रूपमा प्रस्तुत गरिन्छ, प्रायः तालिका वा तालिकाहरूको रूपमा, जबकि असंरचित डाटा फाइलहरूको सङ्कलन मात्र हो। कहिलेकाहीँ हामी **अर्ध-संरचित** डाटाको पनि कुरा गर्न सक्छौं, जसमा केही प्रकारको संरचना हुन्छ, जुन धेरै फरक हुन सक्छ। | संरचित | अर्ध-संरचित | असंरचित | | ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | | व्यक्तिहरूको सूची र तिनीहरूको फोन नम्बर | विकिपीडिया पृष्ठहरू जसमा लिङ्कहरू छन् | इनसाइक्लोपेडिया ब्रिटानिकाको पाठ | | पछिल्ला २० वर्षका प्रत्येक मिनेटमा भवनका सबै कोठाहरूको तापक्रम | JSON ढाँचामा वैज्ञानिक कागजातहरूको सङ्कलन, जसमा लेखकहरू, प्रकाशन मिति, र सारांश छन् | कर्पोरेट कागजातहरूको फाइल शेयर | | भवनमा प्रवेश गर्ने सबै व्यक्तिहरूको उमेर र लिङ्गको डाटा | इन्टरनेट पृष्ठहरू | निगरानी क्यामेराबाट कच्चा भिडियो फिड | ## डाटा कहाँबाट प्राप्त गर्ने डाटाका धेरै सम्भावित स्रोतहरू छन्, र तिनीहरू सबै सूचीबद्ध गर्न असम्भव हुनेछ! तर, केही सामान्य स्थानहरूको चर्चा गरौं, जहाँबाट तपाईं डाटा प्राप्त गर्न सक्नुहुन्छ: * **संरचित** - **इन्टरनेट अफ थिङ्स** (IoT), जसमा विभिन्न सेन्सरहरू, जस्तै तापक्रम वा दबाब सेन्सरहरू, धेरै उपयोगी डाटा प्रदान गर्छ। उदाहरणका लागि, यदि कुनै कार्यालय भवन IoT सेन्सरहरूले सुसज्जित छ भने, हामी स्वचालित रूपमा तापक्रम र प्रकाश नियन्त्रण गर्न सक्छौं, लागत घटाउनका लागि। - **सर्वेक्षणहरू**, जुन हामी प्रयोगकर्ताहरूलाई खरिद पछि वा वेबसाइट भ्रमण पछि पूरा गर्न अनुरोध गर्छौं। - **व्यवहारको विश्लेषण**ले, उदाहरणका लागि, हामीलाई प्रयोगकर्ताले साइटमा कति गहिरो जान्छन् र साइट छोड्ने सामान्य कारण के हो भन्ने बुझ्न मद्दत गर्न सक्छ। * **असंरचित** - **पाठहरू** अन्तर्दृष्टिको धनी स्रोत हुन सक्छन्, जस्तै समग्र **भावना स्कोर**, वा कुञ्जी शब्दहरू र अर्थपूर्ण अर्थ निकाल्ने। - **तस्बिरहरू** वा **भिडियो**। निगरानी क्यामेराबाट प्राप्त भिडियोले सडकमा ट्राफिकको अनुमान गर्न र सम्भावित ट्राफिक जामबारे जानकारी दिन प्रयोग गर्न सकिन्छ। - वेब सर्भर **लगहरू**ले हाम्रो साइटका कुन पृष्ठहरू सबैभन्दा बढी भ्रमण गरिन्छन् र कति समयसम्मका लागि भन्ने बुझ्न मद्दत गर्न सक्छ। * अर्ध-संरचित - **सामाजिक सञ्जाल** ग्राफहरूले प्रयोगकर्ताको व्यक्तित्व र जानकारी फैलाउनको सम्भावित प्रभावकारिताबारे डाटाको उत्कृष्ट स्रोत हुन सक्छ। - जब हामीसँग पार्टीका तस्बिरहरूको सङ्कलन हुन्छ, हामी **समूह गतिको** डाटा निकाल्न प्रयास गर्न सक्छौं, मानिसहरूले एकअर्कासँग तस्बिर खिचेको ग्राफ निर्माण गरेर। डाटाका विभिन्न सम्भावित स्रोतहरू जान्दा, तपाईं विभिन्न परिदृश्यहरूको बारेमा सोच्न सक्नुहुन्छ, जहाँ डाटा विज्ञान प्रविधिहरू प्रयोग गरेर स्थिति राम्रोसँग बुझ्न र व्यापार प्रक्रियाहरू सुधार गर्न सकिन्छ। ## डाटासँग के गर्न सकिन्छ डाटा विज्ञानमा, हामी डाटाको यात्राका निम्न चरणहरूमा ध्यान केन्द्रित गर्छौं: ## डिजिटलाइजेसन र डिजिटल रूपान्तरण पछिल्लो दशकमा, धेरै व्यवसायहरूले व्यापारिक निर्णयहरू गर्दा डाटाको महत्त्व बुझ्न थालेका छन्। व्यापार सञ्चालनमा डाटा विज्ञानका सिद्धान्तहरू लागू गर्न, पहिले केही डाटा सङ्कलन गर्नुपर्छ, अर्थात् व्यापार प्रक्रियाहरूलाई डिजिटल रूपान्तरण गर्नुपर्छ। यसलाई **डिजिटलाइजेसन** भनिन्छ। यस डाटामा डाटा विज्ञान प्रविधिहरू लागू गर्दा उत्पादकत्वमा उल्लेखनीय वृद्धि (वा व्यवसायको नयाँ दिशा) हुन सक्छ, जसलाई **डिजिटल रूपान्तरण** भनिन्छ। उदाहरणका लागि विचार गरौं। मानौं, हामीसँग एउटा डाटा विज्ञान कोर्स छ (जस्तै यो कोर्स), जुन हामी अनलाइन विद्यार्थीहरूलाई प्रदान गर्छौं, र हामी यसलाई सुधार गर्न डाटा विज्ञान प्रयोग गर्न चाहन्छौं। हामी यसलाई कसरी गर्न सक्छौं? हामी "के डिजिटलाइज गर्न सकिन्छ?" भनेर सोध्न सुरु गर्न सक्छौं। सबैभन्दा सरल तरिका भनेको प्रत्येक विद्यार्थीलाई प्रत्येक मोड्युल पूरा गर्न लाग्ने समय मापन गर्नु र प्रत्येक मोड्युलको अन्त्यमा बहुविकल्पीय परीक्षण दिएर प्राप्त ज्ञान मापन गर्नु हो। सबै विद्यार्थीहरूको औसत समय-देखि-समाप्ति मापन गरेर, हामी पत्ता लगाउन सक्छौं कि कुन मोड्युलहरूले विद्यार्थीहरूलाई सबैभन्दा बढी कठिनाइ दिन्छ, र तिनीहरूलाई सरल बनाउन काम गर्न सक्छौं। तपाईंले तर्क गर्न सक्नुहुन्छ कि यो विधि आदर्श होइन, किनकि मोड्युलहरू विभिन्न लम्बाइका हुन सक्छन्। सम्भवतः मोड्युलको लम्बाइ (अक्षरहरूको संख्या) अनुसार समय विभाजन गर्नु र ती मानहरू तुलना गर्नु अधिक न्यायसंगत हुनेछ। जब हामी बहुविकल्पीय परीक्षाको नतिजा विश्लेषण गर्न सुरु गर्छौं, हामी विद्यार्थीहरूले कुन अवधारणाहरू बुझ्न कठिनाइ महसुस गरिरहेका छन् भनेर पत्ता लगाउन सक्छौं, र त्यस जानकारीलाई सामग्री सुधार गर्न प्रयोग गर्न सक्छौं। त्यसका लागि, हामीले परीक्षालाई यसरी डिजाइन गर्नुपर्छ कि प्रत्येक प्रश्नले निश्चित अवधारणा वा ज्ञानको टुक्रासँग सम्बन्धित होस्। यदि हामी अझ जटिल हुन चाहन्छौं भने, हामी प्रत्येक मोड्युल पूरा गर्न लागेको समयलाई विद्यार्थीहरूको उमेर समूहसँग तुलना गर्न सक्छौं। हामीले पत्ता लगाउन सक्छौं कि केही उमेर समूहका लागि मोड्युल पूरा गर्न अत्यधिक समय लाग्छ, वा विद्यार्थीहरूले मोड्युल पूरा गर्नु अघि नै छोड्छन्। यसले हामीलाई मोड्युलका लागि उमेर सिफारिसहरू प्रदान गर्न मद्दत गर्न सक्छ, र गलत अपेक्षाबाट हुने असन्तुष्टि कम गर्न सक्छ। ## 🚀 चुनौती यस चुनौतीमा, हामी डेटा साइन्सको क्षेत्रमा सम्बन्धित अवधारणाहरू पत्ता लगाउने प्रयास गर्नेछौं। हामी डेटा साइन्सको विषयमा रहेको विकिपिडिया लेख लिनेछौं, पाठ डाउनलोड गरेर प्रक्रिया गर्नेछौं, र त्यसपछि यस्तो शब्द बादल (word cloud) बनाउनेछौं: ![डेटा साइन्सको लागि शब्द बादल](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ne.png) [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') मा गएर कोड पढ्न सक्नुहुन्छ। तपाईं कोड चलाउन पनि सक्नुहुन्छ, र यसले वास्तविक समयमा सबै डेटा रूपान्तरण कसरी गर्छ भनेर हेर्न सक्नुहुन्छ। > यदि तपाईंलाई Jupyter Notebook मा कोड कसरी चलाउने थाहा छैन भने, [यो लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) हेर्नुहोस्। ## [पाठपछिको क्विज](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## असाइनमेन्टहरू * **कार्य १**: माथिको कोडलाई परिमार्जन गरेर **Big Data** र **Machine Learning** क्षेत्रका सम्बन्धित अवधारणाहरू पत्ता लगाउनुहोस्। * **कार्य २**: [डेटा साइन्स परिदृश्यहरूबारे सोच्नुहोस्](assignment.md) ## श्रेय यो पाठ [Dmitry Soshnikov](http://soshnikov.com) द्वारा ♥️ सहित लेखिएको हो। --- **अस्वीकरण**: यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छन्। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।