25 KiB
डाटा विज्ञान परिभाषा
![]() |
---|
डाटा विज्ञान परिभाषा - @nitya द्वारा स्केच नोट |
पूर्व-व्याख्यान क्विज
डाटा के हो?
हाम्रो दैनिक जीवनमा, हामी निरन्तर डाटाले घेरिएका छौं। तपाईं अहिले पढ्दै गरेको पाठ डाटा हो। तपाईंको स्मार्टफोनमा तपाईंका साथीहरूको फोन नम्बरहरूको सूची डाटा हो, र तपाईंको घडीमा देखाइएको वर्तमान समय पनि डाटा हो। मानिसको रूपमा, हामी स्वाभाविक रूपमा डाटासँग काम गर्छौं, जस्तै हामीसँग भएको पैसा गन्नु वा साथीहरूलाई पत्र लेख्नु।
तर, कम्प्युटरको आविष्कारसँगै डाटाको महत्त्व धेरै बढ्यो। कम्प्युटरको मुख्य भूमिका गणना गर्नु हो, तर तिनीहरूलाई काम गर्न डाटाको आवश्यकता पर्छ। त्यसैले, हामीले बुझ्नुपर्छ कि कम्प्युटरले डाटालाई कसरी भण्डारण र प्रशोधन गर्छ।
इन्टरनेटको आगमनसँगै, डाटालाई व्यवस्थापन गर्ने उपकरणको रूपमा कम्प्युटरको भूमिका बढ्यो। यदि तपाईं सोच्नुहुन्छ भने, हामी अहिले गणनाभन्दा बढी डाटा प्रशोधन र सञ्चारका लागि कम्प्युटर प्रयोग गर्छौं। जब हामी साथीलाई इमेल लेख्छौं वा इन्टरनेटमा केही जानकारी खोज्छौं - हामी वास्तवमा डाटा सिर्जना, भण्डारण, प्रसारण, र हेरफेर गरिरहेका हुन्छौं।
के तपाईंलाई सम्झना छ, अन्तिम पटक तपाईंले कम्प्युटरलाई वास्तवमै केही गणना गर्न प्रयोग गर्नुभएको थियो?
डाटा विज्ञान के हो?
विकिपीडिया अनुसार, डाटा विज्ञान लाई वैज्ञानिक क्षेत्रको रूपमा परिभाषित गरिएको छ, जसले संरचित र असंरचित डाटाबाट ज्ञान र अन्तर्दृष्टि निकाल्न वैज्ञानिक विधिहरू प्रयोग गर्दछ, र विभिन्न अनुप्रयोग क्षेत्रहरूमा डाटाबाट प्राप्त ज्ञान र व्यावहारिक अन्तर्दृष्टि लागू गर्दछ।
यस परिभाषाले डाटा विज्ञानका निम्न महत्त्वपूर्ण पक्षहरूलाई उजागर गर्दछ:
- डाटा विज्ञानको मुख्य लक्ष्य भनेको डाटाबाट ज्ञान निकाल्नु हो, अर्थात् - डाटालाई बुझ्नु, केही लुकेका सम्बन्धहरू पत्ता लगाउनु, र मोडेल निर्माण गर्नु।
- डाटा विज्ञानले वैज्ञानिक विधिहरू प्रयोग गर्दछ, जस्तै सम्भाव्यता र तथ्याङ्क। वास्तवमा, जब डाटा विज्ञान शब्द पहिलो पटक प्रस्तुत गरियो, केही मानिसहरूले डाटा विज्ञानलाई तथ्याङ्कको नयाँ आकर्षक नाम मात्र भने। तर अहिले यो स्पष्ट भएको छ कि यो क्षेत्र धेरै व्यापक छ।
- प्राप्त ज्ञानलाई केही व्यावहारिक अन्तर्दृष्टि उत्पादन गर्न प्रयोग गर्नुपर्छ, अर्थात् वास्तविक व्यापारिक परिस्थितिमा लागू गर्न सकिने व्यावहारिक अन्तर्दृष्टि।
- हामीले संरचित र असंरचित दुबै डाटामा काम गर्न सक्षम हुनुपर्छ। हामी यस कोर्समा पछि विभिन्न प्रकारका डाटाबारे छलफल गर्नेछौं।
- अनुप्रयोग क्षेत्र महत्त्वपूर्ण अवधारणा हो, र डाटा वैज्ञानिकहरूले प्रायः समस्या क्षेत्र, जस्तै: वित्त, चिकित्सा, मार्केटिङ, आदि, मा कम्तिमा केही हदसम्म विशेषज्ञता आवश्यक पर्छ।
डाटा विज्ञानको अर्को महत्त्वपूर्ण पक्ष भनेको यसले डाटालाई कसरी सङ्कलन, भण्डारण, र कम्प्युटर प्रयोग गरेर सञ्चालन गर्न सकिन्छ भन्ने अध्ययन गर्दछ। तथ्याङ्कले हामीलाई गणितीय आधार प्रदान गर्छ, जबकि डाटा विज्ञानले गणितीय अवधारणाहरूलाई डाटाबाट अन्तर्दृष्टि निकाल्न प्रयोग गर्दछ।
डाटा विज्ञानलाई हेर्ने एउटा तरिका (जसलाई जिम ग्रे सँग जोडिएको छ) भनेको यसलाई विज्ञानको छुट्टै प्रतिमान मान्नु हो:
- अनुभवजन्य, जसमा हामी प्रायः अवलोकन र प्रयोगको परिणाममा भर पर्छौं
- सैद्धान्तिक, जहाँ नयाँ अवधारणाहरू विद्यमान वैज्ञानिक ज्ञानबाट उत्पन्न हुन्छन्
- गणनात्मक, जहाँ हामी केही कम्प्युटेशनल प्रयोगहरूमा आधारित नयाँ सिद्धान्तहरू पत्ता लगाउँछौं
- डाटा-आधारित, जसमा डाटामा सम्बन्ध र ढाँचाहरू पत्ता लगाइन्छ
अन्य सम्बन्धित क्षेत्रहरू
किनभने डाटा सर्वव्यापी छ, डाटा विज्ञान आफैं पनि एक व्यापक क्षेत्र हो, जसले धेरै अन्य अनुशासनहरूलाई छोएको छ।
डाटाका प्रकारहरू
जसरी हामीले पहिले नै उल्लेख गरिसकेका छौं, डाटा हरेक ठाउँमा छ। हामीले यसलाई सही तरिकाले सङ्कलन गर्न मात्र आवश्यक छ! संरचित र असंरचित डाटाबीच भिन्नता गर्न उपयोगी हुन्छ। संरचित डाटा प्रायः राम्रोसँग संरचित रूपमा प्रस्तुत गरिन्छ, प्रायः तालिका वा तालिकाहरूको रूपमा, जबकि असंरचित डाटा फाइलहरूको सङ्कलन मात्र हो। कहिलेकाहीँ हामी अर्ध-संरचित डाटाको पनि कुरा गर्न सक्छौं, जसमा केही प्रकारको संरचना हुन्छ, जुन धेरै फरक हुन सक्छ।
संरचित | अर्ध-संरचित | असंरचित |
---|---|---|
व्यक्तिहरूको सूची र तिनीहरूको फोन नम्बर | विकिपीडिया पृष्ठहरू जसमा लिङ्कहरू छन् | इनसाइक्लोपेडिया ब्रिटानिकाको पाठ |
पछिल्ला २० वर्षका प्रत्येक मिनेटमा भवनका सबै कोठाहरूको तापक्रम | JSON ढाँचामा वैज्ञानिक कागजातहरूको सङ्कलन, जसमा लेखकहरू, प्रकाशन मिति, र सारांश छन् | कर्पोरेट कागजातहरूको फाइल शेयर |
भवनमा प्रवेश गर्ने सबै व्यक्तिहरूको उमेर र लिङ्गको डाटा | इन्टरनेट पृष्ठहरू | निगरानी क्यामेराबाट कच्चा भिडियो फिड |
डाटा कहाँबाट प्राप्त गर्ने
डाटाका धेरै सम्भावित स्रोतहरू छन्, र तिनीहरू सबै सूचीबद्ध गर्न असम्भव हुनेछ! तर, केही सामान्य स्थानहरूको चर्चा गरौं, जहाँबाट तपाईं डाटा प्राप्त गर्न सक्नुहुन्छ:
- संरचित
- इन्टरनेट अफ थिङ्स (IoT), जसमा विभिन्न सेन्सरहरू, जस्तै तापक्रम वा दबाब सेन्सरहरू, धेरै उपयोगी डाटा प्रदान गर्छ। उदाहरणका लागि, यदि कुनै कार्यालय भवन IoT सेन्सरहरूले सुसज्जित छ भने, हामी स्वचालित रूपमा तापक्रम र प्रकाश नियन्त्रण गर्न सक्छौं, लागत घटाउनका लागि।
- सर्वेक्षणहरू, जुन हामी प्रयोगकर्ताहरूलाई खरिद पछि वा वेबसाइट भ्रमण पछि पूरा गर्न अनुरोध गर्छौं।
- व्यवहारको विश्लेषणले, उदाहरणका लागि, हामीलाई प्रयोगकर्ताले साइटमा कति गहिरो जान्छन् र साइट छोड्ने सामान्य कारण के हो भन्ने बुझ्न मद्दत गर्न सक्छ।
- असंरचित
- पाठहरू अन्तर्दृष्टिको धनी स्रोत हुन सक्छन्, जस्तै समग्र भावना स्कोर, वा कुञ्जी शब्दहरू र अर्थपूर्ण अर्थ निकाल्ने।
- तस्बिरहरू वा भिडियो। निगरानी क्यामेराबाट प्राप्त भिडियोले सडकमा ट्राफिकको अनुमान गर्न र सम्भावित ट्राफिक जामबारे जानकारी दिन प्रयोग गर्न सकिन्छ।
- वेब सर्भर लगहरूले हाम्रो साइटका कुन पृष्ठहरू सबैभन्दा बढी भ्रमण गरिन्छन् र कति समयसम्मका लागि भन्ने बुझ्न मद्दत गर्न सक्छ।
- अर्ध-संरचित
- सामाजिक सञ्जाल ग्राफहरूले प्रयोगकर्ताको व्यक्तित्व र जानकारी फैलाउनको सम्भावित प्रभावकारिताबारे डाटाको उत्कृष्ट स्रोत हुन सक्छ।
- जब हामीसँग पार्टीका तस्बिरहरूको सङ्कलन हुन्छ, हामी समूह गतिको डाटा निकाल्न प्रयास गर्न सक्छौं, मानिसहरूले एकअर्कासँग तस्बिर खिचेको ग्राफ निर्माण गरेर।
डाटाका विभिन्न सम्भावित स्रोतहरू जान्दा, तपाईं विभिन्न परिदृश्यहरूको बारेमा सोच्न सक्नुहुन्छ, जहाँ डाटा विज्ञान प्रविधिहरू प्रयोग गरेर स्थिति राम्रोसँग बुझ्न र व्यापार प्रक्रियाहरू सुधार गर्न सकिन्छ।
डाटासँग के गर्न सकिन्छ
डाटा विज्ञानमा, हामी डाटाको यात्राका निम्न चरणहरूमा ध्यान केन्द्रित गर्छौं:
डिजिटलाइजेसन र डिजिटल रूपान्तरण
पछिल्लो दशकमा, धेरै व्यवसायहरूले व्यापारिक निर्णयहरू गर्दा डाटाको महत्त्व बुझ्न थालेका छन्। व्यापार सञ्चालनमा डाटा विज्ञानका सिद्धान्तहरू लागू गर्न, पहिले केही डाटा सङ्कलन गर्नुपर्छ, अर्थात् व्यापार प्रक्रियाहरूलाई डिजिटल रूपान्तरण गर्नुपर्छ। यसलाई डिजिटलाइजेसन भनिन्छ। यस डाटामा डाटा विज्ञान प्रविधिहरू लागू गर्दा उत्पादकत्वमा उल्लेखनीय वृद्धि (वा व्यवसायको नयाँ दिशा) हुन सक्छ, जसलाई डिजिटल रूपान्तरण भनिन्छ।
उदाहरणका लागि विचार गरौं। मानौं, हामीसँग एउटा डाटा विज्ञान कोर्स छ (जस्तै यो कोर्स), जुन हामी अनलाइन विद्यार्थीहरूलाई प्रदान गर्छौं, र हामी यसलाई सुधार गर्न डाटा विज्ञान प्रयोग गर्न चाहन्छौं। हामी यसलाई कसरी गर्न सक्छौं?
हामी "के डिजिटलाइज गर्न सकिन्छ?" भनेर सोध्न सुरु गर्न सक्छौं। सबैभन्दा सरल तरिका भनेको प्रत्येक विद्यार्थीलाई प्रत्येक मोड्युल पूरा गर्न लाग्ने समय मापन गर्नु र प्रत्येक मोड्युलको अन्त्यमा बहुविकल्पीय परीक्षण दिएर प्राप्त ज्ञान मापन गर्नु हो। सबै विद्यार्थीहरूको औसत समय-देखि-समाप्ति मापन गरेर, हामी पत्ता लगाउन सक्छौं कि कुन मोड्युलहरूले विद्यार्थीहरूलाई सबैभन्दा बढी कठिनाइ दिन्छ, र तिनीहरूलाई सरल बनाउन काम गर्न सक्छौं। तपाईंले तर्क गर्न सक्नुहुन्छ कि यो विधि आदर्श होइन, किनकि मोड्युलहरू विभिन्न लम्बाइका हुन सक्छन्। सम्भवतः मोड्युलको लम्बाइ (अक्षरहरूको संख्या) अनुसार समय विभाजन गर्नु र ती मानहरू तुलना गर्नु अधिक न्यायसंगत हुनेछ। जब हामी बहुविकल्पीय परीक्षाको नतिजा विश्लेषण गर्न सुरु गर्छौं, हामी विद्यार्थीहरूले कुन अवधारणाहरू बुझ्न कठिनाइ महसुस गरिरहेका छन् भनेर पत्ता लगाउन सक्छौं, र त्यस जानकारीलाई सामग्री सुधार गर्न प्रयोग गर्न सक्छौं। त्यसका लागि, हामीले परीक्षालाई यसरी डिजाइन गर्नुपर्छ कि प्रत्येक प्रश्नले निश्चित अवधारणा वा ज्ञानको टुक्रासँग सम्बन्धित होस्।
यदि हामी अझ जटिल हुन चाहन्छौं भने, हामी प्रत्येक मोड्युल पूरा गर्न लागेको समयलाई विद्यार्थीहरूको उमेर समूहसँग तुलना गर्न सक्छौं। हामीले पत्ता लगाउन सक्छौं कि केही उमेर समूहका लागि मोड्युल पूरा गर्न अत्यधिक समय लाग्छ, वा विद्यार्थीहरूले मोड्युल पूरा गर्नु अघि नै छोड्छन्। यसले हामीलाई मोड्युलका लागि उमेर सिफारिसहरू प्रदान गर्न मद्दत गर्न सक्छ, र गलत अपेक्षाबाट हुने असन्तुष्टि कम गर्न सक्छ।
🚀 चुनौती
यस चुनौतीमा, हामी डेटा साइन्सको क्षेत्रमा सम्बन्धित अवधारणाहरू पत्ता लगाउने प्रयास गर्नेछौं। हामी डेटा साइन्सको विषयमा रहेको विकिपिडिया लेख लिनेछौं, पाठ डाउनलोड गरेर प्रक्रिया गर्नेछौं, र त्यसपछि यस्तो शब्द बादल (word cloud) बनाउनेछौं:
notebook.ipynb
मा गएर कोड पढ्न सक्नुहुन्छ। तपाईं कोड चलाउन पनि सक्नुहुन्छ, र यसले वास्तविक समयमा सबै डेटा रूपान्तरण कसरी गर्छ भनेर हेर्न सक्नुहुन्छ।
यदि तपाईंलाई Jupyter Notebook मा कोड कसरी चलाउने थाहा छैन भने, यो लेख हेर्नुहोस्।
पाठपछिको क्विज
असाइनमेन्टहरू
- कार्य १: माथिको कोडलाई परिमार्जन गरेर Big Data र Machine Learning क्षेत्रका सम्बन्धित अवधारणाहरू पत्ता लगाउनुहोस्।
- कार्य २: डेटा साइन्स परिदृश्यहरूबारे सोच्नुहोस्
श्रेय
यो पाठ Dmitry Soshnikov द्वारा ♥️ सहित लेखिएको हो।
अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छन्। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।