You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

25 KiB

डाटा विज्ञान परिभाषा

 (@sketchthedocs) द्वारा स्केच नोट
डाटा विज्ञान परिभाषा - @nitya द्वारा स्केच नोट

डाटा विज्ञान परिभाषा भिडियो

पूर्व-व्याख्यान क्विज

डाटा के हो?

हाम्रो दैनिक जीवनमा, हामी निरन्तर डाटाले घेरिएका छौं। तपाईं अहिले पढ्दै गरेको पाठ डाटा हो। तपाईंको स्मार्टफोनमा तपाईंका साथीहरूको फोन नम्बरहरूको सूची डाटा हो, र तपाईंको घडीमा देखाइएको वर्तमान समय पनि डाटा हो। मानिसको रूपमा, हामी स्वाभाविक रूपमा डाटासँग काम गर्छौं, जस्तै हामीसँग भएको पैसा गन्नु वा साथीहरूलाई पत्र लेख्नु।

तर, कम्प्युटरको आविष्कारसँगै डाटाको महत्त्व धेरै बढ्यो। कम्प्युटरको मुख्य भूमिका गणना गर्नु हो, तर तिनीहरूलाई काम गर्न डाटाको आवश्यकता पर्छ। त्यसैले, हामीले बुझ्नुपर्छ कि कम्प्युटरले डाटालाई कसरी भण्डारण र प्रशोधन गर्छ।

इन्टरनेटको आगमनसँगै, डाटालाई व्यवस्थापन गर्ने उपकरणको रूपमा कम्प्युटरको भूमिका बढ्यो। यदि तपाईं सोच्नुहुन्छ भने, हामी अहिले गणनाभन्दा बढी डाटा प्रशोधन र सञ्चारका लागि कम्प्युटर प्रयोग गर्छौं। जब हामी साथीलाई इमेल लेख्छौं वा इन्टरनेटमा केही जानकारी खोज्छौं - हामी वास्तवमा डाटा सिर्जना, भण्डारण, प्रसारण, र हेरफेर गरिरहेका हुन्छौं।

के तपाईंलाई सम्झना छ, अन्तिम पटक तपाईंले कम्प्युटरलाई वास्तवमै केही गणना गर्न प्रयोग गर्नुभएको थियो?

डाटा विज्ञान के हो?

विकिपीडिया अनुसार, डाटा विज्ञान लाई वैज्ञानिक क्षेत्रको रूपमा परिभाषित गरिएको छ, जसले संरचित र असंरचित डाटाबाट ज्ञान र अन्तर्दृष्टि निकाल्न वैज्ञानिक विधिहरू प्रयोग गर्दछ, र विभिन्न अनुप्रयोग क्षेत्रहरूमा डाटाबाट प्राप्त ज्ञान र व्यावहारिक अन्तर्दृष्टि लागू गर्दछ।

यस परिभाषाले डाटा विज्ञानका निम्न महत्त्वपूर्ण पक्षहरूलाई उजागर गर्दछ:

  • डाटा विज्ञानको मुख्य लक्ष्य भनेको डाटाबाट ज्ञान निकाल्नु हो, अर्थात् - डाटालाई बुझ्नु, केही लुकेका सम्बन्धहरू पत्ता लगाउनु, र मोडेल निर्माण गर्नु।
  • डाटा विज्ञानले वैज्ञानिक विधिहरू प्रयोग गर्दछ, जस्तै सम्भाव्यता र तथ्याङ्क। वास्तवमा, जब डाटा विज्ञान शब्द पहिलो पटक प्रस्तुत गरियो, केही मानिसहरूले डाटा विज्ञानलाई तथ्याङ्कको नयाँ आकर्षक नाम मात्र भने। तर अहिले यो स्पष्ट भएको छ कि यो क्षेत्र धेरै व्यापक छ।
  • प्राप्त ज्ञानलाई केही व्यावहारिक अन्तर्दृष्टि उत्पादन गर्न प्रयोग गर्नुपर्छ, अर्थात् वास्तविक व्यापारिक परिस्थितिमा लागू गर्न सकिने व्यावहारिक अन्तर्दृष्टि।
  • हामीले संरचितअसंरचित दुबै डाटामा काम गर्न सक्षम हुनुपर्छ। हामी यस कोर्समा पछि विभिन्न प्रकारका डाटाबारे छलफल गर्नेछौं।
  • अनुप्रयोग क्षेत्र महत्त्वपूर्ण अवधारणा हो, र डाटा वैज्ञानिकहरूले प्रायः समस्या क्षेत्र, जस्तै: वित्त, चिकित्सा, मार्केटिङ, आदि, मा कम्तिमा केही हदसम्म विशेषज्ञता आवश्यक पर्छ।

डाटा विज्ञानको अर्को महत्त्वपूर्ण पक्ष भनेको यसले डाटालाई कसरी सङ्कलन, भण्डारण, र कम्प्युटर प्रयोग गरेर सञ्चालन गर्न सकिन्छ भन्ने अध्ययन गर्दछ। तथ्याङ्कले हामीलाई गणितीय आधार प्रदान गर्छ, जबकि डाटा विज्ञानले गणितीय अवधारणाहरूलाई डाटाबाट अन्तर्दृष्टि निकाल्न प्रयोग गर्दछ।

डाटा विज्ञानलाई हेर्ने एउटा तरिका (जसलाई जिम ग्रे सँग जोडिएको छ) भनेको यसलाई विज्ञानको छुट्टै प्रतिमान मान्नु हो:

  • अनुभवजन्य, जसमा हामी प्रायः अवलोकन र प्रयोगको परिणाममा भर पर्छौं
  • सैद्धान्तिक, जहाँ नयाँ अवधारणाहरू विद्यमान वैज्ञानिक ज्ञानबाट उत्पन्न हुन्छन्
  • गणनात्मक, जहाँ हामी केही कम्प्युटेशनल प्रयोगहरूमा आधारित नयाँ सिद्धान्तहरू पत्ता लगाउँछौं
  • डाटा-आधारित, जसमा डाटामा सम्बन्ध र ढाँचाहरू पत्ता लगाइन्छ

अन्य सम्बन्धित क्षेत्रहरू

किनभने डाटा सर्वव्यापी छ, डाटा विज्ञान आफैं पनि एक व्यापक क्षेत्र हो, जसले धेरै अन्य अनुशासनहरूलाई छोएको छ।

डाटाका प्रकारहरू

जसरी हामीले पहिले नै उल्लेख गरिसकेका छौं, डाटा हरेक ठाउँमा छ। हामीले यसलाई सही तरिकाले सङ्कलन गर्न मात्र आवश्यक छ! संरचितअसंरचित डाटाबीच भिन्नता गर्न उपयोगी हुन्छ। संरचित डाटा प्रायः राम्रोसँग संरचित रूपमा प्रस्तुत गरिन्छ, प्रायः तालिका वा तालिकाहरूको रूपमा, जबकि असंरचित डाटा फाइलहरूको सङ्कलन मात्र हो। कहिलेकाहीँ हामी अर्ध-संरचित डाटाको पनि कुरा गर्न सक्छौं, जसमा केही प्रकारको संरचना हुन्छ, जुन धेरै फरक हुन सक्छ।

संरचित अर्ध-संरचित असंरचित
व्यक्तिहरूको सूची र तिनीहरूको फोन नम्बर विकिपीडिया पृष्ठहरू जसमा लिङ्कहरू छन् इनसाइक्लोपेडिया ब्रिटानिकाको पाठ
पछिल्ला २० वर्षका प्रत्येक मिनेटमा भवनका सबै कोठाहरूको तापक्रम JSON ढाँचामा वैज्ञानिक कागजातहरूको सङ्कलन, जसमा लेखकहरू, प्रकाशन मिति, र सारांश छन् कर्पोरेट कागजातहरूको फाइल शेयर
भवनमा प्रवेश गर्ने सबै व्यक्तिहरूको उमेर र लिङ्गको डाटा इन्टरनेट पृष्ठहरू निगरानी क्यामेराबाट कच्चा भिडियो फिड

डाटा कहाँबाट प्राप्त गर्ने

डाटाका धेरै सम्भावित स्रोतहरू छन्, र तिनीहरू सबै सूचीबद्ध गर्न असम्भव हुनेछ! तर, केही सामान्य स्थानहरूको चर्चा गरौं, जहाँबाट तपाईं डाटा प्राप्त गर्न सक्नुहुन्छ:

  • संरचित
    • इन्टरनेट अफ थिङ्स (IoT), जसमा विभिन्न सेन्सरहरू, जस्तै तापक्रम वा दबाब सेन्सरहरू, धेरै उपयोगी डाटा प्रदान गर्छ। उदाहरणका लागि, यदि कुनै कार्यालय भवन IoT सेन्सरहरूले सुसज्जित छ भने, हामी स्वचालित रूपमा तापक्रम र प्रकाश नियन्त्रण गर्न सक्छौं, लागत घटाउनका लागि।
    • सर्वेक्षणहरू, जुन हामी प्रयोगकर्ताहरूलाई खरिद पछि वा वेबसाइट भ्रमण पछि पूरा गर्न अनुरोध गर्छौं।
    • व्यवहारको विश्लेषणले, उदाहरणका लागि, हामीलाई प्रयोगकर्ताले साइटमा कति गहिरो जान्छन् र साइट छोड्ने सामान्य कारण के हो भन्ने बुझ्न मद्दत गर्न सक्छ।
  • असंरचित
    • पाठहरू अन्तर्दृष्टिको धनी स्रोत हुन सक्छन्, जस्तै समग्र भावना स्कोर, वा कुञ्जी शब्दहरू र अर्थपूर्ण अर्थ निकाल्ने।
    • तस्बिरहरू वा भिडियो। निगरानी क्यामेराबाट प्राप्त भिडियोले सडकमा ट्राफिकको अनुमान गर्न र सम्भावित ट्राफिक जामबारे जानकारी दिन प्रयोग गर्न सकिन्छ।
    • वेब सर्भर लगहरूले हाम्रो साइटका कुन पृष्ठहरू सबैभन्दा बढी भ्रमण गरिन्छन् र कति समयसम्मका लागि भन्ने बुझ्न मद्दत गर्न सक्छ।
  • अर्ध-संरचित
    • सामाजिक सञ्जाल ग्राफहरूले प्रयोगकर्ताको व्यक्तित्व र जानकारी फैलाउनको सम्भावित प्रभावकारिताबारे डाटाको उत्कृष्ट स्रोत हुन सक्छ।
    • जब हामीसँग पार्टीका तस्बिरहरूको सङ्कलन हुन्छ, हामी समूह गतिको डाटा निकाल्न प्रयास गर्न सक्छौं, मानिसहरूले एकअर्कासँग तस्बिर खिचेको ग्राफ निर्माण गरेर।

डाटाका विभिन्न सम्भावित स्रोतहरू जान्दा, तपाईं विभिन्न परिदृश्यहरूको बारेमा सोच्न सक्नुहुन्छ, जहाँ डाटा विज्ञान प्रविधिहरू प्रयोग गरेर स्थिति राम्रोसँग बुझ्न र व्यापार प्रक्रियाहरू सुधार गर्न सकिन्छ।

डाटासँग के गर्न सकिन्छ

डाटा विज्ञानमा, हामी डाटाको यात्राका निम्न चरणहरूमा ध्यान केन्द्रित गर्छौं:

डिजिटलाइजेसन र डिजिटल रूपान्तरण

पछिल्लो दशकमा, धेरै व्यवसायहरूले व्यापारिक निर्णयहरू गर्दा डाटाको महत्त्व बुझ्न थालेका छन्। व्यापार सञ्चालनमा डाटा विज्ञानका सिद्धान्तहरू लागू गर्न, पहिले केही डाटा सङ्कलन गर्नुपर्छ, अर्थात् व्यापार प्रक्रियाहरूलाई डिजिटल रूपान्तरण गर्नुपर्छ। यसलाई डिजिटलाइजेसन भनिन्छ। यस डाटामा डाटा विज्ञान प्रविधिहरू लागू गर्दा उत्पादकत्वमा उल्लेखनीय वृद्धि (वा व्यवसायको नयाँ दिशा) हुन सक्छ, जसलाई डिजिटल रूपान्तरण भनिन्छ।

उदाहरणका लागि विचार गरौं। मानौं, हामीसँग एउटा डाटा विज्ञान कोर्स छ (जस्तै यो कोर्स), जुन हामी अनलाइन विद्यार्थीहरूलाई प्रदान गर्छौं, र हामी यसलाई सुधार गर्न डाटा विज्ञान प्रयोग गर्न चाहन्छौं। हामी यसलाई कसरी गर्न सक्छौं?

हामी "के डिजिटलाइज गर्न सकिन्छ?" भनेर सोध्न सुरु गर्न सक्छौं। सबैभन्दा सरल तरिका भनेको प्रत्येक विद्यार्थीलाई प्रत्येक मोड्युल पूरा गर्न लाग्ने समय मापन गर्नु र प्रत्येक मोड्युलको अन्त्यमा बहुविकल्पीय परीक्षण दिएर प्राप्त ज्ञान मापन गर्नु हो। सबै विद्यार्थीहरूको औसत समय-देखि-समाप्ति मापन गरेर, हामी पत्ता लगाउन सक्छौं कि कुन मोड्युलहरूले विद्यार्थीहरूलाई सबैभन्दा बढी कठिनाइ दिन्छ, र तिनीहरूलाई सरल बनाउन काम गर्न सक्छौं। तपाईंले तर्क गर्न सक्नुहुन्छ कि यो विधि आदर्श होइन, किनकि मोड्युलहरू विभिन्न लम्बाइका हुन सक्छन्। सम्भवतः मोड्युलको लम्बाइ (अक्षरहरूको संख्या) अनुसार समय विभाजन गर्नु र ती मानहरू तुलना गर्नु अधिक न्यायसंगत हुनेछ। जब हामी बहुविकल्पीय परीक्षाको नतिजा विश्लेषण गर्न सुरु गर्छौं, हामी विद्यार्थीहरूले कुन अवधारणाहरू बुझ्न कठिनाइ महसुस गरिरहेका छन् भनेर पत्ता लगाउन सक्छौं, र त्यस जानकारीलाई सामग्री सुधार गर्न प्रयोग गर्न सक्छौं। त्यसका लागि, हामीले परीक्षालाई यसरी डिजाइन गर्नुपर्छ कि प्रत्येक प्रश्नले निश्चित अवधारणा वा ज्ञानको टुक्रासँग सम्बन्धित होस्।

यदि हामी अझ जटिल हुन चाहन्छौं भने, हामी प्रत्येक मोड्युल पूरा गर्न लागेको समयलाई विद्यार्थीहरूको उमेर समूहसँग तुलना गर्न सक्छौं। हामीले पत्ता लगाउन सक्छौं कि केही उमेर समूहका लागि मोड्युल पूरा गर्न अत्यधिक समय लाग्छ, वा विद्यार्थीहरूले मोड्युल पूरा गर्नु अघि नै छोड्छन्। यसले हामीलाई मोड्युलका लागि उमेर सिफारिसहरू प्रदान गर्न मद्दत गर्न सक्छ, र गलत अपेक्षाबाट हुने असन्तुष्टि कम गर्न सक्छ।

🚀 चुनौती

यस चुनौतीमा, हामी डेटा साइन्सको क्षेत्रमा सम्बन्धित अवधारणाहरू पत्ता लगाउने प्रयास गर्नेछौं। हामी डेटा साइन्सको विषयमा रहेको विकिपिडिया लेख लिनेछौं, पाठ डाउनलोड गरेर प्रक्रिया गर्नेछौं, र त्यसपछि यस्तो शब्द बादल (word cloud) बनाउनेछौं:

डेटा साइन्सको लागि शब्द बादल

notebook.ipynb मा गएर कोड पढ्न सक्नुहुन्छ। तपाईं कोड चलाउन पनि सक्नुहुन्छ, र यसले वास्तविक समयमा सबै डेटा रूपान्तरण कसरी गर्छ भनेर हेर्न सक्नुहुन्छ।

यदि तपाईंलाई Jupyter Notebook मा कोड कसरी चलाउने थाहा छैन भने, यो लेख हेर्नुहोस्।

पाठपछिको क्विज

असाइनमेन्टहरू

श्रेय

यो पाठ Dmitry Soshnikov द्वारा ♥️ सहित लेखिएको हो।


अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छन्। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।