డేటా సైన్స్ లైఫ్‌సైకిల్ పరిచయం


డేటా సైన్స్ లైఫ్‌సైకిల్ పరిచయం - స్కెచ్‌నోట్ @nitya ద్వారా

పూర్వ-లెక్చర్ క్విజ్

ఈ సమయంలో మీరు డేటా సైన్స్ ఒక ప్రక్రియ అని గ్రహించినట్లయితే, ఈ ప్రక్రియను 5 దశలుగా విభజించవచ్చు:

సేకరణ
ప్రాసెసింగ్
విశ్లేషణ
కమ్యూనికేషన్
నిర్వహణ

ఈ పాఠం లైఫ్‌సైకిల్ యొక్క 3 భాగాలపై దృష్టి సారిస్తుంది: సేకరణ, ప్రాసెసింగ్ మరియు నిర్వహణ.

ఫోటో బర్క్లీ స్కూల్ ఆఫ్ ఇన్ఫర్మేషన్ ద్వారా

సేకరణ

లైఫ్‌సైకిల్ యొక్క మొదటి దశ చాలా ముఖ్యమైనది ఎందుకంటే తదుపరి దశలు దీని మీద ఆధారపడి ఉంటాయి. ఇది వాస్తవానికి రెండు దశలను కలిపినది: డేటాను పొందడం మరియు పరిష్కరించాల్సిన సమస్యలు మరియు ఉద్దేశ్యాన్ని నిర్వచించడం.
ప్రాజెక్ట్ లక్ష్యాలను నిర్వచించడం సమస్య లేదా ప్రశ్నలో లోతైన సందర్భాన్ని అవసరం చేస్తుంది. మొదట, సమస్య పరిష్కారం కావలసిన వారిని గుర్తించి పొందాలి. వీరు వ్యాపారంలో స్టేక్‌హోల్డర్లు లేదా ప్రాజెక్ట్ స్పాన్సర్లు కావచ్చు, వారు ఈ ప్రాజెక్ట్ ద్వారా ఎవరు లేదా ఏమి లాభపడతారో, మరియు ఎందుకు అవసరమో గుర్తించడంలో సహాయం చేస్తారు. బాగా నిర్వచించిన లక్ష్యం కొలవదగినది మరియు అంగీకారమైన ఫలితాన్ని నిర్వచించడానికి పరిమాణాత్మకంగా ఉండాలి.

డేటా సైంటిస్ట్ అడగవచ్చు:

ఈ సమస్యకు ముందు దృష్టి పెట్టారా? ఏమి కనుగొనబడింది?
ఉద్దేశ్యం మరియు లక్ష్యం అందరికీ అర్థమయ్యాయా?
అస్పష్టత ఉందా? దాన్ని ఎలా తగ్గించాలి?
పరిమితులు ఏమిటి?
తుది ఫలితం ఎలా ఉండవచ్చు?
ఎంత వనరులు (సమయం, వ్యక్తులు, కంప్యూటేషనల్) అందుబాటులో ఉన్నాయి?

తర్వాత, నిర్వచించిన లక్ష్యాలను సాధించడానికి అవసరమైన డేటాను గుర్తించడం, సేకరించడం, మరియు చివరగా అన్వేషించడం జరుగుతుంది. సేకరణ దశలో, డేటా సైంటిస్ట్‌లు డేటా పరిమాణం మరియు నాణ్యతను కూడా అంచనా వేయాలి. ఇది కొంత డేటా అన్వేషణను అవసరం చేస్తుంది, ఎందుకంటే పొందిన డేటా కావలసిన ఫలితాన్ని అందించగలదని నిర్ధారించుకోవాలి.

డేటా గురించి డేటా సైంటిస్ట్ అడగవచ్చు:

నాకు ఇప్పటికే ఏ డేటా అందుబాటులో ఉంది?
ఈ డేటా యజమాని ఎవరు?
గోప్యతా సమస్యలు ఏమిటి?
ఈ సమస్యను పరిష్కరించడానికి నాకు సరిపడా డేటా ఉందా?
ఈ సమస్యకు డేటా నాణ్యత సరిపోతుందా?
ఈ డేటా ద్వారా అదనపు సమాచారం కనుగొన్నట్లయితే, లక్ష్యాలను మార్చడం లేదా పునః నిర్వచించడం అవసరమా?

ప్రాసెసింగ్

లైఫ్‌సైకిల్ యొక్క ప్రాసెసింగ్ దశ డేటాలో నమూనాలను కనుగొనడంపై మరియు మోడలింగ్‌పై దృష్టి సారిస్తుంది. ప్రాసెసింగ్ దశలో ఉపయోగించే కొన్ని సాంకేతికతలు నమూనాలను కనుగొనడానికి గణాంక పద్ధతులను అవసరం చేస్తాయి. సాధారణంగా, పెద్ద డేటా సెట్‌తో ఇది మానవుని కోసం కష్టమైన పని అవుతుంది మరియు ప్రక్రియను వేగవంతం చేయడానికి కంప్యూటర్లపై ఆధారపడుతుంది. ఈ దశలో డేటా సైన్స్ మరియు మెషీన్ లెర్నింగ్ కలుస్తాయి. మీరు మొదటి పాఠంలో నేర్చుకున్నట్లుగా, మెషీన్ లెర్నింగ్ అనేది డేటాను అర్థం చేసుకోవడానికి మోడల్స్ నిర్మించే ప్రక్రియ. మోడల్స్ అనేవి డేటాలో వేరియబుల్స్ మధ్య సంబంధాన్ని ప్రతిబింబిస్తాయి, ఇవి ఫలితాలను అంచనా వేయడంలో సహాయపడతాయి.

ఈ దశలో సాధారణంగా ఉపయోగించే సాంకేతికతలు ML for Beginners పాఠ్యాంశంలో ఉన్నాయి. వాటిని తెలుసుకోవడానికి లింకులను అనుసరించండి:

వర్గీకరణ: డేటాను సమర్థవంతంగా ఉపయోగించడానికి వర్గాలుగా ఏర్పాటు చేయడం.
క్లస్టరింగ్: డేటాను సమానమైన సమూహాలుగా గుంపు చేయడం.
రెగ్రెషన్: విలువలను అంచనా వేయడానికి వేరియబుల్స్ మధ్య సంబంధాలను నిర్ణయించడం.

నిర్వహణ

లైఫ్‌సైకిల్ డయాగ్రామ్‌లో, మీరు గమనించవచ్చు నిర్వహణ సేకరణ మరియు ప్రాసెసింగ్ మధ్యలో ఉంటుంది. నిర్వహణ అనేది ప్రాజెక్ట్ మొత్తం ప్రక్రియలో డేటాను నిర్వహించడం, నిల్వ చేయడం మరియు భద్రపరచడం యొక్క నిరంతర ప్రక్రియ మరియు ప్రాజెక్ట్ మొత్తం కాలంలో దృష్టిలో ఉంచుకోవాలి.

డేటా నిల్వ

డేటా ఎలా మరియు ఎక్కడ నిల్వ చేయబడుతుందో అనే విషయాలు నిల్వ ఖర్చు మరియు డేటా యాక్సెస్ వేగం పనితీరును ప్రభావితం చేయవచ్చు. ఇలాంటి నిర్ణయాలు సాధారణంగా డేటా సైంటిస్ట్ మాత్రమే తీసుకోరు, కానీ వారు డేటా నిల్వ విధానాల ఆధారంగా డేటాతో ఎలా పని చేయాలో నిర్ణయాలు తీసుకోవచ్చు.

ఇక్కడ ఆధునిక డేటా నిల్వ వ్యవస్థల కొన్ని అంశాలు ఉన్నాయి, ఇవి ఈ నిర్ణయాలను ప్రభావితం చేస్తాయి:

ఆన్-ప్రెమైస్ vs ఆఫ్-ప్రెమైస్ vs పబ్లిక్ లేదా ప్రైవేట్ క్లౌడ్

ఆన్-ప్రెమైస్ అంటే మీ స్వంత పరికరాలపై డేటాను నిర్వహించడం, ఉదాహరణకు డేటాను నిల్వ చేసే హార్డ్ డ్రైవ్‌లతో సర్వర్ కలిగి ఉండటం. ఆఫ్-ప్రెమైస్ అంటే మీరు యజమాని కాని పరికరాలపై ఆధారపడటం, ఉదాహరణకు డేటా సెంటర్. పబ్లిక్ క్లౌడ్ అనేది డేటా ఎక్కడ మరియు ఎలా నిల్వ చేయబడుతుందో తెలియకుండానే డేటాను నిల్వ చేయడానికి ప్రాచుర్యం పొందిన ఎంపిక, ఇక్కడ పబ్లిక్ అంటే క్లౌడ్ ఉపయోగించే అందరికీ పంచుకునే ఒక ఏకీకృత మౌలిక సదుపాయం. కొన్ని సంస్థలకు కఠిన భద్రతా విధానాలు ఉంటాయి, వారు డేటా నిల్వ చేసే పరికరాలపై పూర్తి యాక్సెస్ కలిగి ఉండాలని కోరుకుంటారు, అందుకే వారు తమ స్వంత క్లౌడ్ సేవలను అందించే ప్రైవేట్ క్లౌడ్‌పై ఆధారపడతారు. మీరు తరువాతి పాఠాల్లో క్లౌడ్‌లో డేటా గురించి మరింత తెలుసుకుంటారు.

కోల్డ్ vs హాట్ డేటా

మీ మోడల్స్‌ను శిక్షణ ఇవ్వడానికి మీరు ఎక్కువ శిక్షణ డేటా అవసరం కావచ్చు. మీ మోడల్‌తో సంతృప్తిగా ఉంటే, మరిన్ని డేటా వస్తుంది, మోడల్ తన ఉద్దేశ్యాన్ని సేవ్ చేయడానికి. ఏ సందర్భంలోనైనా, డేటాను నిల్వ చేయడం మరియు యాక్సెస్ చేయడం ఖర్చు పెరుగుతుంది. అరుదుగా ఉపయోగించే డేటాను (కోల్డ్ డేటా) తరచుగా యాక్సెస్ చేసే హాట్ డేటా నుండి వేరు చేయడం హార్డ్‌వేర్ లేదా సాఫ్ట్‌వేర్ సేవల ద్వారా తక్కువ ఖర్చుతో డేటా నిల్వ ఎంపిక కావచ్చు. కోల్డ్ డేటాను యాక్సెస్ చేయాల్సినప్పుడు, హాట్ డేటాతో పోలిస్తే కొంత ఎక్కువ సమయం పట్టవచ్చు.

డేటా నిర్వహణ

డేటాతో పని చేస్తూ, మీరు కొన్ని డేటాను శుభ్రపరచాల్సి ఉండవచ్చు, ఇది డేటా ప్రిపరేషన్ పాఠంలో కవర్ చేసిన సాంకేతికతలతో చేయవచ్చు, తద్వారా ఖచ్చితమైన మోడల్స్ నిర్మించవచ్చు. కొత్త డేటా వచ్చినప్పుడు, నాణ్యతలో సారూప్యతను నిర్వహించడానికి అదే విధమైన అప్లికేషన్లు అవసరం. కొన్ని ప్రాజెక్టులు డేటాను తుది స్థలానికి తరలించే ముందు శుభ్రపరిచే, సమాహరించే, మరియు కంప్రెస్ చేసే ఆటోమేటెడ్ టూల్ ఉపయోగిస్తాయి. Azure Data Factory ఈ టూల్స్‌లో ఒక ఉదాహరణ.

డేటా భద్రత

డేటాను భద్రపరచడంలో ప్రధాన లక్ష్యం, దానితో పని చేసే వారు ఏది సేకరించబడిందో మరియు దాన్ని ఏ సందర్భంలో ఉపయోగిస్తున్నారో నియంత్రణలో ఉండటం. డేటాను భద్రపరచడం అంటే అవసరమైన వారికే యాక్సెస్ పరిమితం చేయడం, స్థానిక చట్టాలు మరియు నియమాలను పాటించడం, అలాగే నైతిక ప్రమాణాలును నిర్వహించడం.

భద్రత దృష్ట్యా ఒక టీమ్ చేయగలిగే కొన్ని చర్యలు:

అన్ని డేటా ఎన్‌క్రిప్ట్ చేయబడిందని నిర్ధారించుకోవడం
కస్టమర్లకు వారి డేటా ఎలా ఉపయోగించబడుతుందో సమాచారం అందించడం
ప్రాజెక్ట్ నుండి వెళ్లిపోయిన వారిని డేటా యాక్సెస్ నుండి తొలగించడం
ప్రాజెక్ట్ సభ్యులలో కొంతమందికే డేటాను మార్చే అనుమతి ఇవ్వడం

🚀 సవాలు

డేటా సైన్స్ లైఫ్‌సైకిల్ అనేక వెర్షన్లు ఉన్నాయి, ప్రతి దశకు వేరే పేర్లు మరియు దశల సంఖ్య ఉండవచ్చు కానీ ఈ పాఠంలో చెప్పిన అదే ప్రక్రియలు ఉంటాయి.

టీమ్ డేటా సైన్స్ ప్రాసెస్ లైఫ్‌సైకిల్ మరియు క్రాస్-ఇండస్ట్రీ స్టాండర్డ్ ప్రాసెస్ ఫర్ డేటా మైనింగ్ ను అన్వేషించండి. వీరిద్దరి మధ్య 3 సారూప్యాలు మరియు తేడాలు చెప్పండి.

టీమ్ డేటా సైన్స్ ప్రాసెస్ (TDSP)	క్రాస్-ఇండస్ట్రీ స్టాండర్డ్ ప్రాసెస్ ఫర్ డేటా మైనింగ్ (CRISP-DM)

చిత్రం Microsoft ద్వారా	చిత్రం డేటా సైన్స్ ప్రాసెస్ అలయన్స్ ద్వారా

పోస్ట్-లెక్చర్ క్విజ్

సమీక్ష & స్వీయ అధ్యయనం

డేటా సైన్స్ లైఫ్‌సైకిల్‌ను వర్తింపజేయడం అనేక పాత్రలు మరియు పనులను కలిగి ఉంటుంది, వాటిలో కొంతమంది ప్రతి దశలోని ప్రత్యేక భాగాలపై దృష్టి సారించవచ్చు. టీమ్ డేటా సైన్స్ ప్రాసెస్ ప్రాజెక్టులో ఎవరు ఏ పాత్రలు మరియు పనులు చేయవచ్చో వివరిస్తూ కొన్ని వనరులను అందిస్తుంది.

అసైన్‌మెంట్

డేటాసెట్‌ను అంచనా వేయడం

అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.

21 KiB Raw Blame History