|
|
1 month ago | |
|---|---|---|
| .. | ||
| README.md | 1 month ago | |
| assignment.md | 1 month ago | |
| notebook.ipynb | 1 month ago | |
README.md
డేటా సైన్స్ లైఫ్సైకిల్ పరిచయం
![]() |
|---|
| డేటా సైన్స్ లైఫ్సైకిల్ పరిచయం - స్కెచ్నోట్ @nitya ద్వారా |
పూర్వ-లెక్చర్ క్విజ్
ఈ సమయంలో మీరు డేటా సైన్స్ ఒక ప్రక్రియ అని గ్రహించినట్లయితే, ఈ ప్రక్రియను 5 దశలుగా విభజించవచ్చు:
- సేకరణ
- ప్రాసెసింగ్
- విశ్లేషణ
- కమ్యూనికేషన్
- నిర్వహణ
ఈ పాఠం లైఫ్సైకిల్ యొక్క 3 భాగాలపై దృష్టి సారిస్తుంది: సేకరణ, ప్రాసెసింగ్ మరియు నిర్వహణ.
ఫోటో బర్క్లీ స్కూల్ ఆఫ్ ఇన్ఫర్మేషన్ ద్వారా
సేకరణ
లైఫ్సైకిల్ యొక్క మొదటి దశ చాలా ముఖ్యమైనది ఎందుకంటే తదుపరి దశలు దీని మీద ఆధారపడి ఉంటాయి. ఇది వాస్తవానికి రెండు దశలను కలిపినది: డేటాను పొందడం మరియు పరిష్కరించాల్సిన సమస్యలు మరియు ఉద్దేశ్యాన్ని నిర్వచించడం.
ప్రాజెక్ట్ లక్ష్యాలను నిర్వచించడం సమస్య లేదా ప్రశ్నలో లోతైన సందర్భాన్ని అవసరం చేస్తుంది. మొదట, సమస్య పరిష్కారం కావలసిన వారిని గుర్తించి పొందాలి. వీరు వ్యాపారంలో స్టేక్హోల్డర్లు లేదా ప్రాజెక్ట్ స్పాన్సర్లు కావచ్చు, వారు ఈ ప్రాజెక్ట్ ద్వారా ఎవరు లేదా ఏమి లాభపడతారో, మరియు ఎందుకు అవసరమో గుర్తించడంలో సహాయం చేస్తారు. బాగా నిర్వచించిన లక్ష్యం కొలవదగినది మరియు అంగీకారమైన ఫలితాన్ని నిర్వచించడానికి పరిమాణాత్మకంగా ఉండాలి.
డేటా సైంటిస్ట్ అడగవచ్చు:
- ఈ సమస్యకు ముందు దృష్టి పెట్టారా? ఏమి కనుగొనబడింది?
- ఉద్దేశ్యం మరియు లక్ష్యం అందరికీ అర్థమయ్యాయా?
- అస్పష్టత ఉందా? దాన్ని ఎలా తగ్గించాలి?
- పరిమితులు ఏమిటి?
- తుది ఫలితం ఎలా ఉండవచ్చు?
- ఎంత వనరులు (సమయం, వ్యక్తులు, కంప్యూటేషనల్) అందుబాటులో ఉన్నాయి?
తర్వాత, నిర్వచించిన లక్ష్యాలను సాధించడానికి అవసరమైన డేటాను గుర్తించడం, సేకరించడం, మరియు చివరగా అన్వేషించడం జరుగుతుంది. సేకరణ దశలో, డేటా సైంటిస్ట్లు డేటా పరిమాణం మరియు నాణ్యతను కూడా అంచనా వేయాలి. ఇది కొంత డేటా అన్వేషణను అవసరం చేస్తుంది, ఎందుకంటే పొందిన డేటా కావలసిన ఫలితాన్ని అందించగలదని నిర్ధారించుకోవాలి.
డేటా గురించి డేటా సైంటిస్ట్ అడగవచ్చు:
- నాకు ఇప్పటికే ఏ డేటా అందుబాటులో ఉంది?
- ఈ డేటా యజమాని ఎవరు?
- గోప్యతా సమస్యలు ఏమిటి?
- ఈ సమస్యను పరిష్కరించడానికి నాకు సరిపడా డేటా ఉందా?
- ఈ సమస్యకు డేటా నాణ్యత సరిపోతుందా?
- ఈ డేటా ద్వారా అదనపు సమాచారం కనుగొన్నట్లయితే, లక్ష్యాలను మార్చడం లేదా పునః నిర్వచించడం అవసరమా?
ప్రాసెసింగ్
లైఫ్సైకిల్ యొక్క ప్రాసెసింగ్ దశ డేటాలో నమూనాలను కనుగొనడంపై మరియు మోడలింగ్పై దృష్టి సారిస్తుంది. ప్రాసెసింగ్ దశలో ఉపయోగించే కొన్ని సాంకేతికతలు నమూనాలను కనుగొనడానికి గణాంక పద్ధతులను అవసరం చేస్తాయి. సాధారణంగా, పెద్ద డేటా సెట్తో ఇది మానవుని కోసం కష్టమైన పని అవుతుంది మరియు ప్రక్రియను వేగవంతం చేయడానికి కంప్యూటర్లపై ఆధారపడుతుంది. ఈ దశలో డేటా సైన్స్ మరియు మెషీన్ లెర్నింగ్ కలుస్తాయి. మీరు మొదటి పాఠంలో నేర్చుకున్నట్లుగా, మెషీన్ లెర్నింగ్ అనేది డేటాను అర్థం చేసుకోవడానికి మోడల్స్ నిర్మించే ప్రక్రియ. మోడల్స్ అనేవి డేటాలో వేరియబుల్స్ మధ్య సంబంధాన్ని ప్రతిబింబిస్తాయి, ఇవి ఫలితాలను అంచనా వేయడంలో సహాయపడతాయి.
ఈ దశలో సాధారణంగా ఉపయోగించే సాంకేతికతలు ML for Beginners పాఠ్యాంశంలో ఉన్నాయి. వాటిని తెలుసుకోవడానికి లింకులను అనుసరించండి:
- వర్గీకరణ: డేటాను సమర్థవంతంగా ఉపయోగించడానికి వర్గాలుగా ఏర్పాటు చేయడం.
- క్లస్టరింగ్: డేటాను సమానమైన సమూహాలుగా గుంపు చేయడం.
- రెగ్రెషన్: విలువలను అంచనా వేయడానికి వేరియబుల్స్ మధ్య సంబంధాలను నిర్ణయించడం.
నిర్వహణ
లైఫ్సైకిల్ డయాగ్రామ్లో, మీరు గమనించవచ్చు నిర్వహణ సేకరణ మరియు ప్రాసెసింగ్ మధ్యలో ఉంటుంది. నిర్వహణ అనేది ప్రాజెక్ట్ మొత్తం ప్రక్రియలో డేటాను నిర్వహించడం, నిల్వ చేయడం మరియు భద్రపరచడం యొక్క నిరంతర ప్రక్రియ మరియు ప్రాజెక్ట్ మొత్తం కాలంలో దృష్టిలో ఉంచుకోవాలి.
డేటా నిల్వ
డేటా ఎలా మరియు ఎక్కడ నిల్వ చేయబడుతుందో అనే విషయాలు నిల్వ ఖర్చు మరియు డేటా యాక్సెస్ వేగం పనితీరును ప్రభావితం చేయవచ్చు. ఇలాంటి నిర్ణయాలు సాధారణంగా డేటా సైంటిస్ట్ మాత్రమే తీసుకోరు, కానీ వారు డేటా నిల్వ విధానాల ఆధారంగా డేటాతో ఎలా పని చేయాలో నిర్ణయాలు తీసుకోవచ్చు.
ఇక్కడ ఆధునిక డేటా నిల్వ వ్యవస్థల కొన్ని అంశాలు ఉన్నాయి, ఇవి ఈ నిర్ణయాలను ప్రభావితం చేస్తాయి:
ఆన్-ప్రెమైస్ vs ఆఫ్-ప్రెమైస్ vs పబ్లిక్ లేదా ప్రైవేట్ క్లౌడ్
ఆన్-ప్రెమైస్ అంటే మీ స్వంత పరికరాలపై డేటాను నిర్వహించడం, ఉదాహరణకు డేటాను నిల్వ చేసే హార్డ్ డ్రైవ్లతో సర్వర్ కలిగి ఉండటం. ఆఫ్-ప్రెమైస్ అంటే మీరు యజమాని కాని పరికరాలపై ఆధారపడటం, ఉదాహరణకు డేటా సెంటర్. పబ్లిక్ క్లౌడ్ అనేది డేటా ఎక్కడ మరియు ఎలా నిల్వ చేయబడుతుందో తెలియకుండానే డేటాను నిల్వ చేయడానికి ప్రాచుర్యం పొందిన ఎంపిక, ఇక్కడ పబ్లిక్ అంటే క్లౌడ్ ఉపయోగించే అందరికీ పంచుకునే ఒక ఏకీకృత మౌలిక సదుపాయం. కొన్ని సంస్థలకు కఠిన భద్రతా విధానాలు ఉంటాయి, వారు డేటా నిల్వ చేసే పరికరాలపై పూర్తి యాక్సెస్ కలిగి ఉండాలని కోరుకుంటారు, అందుకే వారు తమ స్వంత క్లౌడ్ సేవలను అందించే ప్రైవేట్ క్లౌడ్పై ఆధారపడతారు. మీరు తరువాతి పాఠాల్లో క్లౌడ్లో డేటా గురించి మరింత తెలుసుకుంటారు.
కోల్డ్ vs హాట్ డేటా
మీ మోడల్స్ను శిక్షణ ఇవ్వడానికి మీరు ఎక్కువ శిక్షణ డేటా అవసరం కావచ్చు. మీ మోడల్తో సంతృప్తిగా ఉంటే, మరిన్ని డేటా వస్తుంది, మోడల్ తన ఉద్దేశ్యాన్ని సేవ్ చేయడానికి. ఏ సందర్భంలోనైనా, డేటాను నిల్వ చేయడం మరియు యాక్సెస్ చేయడం ఖర్చు పెరుగుతుంది. అరుదుగా ఉపయోగించే డేటాను (కోల్డ్ డేటా) తరచుగా యాక్సెస్ చేసే హాట్ డేటా నుండి వేరు చేయడం హార్డ్వేర్ లేదా సాఫ్ట్వేర్ సేవల ద్వారా తక్కువ ఖర్చుతో డేటా నిల్వ ఎంపిక కావచ్చు. కోల్డ్ డేటాను యాక్సెస్ చేయాల్సినప్పుడు, హాట్ డేటాతో పోలిస్తే కొంత ఎక్కువ సమయం పట్టవచ్చు.
డేటా నిర్వహణ
డేటాతో పని చేస్తూ, మీరు కొన్ని డేటాను శుభ్రపరచాల్సి ఉండవచ్చు, ఇది డేటా ప్రిపరేషన్ పాఠంలో కవర్ చేసిన సాంకేతికతలతో చేయవచ్చు, తద్వారా ఖచ్చితమైన మోడల్స్ నిర్మించవచ్చు. కొత్త డేటా వచ్చినప్పుడు, నాణ్యతలో సారూప్యతను నిర్వహించడానికి అదే విధమైన అప్లికేషన్లు అవసరం. కొన్ని ప్రాజెక్టులు డేటాను తుది స్థలానికి తరలించే ముందు శుభ్రపరిచే, సమాహరించే, మరియు కంప్రెస్ చేసే ఆటోమేటెడ్ టూల్ ఉపయోగిస్తాయి. Azure Data Factory ఈ టూల్స్లో ఒక ఉదాహరణ.
డేటా భద్రత
డేటాను భద్రపరచడంలో ప్రధాన లక్ష్యం, దానితో పని చేసే వారు ఏది సేకరించబడిందో మరియు దాన్ని ఏ సందర్భంలో ఉపయోగిస్తున్నారో నియంత్రణలో ఉండటం. డేటాను భద్రపరచడం అంటే అవసరమైన వారికే యాక్సెస్ పరిమితం చేయడం, స్థానిక చట్టాలు మరియు నియమాలను పాటించడం, అలాగే నైతిక ప్రమాణాలును నిర్వహించడం.
భద్రత దృష్ట్యా ఒక టీమ్ చేయగలిగే కొన్ని చర్యలు:
- అన్ని డేటా ఎన్క్రిప్ట్ చేయబడిందని నిర్ధారించుకోవడం
- కస్టమర్లకు వారి డేటా ఎలా ఉపయోగించబడుతుందో సమాచారం అందించడం
- ప్రాజెక్ట్ నుండి వెళ్లిపోయిన వారిని డేటా యాక్సెస్ నుండి తొలగించడం
- ప్రాజెక్ట్ సభ్యులలో కొంతమందికే డేటాను మార్చే అనుమతి ఇవ్వడం
🚀 సవాలు
డేటా సైన్స్ లైఫ్సైకిల్ అనేక వెర్షన్లు ఉన్నాయి, ప్రతి దశకు వేరే పేర్లు మరియు దశల సంఖ్య ఉండవచ్చు కానీ ఈ పాఠంలో చెప్పిన అదే ప్రక్రియలు ఉంటాయి.
టీమ్ డేటా సైన్స్ ప్రాసెస్ లైఫ్సైకిల్ మరియు క్రాస్-ఇండస్ట్రీ స్టాండర్డ్ ప్రాసెస్ ఫర్ డేటా మైనింగ్ ను అన్వేషించండి. వీరిద్దరి మధ్య 3 సారూప్యాలు మరియు తేడాలు చెప్పండి.
| టీమ్ డేటా సైన్స్ ప్రాసెస్ (TDSP) | క్రాస్-ఇండస్ట్రీ స్టాండర్డ్ ప్రాసెస్ ఫర్ డేటా మైనింగ్ (CRISP-DM) |
|---|---|
![]() |
![]() |
| చిత్రం Microsoft ద్వారా | చిత్రం డేటా సైన్స్ ప్రాసెస్ అలయన్స్ ద్వారా |
పోస్ట్-లెక్చర్ క్విజ్
సమీక్ష & స్వీయ అధ్యయనం
డేటా సైన్స్ లైఫ్సైకిల్ను వర్తింపజేయడం అనేక పాత్రలు మరియు పనులను కలిగి ఉంటుంది, వాటిలో కొంతమంది ప్రతి దశలోని ప్రత్యేక భాగాలపై దృష్టి సారించవచ్చు. టీమ్ డేటా సైన్స్ ప్రాసెస్ ప్రాజెక్టులో ఎవరు ఏ పాత్రలు మరియు పనులు చేయవచ్చో వివరిస్తూ కొన్ని వనరులను అందిస్తుంది.
- టీమ్ డేటా సైన్స్ ప్రాసెస్ పాత్రలు మరియు పనులు
- డేటా సైన్స్ పనులను అమలు చేయడం: అన్వేషణ, మోడలింగ్, మరియు డిప్లాయ్మెంట్
అసైన్మెంట్
అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.



