You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/te/4-Data-Science-Lifecycle/14-Introduction
localizeflow[bot] f64682928a
chore(i18n): sync translations with latest source changes (chunk 10/10, 34 files)
1 month ago
..
README.md chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files) 1 month ago
assignment.md chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files) 1 month ago
notebook.ipynb chore(i18n): sync translations with latest source changes (chunk 10/10, 34 files) 1 month ago

README.md

డేటా సైన్స్ లైఫ్‌సైకిల్ పరిచయం

 స్కెచ్‌నోట్ (@sketchthedocs) ద్వారా
డేటా సైన్స్ లైఫ్‌సైకిల్ పరిచయం - స్కెచ్‌నోట్ @nitya ద్వారా

పూర్వ-లెక్చర్ క్విజ్

ఈ సమయంలో మీరు డేటా సైన్స్ ఒక ప్రక్రియ అని గ్రహించినట్లయితే, ఈ ప్రక్రియను 5 దశలుగా విభజించవచ్చు:

  • సేకరణ
  • ప్రాసెసింగ్
  • విశ్లేషణ
  • కమ్యూనికేషన్
  • నిర్వహణ

ఈ పాఠం లైఫ్‌సైకిల్ యొక్క 3 భాగాలపై దృష్టి సారిస్తుంది: సేకరణ, ప్రాసెసింగ్ మరియు నిర్వహణ.

డేటా సైన్స్ లైఫ్‌సైకిల్ యొక్క డయాగ్రామ్

ఫోటో బర్క్లీ స్కూల్ ఆఫ్ ఇన్ఫర్మేషన్ ద్వారా

సేకరణ

లైఫ్‌సైకిల్ యొక్క మొదటి దశ చాలా ముఖ్యమైనది ఎందుకంటే తదుపరి దశలు దీని మీద ఆధారపడి ఉంటాయి. ఇది వాస్తవానికి రెండు దశలను కలిపినది: డేటాను పొందడం మరియు పరిష్కరించాల్సిన సమస్యలు మరియు ఉద్దేశ్యాన్ని నిర్వచించడం.
ప్రాజెక్ట్ లక్ష్యాలను నిర్వచించడం సమస్య లేదా ప్రశ్నలో లోతైన సందర్భాన్ని అవసరం చేస్తుంది. మొదట, సమస్య పరిష్కారం కావలసిన వారిని గుర్తించి పొందాలి. వీరు వ్యాపారంలో స్టేక్‌హోల్డర్లు లేదా ప్రాజెక్ట్ స్పాన్సర్లు కావచ్చు, వారు ఈ ప్రాజెక్ట్ ద్వారా ఎవరు లేదా ఏమి లాభపడతారో, మరియు ఎందుకు అవసరమో గుర్తించడంలో సహాయం చేస్తారు. బాగా నిర్వచించిన లక్ష్యం కొలవదగినది మరియు అంగీకారమైన ఫలితాన్ని నిర్వచించడానికి పరిమాణాత్మకంగా ఉండాలి.

డేటా సైంటిస్ట్ అడగవచ్చు:

  • ఈ సమస్యకు ముందు దృష్టి పెట్టారా? ఏమి కనుగొనబడింది?
  • ఉద్దేశ్యం మరియు లక్ష్యం అందరికీ అర్థమయ్యాయా?
  • అస్పష్టత ఉందా? దాన్ని ఎలా తగ్గించాలి?
  • పరిమితులు ఏమిటి?
  • తుది ఫలితం ఎలా ఉండవచ్చు?
  • ఎంత వనరులు (సమయం, వ్యక్తులు, కంప్యూటేషనల్) అందుబాటులో ఉన్నాయి?

తర్వాత, నిర్వచించిన లక్ష్యాలను సాధించడానికి అవసరమైన డేటాను గుర్తించడం, సేకరించడం, మరియు చివరగా అన్వేషించడం జరుగుతుంది. సేకరణ దశలో, డేటా సైంటిస్ట్‌లు డేటా పరిమాణం మరియు నాణ్యతను కూడా అంచనా వేయాలి. ఇది కొంత డేటా అన్వేషణను అవసరం చేస్తుంది, ఎందుకంటే పొందిన డేటా కావలసిన ఫలితాన్ని అందించగలదని నిర్ధారించుకోవాలి.

డేటా గురించి డేటా సైంటిస్ట్ అడగవచ్చు:

  • నాకు ఇప్పటికే ఏ డేటా అందుబాటులో ఉంది?
  • ఈ డేటా యజమాని ఎవరు?
  • గోప్యతా సమస్యలు ఏమిటి?
  • ఈ సమస్యను పరిష్కరించడానికి నాకు సరిపడా డేటా ఉందా?
  • ఈ సమస్యకు డేటా నాణ్యత సరిపోతుందా?
  • ఈ డేటా ద్వారా అదనపు సమాచారం కనుగొన్నట్లయితే, లక్ష్యాలను మార్చడం లేదా పునః నిర్వచించడం అవసరమా?

ప్రాసెసింగ్

లైఫ్‌సైకిల్ యొక్క ప్రాసెసింగ్ దశ డేటాలో నమూనాలను కనుగొనడంపై మరియు మోడలింగ్‌పై దృష్టి సారిస్తుంది. ప్రాసెసింగ్ దశలో ఉపయోగించే కొన్ని సాంకేతికతలు నమూనాలను కనుగొనడానికి గణాంక పద్ధతులను అవసరం చేస్తాయి. సాధారణంగా, పెద్ద డేటా సెట్‌తో ఇది మానవుని కోసం కష్టమైన పని అవుతుంది మరియు ప్రక్రియను వేగవంతం చేయడానికి కంప్యూటర్లపై ఆధారపడుతుంది. ఈ దశలో డేటా సైన్స్ మరియు మెషీన్ లెర్నింగ్ కలుస్తాయి. మీరు మొదటి పాఠంలో నేర్చుకున్నట్లుగా, మెషీన్ లెర్నింగ్ అనేది డేటాను అర్థం చేసుకోవడానికి మోడల్స్ నిర్మించే ప్రక్రియ. మోడల్స్ అనేవి డేటాలో వేరియబుల్స్ మధ్య సంబంధాన్ని ప్రతిబింబిస్తాయి, ఇవి ఫలితాలను అంచనా వేయడంలో సహాయపడతాయి.

ఈ దశలో సాధారణంగా ఉపయోగించే సాంకేతికతలు ML for Beginners పాఠ్యాంశంలో ఉన్నాయి. వాటిని తెలుసుకోవడానికి లింకులను అనుసరించండి:

  • వర్గీకరణ: డేటాను సమర్థవంతంగా ఉపయోగించడానికి వర్గాలుగా ఏర్పాటు చేయడం.
  • క్లస్టరింగ్: డేటాను సమానమైన సమూహాలుగా గుంపు చేయడం.
  • రెగ్రెషన్: విలువలను అంచనా వేయడానికి వేరియబుల్స్ మధ్య సంబంధాలను నిర్ణయించడం.

నిర్వహణ

లైఫ్‌సైకిల్ డయాగ్రామ్‌లో, మీరు గమనించవచ్చు నిర్వహణ సేకరణ మరియు ప్రాసెసింగ్ మధ్యలో ఉంటుంది. నిర్వహణ అనేది ప్రాజెక్ట్ మొత్తం ప్రక్రియలో డేటాను నిర్వహించడం, నిల్వ చేయడం మరియు భద్రపరచడం యొక్క నిరంతర ప్రక్రియ మరియు ప్రాజెక్ట్ మొత్తం కాలంలో దృష్టిలో ఉంచుకోవాలి.

డేటా నిల్వ

డేటా ఎలా మరియు ఎక్కడ నిల్వ చేయబడుతుందో అనే విషయాలు నిల్వ ఖర్చు మరియు డేటా యాక్సెస్ వేగం పనితీరును ప్రభావితం చేయవచ్చు. ఇలాంటి నిర్ణయాలు సాధారణంగా డేటా సైంటిస్ట్ మాత్రమే తీసుకోరు, కానీ వారు డేటా నిల్వ విధానాల ఆధారంగా డేటాతో ఎలా పని చేయాలో నిర్ణయాలు తీసుకోవచ్చు.

ఇక్కడ ఆధునిక డేటా నిల్వ వ్యవస్థల కొన్ని అంశాలు ఉన్నాయి, ఇవి ఈ నిర్ణయాలను ప్రభావితం చేస్తాయి:

ఆన్-ప్రెమైస్ vs ఆఫ్-ప్రెమైస్ vs పబ్లిక్ లేదా ప్రైవేట్ క్లౌడ్

ఆన్-ప్రెమైస్ అంటే మీ స్వంత పరికరాలపై డేటాను నిర్వహించడం, ఉదాహరణకు డేటాను నిల్వ చేసే హార్డ్ డ్రైవ్‌లతో సర్వర్ కలిగి ఉండటం. ఆఫ్-ప్రెమైస్ అంటే మీరు యజమాని కాని పరికరాలపై ఆధారపడటం, ఉదాహరణకు డేటా సెంటర్. పబ్లిక్ క్లౌడ్ అనేది డేటా ఎక్కడ మరియు ఎలా నిల్వ చేయబడుతుందో తెలియకుండానే డేటాను నిల్వ చేయడానికి ప్రాచుర్యం పొందిన ఎంపిక, ఇక్కడ పబ్లిక్ అంటే క్లౌడ్ ఉపయోగించే అందరికీ పంచుకునే ఒక ఏకీకృత మౌలిక సదుపాయం. కొన్ని సంస్థలకు కఠిన భద్రతా విధానాలు ఉంటాయి, వారు డేటా నిల్వ చేసే పరికరాలపై పూర్తి యాక్సెస్ కలిగి ఉండాలని కోరుకుంటారు, అందుకే వారు తమ స్వంత క్లౌడ్ సేవలను అందించే ప్రైవేట్ క్లౌడ్‌పై ఆధారపడతారు. మీరు తరువాతి పాఠాల్లో క్లౌడ్‌లో డేటా గురించి మరింత తెలుసుకుంటారు.

కోల్డ్ vs హాట్ డేటా

మీ మోడల్స్‌ను శిక్షణ ఇవ్వడానికి మీరు ఎక్కువ శిక్షణ డేటా అవసరం కావచ్చు. మీ మోడల్‌తో సంతృప్తిగా ఉంటే, మరిన్ని డేటా వస్తుంది, మోడల్ తన ఉద్దేశ్యాన్ని సేవ్ చేయడానికి. ఏ సందర్భంలోనైనా, డేటాను నిల్వ చేయడం మరియు యాక్సెస్ చేయడం ఖర్చు పెరుగుతుంది. అరుదుగా ఉపయోగించే డేటాను (కోల్డ్ డేటా) తరచుగా యాక్సెస్ చేసే హాట్ డేటా నుండి వేరు చేయడం హార్డ్‌వేర్ లేదా సాఫ్ట్‌వేర్ సేవల ద్వారా తక్కువ ఖర్చుతో డేటా నిల్వ ఎంపిక కావచ్చు. కోల్డ్ డేటాను యాక్సెస్ చేయాల్సినప్పుడు, హాట్ డేటాతో పోలిస్తే కొంత ఎక్కువ సమయం పట్టవచ్చు.

డేటా నిర్వహణ

డేటాతో పని చేస్తూ, మీరు కొన్ని డేటాను శుభ్రపరచాల్సి ఉండవచ్చు, ఇది డేటా ప్రిపరేషన్ పాఠంలో కవర్ చేసిన సాంకేతికతలతో చేయవచ్చు, తద్వారా ఖచ్చితమైన మోడల్స్ నిర్మించవచ్చు. కొత్త డేటా వచ్చినప్పుడు, నాణ్యతలో సారూప్యతను నిర్వహించడానికి అదే విధమైన అప్లికేషన్లు అవసరం. కొన్ని ప్రాజెక్టులు డేటాను తుది స్థలానికి తరలించే ముందు శుభ్రపరిచే, సమాహరించే, మరియు కంప్రెస్ చేసే ఆటోమేటెడ్ టూల్ ఉపయోగిస్తాయి. Azure Data Factory ఈ టూల్స్‌లో ఒక ఉదాహరణ.

డేటా భద్రత

డేటాను భద్రపరచడంలో ప్రధాన లక్ష్యం, దానితో పని చేసే వారు ఏది సేకరించబడిందో మరియు దాన్ని ఏ సందర్భంలో ఉపయోగిస్తున్నారో నియంత్రణలో ఉండటం. డేటాను భద్రపరచడం అంటే అవసరమైన వారికే యాక్సెస్ పరిమితం చేయడం, స్థానిక చట్టాలు మరియు నియమాలను పాటించడం, అలాగే నైతిక ప్రమాణాలును నిర్వహించడం.

భద్రత దృష్ట్యా ఒక టీమ్ చేయగలిగే కొన్ని చర్యలు:

  • అన్ని డేటా ఎన్‌క్రిప్ట్ చేయబడిందని నిర్ధారించుకోవడం
  • కస్టమర్లకు వారి డేటా ఎలా ఉపయోగించబడుతుందో సమాచారం అందించడం
  • ప్రాజెక్ట్ నుండి వెళ్లిపోయిన వారిని డేటా యాక్సెస్ నుండి తొలగించడం
  • ప్రాజెక్ట్ సభ్యులలో కొంతమందికే డేటాను మార్చే అనుమతి ఇవ్వడం

🚀 సవాలు

డేటా సైన్స్ లైఫ్‌సైకిల్ అనేక వెర్షన్లు ఉన్నాయి, ప్రతి దశకు వేరే పేర్లు మరియు దశల సంఖ్య ఉండవచ్చు కానీ ఈ పాఠంలో చెప్పిన అదే ప్రక్రియలు ఉంటాయి.

టీమ్ డేటా సైన్స్ ప్రాసెస్ లైఫ్‌సైకిల్ మరియు క్రాస్-ఇండస్ట్రీ స్టాండర్డ్ ప్రాసెస్ ఫర్ డేటా మైనింగ్ ను అన్వేషించండి. వీరిద్దరి మధ్య 3 సారూప్యాలు మరియు తేడాలు చెప్పండి.

టీమ్ డేటా సైన్స్ ప్రాసెస్ (TDSP) క్రాస్-ఇండస్ట్రీ స్టాండర్డ్ ప్రాసెస్ ఫర్ డేటా మైనింగ్ (CRISP-DM)
టీమ్ డేటా సైన్స్ లైఫ్‌సైకిల్ డేటా సైన్స్ ప్రాసెస్ అలయన్స్ చిత్రం
చిత్రం Microsoft ద్వారా చిత్రం డేటా సైన్స్ ప్రాసెస్ అలయన్స్ ద్వారా

పోస్ట్-లెక్చర్ క్విజ్

సమీక్ష & స్వీయ అధ్యయనం

డేటా సైన్స్ లైఫ్‌సైకిల్‌ను వర్తింపజేయడం అనేక పాత్రలు మరియు పనులను కలిగి ఉంటుంది, వాటిలో కొంతమంది ప్రతి దశలోని ప్రత్యేక భాగాలపై దృష్టి సారించవచ్చు. టీమ్ డేటా సైన్స్ ప్రాసెస్ ప్రాజెక్టులో ఎవరు ఏ పాత్రలు మరియు పనులు చేయవచ్చో వివరిస్తూ కొన్ని వనరులను అందిస్తుంది.

అసైన్‌మెంట్

డేటాసెట్‌ను అంచనా వేయడం


అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలో అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.