You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/te/4-Data-Science-Lifecycle/15-analyzing
localizeflow[bot] 810a53be1d
chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)
1 month ago
..
README.md chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
assignment.ipynb chore(i18n): sync translations with latest source changes (chunk 10/10, 34 files) 3 months ago
assignment.md chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
notebook.ipynb chore(i18n): sync translations with latest source changes (chunk 10/10, 34 files) 3 months ago

README.md

డేటా సైన్స్ లైఫ్‌సైకిల్: విశ్లేషణ

 Sketchnote by (@sketchthedocs)
డేటా సైన్స్ లైఫ్‌సైకిల్: విశ్లేషణ - Sketchnote by @nitya

ప్రీ-లెక్చర్ క్విజ్

డేటా లైఫ్‌సైకిల్‌లో విశ్లేషణ అనేది డేటా ప్రతిపాదించిన ప్రశ్నలకు సమాధానం ఇవ్వగలదా లేదా ఒక నిర్దిష్ట సమస్యను పరిష్కరించగలదా అని నిర్ధారిస్తుంది. ఈ దశ మోడల్ ఈ ప్రశ్నలు మరియు సమస్యలను సరిగ్గా పరిష్కరిస్తుందా అని నిర్ధారించడంపై కూడా దృష్టి పెట్టవచ్చు. ఈ పాఠం అన్వేషణాత్మక డేటా విశ్లేషణ లేదా EDA పై కేంద్రీకృతమై ఉంది, ఇవి డేటాలో లక్షణాలు మరియు సంబంధాలను నిర్వచించడానికి ఉపయోగించే సాంకేతికతలు మరియు మోడలింగ్ కోసం డేటాను సిద్ధం చేయడానికి ఉపయోగించవచ్చు.

మనం Kaggle నుండి ఒక ఉదాహరణ డేటాసెట్‌ను ఉపయోగించి ఇది Python మరియు Pandas లైబ్రరీతో ఎలా వర్తించవచ్చో చూపించబోతున్నాము. ఈ డేటాసెట్ ఇమెయిల్స్‌లో కనిపించే కొన్ని సాధారణ పదాల సంఖ్యను కలిగి ఉంది, ఈ ఇమెయిల్స్ మూలాలు అనామకంగా ఉన్నాయి. ఈ డైరెక్టరీలోని నోట్‌బుక్ ను అనుసరించండి.

అన్వేషణాత్మక డేటా విశ్లేషణ

లైఫ్‌సైకిల్ యొక్క క్యాప్చర్ దశలో డేటా సేకరించబడుతుంది అలాగే సమస్యలు మరియు ప్రశ్నలు కూడా ఉంటాయి, కానీ డేటా చివరి ఫలితాన్ని మద్దతు ఇవ్వగలదని ఎలా తెలుసుకోవాలి?
డేటా సైంటిస్ట్ డేటాను సేకరించినప్పుడు క్రింది ప్రశ్నలు అడగవచ్చు:

  • ఈ సమస్యను పరిష్కరించడానికి నాకు సరిపడా డేటా ఉందా?
  • ఈ సమస్యకు డేటా అంగీకారయోగ్యమైన నాణ్యత కలిగి ఉందా?
  • ఈ డేటా ద్వారా అదనపు సమాచారం కనుగొన్నట్లయితే, మనం లక్ష్యాలను మార్చడం లేదా పునర్నిర్వచించడం పరిగణించాలా?
    అన్వేషణాత్మక డేటా విశ్లేషణ అనేది ఆ డేటాను తెలుసుకోవడంలో సహాయపడే ప్రక్రియ మరియు ఈ ప్రశ్నలకు సమాధానం ఇవ్వడానికి, అలాగే డేటాసెట్‌తో పని చేసే సవాళ్లను గుర్తించడానికి ఉపయోగపడుతుంది. దీన్ని సాధించడానికి ఉపయోగించే కొన్ని సాంకేతికతలపై దృష్టి పెట్టుకుందాం.

డేటా ప్రొఫైలింగ్, వివరణాత్మక గణాంకాలు, మరియు Pandas

ఈ సమస్యను పరిష్కరించడానికి సరిపడా డేటా ఉందా అని ఎలా అంచనా వేయాలి? డేటా ప్రొఫైలింగ్ వివరణాత్మక గణాంకాల సాంకేతికతల ద్వారా మన డేటాసెట్ గురించి కొన్ని సాధారణ సమాచారం సారాంశం చేయగలదు మరియు సేకరించగలదు. డేటా ప్రొఫైలింగ్ మనకు ఏమి అందుబాటులో ఉందో అర్థం చేసుకోవడంలో సహాయపడుతుంది, మరియు వివరణాత్మక గణాంకాలు మనకు ఎంతమంది వస్తున్నారో అర్థం చేసుకోవడంలో సహాయపడతాయి.

గత పాఠాలలో కొన్ని సందర్భాల్లో, మేము Pandas ఉపయోగించి describe() ఫంక్షన్ తో కొన్ని వివరణాత్మక గణాంకాలు అందించాము. ఇది సంఖ్యాత్మక డేటాపై కౌంట్, గరిష్ఠ మరియు కనిష్ఠ విలువలు, సగటు, ప్రమాణ విభిన్నం మరియు క్వాంటైల్‌లను అందిస్తుంది. describe() వంటి వివరణాత్మక గణాంకాలను ఉపయోగించడం మీ వద్ద ఎంత డేటా ఉందో అంచనా వేయడంలో మరియు మరింత అవసరమో లేదో తెలుసుకోవడంలో సహాయపడుతుంది.

నమూనా తీసుకోవడం మరియు ప్రశ్నించడం

పెద్ద డేటాసెట్‌లో ప్రతిదీ అన్వేషించడం చాలా సమయం తీసుకునే పని మరియు సాధారణంగా కంప్యూటర్‌కు అప్పగించబడే పని. అయితే, నమూనా తీసుకోవడం డేటాను అర్థం చేసుకోవడంలో సహాయపడే సాధనం మరియు డేటాసెట్‌లో ఏమి ఉందో మరియు అది ఏమి సూచిస్తున్నదో మెరుగ్గా అర్థం చేసుకోవడానికి అనుమతిస్తుంది. ఒక నమూనాతో, మీరు ప్రాబబిలిటీ మరియు గణాంకాలను వర్తింపజేసి మీ డేటా గురించి సాధారణ నిర్ణయాలకు రావచ్చు. మీరు ఎంత డేటా నమూనా తీసుకోవాలో నిర్దిష్ట నియమం లేదు కానీ మీరు ఎక్కువ డేటాను నమూనా తీసుకుంటే, మీరు డేటా గురించి సాధారణీకరణను మరింత ఖచ్చితంగా చేయగలుగుతారు.
Pandas లైబ్రరీలో sample() ఫంక్షన్ ఉంది, దీని ద్వారా మీరు ఎన్ని యాదృచ్ఛిక నమూనాలు కావాలో ఆర్గ్యుమెంట్‌గా ఇవ్వవచ్చు మరియు ఉపయోగించవచ్చు.

డేటాను సాధారణంగా ప్రశ్నించడం మీకు కొన్ని సాధారణ ప్రశ్నలు మరియు సిద్ధాంతాలకు సమాధానం ఇవ్వడంలో సహాయపడుతుంది. నమూనా తీసుకోవడానికి విరుద్ధంగా, ప్రశ్నలు మీరు డేటాలో మీకు ఆసక్తి ఉన్న నిర్దిష్ట భాగాలపై నియంత్రణ మరియు దృష్టి కల్పిస్తాయి.
Pandas లైబ్రరీలోని query() ఫంక్షన్ ద్వారా మీరు కాలమ్స్‌ను ఎంచుకుని, రోస్ ద్వారా డేటా గురించి సులభ సమాధానాలు పొందవచ్చు.

విజువలైజేషన్లతో అన్వేషణ

డేటా పూర్తిగా శుభ్రపరచబడిన మరియు విశ్లేషించబడిన తర్వాత మాత్రమే విజువలైజేషన్లు సృష్టించాల్సిన అవసరం లేదు. వాస్తవానికి, అన్వేషణ సమయంలో విజువల్ ప్రాతినిధ్యం ఉండటం డేటాలో నమూనాలు, సంబంధాలు మరియు సమస్యలను గుర్తించడంలో సహాయపడుతుంది. అదనంగా, విజువలైజేషన్లు డేటాను నిర్వహించడంలో పాల్గొనని వారితో కమ్యూనికేషన్ సాధనాన్ని అందిస్తాయి మరియు క్యాప్చర్ దశలో పరిష్కరించని అదనపు ప్రశ్నలను పంచుకోవడానికి మరియు స్పష్టత ఇవ్వడానికి అవకాశం కల్పిస్తాయి. మరింత తెలుసుకోవడానికి విజువలైజేషన్ల విభాగం ను చూడండి.

అసమంజసతలను గుర్తించడానికి అన్వేషణ

ఈ పాఠంలోని అన్ని అంశాలు మిస్సింగ్ లేదా అసమంజస విలువలను గుర్తించడంలో సహాయపడతాయి, కానీ Pandas కొన్ని ఫంక్షన్లను అందిస్తుంది వాటిని తనిఖీ చేయడానికి. isna() లేదా isnull() మిస్సింగ్ విలువలను తనిఖీ చేయగలవు. మీ డేటాలో ఈ విలువలు ఎందుకు అలాంటి స్థితిలో ఉన్నాయో అన్వేషించడం ఒక ముఖ్యమైన భాగం. ఇది మీరు వాటిని పరిష్కరించడానికి తీసుకోవాల్సిన చర్యలను నిర్ణయించడంలో సహాయపడుతుంది.

పోస్ట్-లెక్చర్ క్విజ్

అసైన్‌మెంట్

సమాధానాల కోసం అన్వేషణ


అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.