History

localizeflow[bot] 810a53be1d chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)		1 month ago
..
README.md	chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)	1 month ago
assignment.ipynb	chore(i18n): sync translations with latest source changes (chunk 10/10, 34 files)	3 months ago
assignment.md	chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)	1 month ago
notebook.ipynb	chore(i18n): sync translations with latest source changes (chunk 10/10, 34 files)	3 months ago

README.md

డేటా సైన్స్ లైఫ్‌సైకిల్: విశ్లేషణ


డేటా సైన్స్ లైఫ్‌సైకిల్: విశ్లేషణ - Sketchnote by @nitya

ప్రీ-లెక్చర్ క్విజ్

డేటా లైఫ్‌సైకిల్‌లో విశ్లేషణ అనేది డేటా ప్రతిపాదించిన ప్రశ్నలకు సమాధానం ఇవ్వగలదా లేదా ఒక నిర్దిష్ట సమస్యను పరిష్కరించగలదా అని నిర్ధారిస్తుంది. ఈ దశ మోడల్ ఈ ప్రశ్నలు మరియు సమస్యలను సరిగ్గా పరిష్కరిస్తుందా అని నిర్ధారించడంపై కూడా దృష్టి పెట్టవచ్చు. ఈ పాఠం అన్వేషణాత్మక డేటా విశ్లేషణ లేదా EDA పై కేంద్రీకృతమై ఉంది, ఇవి డేటాలో లక్షణాలు మరియు సంబంధాలను నిర్వచించడానికి ఉపయోగించే సాంకేతికతలు మరియు మోడలింగ్ కోసం డేటాను సిద్ధం చేయడానికి ఉపయోగించవచ్చు.

మనం Kaggle నుండి ఒక ఉదాహరణ డేటాసెట్‌ను ఉపయోగించి ఇది Python మరియు Pandas లైబ్రరీతో ఎలా వర్తించవచ్చో చూపించబోతున్నాము. ఈ డేటాసెట్ ఇమెయిల్స్‌లో కనిపించే కొన్ని సాధారణ పదాల సంఖ్యను కలిగి ఉంది, ఈ ఇమెయిల్స్ మూలాలు అనామకంగా ఉన్నాయి. ఈ డైరెక్టరీలోని నోట్‌బుక్ ను అనుసరించండి.

అన్వేషణాత్మక డేటా విశ్లేషణ

లైఫ్‌సైకిల్ యొక్క క్యాప్చర్ దశలో డేటా సేకరించబడుతుంది అలాగే సమస్యలు మరియు ప్రశ్నలు కూడా ఉంటాయి, కానీ డేటా చివరి ఫలితాన్ని మద్దతు ఇవ్వగలదని ఎలా తెలుసుకోవాలి?
డేటా సైంటిస్ట్ డేటాను సేకరించినప్పుడు క్రింది ప్రశ్నలు అడగవచ్చు:

ఈ సమస్యను పరిష్కరించడానికి నాకు సరిపడా డేటా ఉందా?
ఈ సమస్యకు డేటా అంగీకారయోగ్యమైన నాణ్యత కలిగి ఉందా?
ఈ డేటా ద్వారా అదనపు సమాచారం కనుగొన్నట్లయితే, మనం లక్ష్యాలను మార్చడం లేదా పునర్నిర్వచించడం పరిగణించాలా?
అన్వేషణాత్మక డేటా విశ్లేషణ అనేది ఆ డేటాను తెలుసుకోవడంలో సహాయపడే ప్రక్రియ మరియు ఈ ప్రశ్నలకు సమాధానం ఇవ్వడానికి, అలాగే డేటాసెట్‌తో పని చేసే సవాళ్లను గుర్తించడానికి ఉపయోగపడుతుంది. దీన్ని సాధించడానికి ఉపయోగించే కొన్ని సాంకేతికతలపై దృష్టి పెట్టుకుందాం.

డేటా ప్రొఫైలింగ్, వివరణాత్మక గణాంకాలు, మరియు Pandas

ఈ సమస్యను పరిష్కరించడానికి సరిపడా డేటా ఉందా అని ఎలా అంచనా వేయాలి? డేటా ప్రొఫైలింగ్ వివరణాత్మక గణాంకాల సాంకేతికతల ద్వారా మన డేటాసెట్ గురించి కొన్ని సాధారణ సమాచారం సారాంశం చేయగలదు మరియు సేకరించగలదు. డేటా ప్రొఫైలింగ్ మనకు ఏమి అందుబాటులో ఉందో అర్థం చేసుకోవడంలో సహాయపడుతుంది, మరియు వివరణాత్మక గణాంకాలు మనకు ఎంతమంది వస్తున్నారో అర్థం చేసుకోవడంలో సహాయపడతాయి.

గత పాఠాలలో కొన్ని సందర్భాల్లో, మేము Pandas ఉపయోగించి describe() ఫంక్షన్ తో కొన్ని వివరణాత్మక గణాంకాలు అందించాము. ఇది సంఖ్యాత్మక డేటాపై కౌంట్, గరిష్ఠ మరియు కనిష్ఠ విలువలు, సగటు, ప్రమాణ విభిన్నం మరియు క్వాంటైల్‌లను అందిస్తుంది. describe() వంటి వివరణాత్మక గణాంకాలను ఉపయోగించడం మీ వద్ద ఎంత డేటా ఉందో అంచనా వేయడంలో మరియు మరింత అవసరమో లేదో తెలుసుకోవడంలో సహాయపడుతుంది.

నమూనా తీసుకోవడం మరియు ప్రశ్నించడం

పెద్ద డేటాసెట్‌లో ప్రతిదీ అన్వేషించడం చాలా సమయం తీసుకునే పని మరియు సాధారణంగా కంప్యూటర్‌కు అప్పగించబడే పని. అయితే, నమూనా తీసుకోవడం డేటాను అర్థం చేసుకోవడంలో సహాయపడే సాధనం మరియు డేటాసెట్‌లో ఏమి ఉందో మరియు అది ఏమి సూచిస్తున్నదో మెరుగ్గా అర్థం చేసుకోవడానికి అనుమతిస్తుంది. ఒక నమూనాతో, మీరు ప్రాబబిలిటీ మరియు గణాంకాలను వర్తింపజేసి మీ డేటా గురించి సాధారణ నిర్ణయాలకు రావచ్చు. మీరు ఎంత డేటా నమూనా తీసుకోవాలో నిర్దిష్ట నియమం లేదు కానీ మీరు ఎక్కువ డేటాను నమూనా తీసుకుంటే, మీరు డేటా గురించి సాధారణీకరణను మరింత ఖచ్చితంగా చేయగలుగుతారు.
Pandas లైబ్రరీలో sample() ఫంక్షన్ ఉంది, దీని ద్వారా మీరు ఎన్ని యాదృచ్ఛిక నమూనాలు కావాలో ఆర్గ్యుమెంట్‌గా ఇవ్వవచ్చు మరియు ఉపయోగించవచ్చు.

డేటాను సాధారణంగా ప్రశ్నించడం మీకు కొన్ని సాధారణ ప్రశ్నలు మరియు సిద్ధాంతాలకు సమాధానం ఇవ్వడంలో సహాయపడుతుంది. నమూనా తీసుకోవడానికి విరుద్ధంగా, ప్రశ్నలు మీరు డేటాలో మీకు ఆసక్తి ఉన్న నిర్దిష్ట భాగాలపై నియంత్రణ మరియు దృష్టి కల్పిస్తాయి.
Pandas లైబ్రరీలోని query() ఫంక్షన్ ద్వారా మీరు కాలమ్స్‌ను ఎంచుకుని, రోస్ ద్వారా డేటా గురించి సులభ సమాధానాలు పొందవచ్చు.

విజువలైజేషన్లతో అన్వేషణ

డేటా పూర్తిగా శుభ్రపరచబడిన మరియు విశ్లేషించబడిన తర్వాత మాత్రమే విజువలైజేషన్లు సృష్టించాల్సిన అవసరం లేదు. వాస్తవానికి, అన్వేషణ సమయంలో విజువల్ ప్రాతినిధ్యం ఉండటం డేటాలో నమూనాలు, సంబంధాలు మరియు సమస్యలను గుర్తించడంలో సహాయపడుతుంది. అదనంగా, విజువలైజేషన్లు డేటాను నిర్వహించడంలో పాల్గొనని వారితో కమ్యూనికేషన్ సాధనాన్ని అందిస్తాయి మరియు క్యాప్చర్ దశలో పరిష్కరించని అదనపు ప్రశ్నలను పంచుకోవడానికి మరియు స్పష్టత ఇవ్వడానికి అవకాశం కల్పిస్తాయి. మరింత తెలుసుకోవడానికి విజువలైజేషన్ల విభాగం ను చూడండి.

అసమంజసతలను గుర్తించడానికి అన్వేషణ

ఈ పాఠంలోని అన్ని అంశాలు మిస్సింగ్ లేదా అసమంజస విలువలను గుర్తించడంలో సహాయపడతాయి, కానీ Pandas కొన్ని ఫంక్షన్లను అందిస్తుంది వాటిని తనిఖీ చేయడానికి. isna() లేదా isnull() మిస్సింగ్ విలువలను తనిఖీ చేయగలవు. మీ డేటాలో ఈ విలువలు ఎందుకు అలాంటి స్థితిలో ఉన్నాయో అన్వేషించడం ఒక ముఖ్యమైన భాగం. ఇది మీరు వాటిని పరిష్కరించడానికి తీసుకోవాల్సిన చర్యలను నిర్ణయించడంలో సహాయపడుతుంది.

పోస్ట్-లెక్చర్ క్విజ్

అసైన్‌మెంట్

సమాధానాల కోసం అన్వేషణ

అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.