|
|
1 month ago | |
|---|---|---|
| .. | ||
| README.md | 1 month ago | |
| assignment.ipynb | 3 months ago | |
| assignment.md | 1 month ago | |
| notebook.ipynb | 3 months ago | |
README.md
డేటా సైన్స్ లైఫ్సైకిల్: విశ్లేషణ
![]() |
|---|
| డేటా సైన్స్ లైఫ్సైకిల్: విశ్లేషణ - Sketchnote by @nitya |
ప్రీ-లెక్చర్ క్విజ్
డేటా లైఫ్సైకిల్లో విశ్లేషణ అనేది డేటా ప్రతిపాదించిన ప్రశ్నలకు సమాధానం ఇవ్వగలదా లేదా ఒక నిర్దిష్ట సమస్యను పరిష్కరించగలదా అని నిర్ధారిస్తుంది. ఈ దశ మోడల్ ఈ ప్రశ్నలు మరియు సమస్యలను సరిగ్గా పరిష్కరిస్తుందా అని నిర్ధారించడంపై కూడా దృష్టి పెట్టవచ్చు. ఈ పాఠం అన్వేషణాత్మక డేటా విశ్లేషణ లేదా EDA పై కేంద్రీకృతమై ఉంది, ఇవి డేటాలో లక్షణాలు మరియు సంబంధాలను నిర్వచించడానికి ఉపయోగించే సాంకేతికతలు మరియు మోడలింగ్ కోసం డేటాను సిద్ధం చేయడానికి ఉపయోగించవచ్చు.
మనం Kaggle నుండి ఒక ఉదాహరణ డేటాసెట్ను ఉపయోగించి ఇది Python మరియు Pandas లైబ్రరీతో ఎలా వర్తించవచ్చో చూపించబోతున్నాము. ఈ డేటాసెట్ ఇమెయిల్స్లో కనిపించే కొన్ని సాధారణ పదాల సంఖ్యను కలిగి ఉంది, ఈ ఇమెయిల్స్ మూలాలు అనామకంగా ఉన్నాయి. ఈ డైరెక్టరీలోని నోట్బుక్ ను అనుసరించండి.
అన్వేషణాత్మక డేటా విశ్లేషణ
లైఫ్సైకిల్ యొక్క క్యాప్చర్ దశలో డేటా సేకరించబడుతుంది అలాగే సమస్యలు మరియు ప్రశ్నలు కూడా ఉంటాయి, కానీ డేటా చివరి ఫలితాన్ని మద్దతు ఇవ్వగలదని ఎలా తెలుసుకోవాలి?
డేటా సైంటిస్ట్ డేటాను సేకరించినప్పుడు క్రింది ప్రశ్నలు అడగవచ్చు:
- ఈ సమస్యను పరిష్కరించడానికి నాకు సరిపడా డేటా ఉందా?
- ఈ సమస్యకు డేటా అంగీకారయోగ్యమైన నాణ్యత కలిగి ఉందా?
- ఈ డేటా ద్వారా అదనపు సమాచారం కనుగొన్నట్లయితే, మనం లక్ష్యాలను మార్చడం లేదా పునర్నిర్వచించడం పరిగణించాలా?
అన్వేషణాత్మక డేటా విశ్లేషణ అనేది ఆ డేటాను తెలుసుకోవడంలో సహాయపడే ప్రక్రియ మరియు ఈ ప్రశ్నలకు సమాధానం ఇవ్వడానికి, అలాగే డేటాసెట్తో పని చేసే సవాళ్లను గుర్తించడానికి ఉపయోగపడుతుంది. దీన్ని సాధించడానికి ఉపయోగించే కొన్ని సాంకేతికతలపై దృష్టి పెట్టుకుందాం.
డేటా ప్రొఫైలింగ్, వివరణాత్మక గణాంకాలు, మరియు Pandas
ఈ సమస్యను పరిష్కరించడానికి సరిపడా డేటా ఉందా అని ఎలా అంచనా వేయాలి? డేటా ప్రొఫైలింగ్ వివరణాత్మక గణాంకాల సాంకేతికతల ద్వారా మన డేటాసెట్ గురించి కొన్ని సాధారణ సమాచారం సారాంశం చేయగలదు మరియు సేకరించగలదు. డేటా ప్రొఫైలింగ్ మనకు ఏమి అందుబాటులో ఉందో అర్థం చేసుకోవడంలో సహాయపడుతుంది, మరియు వివరణాత్మక గణాంకాలు మనకు ఎంతమంది వస్తున్నారో అర్థం చేసుకోవడంలో సహాయపడతాయి.
గత పాఠాలలో కొన్ని సందర్భాల్లో, మేము Pandas ఉపయోగించి describe() ఫంక్షన్ తో కొన్ని వివరణాత్మక గణాంకాలు అందించాము. ఇది సంఖ్యాత్మక డేటాపై కౌంట్, గరిష్ఠ మరియు కనిష్ఠ విలువలు, సగటు, ప్రమాణ విభిన్నం మరియు క్వాంటైల్లను అందిస్తుంది. describe() వంటి వివరణాత్మక గణాంకాలను ఉపయోగించడం మీ వద్ద ఎంత డేటా ఉందో అంచనా వేయడంలో మరియు మరింత అవసరమో లేదో తెలుసుకోవడంలో సహాయపడుతుంది.
నమూనా తీసుకోవడం మరియు ప్రశ్నించడం
పెద్ద డేటాసెట్లో ప్రతిదీ అన్వేషించడం చాలా సమయం తీసుకునే పని మరియు సాధారణంగా కంప్యూటర్కు అప్పగించబడే పని. అయితే, నమూనా తీసుకోవడం డేటాను అర్థం చేసుకోవడంలో సహాయపడే సాధనం మరియు డేటాసెట్లో ఏమి ఉందో మరియు అది ఏమి సూచిస్తున్నదో మెరుగ్గా అర్థం చేసుకోవడానికి అనుమతిస్తుంది. ఒక నమూనాతో, మీరు ప్రాబబిలిటీ మరియు గణాంకాలను వర్తింపజేసి మీ డేటా గురించి సాధారణ నిర్ణయాలకు రావచ్చు. మీరు ఎంత డేటా నమూనా తీసుకోవాలో నిర్దిష్ట నియమం లేదు కానీ మీరు ఎక్కువ డేటాను నమూనా తీసుకుంటే, మీరు డేటా గురించి సాధారణీకరణను మరింత ఖచ్చితంగా చేయగలుగుతారు.
Pandas లైబ్రరీలో sample() ఫంక్షన్ ఉంది, దీని ద్వారా మీరు ఎన్ని యాదృచ్ఛిక నమూనాలు కావాలో ఆర్గ్యుమెంట్గా ఇవ్వవచ్చు మరియు ఉపయోగించవచ్చు.
డేటాను సాధారణంగా ప్రశ్నించడం మీకు కొన్ని సాధారణ ప్రశ్నలు మరియు సిద్ధాంతాలకు సమాధానం ఇవ్వడంలో సహాయపడుతుంది. నమూనా తీసుకోవడానికి విరుద్ధంగా, ప్రశ్నలు మీరు డేటాలో మీకు ఆసక్తి ఉన్న నిర్దిష్ట భాగాలపై నియంత్రణ మరియు దృష్టి కల్పిస్తాయి.
Pandas లైబ్రరీలోని query() ఫంక్షన్ ద్వారా మీరు కాలమ్స్ను ఎంచుకుని, రోస్ ద్వారా డేటా గురించి సులభ సమాధానాలు పొందవచ్చు.
విజువలైజేషన్లతో అన్వేషణ
డేటా పూర్తిగా శుభ్రపరచబడిన మరియు విశ్లేషించబడిన తర్వాత మాత్రమే విజువలైజేషన్లు సృష్టించాల్సిన అవసరం లేదు. వాస్తవానికి, అన్వేషణ సమయంలో విజువల్ ప్రాతినిధ్యం ఉండటం డేటాలో నమూనాలు, సంబంధాలు మరియు సమస్యలను గుర్తించడంలో సహాయపడుతుంది. అదనంగా, విజువలైజేషన్లు డేటాను నిర్వహించడంలో పాల్గొనని వారితో కమ్యూనికేషన్ సాధనాన్ని అందిస్తాయి మరియు క్యాప్చర్ దశలో పరిష్కరించని అదనపు ప్రశ్నలను పంచుకోవడానికి మరియు స్పష్టత ఇవ్వడానికి అవకాశం కల్పిస్తాయి. మరింత తెలుసుకోవడానికి విజువలైజేషన్ల విభాగం ను చూడండి.
అసమంజసతలను గుర్తించడానికి అన్వేషణ
ఈ పాఠంలోని అన్ని అంశాలు మిస్సింగ్ లేదా అసమంజస విలువలను గుర్తించడంలో సహాయపడతాయి, కానీ Pandas కొన్ని ఫంక్షన్లను అందిస్తుంది వాటిని తనిఖీ చేయడానికి. isna() లేదా isnull() మిస్సింగ్ విలువలను తనిఖీ చేయగలవు. మీ డేటాలో ఈ విలువలు ఎందుకు అలాంటి స్థితిలో ఉన్నాయో అన్వేషించడం ఒక ముఖ్యమైన భాగం. ఇది మీరు వాటిని పరిష్కరించడానికి తీసుకోవాల్సిన చర్యలను నిర్ణయించడంలో సహాయపడుతుంది.
పోస్ట్-లెక్చర్ క్విజ్
అసైన్మెంట్
అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.
