|
|
1 month ago | |
|---|---|---|
| .. | ||
| README.md | 1 month ago | |
| assignment.ipynb | 5 months ago | |
| assignment.md | 1 month ago | |
| notebook.ipynb | 5 months ago | |
README.md
தரவியல் அறிவியல் வாழ்க்கைச் சுழற்சி: பகுப்பாய்வு
![]() |
|---|
| தரவியல் அறிவியல் வாழ்க்கைச் சுழற்சி: பகுப்பாய்வு - Sketchnote by @nitya |
முன்-வகுப்பு வினாடி வினா
தரவியல் வாழ்க்கைச் சுழற்சியில் பகுப்பாய்வு என்பது முன்மொழியப்பட்ட கேள்விகளுக்கு பதிலளிக்க அல்லது ஒரு குறிப்பிட்ட பிரச்சினையைத் தீர்க்க தரவுகள் உதவுமா என்பதை உறுதிப்படுத்துகிறது. இந்த கட்டம், ஒரு மாதிரி சரியாக இந்த கேள்விகள் மற்றும் பிரச்சினைகளைத் தீர்க்கிறதா என்பதை உறுதிப்படுத்துவதிலும் கவனம் செலுத்துகிறது. இந்த பாடம், தரவின் அம்சங்கள் மற்றும் உறவுகளை வரையறுக்க பயன்படுத்தப்படும் தொழில்நுட்பங்களான ஆராய்ச்சி தரவுப் பகுப்பாய்வு (EDA) குறித்தது, மேலும் தரவுகளை மாதிரியாக்கத்திற்குத் தயாரிக்க உதவுகிறது.
Python மற்றும் Pandas நூலகத்துடன் இதை எவ்வாறு பயன்படுத்தலாம் என்பதை காட்ட Kaggle இல் இருந்து எடுத்துக்காட்டுத் தரவுத்தொகுப்பைப் பயன்படுத்துவோம். இந்த தரவுத்தொகுப்பில் மின்னஞ்சல்களில் காணப்படும் சில பொதுவான சொற்களின் எண்ணிக்கை உள்ளது, இந்த மின்னஞ்சல்களின் மூலங்கள் அடையாளம் தெரியாதவை. இந்த அடைவில் உள்ள குறிப்பேடு ஐப் பின்பற்றவும்.
ஆராய்ச்சி தரவுப் பகுப்பாய்வு
வாழ்க்கைச் சுழற்சியின் தரவுகளைப் பெறும் கட்டத்தில், தரவுகள் பெறப்படுவதுடன், பிரச்சினைகள் மற்றும் கேள்விகளும் உள்ளன. ஆனால், இந்த தரவுகள் இறுதித் தீர்வுக்கு ஆதரவு தருமா என்பதை எவ்வாறு அறியலாம்? தரவுகளைப் பெறும் போது ஒரு தரவியல் விஞ்ஞானி பின்வரும் கேள்விகளை கேட்கலாம்:
- இந்த பிரச்சினையைத் தீர்க்க எனக்கு போதுமான தரவுகள் உள்ளதா?
- இந்த பிரச்சினைக்கு தரவின் தரம் ஏற்றதா?
- இந்த தரவின் மூலம் கூடுதல் தகவல்களை கண்டறிந்தால், இலக்குகளை மாற்ற அல்லது மறுதருக்கம் செய்ய வேண்டுமா?
ஆராய்ச்சி தரவுப் பகுப்பாய்வு என்பது அந்த தரவுகளை அறிந்து கொள்ளும் செயல்முறையாகும், மேலும் இந்த கேள்விகளுக்கு பதிலளிக்கவும், தரவுத்தொகுப்புடன் வேலை செய்வதில் உள்ள சவால்களை அடையாளம் காணவும் உதவுகிறது. இதைச் சாதிக்க பயன்படுத்தப்படும் சில தொழில்நுட்பங்களைப் பார்ப்போம்.
தரவுப் சுயவிவரங்கள், விவரண புள்ளியியல், மற்றும் Pandas
இந்த பிரச்சினையைத் தீர்க்க போதுமான தரவுகள் உள்ளதா என்பதை எவ்வாறு மதிப்பீடு செய்வது? தரவுப் சுயவிவரங்கள், விவரண புள்ளியியல் தொழில்நுட்பங்கள் மூலம், எங்கள் தரவுத்தொகுப்பைப் பற்றிய சில பொதுவான தகவல்களைச் சுருக்கமாகக் கொடுக்க உதவுகிறது. தரவுப் சுயவிவரங்கள் எங்களுக்கு கிடைக்கக்கூடியதைப் புரிந்துகொள்ள உதவுகிறது, மேலும் விவரண புள்ளியியல் எவ்வளவு விஷயங்கள் கிடைக்கின்றன என்பதைப் புரிந்துகொள்ள உதவுகிறது.
முந்தைய சில பாடங்களில், Pandas ஐப் பயன்படுத்தி describe() function மூலம் சில விவரண புள்ளியியல் வழங்கியுள்ளோம். இது எண்ணிக்கை, அதிகபட்ச மற்றும் குறைந்தபட்ச மதிப்புகள், சராசரி, நிலையான சிதறல் மற்றும் எண்ணியல் தரவின் குவாண்டைல்கள் ஆகியவற்றை வழங்குகிறது. describe() போன்ற விவரண புள்ளியியல் செயல்பாடுகளைப் பயன்படுத்துவது, உங்களிடம் எவ்வளவு உள்ளது மற்றும் மேலும் தேவைப்படுகிறதா என்பதை மதிப்பீடு செய்ய உதவுகிறது.
மாதிரிகள் மற்றும் கேள்விகள்
ஒரு பெரிய தரவுத்தொகுப்பில் உள்ள அனைத்தையும் ஆராய்வது மிகவும் நேரம் பிடிக்கும், மேலும் இது பொதுவாக கணினி செய்யும் பணியாகும். ஆனால், மாதிரிகள் என்பது தரவுகளைப் புரிந்துகொள்ள உதவும் ஒரு பயனுள்ள கருவியாகும், மேலும் தரவுத்தொகுப்பில் என்ன உள்ளது மற்றும் அது என்ன பிரதிநிதித்துவம் செய்கிறது என்பதைப் பற்றிய சிறந்த புரிதலை வழங்குகிறது. ஒரு மாதிரியைப் பயன்படுத்தி, உங்கள் தரவின் மீது சில பொதுவான முடிவுகளை வரையறுக்க_probability மற்றும் புள்ளியியல்_ பயன்படுத்தலாம். நீங்கள் எவ்வளவு தரவுகளை மாதிரியாக்க வேண்டும் என்பதில் எந்த விதி வரையறுக்கப்படவில்லை என்றாலும், நீங்கள் மாதிரியாக்கும் தரவுகள் அதிகமாக இருக்கும் போது, தரவின் மீது நீங்கள் செய்யும் பொதுவான முடிவுகள் மேலும் துல்லியமாக இருக்கும்.
Pandas இன் நூலகத்தில் sample() function உள்ளது, இதில் நீங்கள் எவ்வளவு சீரற்ற மாதிரிகளைப் பெற விரும்புகிறீர்கள் என்பதை ஒரு வாதமாகக் கொடுக்கலாம்.
தரவின் பொதுவான கேள்விகளை ஆராய்வது, நீங்கள் வைத்திருக்கும் சில பொதுவான கேள்விகள் மற்றும் கோட்பாடுகளுக்கு பதிலளிக்க உதவுகிறது. மாதிரிகளுக்கு மாறாக, கேள்விகள் உங்களுக்கு கட்டுப்பாட்டை வழங்குகிறது மற்றும் நீங்கள் கேள்விகள் வைத்திருக்கும் தரவின் குறிப்பிட்ட பகுதிகளில் கவனம் செலுத்த உதவுகிறது.
Pandas நூலகத்தில் உள்ள query() function மூலம், நீங்கள் நெடுவரிசைகள் மூலம் தரவின் சில எளிய பதில்களைப் பெற, நெடுக்களைக் தேர்ந்தெடுக்கலாம்.
காட்சிகளுடன் ஆராய்வது
தரவுகள் முழுமையாக சுத்தம் செய்யப்பட்டு பகுப்பாய்வு செய்யப்படும் வரை காட்சிகளை உருவாக்க நீங்கள் காத்திருக்க வேண்டிய அவசியமில்லை. உண்மையில், ஆராயும் போது காட்சிகளைப் பெறுவது, தரவுகளில் உள்ள முறை, உறவுகள் மற்றும் பிரச்சினைகளை அடையாளம் காண உதவுகிறது. மேலும், காட்சிகள், தரவுகளை நிர்வகிக்க தொடர்புடையவர்களுடன் தொடர்புடையவர்களுடன் தொடர்பு கொள்ள ஒரு வழியை வழங்குகிறது, மேலும் பிடிப்பில் குறிப்பிடப்படாத கூடுதல் கேள்விகளை பகிரவும் தெளிவுபடுத்தவும் ஒரு வாய்ப்பாக இருக்கலாம். காட்சிகளை ஆராய்வதற்கான சில பிரபலமான வழிகளைப் பற்றிய மேலும் அறிய காட்சிகள் பகுதி ஐப் பார்க்கவும்.
முரண்பாடுகளை அடையாளம் காண ஆராய்வது
இந்த பாடத்தில் உள்ள அனைத்து தலைப்புகளும் காணாமல் போன அல்லது முரண்பாடான மதிப்புகளை அடையாளம் காண உதவுகிறது, ஆனால் Pandas இல் சிலவற்றைச் சரிபார்க்க செயல்பாடுகள் உள்ளன. isna() அல்லது isnull() காணாமல் போன மதிப்புகளைச் சரிபார்க்க உதவுகிறது. உங்கள் தரவுகளில் இந்த மதிப்புகளை ஆராய்வதில் முக்கியமான பகுதி, அவை முதலில் அந்த வழியில் எப்படி முடிந்தன என்பதை ஆராய்வது. இது அவற்றை தீர்க்க எடுக்க வேண்டிய நடவடிக்கைகளை முடிவு செய்ய உதவுகிறது.
பாடத்திற்குப் பின் வினாடி வினா
பணிக்கூற்று
அறிவிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையைப் பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கிறோம், ஆனால் தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கக்கூடும் என்பதை கவனத்தில் கொள்ளவும். அதன் சொந்த மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கும் நாங்கள் பொறுப்பல்ல.
