You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ta/4-Data-Science-Lifecycle/15-analyzing
localizeflow[bot] b88ef67e42
chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)
1 month ago
..
README.md chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
assignment.ipynb 🌐 Update translations via Co-op Translator 5 months ago
assignment.md chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
notebook.ipynb 🌐 Update translations via Co-op Translator 5 months ago

README.md

தரவியல் அறிவியல் வாழ்க்கைச் சுழற்சி: பகுப்பாய்வு

 Sketchnote by (@sketchthedocs)
தரவியல் அறிவியல் வாழ்க்கைச் சுழற்சி: பகுப்பாய்வு - Sketchnote by @nitya

முன்-வகுப்பு வினாடி வினா

தரவியல் வாழ்க்கைச் சுழற்சியில் பகுப்பாய்வு என்பது முன்மொழியப்பட்ட கேள்விகளுக்கு பதிலளிக்க அல்லது ஒரு குறிப்பிட்ட பிரச்சினையைத் தீர்க்க தரவுகள் உதவுமா என்பதை உறுதிப்படுத்துகிறது. இந்த கட்டம், ஒரு மாதிரி சரியாக இந்த கேள்விகள் மற்றும் பிரச்சினைகளைத் தீர்க்கிறதா என்பதை உறுதிப்படுத்துவதிலும் கவனம் செலுத்துகிறது. இந்த பாடம், தரவின் அம்சங்கள் மற்றும் உறவுகளை வரையறுக்க பயன்படுத்தப்படும் தொழில்நுட்பங்களான ஆராய்ச்சி தரவுப் பகுப்பாய்வு (EDA) குறித்தது, மேலும் தரவுகளை மாதிரியாக்கத்திற்குத் தயாரிக்க உதவுகிறது.

Python மற்றும் Pandas நூலகத்துடன் இதை எவ்வாறு பயன்படுத்தலாம் என்பதை காட்ட Kaggle இல் இருந்து எடுத்துக்காட்டுத் தரவுத்தொகுப்பைப் பயன்படுத்துவோம். இந்த தரவுத்தொகுப்பில் மின்னஞ்சல்களில் காணப்படும் சில பொதுவான சொற்களின் எண்ணிக்கை உள்ளது, இந்த மின்னஞ்சல்களின் மூலங்கள் அடையாளம் தெரியாதவை. இந்த அடைவில் உள்ள குறிப்பேடு ஐப் பின்பற்றவும்.

ஆராய்ச்சி தரவுப் பகுப்பாய்வு

வாழ்க்கைச் சுழற்சியின் தரவுகளைப் பெறும் கட்டத்தில், தரவுகள் பெறப்படுவதுடன், பிரச்சினைகள் மற்றும் கேள்விகளும் உள்ளன. ஆனால், இந்த தரவுகள் இறுதித் தீர்வுக்கு ஆதரவு தருமா என்பதை எவ்வாறு அறியலாம்? தரவுகளைப் பெறும் போது ஒரு தரவியல் விஞ்ஞானி பின்வரும் கேள்விகளை கேட்கலாம்:

  • இந்த பிரச்சினையைத் தீர்க்க எனக்கு போதுமான தரவுகள் உள்ளதா?
  • இந்த பிரச்சினைக்கு தரவின் தரம் ஏற்றதா?
  • இந்த தரவின் மூலம் கூடுதல் தகவல்களை கண்டறிந்தால், இலக்குகளை மாற்ற அல்லது மறுதருக்கம் செய்ய வேண்டுமா?

ஆராய்ச்சி தரவுப் பகுப்பாய்வு என்பது அந்த தரவுகளை அறிந்து கொள்ளும் செயல்முறையாகும், மேலும் இந்த கேள்விகளுக்கு பதிலளிக்கவும், தரவுத்தொகுப்புடன் வேலை செய்வதில் உள்ள சவால்களை அடையாளம் காணவும் உதவுகிறது. இதைச் சாதிக்க பயன்படுத்தப்படும் சில தொழில்நுட்பங்களைப் பார்ப்போம்.

தரவுப் சுயவிவரங்கள், விவரண புள்ளியியல், மற்றும் Pandas

இந்த பிரச்சினையைத் தீர்க்க போதுமான தரவுகள் உள்ளதா என்பதை எவ்வாறு மதிப்பீடு செய்வது? தரவுப் சுயவிவரங்கள், விவரண புள்ளியியல் தொழில்நுட்பங்கள் மூலம், எங்கள் தரவுத்தொகுப்பைப் பற்றிய சில பொதுவான தகவல்களைச் சுருக்கமாகக் கொடுக்க உதவுகிறது. தரவுப் சுயவிவரங்கள் எங்களுக்கு கிடைக்கக்கூடியதைப் புரிந்துகொள்ள உதவுகிறது, மேலும் விவரண புள்ளியியல் எவ்வளவு விஷயங்கள் கிடைக்கின்றன என்பதைப் புரிந்துகொள்ள உதவுகிறது.

முந்தைய சில பாடங்களில், Pandas ஐப் பயன்படுத்தி describe() function மூலம் சில விவரண புள்ளியியல் வழங்கியுள்ளோம். இது எண்ணிக்கை, அதிகபட்ச மற்றும் குறைந்தபட்ச மதிப்புகள், சராசரி, நிலையான சிதறல் மற்றும் எண்ணியல் தரவின் குவாண்டைல்கள் ஆகியவற்றை வழங்குகிறது. describe() போன்ற விவரண புள்ளியியல் செயல்பாடுகளைப் பயன்படுத்துவது, உங்களிடம் எவ்வளவு உள்ளது மற்றும் மேலும் தேவைப்படுகிறதா என்பதை மதிப்பீடு செய்ய உதவுகிறது.

மாதிரிகள் மற்றும் கேள்விகள்

ஒரு பெரிய தரவுத்தொகுப்பில் உள்ள அனைத்தையும் ஆராய்வது மிகவும் நேரம் பிடிக்கும், மேலும் இது பொதுவாக கணினி செய்யும் பணியாகும். ஆனால், மாதிரிகள் என்பது தரவுகளைப் புரிந்துகொள்ள உதவும் ஒரு பயனுள்ள கருவியாகும், மேலும் தரவுத்தொகுப்பில் என்ன உள்ளது மற்றும் அது என்ன பிரதிநிதித்துவம் செய்கிறது என்பதைப் பற்றிய சிறந்த புரிதலை வழங்குகிறது. ஒரு மாதிரியைப் பயன்படுத்தி, உங்கள் தரவின் மீது சில பொதுவான முடிவுகளை வரையறுக்க_probability மற்றும் புள்ளியியல்_ பயன்படுத்தலாம். நீங்கள் எவ்வளவு தரவுகளை மாதிரியாக்க வேண்டும் என்பதில் எந்த விதி வரையறுக்கப்படவில்லை என்றாலும், நீங்கள் மாதிரியாக்கும் தரவுகள் அதிகமாக இருக்கும் போது, தரவின் மீது நீங்கள் செய்யும் பொதுவான முடிவுகள் மேலும் துல்லியமாக இருக்கும். Pandas இன் நூலகத்தில் sample() function உள்ளது, இதில் நீங்கள் எவ்வளவு சீரற்ற மாதிரிகளைப் பெற விரும்புகிறீர்கள் என்பதை ஒரு வாதமாகக் கொடுக்கலாம்.

தரவின் பொதுவான கேள்விகளை ஆராய்வது, நீங்கள் வைத்திருக்கும் சில பொதுவான கேள்விகள் மற்றும் கோட்பாடுகளுக்கு பதிலளிக்க உதவுகிறது. மாதிரிகளுக்கு மாறாக, கேள்விகள் உங்களுக்கு கட்டுப்பாட்டை வழங்குகிறது மற்றும் நீங்கள் கேள்விகள் வைத்திருக்கும் தரவின் குறிப்பிட்ட பகுதிகளில் கவனம் செலுத்த உதவுகிறது. Pandas நூலகத்தில் உள்ள query() function மூலம், நீங்கள் நெடுவரிசைகள் மூலம் தரவின் சில எளிய பதில்களைப் பெற, நெடுக்களைக் தேர்ந்தெடுக்கலாம்.

காட்சிகளுடன் ஆராய்வது

தரவுகள் முழுமையாக சுத்தம் செய்யப்பட்டு பகுப்பாய்வு செய்யப்படும் வரை காட்சிகளை உருவாக்க நீங்கள் காத்திருக்க வேண்டிய அவசியமில்லை. உண்மையில், ஆராயும் போது காட்சிகளைப் பெறுவது, தரவுகளில் உள்ள முறை, உறவுகள் மற்றும் பிரச்சினைகளை அடையாளம் காண உதவுகிறது. மேலும், காட்சிகள், தரவுகளை நிர்வகிக்க தொடர்புடையவர்களுடன் தொடர்புடையவர்களுடன் தொடர்பு கொள்ள ஒரு வழியை வழங்குகிறது, மேலும் பிடிப்பில் குறிப்பிடப்படாத கூடுதல் கேள்விகளை பகிரவும் தெளிவுபடுத்தவும் ஒரு வாய்ப்பாக இருக்கலாம். காட்சிகளை ஆராய்வதற்கான சில பிரபலமான வழிகளைப் பற்றிய மேலும் அறிய காட்சிகள் பகுதி ஐப் பார்க்கவும்.

முரண்பாடுகளை அடையாளம் காண ஆராய்வது

இந்த பாடத்தில் உள்ள அனைத்து தலைப்புகளும் காணாமல் போன அல்லது முரண்பாடான மதிப்புகளை அடையாளம் காண உதவுகிறது, ஆனால் Pandas இல் சிலவற்றைச் சரிபார்க்க செயல்பாடுகள் உள்ளன. isna() அல்லது isnull() காணாமல் போன மதிப்புகளைச் சரிபார்க்க உதவுகிறது. உங்கள் தரவுகளில் இந்த மதிப்புகளை ஆராய்வதில் முக்கியமான பகுதி, அவை முதலில் அந்த வழியில் எப்படி முடிந்தன என்பதை ஆராய்வது. இது அவற்றை தீர்க்க எடுக்க வேண்டிய நடவடிக்கைகளை முடிவு செய்ய உதவுகிறது.

பாடத்திற்குப் பின் வினாடி வினா

பணிக்கூற்று

பதில்களை ஆராய்வது


அறிவிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையைப் பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கிறோம், ஆனால் தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கக்கூடும் என்பதை கவனத்தில் கொள்ளவும். அதன் சொந்த மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கும் நாங்கள் பொறுப்பல்ல.