You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ml/4-Data-Science-Lifecycle/15-analyzing
localizeflow[bot] b985ee1af0
chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files)
2 months ago
..
README.md chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files) 2 months ago
assignment.ipynb chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files) 2 months ago
assignment.md chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files) 2 months ago
notebook.ipynb chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files) 2 months ago

README.md

ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിൾ: വിശകലനം

 Sketchnote by (@sketchthedocs)
ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിൾ: വിശകലനം - Sketchnote by @nitya

പ്രീ-ലെക്ചർ ക്വിസ്

ഡാറ്റ ലൈഫ്‌സൈക്കിളിലെ വിശകലനം, നിർദ്ദേശിച്ച ചോദ്യങ്ങൾക്ക് ഡാറ്റ ഉത്തരം നൽകാമോ എന്നതും ഒരു പ്രത്യേക പ്രശ്നം പരിഹരിക്കാമോ എന്നതും സ്ഥിരീകരിക്കുന്നു. ഈ ഘട്ടം, ഒരു മോഡൽ ഈ ചോദ്യങ്ങളും പ്രശ്നങ്ങളും ശരിയായി പരിഹരിക്കുന്നുണ്ടോ എന്ന് സ്ഥിരീകരിക്കുന്നതിലും കേന്ദ്രീകരിക്കാം. ഈ പാഠം എക്സ്പ്ലോറേറ്ററി ഡാറ്റ അനാലിസിസ് അല്ലെങ്കിൽ EDA-യെക്കുറിച്ചാണ്, ഇത് ഡാറ്റയിലെ ഫീച്ചറുകളും ബന്ധങ്ങളും നിർവചിക്കുന്ന സാങ്കേതിക വിദ്യകളാണ്, കൂടാതെ മോഡലിംഗിനായി ഡാറ്റ തയ്യാറാക്കാൻ ഉപയോഗിക്കാം.

Python-ഉം Pandas ലൈബ്രറിയും ഉപയോഗിച്ച് ഇത് എങ്ങനെ പ്രയോഗിക്കാമെന്ന് കാണിക്കാൻ Kaggle നിന്നുള്ള ഒരു ഉദാഹരണ ഡാറ്റാസെറ്റ് ഉപയോഗിക്കും. ഈ ഡാറ്റാസെറ്റിൽ ഇമെയിലുകളിൽ കാണപ്പെടുന്ന ചില സാധാരണ വാക്കുകളുടെ എണ്ണം ഉൾക്കൊള്ളുന്നു, ഈ ഇമെയിലുകളുടെ ഉറവിടങ്ങൾ അനാമികമാണ്. ഈ ഡയറക്ടറിയിലുള്ള നോട്ട്ബുക്ക് ഉപയോഗിച്ച് പിന്തുടരുക.

എക്സ്പ്ലോറേറ്ററി ഡാറ്റ അനാലിസിസ്

ലൈഫ്‌സൈക്കിളിന്റെ ക്യാപ്ചർ ഘട്ടം ഡാറ്റ സമ്പാദിക്കുകയും പ്രശ്നങ്ങളും ചോദ്യങ്ങളും കൈകാര്യം ചെയ്യുകയും ചെയ്യുന്ന ഘട്ടമാണ്, പക്ഷേ ഡാറ്റ അവസാന ഫലത്തെ പിന്തുണയ്ക്കുമെന്ന് എങ്ങനെ അറിയാം?
ഡാറ്റ സയന്റിസ്റ്റ് ഡാറ്റ സമ്പാദിക്കുമ്പോൾ താഴെപ്പറയുന്ന ചോദ്യങ്ങൾ ചോദിക്കാമെന്ന് ഓർക്കുക:

  • ഈ പ്രശ്നം പരിഹരിക്കാൻ എനിക്ക് മതിയായ ഡാറ്റ ഉണ്ടോ?
  • ഈ പ്രശ്നത്തിന് ഡാറ്റയുടെ ഗുണമേന്മ സ്വീകരിക്കാവുന്നതാണോ?
  • ഈ ഡാറ്റ വഴി അധിക വിവരങ്ങൾ കണ്ടെത്തിയാൽ, ലക്ഷ്യങ്ങൾ മാറ്റുകയോ പുനർനിർവചിക്കുകയോ ചെയ്യണോ?
    എക്സ്പ്ലോറേറ്ററി ഡാറ്റ അനാലിസിസ് ആ ഡാറ്റയെ അറിയാനുള്ള പ്രക്രിയയാണ്, ഇത് ഈ ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകാനും ഡാറ്റാസെറ്റുമായി പ്രവർത്തിക്കുമ്പോഴുള്ള വെല്ലുവിളികൾ തിരിച്ചറിയാനും സഹായിക്കുന്നു. ഇതു നേടാൻ ഉപയോഗിക്കുന്ന ചില സാങ്കേതിക വിദ്യകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാം.

ഡാറ്റ പ്രൊഫൈലിംഗ്, വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ, Pandas

ഈ പ്രശ്നം പരിഹരിക്കാൻ എത്രമാത്രം ഡാറ്റ വേണ്ടെന്ന് എങ്ങനെ വിലയിരുത്താം? ഡാറ്റ പ്രൊഫൈലിംഗ്, വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകളുടെ സാങ്കേതിക വിദ്യകൾ വഴി നമ്മുടെ ഡാറ്റാസെറ്റിനെക്കുറിച്ചുള്ള പൊതുവായ വിവരങ്ങൾ സംഗ്രഹിക്കുകയും ശേഖരിക്കുകയും ചെയ്യാം. ഡാറ്റ പ്രൊഫൈലിംഗ് നമ്മെ ലഭ്യമായതെന്താണെന്ന് മനസ്സിലാക്കാൻ സഹായിക്കുന്നു, വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ എത്രമാത്രം ലഭ്യമാണ് എന്ന് മനസ്സിലാക്കാൻ സഹായിക്കുന്നു.

മുമ്പത്തെ ചില പാഠങ്ങളിൽ, Pandas ഉപയോഗിച്ച് describe() ഫംഗ്ഷൻ ഉപയോഗിച്ച് ചില വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ നൽകിയിട്ടുണ്ട്. ഇത് എണ്ണവും പരമാവധി, കുറഞ്ഞ മൂല്യങ്ങളും, ശരാശരി, സ്റ്റാൻഡേർഡ് ഡിവിയേഷൻ, ക്വാണ്ടൈലുകൾ എന്നിവ നൽകുന്നു. describe() പോലുള്ള വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ ഉപയോഗിച്ച് നിങ്ങൾക്ക് എത്രമാത്രം ഡാറ്റയുണ്ട് എന്നും കൂടുതൽ ആവശ്യമുണ്ടോ എന്നും വിലയിരുത്താൻ കഴിയും.

സാമ്പിളിംഗ്, ക്വറി ചെയ്യൽ

വലിയ ഡാറ്റാസെറ്റിലെ എല്ലാം പരിശോധിക്കുന്നത് വളരെ സമയം കഴിക്കുന്നതും സാധാരണയായി കമ്പ്യൂട്ടറിന് വിട്ടുകൊടുക്കുന്ന ജോലിയുമാണ്. എന്നാൽ സാമ്പിളിംഗ് ഡാറ്റയെ മനസ്സിലാക്കാൻ സഹായിക്കുന്ന ഉപകരണം ആണ്, ഇത് ഡാറ്റാസെറ്റിൽ എന്തുണ്ട് എന്നും അത് എന്താണ് പ്രതിനിധാനം ചെയ്യുന്നത് എന്നും നമുക്ക് മികച്ച ബോധം നൽകുന്നു. സാമ്പിള് ഉപയോഗിച്ച്, നിങ്ങൾക്ക് പ്രൊബബിലിറ്റി, സ്ഥിതിവിവരക്കണക്കുകൾ പ്രയോഗിച്ച് ഡാറ്റയെക്കുറിച്ചുള്ള പൊതുവായ നിഗമനങ്ങൾ വരുത്താം. എത്രമാത്രം ഡാറ്റ സാമ്പിൾ ചെയ്യണം എന്നതിന് നിർദ്ദിഷ്ട നിയമമില്ലെങ്കിലും, കൂടുതൽ ഡാറ്റ സാമ്പിൾ ചെയ്താൽ, ഡാറ്റയെക്കുറിച്ചുള്ള പൊതുവായ നിഗമനങ്ങൾ കൂടുതൽ കൃത്യമായിരിക്കും.
Pandas-ൽ sample() ഫംഗ്ഷൻ ഉണ്ട്, ഇതിൽ നിങ്ങൾക്ക് എത്ര റാൻഡം സാമ്പിളുകൾ വേണമെന്നു പാരാമീറ്ററായി നൽകാം.

ഡാറ്റയുടെ പൊതുവായ ചോദ്യങ്ങൾക്കും സിദ്ധാന്തങ്ങൾക്കും ഉത്തരം കണ്ടെത്താൻ ജനറൽ ക്വറി ചെയ്യലും സഹായിക്കുന്നു. സാമ്പിളിംഗിനോട് വ്യത്യസ്തമായി, ക്വറികൾ നിങ്ങൾക്ക് ഡാറ്റയിലെ പ്രത്യേക ഭാഗങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാനും നിയന്ത്രണം നൽകുന്നു.
Pandas ലൈബ്രറിയിലെ query() ഫംഗ്ഷൻ കോളങ്ങൾ തിരഞ്ഞെടുക്കാനും തിരഞ്ഞെടുത്ത വരികളിലൂടെ ഡാറ്റയെക്കുറിച്ചുള്ള ലളിതമായ ഉത്തരം ലഭിക്കാനും സഹായിക്കുന്നു.

ദൃശ്യവൽക്കരണങ്ങളിലൂടെ അന്വേഷിക്കൽ

ഡാറ്റ പൂർണ്ണമായി ശുദ്ധീകരിക്കപ്പെടുകയും വിശകലനം ചെയ്യപ്പെടുകയും ചെയ്യുന്നത് വരെ കാത്തിരിക്കേണ്ടതില്ല. അന്വേഷിക്കുമ്പോൾ ദൃശ്യവൽക്കരണങ്ങൾ ഉണ്ടാകുന്നത് പാറ്റേണുകൾ, ബന്ധങ്ങൾ, പ്രശ്നങ്ങൾ തിരിച്ചറിയാൻ സഹായിക്കുന്നു. കൂടാതെ, ദൃശ്യവൽക്കരണങ്ങൾ ഡാറ്റ കൈകാര്യം ചെയ്യാത്തവരുമായി ആശയവിനിമയം നടത്താനുള്ള മാർഗ്ഗവും, ക്യാപ്ചർ ഘട്ടത്തിൽ പരിഗണിക്കപ്പെടാത്ത അധിക ചോദ്യങ്ങൾ പങ്കുവെക്കാനും വ്യക്തത നൽകാനും അവസരവുമാണ്. ദൃശ്യവൽക്കരണങ്ങളെക്കുറിച്ചുള്ള കൂടുതൽ അറിയാൻ Visualizations വിഭാഗം കാണുക.

അസംഘടിതത്വങ്ങൾ തിരിച്ചറിയാൻ അന്വേഷിക്കൽ

ഈ പാഠത്തിലെ എല്ലാ വിഷയങ്ങളും നഷ്ടപ്പെട്ട അല്ലെങ്കിൽ അസംഘടിത മൂല്യങ്ങൾ തിരിച്ചറിയാൻ സഹായിക്കും, Pandas ചില ഫംഗ്ഷനുകൾ ഇതിന് നൽകുന്നു. isna() അല്ലെങ്കിൽ isnull() നഷ്ടപ്പെട്ട മൂല്യങ്ങൾ പരിശോധിക്കാൻ ഉപയോഗിക്കാം. നിങ്ങളുടെ ഡാറ്റയിൽ ഈ മൂല്യങ്ങൾ എന്തുകൊണ്ട് അങ്ങനെ വന്നുവെന്ന് അന്വേഷിക്കുന്നത് വളരെ പ്രധാനമാണ്. ഇത് അവ പരിഹരിക്കാൻ സ്വീകരിക്കേണ്ട നടപടികൾ തീരുമാനിക്കാൻ സഹായിക്കും.

പോസ്റ്റ്-ലെക്ചർ ക്വിസ്

അസൈൻമെന്റ്

ഉത്തരം അന്വേഷിക്കൽ


അസൂയാ:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ പ്രാമാണികമായ ഉറവിടമായി കണക്കാക്കണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.