History

localizeflow[bot] b985ee1af0 chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files)		2 months ago
..
README.md	chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files)	2 months ago
assignment.ipynb	chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files)	2 months ago
assignment.md	chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files)	2 months ago
notebook.ipynb	chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files)	2 months ago

README.md

ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിൾ: വിശകലനം


ഡാറ്റ സയൻസ് ലൈഫ്‌സൈക്കിൾ: വിശകലനം - Sketchnote by @nitya

പ്രീ-ലെക്ചർ ക്വിസ്

ഡാറ്റ ലൈഫ്‌സൈക്കിളിലെ വിശകലനം, നിർദ്ദേശിച്ച ചോദ്യങ്ങൾക്ക് ഡാറ്റ ഉത്തരം നൽകാമോ എന്നതും ഒരു പ്രത്യേക പ്രശ്നം പരിഹരിക്കാമോ എന്നതും സ്ഥിരീകരിക്കുന്നു. ഈ ഘട്ടം, ഒരു മോഡൽ ഈ ചോദ്യങ്ങളും പ്രശ്നങ്ങളും ശരിയായി പരിഹരിക്കുന്നുണ്ടോ എന്ന് സ്ഥിരീകരിക്കുന്നതിലും കേന്ദ്രീകരിക്കാം. ഈ പാഠം എക്സ്പ്ലോറേറ്ററി ഡാറ്റ അനാലിസിസ് അല്ലെങ്കിൽ EDA-യെക്കുറിച്ചാണ്, ഇത് ഡാറ്റയിലെ ഫീച്ചറുകളും ബന്ധങ്ങളും നിർവചിക്കുന്ന സാങ്കേതിക വിദ്യകളാണ്, കൂടാതെ മോഡലിംഗിനായി ഡാറ്റ തയ്യാറാക്കാൻ ഉപയോഗിക്കാം.

Python-ഉം Pandas ലൈബ്രറിയും ഉപയോഗിച്ച് ഇത് എങ്ങനെ പ്രയോഗിക്കാമെന്ന് കാണിക്കാൻ Kaggle നിന്നുള്ള ഒരു ഉദാഹരണ ഡാറ്റാസെറ്റ് ഉപയോഗിക്കും. ഈ ഡാറ്റാസെറ്റിൽ ഇമെയിലുകളിൽ കാണപ്പെടുന്ന ചില സാധാരണ വാക്കുകളുടെ എണ്ണം ഉൾക്കൊള്ളുന്നു, ഈ ഇമെയിലുകളുടെ ഉറവിടങ്ങൾ അനാമികമാണ്. ഈ ഡയറക്ടറിയിലുള്ള നോട്ട്ബുക്ക് ഉപയോഗിച്ച് പിന്തുടരുക.

എക്സ്പ്ലോറേറ്ററി ഡാറ്റ അനാലിസിസ്

ലൈഫ്‌സൈക്കിളിന്റെ ക്യാപ്ചർ ഘട്ടം ഡാറ്റ സമ്പാദിക്കുകയും പ്രശ്നങ്ങളും ചോദ്യങ്ങളും കൈകാര്യം ചെയ്യുകയും ചെയ്യുന്ന ഘട്ടമാണ്, പക്ഷേ ഡാറ്റ അവസാന ഫലത്തെ പിന്തുണയ്ക്കുമെന്ന് എങ്ങനെ അറിയാം?
ഡാറ്റ സയന്റിസ്റ്റ് ഡാറ്റ സമ്പാദിക്കുമ്പോൾ താഴെപ്പറയുന്ന ചോദ്യങ്ങൾ ചോദിക്കാമെന്ന് ഓർക്കുക:

ഈ പ്രശ്നം പരിഹരിക്കാൻ എനിക്ക് മതിയായ ഡാറ്റ ഉണ്ടോ?
ഈ പ്രശ്നത്തിന് ഡാറ്റയുടെ ഗുണമേന്മ സ്വീകരിക്കാവുന്നതാണോ?
ഈ ഡാറ്റ വഴി അധിക വിവരങ്ങൾ കണ്ടെത്തിയാൽ, ലക്ഷ്യങ്ങൾ മാറ്റുകയോ പുനർനിർവചിക്കുകയോ ചെയ്യണോ?
എക്സ്പ്ലോറേറ്ററി ഡാറ്റ അനാലിസിസ് ആ ഡാറ്റയെ അറിയാനുള്ള പ്രക്രിയയാണ്, ഇത് ഈ ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകാനും ഡാറ്റാസെറ്റുമായി പ്രവർത്തിക്കുമ്പോഴുള്ള വെല്ലുവിളികൾ തിരിച്ചറിയാനും സഹായിക്കുന്നു. ഇതു നേടാൻ ഉപയോഗിക്കുന്ന ചില സാങ്കേതിക വിദ്യകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാം.

ഡാറ്റ പ്രൊഫൈലിംഗ്, വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ, Pandas

ഈ പ്രശ്നം പരിഹരിക്കാൻ എത്രമാത്രം ഡാറ്റ വേണ്ടെന്ന് എങ്ങനെ വിലയിരുത്താം? ഡാറ്റ പ്രൊഫൈലിംഗ്, വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകളുടെ സാങ്കേതിക വിദ്യകൾ വഴി നമ്മുടെ ഡാറ്റാസെറ്റിനെക്കുറിച്ചുള്ള പൊതുവായ വിവരങ്ങൾ സംഗ്രഹിക്കുകയും ശേഖരിക്കുകയും ചെയ്യാം. ഡാറ്റ പ്രൊഫൈലിംഗ് നമ്മെ ലഭ്യമായതെന്താണെന്ന് മനസ്സിലാക്കാൻ സഹായിക്കുന്നു, വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ എത്രമാത്രം ലഭ്യമാണ് എന്ന് മനസ്സിലാക്കാൻ സഹായിക്കുന്നു.

മുമ്പത്തെ ചില പാഠങ്ങളിൽ, Pandas ഉപയോഗിച്ച് describe() ഫംഗ്ഷൻ ഉപയോഗിച്ച് ചില വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ നൽകിയിട്ടുണ്ട്. ഇത് എണ്ണവും പരമാവധി, കുറഞ്ഞ മൂല്യങ്ങളും, ശരാശരി, സ്റ്റാൻഡേർഡ് ഡിവിയേഷൻ, ക്വാണ്ടൈലുകൾ എന്നിവ നൽകുന്നു. describe() പോലുള്ള വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ ഉപയോഗിച്ച് നിങ്ങൾക്ക് എത്രമാത്രം ഡാറ്റയുണ്ട് എന്നും കൂടുതൽ ആവശ്യമുണ്ടോ എന്നും വിലയിരുത്താൻ കഴിയും.

സാമ്പിളിംഗ്, ക്വറി ചെയ്യൽ

വലിയ ഡാറ്റാസെറ്റിലെ എല്ലാം പരിശോധിക്കുന്നത് വളരെ സമയം കഴിക്കുന്നതും സാധാരണയായി കമ്പ്യൂട്ടറിന് വിട്ടുകൊടുക്കുന്ന ജോലിയുമാണ്. എന്നാൽ സാമ്പിളിംഗ് ഡാറ്റയെ മനസ്സിലാക്കാൻ സഹായിക്കുന്ന ഉപകരണം ആണ്, ഇത് ഡാറ്റാസെറ്റിൽ എന്തുണ്ട് എന്നും അത് എന്താണ് പ്രതിനിധാനം ചെയ്യുന്നത് എന്നും നമുക്ക് മികച്ച ബോധം നൽകുന്നു. സാമ്പിള് ഉപയോഗിച്ച്, നിങ്ങൾക്ക് പ്രൊബബിലിറ്റി, സ്ഥിതിവിവരക്കണക്കുകൾ പ്രയോഗിച്ച് ഡാറ്റയെക്കുറിച്ചുള്ള പൊതുവായ നിഗമനങ്ങൾ വരുത്താം. എത്രമാത്രം ഡാറ്റ സാമ്പിൾ ചെയ്യണം എന്നതിന് നിർദ്ദിഷ്ട നിയമമില്ലെങ്കിലും, കൂടുതൽ ഡാറ്റ സാമ്പിൾ ചെയ്താൽ, ഡാറ്റയെക്കുറിച്ചുള്ള പൊതുവായ നിഗമനങ്ങൾ കൂടുതൽ കൃത്യമായിരിക്കും.
Pandas-ൽ sample() ഫംഗ്ഷൻ ഉണ്ട്, ഇതിൽ നിങ്ങൾക്ക് എത്ര റാൻഡം സാമ്പിളുകൾ വേണമെന്നു പാരാമീറ്ററായി നൽകാം.

ഡാറ്റയുടെ പൊതുവായ ചോദ്യങ്ങൾക്കും സിദ്ധാന്തങ്ങൾക്കും ഉത്തരം കണ്ടെത്താൻ ജനറൽ ക്വറി ചെയ്യലും സഹായിക്കുന്നു. സാമ്പിളിംഗിനോട് വ്യത്യസ്തമായി, ക്വറികൾ നിങ്ങൾക്ക് ഡാറ്റയിലെ പ്രത്യേക ഭാഗങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാനും നിയന്ത്രണം നൽകുന്നു.
Pandas ലൈബ്രറിയിലെ query() ഫംഗ്ഷൻ കോളങ്ങൾ തിരഞ്ഞെടുക്കാനും തിരഞ്ഞെടുത്ത വരികളിലൂടെ ഡാറ്റയെക്കുറിച്ചുള്ള ലളിതമായ ഉത്തരം ലഭിക്കാനും സഹായിക്കുന്നു.

ദൃശ്യവൽക്കരണങ്ങളിലൂടെ അന്വേഷിക്കൽ

ഡാറ്റ പൂർണ്ണമായി ശുദ്ധീകരിക്കപ്പെടുകയും വിശകലനം ചെയ്യപ്പെടുകയും ചെയ്യുന്നത് വരെ കാത്തിരിക്കേണ്ടതില്ല. അന്വേഷിക്കുമ്പോൾ ദൃശ്യവൽക്കരണങ്ങൾ ഉണ്ടാകുന്നത് പാറ്റേണുകൾ, ബന്ധങ്ങൾ, പ്രശ്നങ്ങൾ തിരിച്ചറിയാൻ സഹായിക്കുന്നു. കൂടാതെ, ദൃശ്യവൽക്കരണങ്ങൾ ഡാറ്റ കൈകാര്യം ചെയ്യാത്തവരുമായി ആശയവിനിമയം നടത്താനുള്ള മാർഗ്ഗവും, ക്യാപ്ചർ ഘട്ടത്തിൽ പരിഗണിക്കപ്പെടാത്ത അധിക ചോദ്യങ്ങൾ പങ്കുവെക്കാനും വ്യക്തത നൽകാനും അവസരവുമാണ്. ദൃശ്യവൽക്കരണങ്ങളെക്കുറിച്ചുള്ള കൂടുതൽ അറിയാൻ Visualizations വിഭാഗം കാണുക.

അസംഘടിതത്വങ്ങൾ തിരിച്ചറിയാൻ അന്വേഷിക്കൽ

ഈ പാഠത്തിലെ എല്ലാ വിഷയങ്ങളും നഷ്ടപ്പെട്ട അല്ലെങ്കിൽ അസംഘടിത മൂല്യങ്ങൾ തിരിച്ചറിയാൻ സഹായിക്കും, Pandas ചില ഫംഗ്ഷനുകൾ ഇതിന് നൽകുന്നു. isna() അല്ലെങ്കിൽ isnull() നഷ്ടപ്പെട്ട മൂല്യങ്ങൾ പരിശോധിക്കാൻ ഉപയോഗിക്കാം. നിങ്ങളുടെ ഡാറ്റയിൽ ഈ മൂല്യങ്ങൾ എന്തുകൊണ്ട് അങ്ങനെ വന്നുവെന്ന് അന്വേഷിക്കുന്നത് വളരെ പ്രധാനമാണ്. ഇത് അവ പരിഹരിക്കാൻ സ്വീകരിക്കേണ്ട നടപടികൾ തീരുമാനിക്കാൻ സഹായിക്കും.

പോസ്റ്റ്-ലെക്ചർ ക്വിസ്

അസൈൻമെന്റ്

ഉത്തരം അന്വേഷിക്കൽ

അസൂയാ:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ പ്രാമാണികമായ ഉറവിടമായി കണക്കാക്കണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.