|
|
2 months ago | |
|---|---|---|
| .. | ||
| README.md | 2 months ago | |
| assignment.ipynb | 2 months ago | |
| assignment.md | 2 months ago | |
| notebook.ipynb | 2 months ago | |
README.md
ഡാറ്റ സയൻസ് ലൈഫ്സൈക്കിൾ: വിശകലനം
![]() |
|---|
| ഡാറ്റ സയൻസ് ലൈഫ്സൈക്കിൾ: വിശകലനം - Sketchnote by @nitya |
പ്രീ-ലെക്ചർ ക്വിസ്
ഡാറ്റ ലൈഫ്സൈക്കിളിലെ വിശകലനം, നിർദ്ദേശിച്ച ചോദ്യങ്ങൾക്ക് ഡാറ്റ ഉത്തരം നൽകാമോ എന്നതും ഒരു പ്രത്യേക പ്രശ്നം പരിഹരിക്കാമോ എന്നതും സ്ഥിരീകരിക്കുന്നു. ഈ ഘട്ടം, ഒരു മോഡൽ ഈ ചോദ്യങ്ങളും പ്രശ്നങ്ങളും ശരിയായി പരിഹരിക്കുന്നുണ്ടോ എന്ന് സ്ഥിരീകരിക്കുന്നതിലും കേന്ദ്രീകരിക്കാം. ഈ പാഠം എക്സ്പ്ലോറേറ്ററി ഡാറ്റ അനാലിസിസ് അല്ലെങ്കിൽ EDA-യെക്കുറിച്ചാണ്, ഇത് ഡാറ്റയിലെ ഫീച്ചറുകളും ബന്ധങ്ങളും നിർവചിക്കുന്ന സാങ്കേതിക വിദ്യകളാണ്, കൂടാതെ മോഡലിംഗിനായി ഡാറ്റ തയ്യാറാക്കാൻ ഉപയോഗിക്കാം.
Python-ഉം Pandas ലൈബ്രറിയും ഉപയോഗിച്ച് ഇത് എങ്ങനെ പ്രയോഗിക്കാമെന്ന് കാണിക്കാൻ Kaggle നിന്നുള്ള ഒരു ഉദാഹരണ ഡാറ്റാസെറ്റ് ഉപയോഗിക്കും. ഈ ഡാറ്റാസെറ്റിൽ ഇമെയിലുകളിൽ കാണപ്പെടുന്ന ചില സാധാരണ വാക്കുകളുടെ എണ്ണം ഉൾക്കൊള്ളുന്നു, ഈ ഇമെയിലുകളുടെ ഉറവിടങ്ങൾ അനാമികമാണ്. ഈ ഡയറക്ടറിയിലുള്ള നോട്ട്ബുക്ക് ഉപയോഗിച്ച് പിന്തുടരുക.
എക്സ്പ്ലോറേറ്ററി ഡാറ്റ അനാലിസിസ്
ലൈഫ്സൈക്കിളിന്റെ ക്യാപ്ചർ ഘട്ടം ഡാറ്റ സമ്പാദിക്കുകയും പ്രശ്നങ്ങളും ചോദ്യങ്ങളും കൈകാര്യം ചെയ്യുകയും ചെയ്യുന്ന ഘട്ടമാണ്, പക്ഷേ ഡാറ്റ അവസാന ഫലത്തെ പിന്തുണയ്ക്കുമെന്ന് എങ്ങനെ അറിയാം?
ഡാറ്റ സയന്റിസ്റ്റ് ഡാറ്റ സമ്പാദിക്കുമ്പോൾ താഴെപ്പറയുന്ന ചോദ്യങ്ങൾ ചോദിക്കാമെന്ന് ഓർക്കുക:
- ഈ പ്രശ്നം പരിഹരിക്കാൻ എനിക്ക് മതിയായ ഡാറ്റ ഉണ്ടോ?
- ഈ പ്രശ്നത്തിന് ഡാറ്റയുടെ ഗുണമേന്മ സ്വീകരിക്കാവുന്നതാണോ?
- ഈ ഡാറ്റ വഴി അധിക വിവരങ്ങൾ കണ്ടെത്തിയാൽ, ലക്ഷ്യങ്ങൾ മാറ്റുകയോ പുനർനിർവചിക്കുകയോ ചെയ്യണോ?
എക്സ്പ്ലോറേറ്ററി ഡാറ്റ അനാലിസിസ് ആ ഡാറ്റയെ അറിയാനുള്ള പ്രക്രിയയാണ്, ഇത് ഈ ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകാനും ഡാറ്റാസെറ്റുമായി പ്രവർത്തിക്കുമ്പോഴുള്ള വെല്ലുവിളികൾ തിരിച്ചറിയാനും സഹായിക്കുന്നു. ഇതു നേടാൻ ഉപയോഗിക്കുന്ന ചില സാങ്കേതിക വിദ്യകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാം.
ഡാറ്റ പ്രൊഫൈലിംഗ്, വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ, Pandas
ഈ പ്രശ്നം പരിഹരിക്കാൻ എത്രമാത്രം ഡാറ്റ വേണ്ടെന്ന് എങ്ങനെ വിലയിരുത്താം? ഡാറ്റ പ്രൊഫൈലിംഗ്, വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകളുടെ സാങ്കേതിക വിദ്യകൾ വഴി നമ്മുടെ ഡാറ്റാസെറ്റിനെക്കുറിച്ചുള്ള പൊതുവായ വിവരങ്ങൾ സംഗ്രഹിക്കുകയും ശേഖരിക്കുകയും ചെയ്യാം. ഡാറ്റ പ്രൊഫൈലിംഗ് നമ്മെ ലഭ്യമായതെന്താണെന്ന് മനസ്സിലാക്കാൻ സഹായിക്കുന്നു, വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ എത്രമാത്രം ലഭ്യമാണ് എന്ന് മനസ്സിലാക്കാൻ സഹായിക്കുന്നു.
മുമ്പത്തെ ചില പാഠങ്ങളിൽ, Pandas ഉപയോഗിച്ച് describe() ഫംഗ്ഷൻ ഉപയോഗിച്ച് ചില വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ നൽകിയിട്ടുണ്ട്. ഇത് എണ്ണവും പരമാവധി, കുറഞ്ഞ മൂല്യങ്ങളും, ശരാശരി, സ്റ്റാൻഡേർഡ് ഡിവിയേഷൻ, ക്വാണ്ടൈലുകൾ എന്നിവ നൽകുന്നു. describe() പോലുള്ള വിവരണാത്മക സ്ഥിതിവിവരക്കണക്കുകൾ ഉപയോഗിച്ച് നിങ്ങൾക്ക് എത്രമാത്രം ഡാറ്റയുണ്ട് എന്നും കൂടുതൽ ആവശ്യമുണ്ടോ എന്നും വിലയിരുത്താൻ കഴിയും.
സാമ്പിളിംഗ്, ക്വറി ചെയ്യൽ
വലിയ ഡാറ്റാസെറ്റിലെ എല്ലാം പരിശോധിക്കുന്നത് വളരെ സമയം കഴിക്കുന്നതും സാധാരണയായി കമ്പ്യൂട്ടറിന് വിട്ടുകൊടുക്കുന്ന ജോലിയുമാണ്. എന്നാൽ സാമ്പിളിംഗ് ഡാറ്റയെ മനസ്സിലാക്കാൻ സഹായിക്കുന്ന ഉപകരണം ആണ്, ഇത് ഡാറ്റാസെറ്റിൽ എന്തുണ്ട് എന്നും അത് എന്താണ് പ്രതിനിധാനം ചെയ്യുന്നത് എന്നും നമുക്ക് മികച്ച ബോധം നൽകുന്നു. സാമ്പിള് ഉപയോഗിച്ച്, നിങ്ങൾക്ക് പ്രൊബബിലിറ്റി, സ്ഥിതിവിവരക്കണക്കുകൾ പ്രയോഗിച്ച് ഡാറ്റയെക്കുറിച്ചുള്ള പൊതുവായ നിഗമനങ്ങൾ വരുത്താം. എത്രമാത്രം ഡാറ്റ സാമ്പിൾ ചെയ്യണം എന്നതിന് നിർദ്ദിഷ്ട നിയമമില്ലെങ്കിലും, കൂടുതൽ ഡാറ്റ സാമ്പിൾ ചെയ്താൽ, ഡാറ്റയെക്കുറിച്ചുള്ള പൊതുവായ നിഗമനങ്ങൾ കൂടുതൽ കൃത്യമായിരിക്കും.
Pandas-ൽ sample() ഫംഗ്ഷൻ ഉണ്ട്, ഇതിൽ നിങ്ങൾക്ക് എത്ര റാൻഡം സാമ്പിളുകൾ വേണമെന്നു പാരാമീറ്ററായി നൽകാം.
ഡാറ്റയുടെ പൊതുവായ ചോദ്യങ്ങൾക്കും സിദ്ധാന്തങ്ങൾക്കും ഉത്തരം കണ്ടെത്താൻ ജനറൽ ക്വറി ചെയ്യലും സഹായിക്കുന്നു. സാമ്പിളിംഗിനോട് വ്യത്യസ്തമായി, ക്വറികൾ നിങ്ങൾക്ക് ഡാറ്റയിലെ പ്രത്യേക ഭാഗങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാനും നിയന്ത്രണം നൽകുന്നു.
Pandas ലൈബ്രറിയിലെ query() ഫംഗ്ഷൻ കോളങ്ങൾ തിരഞ്ഞെടുക്കാനും തിരഞ്ഞെടുത്ത വരികളിലൂടെ ഡാറ്റയെക്കുറിച്ചുള്ള ലളിതമായ ഉത്തരം ലഭിക്കാനും സഹായിക്കുന്നു.
ദൃശ്യവൽക്കരണങ്ങളിലൂടെ അന്വേഷിക്കൽ
ഡാറ്റ പൂർണ്ണമായി ശുദ്ധീകരിക്കപ്പെടുകയും വിശകലനം ചെയ്യപ്പെടുകയും ചെയ്യുന്നത് വരെ കാത്തിരിക്കേണ്ടതില്ല. അന്വേഷിക്കുമ്പോൾ ദൃശ്യവൽക്കരണങ്ങൾ ഉണ്ടാകുന്നത് പാറ്റേണുകൾ, ബന്ധങ്ങൾ, പ്രശ്നങ്ങൾ തിരിച്ചറിയാൻ സഹായിക്കുന്നു. കൂടാതെ, ദൃശ്യവൽക്കരണങ്ങൾ ഡാറ്റ കൈകാര്യം ചെയ്യാത്തവരുമായി ആശയവിനിമയം നടത്താനുള്ള മാർഗ്ഗവും, ക്യാപ്ചർ ഘട്ടത്തിൽ പരിഗണിക്കപ്പെടാത്ത അധിക ചോദ്യങ്ങൾ പങ്കുവെക്കാനും വ്യക്തത നൽകാനും അവസരവുമാണ്. ദൃശ്യവൽക്കരണങ്ങളെക്കുറിച്ചുള്ള കൂടുതൽ അറിയാൻ Visualizations വിഭാഗം കാണുക.
അസംഘടിതത്വങ്ങൾ തിരിച്ചറിയാൻ അന്വേഷിക്കൽ
ഈ പാഠത്തിലെ എല്ലാ വിഷയങ്ങളും നഷ്ടപ്പെട്ട അല്ലെങ്കിൽ അസംഘടിത മൂല്യങ്ങൾ തിരിച്ചറിയാൻ സഹായിക്കും, Pandas ചില ഫംഗ്ഷനുകൾ ഇതിന് നൽകുന്നു. isna() അല്ലെങ്കിൽ isnull() നഷ്ടപ്പെട്ട മൂല്യങ്ങൾ പരിശോധിക്കാൻ ഉപയോഗിക്കാം. നിങ്ങളുടെ ഡാറ്റയിൽ ഈ മൂല്യങ്ങൾ എന്തുകൊണ്ട് അങ്ങനെ വന്നുവെന്ന് അന്വേഷിക്കുന്നത് വളരെ പ്രധാനമാണ്. ഇത് അവ പരിഹരിക്കാൻ സ്വീകരിക്കേണ്ട നടപടികൾ തീരുമാനിക്കാൻ സഹായിക്കും.
പോസ്റ്റ്-ലെക്ചർ ക്വിസ്
അസൈൻമെന്റ്
അസൂയാ:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ പ്രാമാണികമായ ഉറവിടമായി കണക്കാക്കണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.
