History

localizeflow[bot] 7803b10dca chore(i18n): sync translations with latest source changes (chunk 1/1, 90 changes)		4 days ago
..
README.md	chore(i18n): sync translations with latest source changes (chunk 1/1, 90 changes)	4 days ago
assignment.md	chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)	1 month ago
notebook.ipynb	chore(i18n): sync translations with latest source changes (chunk 9/10, 100 files)	2 months ago

README.md

ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പരിചയം


ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പരിചയം - Sketchnote by @nitya

പ്രീ-ലെക്ചർ ക്വിസ്

ഇപ്പോൾ നിങ്ങൾക്ക് ഡാറ്റാ സയൻസ് ഒരു പ്രക്രിയയാണ് എന്ന് മനസ്സിലായിരിക്കാം. ഈ പ്രക്രിയ 5 ഘട്ടങ്ങളായി വിഭജിക്കാം:

പിടിച്ചെടുക്കൽ
പ്രോസസ്സിംഗ്
വിശകലനം
ആശയവിനിമയം
പരിപാലനം

ഈ പാഠം ലൈഫ്‌സൈക്കിളിന്റെ 3 ഭാഗങ്ങളായ പിടിച്ചെടുക്കൽ, പ്രോസസ്സിംഗ്, പരിപാലനം എന്നിവയിൽ കേന്ദ്രീകരിക്കുന്നു.

ഫോട്ടോ: ബർക്ക്ലി സ്കൂൾ ഓഫ് ഇൻഫർമേഷൻ

പിടിച്ചെടുക്കൽ

ലൈഫ്‌സൈക്കിളിന്റെ ആദ്യ ഘട്ടം വളരെ പ്രധാനമാണ്, കാരണം അടുത്ത ഘട്ടങ്ങൾ ഇതിൽ ആശ്രയിച്ചിരിക്കുന്നു. ഇത് പ്രായോഗികമായി രണ്ട് ഘട്ടങ്ങൾ ഒന്നിച്ച് ചേർന്നതാണ്: ഡാറ്റാ സമാഹരണം, ഉദ്ദേശ്യവും പരിഹരിക്കേണ്ട പ്രശ്നങ്ങളും നിർവചിക്കൽ.
പ്രോജക്ടിന്റെ ലക്ഷ്യങ്ങൾ നിർവചിക്കാൻ പ്രശ്നം അല്ലെങ്കിൽ ചോദ്യത്തെക്കുറിച്ചുള്ള കൂടുതൽ പശ്ചാത്തലം ആവശ്യമുണ്ട്. ആദ്യം, പ്രശ്നം പരിഹരിക്കേണ്ടവരെ തിരിച്ചറിയുകയും സമാഹരിക്കുകയും ചെയ്യണം. ഇവ ബിസിനസിലെ സ്റ്റേക്ക്‌ഹോൾഡർമാരോ പ്രോജക്ടിന്റെ സ്പോൺസർമാരോ ആയിരിക്കാം, അവർക്ക് ഈ പ്രോജക്ടിൽ നിന്നു ആരോ എന്തോ പ്രയോജനം ലഭിക്കുമെന്ന് തിരിച്ചറിയാൻ സഹായിക്കും, കൂടാതെ എന്ത്, എന്തുകൊണ്ട് അതു ആവശ്യമാണ് എന്നും. നന്നായി നിർവചിച്ച ലക്ഷ്യം അളക്കാവുന്നതും കണക്കാക്കാവുന്നതുമായിരിക്കണം, അംഗീകരിക്കാവുന്ന ഫലം നിർവചിക്കാൻ.

ഡാറ്റാ സയന്റിസ്റ്റ് ചോദിക്കാവുന്ന ചോദ്യങ്ങൾ:

ഈ പ്രശ്നം മുമ്പ് സമീപിച്ചിട്ടുണ്ടോ? എന്താണ് കണ്ടെത്തിയത്?
പങ്കാളികളിൽ എല്ലാവർക്കും ഉദ്ദേശ്യവും ലക്ഷ്യവും മനസ്സിലായിട്ടുണ്ടോ?
സംശയം ഉണ്ടോ, അത് കുറയ്ക്കാൻ എങ്ങനെ?
നിയന്ത്രണങ്ങൾ എന്തെല്ലാം?
അവസാനം ഫലം എങ്ങനെ കാണപ്പെടും?
എത്ര വിഭവങ്ങൾ (സമയം, ആളുകൾ, കംപ്യൂട്ടേഷൻ) ലഭ്യമാണ്?

അടുത്തത് നിർവചിച്ച ലക്ഷ്യങ്ങൾ നേടാൻ ആവശ്യമായ ഡാറ്റ തിരിച്ചറിയൽ, ശേഖരണം, പിന്നീട് പരിശോധിക്കൽ. സമാഹരണ ഘട്ടത്തിൽ, ഡാറ്റാ സയന്റിസ്റ്റുകൾ ഡാറ്റയുടെ അളവും ഗുണനിലവാരവും വിലയിരുത്തണം. ഇത് ആവശ്യമായ ഫലം നേടാൻ സഹായിക്കുന്ന ഡാറ്റ സമാഹരിച്ചതാണെന്ന് സ്ഥിരീകരിക്കാൻ ഡാറ്റാ എക്സ്പ്ലോറേഷൻ ആവശ്യമാണ്.

ഡാറ്റയെക്കുറിച്ച് ഡാറ്റാ സയന്റിസ്റ്റ് ചോദിക്കാവുന്ന ചോദ്യങ്ങൾ:

എനിക്ക് ഇതിനകം ലഭ്യമായ ഡാറ്റ എന്തെല്ലാം?
ഈ ഡാറ്റയുടെ ഉടമ ആരാണ്?
സ്വകാര്യത സംബന്ധിച്ച ആശങ്കകൾ എന്തെല്ലാം?
ഈ പ്രശ്നം പരിഹരിക്കാൻ എനിക്ക് മതിയായ ഡാറ്റ ഉണ്ടോ?
ഈ പ്രശ്നത്തിന് ഡാറ്റയുടെ ഗുണനിലവാരം അംഗീകരിക്കാവുന്നതാണോ?
ഈ ഡാറ്റ വഴി അധിക വിവരങ്ങൾ കണ്ടെത്തിയാൽ, ലക്ഷ്യങ്ങൾ മാറ്റം വരുത്തണോ?

പ്രോസസ്സിംഗ്

ലൈഫ്‌സൈക്കിളിന്റെ പ്രോസസ്സിംഗ് ഘട്ടം ഡാറ്റയിൽ പാറ്റേണുകൾ കണ്ടെത്തലും മോഡലിംഗ് ചെയ്യലും ആണ്. ഈ ഘട്ടത്തിൽ ചില സാങ്കേതിക വിദ്യകൾ പാറ്റേണുകൾ കണ്ടെത്താൻ സാംഖ്യിക രീതികൾ ഉപയോഗിക്കുന്നു. സാധാരണയായി വലിയ ഡാറ്റാ സെറ്റിൽ മനുഷ്യൻക്ക് ഇത് ബുദ്ധിമുട്ടുള്ള ജോലി ആയിരിക്കും, അതിനാൽ കംപ്യൂട്ടറുകൾ പ്രക്രിയ വേഗത്തിലാക്കാൻ സഹായിക്കും. ഈ ഘട്ടത്തിലാണ് ഡാറ്റാ സയൻസ്, മെഷീൻ ലേണിംഗ് തമ്മിൽ മുട്ടിച്ചേരുന്നത്. ആദ്യ പാഠത്തിൽ പഠിച്ചതുപോലെ, മെഷീൻ ലേണിംഗ് ഡാറ്റ മനസ്സിലാക്കാൻ മോഡലുകൾ നിർമ്മിക്കുന്ന പ്രക്രിയയാണ്. മോഡലുകൾ ഡാറ്റയിലെ വ്യത്യസ്ത വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധം പ്രതിനിധീകരിച്ച് ഫലങ്ങൾ പ്രവചിക്കാൻ സഹായിക്കുന്നു.

ഈ ഘട്ടത്തിൽ ഉപയോഗിക്കുന്ന സാധാരണ സാങ്കേതിക വിദ്യകൾ ML for Beginners പാഠ്യപദ്ധതിയിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. അവയെക്കുറിച്ച് കൂടുതൽ അറിയാൻ താഴെയുള്ള ലിങ്കുകൾ പിന്തുടരുക:

ക്ലാസിഫിക്കേഷൻ: ഡാറ്റയെ വർഗ്ഗങ്ങളായി ക്രമീകരിച്ച് കൂടുതൽ ഫലപ്രദമായി ഉപയോഗിക്കുക.
ക്ലസ്റ്ററിംഗ്: സമാനമായ ഗ്രൂപ്പുകളായി ഡാറ്റ കൂട്ടിച്ചേർക്കുക.
റെഗ്രഷൻ: മൂല്യങ്ങൾ പ്രവചിക്കാൻ വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധം കണ്ടെത്തുക.

പരിപാലനം

ലൈഫ്‌സൈക്കിൾ ഡയഗ്രാമിൽ, പരിപാലനം പിടിച്ചെടുക്കലിനും പ്രോസസ്സിംഗിനും ഇടയിൽ കാണാം. പരിപാലനം ഒരു പ്രോജക്ടിന്റെ മുഴുവൻ കാലയളവിലും ഡാറ്റ മാനേജ്മെന്റ്, സംഭരണം, സുരക്ഷ എന്നിവയുടെ തുടർച്ചയായ പ്രക്രിയയാണ്.

ഡാറ്റ സംഭരണം

ഡാറ്റ എങ്ങനെ എവിടെ സംഭരിക്കപ്പെടുന്നു എന്നത് സംഭരണ ചെലവും ഡാറ്റ എത്ര വേഗത്തിൽ ആക്‌സസ് ചെയ്യാമെന്നതും ബാധിക്കുന്നു. ഈ വിധത്തിലുള്ള തീരുമാനങ്ങൾ സാധാരണയായി ഡാറ്റാ സയന്റിസ്റ്റ് മാത്രം എടുക്കാറില്ല, പക്ഷേ ഡാറ്റ എങ്ങനെ സംഭരിച്ചിരിക്കുന്നു എന്നതിനെ അടിസ്ഥാനമാക്കി ഡാറ്റ കൈകാര്യം ചെയ്യുന്നതിൽ അവർ തീരുമാനങ്ങൾ എടുക്കേണ്ടി വരാം.

ഇവിടെ ആധുനിക ഡാറ്റ സംഭരണ സംവിധാനങ്ങളുടെ ചില ഘടകങ്ങൾ ഉണ്ട്, ഇവ ഈ തീരുമാനങ്ങളെ ബാധിക്കാം:

ഓൺ പ്രെമൈസ് vs ഓഫ് പ്രെമൈസ് vs പബ്ലിക് അല്ലെങ്കിൽ പ്രൈവറ്റ് ക്ലൗഡ്

ഓൺ പ്രെമൈസ് എന്നത് നിങ്ങളുടെ സ്വന്തം ഉപകരണങ്ങളിൽ ഡാറ്റ ഹോസ്റ്റ് ചെയ്ത് മാനേജുചെയ്യുന്നതാണ്, ഉദാഹരണത്തിന് ഹാർഡ് ഡ്രൈവ് ഉള്ള സെർവർ. ഓഫ് പ്രെമൈസ് എന്നാൽ നിങ്ങൾക്ക് സ്വന്തമല്ലാത്ത ഉപകരണങ്ങളിൽ ആശ്രയിച്ചിരിക്കുന്നു, ഉദാഹരണത്തിന് ഡാറ്റ സെന്റർ. പബ്ലിക് ക്ലൗഡ് ഡാറ്റ എവിടെ എങ്ങനെ സംഭരിക്കപ്പെടുന്നു എന്നറിയാതെ ഡാറ്റ സംഭരിക്കാൻ ജനപ്രിയമായ ഒരു തിരഞ്ഞെടുപ്പാണ്, ഇവിടെ പബ്ലിക് എന്നത് ക്ലൗഡ് ഉപയോഗിക്കുന്ന എല്ലാവർക്കും പങ്കുവെക്കുന്ന ഏകീകൃത അടിസ്ഥാന ഘടനയെ സൂചിപ്പിക്കുന്നു. ചില സംഘടനകൾക്ക് കർശനമായ സുരക്ഷാ നയങ്ങൾ ഉണ്ട്, അവയ്ക്ക് ഡാറ്റ ഹോസ്റ്റ് ചെയ്യുന്ന ഉപകരണങ്ങളിൽ പൂർണ്ണ ആക്‌സസ് വേണം, അതിനാൽ അവർ സ്വന്തം ക്ലൗഡ് സേവനങ്ങൾ നൽകുന്ന പ്രൈവറ്റ് ക്ലൗഡിൽ ആശ്രയിക്കുന്നു. ക്ലൗഡിലെ ഡാറ്റയെക്കുറിച്ച് കൂടുതൽ അറിയാൻ പിന്നീട് പാഠങ്ങൾ കാണുക.

കൂൾ vs ഹോട്ട് ഡാറ്റ

മോഡലുകൾ പരിശീലിപ്പിക്കുമ്പോൾ കൂടുതൽ പരിശീലന ഡാറ്റ ആവശ്യമാകാം. മോഡലിൽ തൃപ്തിയുണ്ടെങ്കിൽ, കൂടുതൽ ഡാറ്റ മോഡലിന്റെ ലക്ഷ്യം നിറവേറ്റാൻ എത്തും. എങ്കിലും, ഡാറ്റ സംഭരിക്കുന്നതും ആക്‌സസ് ചെയ്യുന്നതും ചെലവ് കൂടും. അപൂർവമായി ഉപയോഗിക്കുന്ന ഡാറ്റ (കൂൾ ഡാറ്റ) സ്ഥിരമായി ആക്‌സസ് ചെയ്യുന്ന ഡാറ്റ (ഹോട്ട് ഡാറ്റ) മുതൽ വേർതിരിക്കുന്നത് ഹാർഡ്‌വെയർ അല്ലെങ്കിൽ സോഫ്റ്റ്‌വെയർ സേവനങ്ങളിലൂടെ ചെലവുകുറഞ്ഞ ഡാറ്റ സംഭരണ ഓപ്ഷൻ ആകാം. കൂൾ ഡാറ്റ ആക്‌സസ് ചെയ്യേണ്ടിവന്നാൽ, ഹോട്ട് ഡാറ്റയേക്കാൾ കുറച്ച് കൂടുതൽ സമയം എടുക്കാം.

ഡാറ്റ മാനേജ്മെന്റ്

ഡാറ്റ ഉപയോഗിക്കുമ്പോൾ, ഡാറ്റാ പ്രിപറേഷൻ പാഠത്തിൽ ഉൾപ്പെടുത്തിയ ചില സാങ്കേതിക വിദ്യകൾ ഉപയോഗിച്ച് ഡാറ്റ ശുദ്ധമാക്കേണ്ടതുണ്ടെന്ന് കണ്ടെത്താം, ഇത് കൃത്യമായ മോഡലുകൾ നിർമ്മിക്കാൻ സഹായിക്കും. പുതിയ ഡാറ്റ എത്തുമ്പോൾ, ഗുണനിലവാരം നിലനിർത്താൻ സമാനമായ പ്രയോഗങ്ങൾ ആവശ്യമാകും. ചില പ്രോജക്ടുകൾ ഡാറ്റ അന്തിമ സ്ഥലത്തേക്ക് മാറ്റുന്നതിന് മുമ്പ് ശുദ്ധീകരണം, സംഗ്രഹണം, കംപ്രഷൻ എന്നിവയ്ക്ക് ഓട്ടോമേറ്റഡ് ടൂൾ ഉപയോഗിക്കും. Azure Data Factory ഇതിന്റെ ഉദാഹരണമാണ്.

ഡാറ്റ സുരക്ഷ

ഡാറ്റ സുരക്ഷയുടെ പ്രധാന ലക്ഷ്യങ്ങളിൽ ഒന്നാണ് ഡാറ്റ കൈകാര്യം ചെയ്യുന്നവർ എന്ത് ശേഖരിക്കുന്നു, ഏത് സാഹചര്യത്തിൽ ഉപയോഗിക്കുന്നു എന്നിവ നിയന്ത്രണത്തിൽ വയ്ക്കുക. ഡാറ്റ സുരക്ഷിതമാക്കുന്നത് ആക്‌സസ് അവശ്യമായവർക്കു മാത്രം പരിമിതപ്പെടുത്തുക, പ്രാദേശിക നിയമങ്ങളും നയങ്ങളും പാലിക്കുക, നൈതികതാ പാഠത്തിൽ ഉൾപ്പെടുത്തിയതുപോലെ നൈതിക മാനദണ്ഡങ്ങൾ പാലിക്കുക എന്നിവ ഉൾപ്പെടുന്നു.

സുരക്ഷയെക്കുറിച്ച് ഒരു ടീം ചെയ്യാവുന്ന ചില കാര്യങ്ങൾ:

എല്ലാ ഡാറ്റയും എൻക്രിപ്റ്റ് ചെയ്തിട്ടുണ്ടെന്ന് സ്ഥിരീകരിക്കുക
ഉപഭോക്താക്കൾക്ക് അവരുടെ ഡാറ്റ എങ്ങനെ ഉപയോഗിക്കുന്നു എന്ന വിവരം നൽകുക
പ്രോജക്ട് വിട്ടുപോയവരുടെ ഡാറ്റ ആക്‌സസ് നീക്കംചെയ്യുക
ചില പ്രോജക്ട് അംഗങ്ങൾക്കു മാത്രമേ ഡാറ്റ മാറ്റാൻ അനുവാദം നൽകൂ

🚀 ചലഞ്ച്

ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിളിന്റെ പല പതിപ്പുകൾ ഉണ്ട്, ഓരോ ഘട്ടത്തിനും വ്യത്യസ്ത പേരുകളും ഘട്ടങ്ങളുടെ എണ്ണം വ്യത്യസ്തമായിരിക്കാം, പക്ഷേ ഈ പാഠത്തിൽ പരാമർശിച്ച പ്രക്രിയകൾ എല്ലാം ഉൾക്കൊള്ളും.

ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് ലൈഫ്‌സൈക്കിൾയും ക്രോസ്-ഇൻഡസ്ട്രി സ്റ്റാൻഡേർഡ് പ്രോസസ് ഫോർ ഡാറ്റ മൈനിംഗ്യും പരിശോധിച്ച്, അവയുടെ 3 സാമ്യമുകളും വ്യത്യാസങ്ങളും പറയുക.

ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് (TDSP)	ക്രോസ്-ഇൻഡസ്ട്രി സ്റ്റാൻഡേർഡ് പ്രോസസ് ഫോർ ഡാറ്റ മൈനിംഗ് (CRISP-DM)

ചിത്രം: Microsoft	ചിത്രം: Data Science Process Alliance

പോസ്റ്റ്-ലെക്ചർ ക്വിസ്

അവലോകനം & സ്വയം പഠനം

ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പ്രയോഗിക്കുന്നത് പല വേഷങ്ങളും ജോലികളും ഉൾക്കൊള്ളുന്നു, ചിലർ ഓരോ ഘട്ടത്തിന്റെ പ്രത്യേക ഭാഗങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കും. ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് പ്രോജക്ടിൽ ഒരാൾക്കുണ്ടാകാവുന്ന വേഷങ്ങളും ജോലികളും വിശദീകരിക്കുന്ന ചില വിഭവങ്ങൾ നൽകുന്നു.

അസൈൻമെന്റ്

ഡാറ്റാസെറ്റ് വിലയിരുത്തൽ

അസൂയാപത്രം:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.